今日开源(2025-07-04):百度文心一言4.5,多模态模型家族,最大模型参数424B,最小0.3B端侧模型,跨模态参数共享


今日开源(2025-07-04):百度文心一言4.5,多模态模型家族,最大模型参数424B,最小0.3B端侧模型,跨模态参数共享

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

🏆基座模型
①项目:ERNIE4. 5
★ERNIE4. 5是一组大规模多模态模型,包含10种不同的变体。该模型家族包括具有47B和3B活跃参数的Mixture-of-Experts(MoE)模型,最大的模型拥有424B总参数,以及一个0. 3B的密集模型。MoE架构支持跨模态的参数共享,同时为每个单独的模态提供专用参数。所有模型均使用PaddlePaddle深度学习框架进行训练,支持高效推理和简化部署。实验结果表明,ERNIE4. 5在多个文本和多模态基准上实现了最先进的性能,特别是在指令跟随、世界知识记忆、视觉理解和多模态推理方面。
☆一键收藏:
https ://sota. jiqizhixin.com/project/ernie-3
🤖Agent开发
①项目:MLA-Trust
★MLA-Trust是一个综合性框架,用于评估多模态大语言模型智能体(MLA)的可信度。该框架通过34个高风险交互任务,从真实性、可控性、安全性和隐私四个维度揭示GUI环境中的新挑战。项目旨在确保智能体在处理视觉或DOM元素时的准确性,避免不必要的步骤和副作用,防止有害行为,并保护敏感信息的机密性。
☆一键收藏:
https ://sota. jiqizhixin.com/project/mla-trust
②项目:TaskCraft
★TaskCraft是一个用于生成难度可扩展、多工具协作和可验证的智能体任务的库。它通过深度(层次)和宽度(组合)扩展策略,从简单的原子任务构建多层次复杂挑战,支持多跳推理和多工具协作。TaskCraft能够直接处理PDF/HTML/URL等异构数据源,自动提取关键信息生成原子问题,并支持单模态(文本)和多模态(文本-图像混合)模式。项目内置难度评分系统,自动生成从简单(1步)到专家级(4步以上)的任务,并提供默认的36,000+合成数据集供模型训练。
☆一键收藏:
https ://sota. jiqizhixin.com/project/taskcraft
🛠️框架平台、必备工具
①项目:PosterCraft
★PosterCraft是一个统一框架,专注于生成高质量的美学海报。该项目在精确的文本渲染、抽象艺术的无缝整合、引人注目的布局和风格和谐方面表现出色。它为用户提供了一个强大的工具来创建视觉上吸引人的海报。
☆一键收藏:
https ://sota. jiqizhixin.com/project/postercraft
②项目:VikhrSalt
★VikhrSalt是一个基于预训练大型语言模型的多模态模型项目,扩展了新的音频标记以处理文本转语音(TTS)和自动语音识别(ASR)任务。该模型通过微调精度设置实现稳定训练,能够有效生成和理解语音,标志着多模态学习的进步。
☆一键收藏:
https ://sota. jiqizhixin.com/project/salt
③项目:Unmute
★Unmute是一个系统,旨在通过将文本大语言模型(LLM)与Kyutai的语音合成(TTS)和语音识别(STT)模型结合,使其能够进行语音输入和输出。用户通过前端网站与系统交互,系统通过后端与语音识别服务器连接,将用户的语音实时转录为文本,并通过LLM生成响应。生成的文本再通过语音合成服务器转换为语音并播放给用户。该系统优化了低延迟表现,并支持与任何文本LLM的集成。
☆一键收藏:
https ://sota. jiqizhixin.com/project/unmute


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录