文心大模型 4.5 系列正式开源,涵盖 10 余款模型


文心大模型 4.5 系列正式开源,涵盖 10 余款模型

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

作者|褚杏娟
6月30日,百度正式开源文心大模型4. 5系列模型,涵盖47B、3B激活参数的混合专家(MoE)模型,与0. 3B参数的稠密型模型等10款模型,并实现预训练权重和推理代码的完全开源。
目前,文心大模型4. 5开源系列已可在飞桨星河社区、HuggingFace等平台下载部署使用,系列权重按照Apache2. 0协议开源,同时开源模型API服务也可在百度智能云千帆大模型平台使用。值得关注的是,此次文心大模型4. 5系列开源后,百度实现了框架层与模型层的“双层开源”。
相关链接:
https ://huggingface. co/models?other=ERNIE4. 5
https ://aistudio. baidu.com/modelsoverview
早在今年2月,百度就已预告了文心大模型4. 5系列的推出计划,并明确将于6月30日起正式开源。
文心大模型4. 5是百度于2025年3月16日发布的新一代多模态基础大模型,属于百度人工智能核心产品体系的重要升级版本。此次百度一次性推出10款文心大模型4. 5系列开源模型,在独立自研模型数量占比、模型类型数量、参数丰富度、开源宽松度与可靠性等关键维度上,均处于行业领先位置。
据介绍,ERNIE4. 5型号(尤其是基于MoE的A47B和A3B系列)的先进功能由几项关键技术创新支撑:
多模态异构MoE预训练。基于文本与视觉模态进行训练,更精准捕捉多模态信息的细微差异,从而提升文本理解生成、图像理解及跨模态推理等任务性能。为避免模态间学习相互干扰,百度团队设计了异构MoE结构,并引入了模态隔离路由机制,采用路由正交损失与多模态token均衡损失双重优化。这些架构设计确保两种模态特征均得到高效表征,从而在训练过程中实现相互强化。
可扩展高效的基础设施。百度团队提出了一种新异构混合并行和分层负载均衡策略,以实现ERNIE4. 5模型的高效训练。通过采用节点内专家并行、内存优化流水线调度、FP8混合精度训练和细粒度重计算方法,显著提升预训练吞吐量。在推理方面,提出了多专家并行协作方法和卷积码量化算法,以实现4-bit/2-bit无损量化。此外,团队还引入了具有动态角色切换的PD分解,以有效利用资源,从而提升ERNIE4. 5MoE模型的推理性能。基于PaddlePaddle构建的ERNIE4. 5可在各种硬件平台上提供高性能推理。
针对特定模态的后训练。为了满足实际应用的多样化需求,团队针对特定模态对预训练模型的变体进行了微调,并针对通用语言理解和生成进行了优化。VLM专注于视觉语言理解,并支持思考和非思考模式。每个模型都结合使用了监督微调(SFT)、直接偏好优化(DPO)或一种名为统一偏好优化(UPO)的改进强化学习方法进行后训练。
此外,文心大模型4. 5开源系列均使用飞桨深度学习框架进行高效训练、推理和部署。在大语言模型的预训练中,模型FLOPs利用率(MFU)达到47%。实验结果显示,其系列模型在多个文本和多模态基准测试中达到SOTA水平,尤其在指令遵循、世界知识记忆、视觉理解和多模态推理任务上效果突出。
百度表示,在文本模型方面,文心大模型4. 5开源系列基础能力强、事实准确性高、指令遵循能力强、推理和编程能力出色,在多个主流基准评测中超越DeepSeek-V3、Qwen3等模型。在多模态模型方面,文心大模型4. 5开源系列拥有卓越的视觉感知能力,同时精通丰富视觉常识,并实现了思考与非思考统一,在视觉常识、多模态推理、视觉感知等主流的多模态大模型评测中优于闭源的OpenAIo1。此外,在轻量模型上,文心4. 5-21B-A3B-Base文本模型效果与同量级的Qwen3相当,文心4. 5-VL-28B-A3B多模态模型也是目前同量级最好的多模态开源模型,甚至与更大参数模型Qwen2. 5-VL-32B不相上下。
文心4. 5预训练模型在主流基准测试中表现
文心4. 5-300B-A47B模型在主流基准测试中表现
文心多模态后训练模型(支持思考、关闭思考)的多个多模态基准测试
点击底部阅读原文访问InfoQ官网,获取更多精彩内容!
会议推荐
首届AICon全球人工智能开发与应用大会(深圳站)将于8月22-23日正式举行!本次大会以“探索AI应用边界”为主题,聚焦Agent、多模态、AI产品设计等热门方向,围绕企业如何通过大模型降低成本、提升经营效率的实际应用案例,邀请来自头部企业、大厂以及明星创业公司的专家,带来一线的大模型实践经验和前沿洞察。一起探索AI应用的更多可能,发掘AI驱动业务增长的新路径!
今日荐文
卷疯了!这个清华系Agent框架开源后迅速斩获1. 9kstars,还要“消灭”Prompt?
2G内存跑Gemma3n完整版!全球首个10B内模型杀疯LMArena:1300分碾压记录
一天15k星,代码生成碾压Claude,连Cursor都慌了?谷歌GeminiCLI杀疯了
成立5年最高估值超百亿,摩尔线程之后,又一家AI芯片独角兽争当“国产GPU第一股”
谷歌将A2A捐赠给Linux基金会,但代码实现还得靠开发者自己?!
你也「在看」吗?👇


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录