国产开源LLM大爆发的一周:腾讯、百度、华为,冲~


国产开源LLM大爆发的一周:腾讯、百度、华为,冲~

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

百度ERNIE4. 5
文心4. 5系列开源模型共10款,涵盖了激活参数规模分别为47B和3B的混合专家(MoE)模型(最大的模型总参数量为424B),以及0. 3B的稠密参数模型。对MoE架构,提出了一种创新性的多模态异构模型结构,通过跨模态参数共享机制实现模态间知识融合,同时为各单一模态保留专用参数空间。
ERNIE-4. 5-300B-A47B-Base在28个基准测试中的22个超越了DeepSeek-V3-671B-A37B-Base,在所有主要能力类别中均有领先的表现。相对于其他SOTA模型,在泛化能力、推理和知识密集型任务方面的显著提升。

腾讯Hunyuan-A13B
Hunyuan-A13B是一个基于精细的专家混合(MoE)架构构建的创新且开源的大型语言模型(LLM)。
关键特点和优势
紧凑而强大:尽管只有13B活跃参数(总共80B),该模型在广泛的基准任务中提供了有竞争力的性能,与更大的模型相媲美。
混合推理支持:支持快速和慢速思考模式,用户可以根据自己的需求灵活选择。
超长上下文理解:原生支持256K上下文窗口,在长文本任务上保持稳定的性能。
增强的Agent能力:针对Agent任务进行了优化,在BFCL-v3、τ-Bench和C3-Bench等基准测试中取得了领先结果。
高效的推理:使用分组查询注意力(GQA)并支持多种量化格式,实现了高效的推理。

盘古ProMoE(72B-A16B)
一种新型的分组混合专家模型(MixtureofGroupedExperts,MoGE),它在专家选择阶段对专家进行分组,并约束token在每个组内激活等量专家,从而实现设备间天然的负载均衡。
基于MoGE架构,构建了总参数量72B、激活参数量16B的盘古ProMoE模型:
词表大小:153376
层数:48
MoGE配置:4个共享专家,64个路由专家分8组、每组激活1个专家
训练阶段:预训练和后训练
预训练预料:15T
https ://gitcode. com/ascend-tribe/pangu-pro-moe-modelhttps ://arxiv. org/pdf/2505. 21411
推荐阅读
•对齐LLM偏好的直接偏好优化方法:DPO、IPO、KTO
•一篇搭建AI大模型应用平台架构的全面指南
•RAG全景图:从RAG启蒙到高级RAG之36技,再到终章AgenticRAG!
•Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1. 2万字,20+文献,27张图)
欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录