华为盘古大模型开源,推理方案、基础代码全公开!


华为盘古大模型开源,推理方案、基础代码全公开!

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

整理|华卫
今日,华为正式宣布开源盘古70亿参数的稠密模型、盘古ProMoE720亿参数的混合专家模型和基于昇腾的模型推理技术。华为表示,“此举是华为践行昇腾生态战略的又一关键举措,推动大模型技术的研究与创新发展,加速推进人工智能在千行百业的应用与价值创造。”
根据华为官网显示:
盘古ProMoE72B模型权重、基础推理代码,已正式上线开源平台。
基于昇腾的超大规模MoE模型推理代码,已正式上线开源平台。
盘古7B相关模型权重与推理代码将于近期上线开源平台。
开源地址:https ://gitcode. com/ascend-tribe
盘古ProMoE:
昇腾原生的分组混合专家模型
盘古ProMoE模型基于分组混合专家模型(MixtureofGroupedExperts,MoGE)架构构建,总参数量为720亿、激活参数量达160亿,并针对昇腾300IDuo和800IA2平台进行系统优化。
其中,MoGE是华为提出的创新架构,旨在从路由机制上实现跨设备的计算负载均衡。
混合专家模型(MoE)在大语言模型(LLMs)中逐渐兴起,该架构能够以较低计算成本支持更大规模的参数,从而获得更强的表达能力。这一优势源于其稀疏激活机制的设计特点,即每个输入token仅需激活部分参数即可完成计算。然而,在实际部署中,不同专家的激活频率存在严重的不均衡问题,一部分专家被过度调用,而其他专家则长期闲置,导致系统效率低下。
MoGE架构设计示意图
而MoGE的核心思想是在专家选择阶段对专家进行分组,并约束token在每个组内激活等量专家,在典型的分布式部署中,每个专家分组对应独立的计算设备,从而MoGE天然地实现了跨设备的计算负载均衡,这一设计显著提升了训练和推理场景下的系统吞吐量。
据介绍,盘古ProMoE在昇腾800IA2上实现了单卡1148tokens/s的推理吞吐性能,并可进一步通过投机加速等技术提升至1528tokens/s,显著优于同等规模的320亿和720亿参数的稠密模型;在昇腾300IDuo推理服务器上,其也实现了极具性价比的模型推理方案。
另华为的研究表明,昇腾NPU能够支持盘古ProMoE的大规模并行训练。多项公开基准测试结果表明,盘古ProMoE在千亿内总参数模型中处于领先地位。
超大规模MoE模型的
推理部署方案
在2025年新年致辞中,华为轮值董事长孟晚舟曾提到:“华为十多个实验室与合作伙伴的工程师组成团队,面对天成AI集群系统和单芯片性能的工程挑战,应用了数学补物理、非摩尔补摩尔、系统补单点等思想,在散热、供电、高速、高密及大芯片在板可靠性等工程领域进行突破。”
当前,华为公布并开源相关代码的昇腾超大规模MoE模型推理部署方案,正是沿着这一思路,包括以下几个方面的核心技术能力:
从点到面的推理框架侧优化技术
把数学最优实现变为物理最优的FlashComm通算优化技术
把串行计算变成四流并发的通算极致掩盖技术
以加法代乘法昇腾MLA最优实现
硬件感知亲和的大量创新算子
其中,OmniPlacement是一种高效负载均衡算法,通过专家重排、层间冗余部署和近实时调度,在3个token推理步骤内实现近90%的专家均衡,大幅提升MoE推理性能。
在大模型推理优化领域,投机推理作为一种极具潜力的技术路径,通过引入轻量模型或外部知识数据,为大模型生成推理草稿,解码阶段一次推理多个token,提升了计算密度。以DeepSeekV3/R1模型为例,其创新性地引入MTP(Multi-TokenPrediction)投机层,有效实现了投机推理技术的落地。投机推理在模型解码阶段的高计算密度天然匹配昇腾高算力带宽比的特点,为充分发挥这一优势,在低时延大并发场景下实现高吞吐,华为提出了投机推理框架FusionSpec,持续提升MTP在昇腾上的推理性能,并使得MTP部分框架耗时从10ms左右降为1ms。
OptiQuant是一个基于华为昇腾芯片模型量化算法的精度解决方案,设计了层间自动混精、自动混合校准、离群值抑制、可学习的截断和SSZW参数量化算法,在DeepSeekR1/V3大模型推理场景中,实现了INT8量化模式与FP8的模型推理精度持平,而且进一步发挥了Atlas800IA2和CloudMatrix384集群推理硬件性能。
FlashComm系列技术通过三大创新实现“以数学补物理”的突破,用于解决大模型推理过程中面临的通信瓶颈:
FlashComm:大模型推理中的AllReduce通信优化技术。将AllReduce基于通信原理进行拆解,并结合后续计算模块进行协同优化。
FlashComm2:大模型推理中以存换传的通信优化技术。在保持计算语义等价的前提下,实现ReduceScatter和MatMul算子的计算流程重构。
FlashComm3:大模型推理中的多流并行技术。充分挖掘昇腾硬件的多流并发能力,实现MoE模块的高效并行推理。
在热门开源模型的实测中,FlashComm技术展现出惊人的工程落地能力:在Atlas800IA2上用两节点16卡部署DeepSeekV3/R1的场景下,采用FlashComm通信方案,Prefill阶段端到端时延减少了22%~26%。在Atlas800IA2上采用单节点8卡部署Llama3. 1-70B的A8W8量化模型时,采用FlashComm通信方案,在不同并发下,Decode阶段端到端时延减少了4%至14%。
随着大语言模型的参数规模持续扩大,其推理过程对计算资源的需求持续增加,部署模式已从单卡演进到单节点再逐步演进为多卡多节点协同计算。在此过程中,华为希望通过优化一系列关键算子来提升硬件效率:
AMLA:以加代乘的高性能昇腾MLA算子。针对昇腾优化MLA算子,性能优于FlashMLA实现。
大模型推理中昇腾算子融合技术与设计原理。首次披露了基于昇腾的融合算子的设计原则。
SMTurbo:面向高性能原生LoadStore语义加速。介绍了基于CloudMatrix384集群的Load/Store语义加速方案。
此外,华为围绕盘古模型和昇腾平台开展软硬协同系统优化,在系统侧构建H2P分层混合并行优化、TopoComm拓扑亲和通信优化、DuoStream多流融合通算掩盖等技术,实现最优分布式并行推理提高计算效率;在算子侧设计开发MulAttention融合计算、SwiftGMM融合计算、MerRouter融合计算等算子融合技术,充分释放昇腾芯片的算力。基于上述昇腾亲和的系统优化,PanguProMoE的推理性能提升6~8×。
7B模型优于Qwen,
灵活切换快慢思考
当前,为追求卓越推理能力而设计的大语言模型(LLM)普遍面临着巨大的计算成本和推理延迟挑战,这限制了它们的实际应用与部署。为此,华为提出了盘古Embedded,一个在昇腾(Ascend)NPU上开发的高效大语言模型推理器。
其核心是一个具备“快思慢想”(fastandslowthinking)能力的双系统框架。该框架通过一个用于常规请求的“快思考”模式和一个用于复杂推理的“慢思考”模式,在延迟和推理深度之间实现了精妙的平衡。此外,模型具备元认知能力,能够根据任务复杂度自动选择最优模式。我们通过一个创新的两阶段训练框架构建此模型,该框架融合了迭代蒸馏、模型合并以及由多源自适应奖励系统(MARS)引导的强化学习。
基于该双系统框架,华为构建了盘古Embedded7B模型,并在昇腾NPU平台上进行了深度系统优化。该模型在单一、统一的架构内实现了快速响应和高质量推理的灵活切换。
华为的研究表明,仅有70亿参数的盘古Embedded在多个权威的复杂推理基准测试中(如AIME,GPQA等),其表现优于Qwen3-8B和GLM4-9B等规模相近的业界领先模型。
参考链接:

https ://arxiv. org/pdf/2505. 22375
声明:本文为AI前线整理,不代表平台观点,未经许可禁止转载。
会议推荐
首届AICon全球人工智能开发与应用大会(深圳站)将于8月22-23日正式举行!本次大会以“探索AI应用边界”为主题,聚焦Agent、多模态、AI产品设计等热门方向,围绕企业如何通过大模型降低成本、提升经营效率的实际应用案例,邀请来自头部企业、大厂以及明星创业公司的专家,带来一线的大模型实践经验和前沿洞察。一起探索AI应用的更多可能,发掘AI驱动业务增长的新路径!
今日荐文
卷疯了!这个清华系Agent框架开源后迅速斩获1. 9kstars,还要“消灭”Prompt?
2G内存跑Gemma3n完整版!全球首个10B内模型杀疯LMArena:1300分碾压记录
一天15k星,代码生成碾压Claude,连Cursor都慌了?谷歌GeminiCLI杀疯了
成立5年最高估值超百亿,摩尔线程之后,又一家AI芯片独角兽争当“国产GPU第一股”
谷歌将A2A捐赠给Linux基金会,但代码实现还得靠开发者自己?!
你也「在看」吗?👇


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录