小米MiMo-7B技术报告英中对照版.pdf


小米MiMo-7B技术报告英中对照版.pdf

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

小米今天开源了Mimo-7b相关模型同时发布了技术报告:
https ://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf
我们用大模型翻译了这份技术报告并提供英中对照版,感兴趣的朋友可以关注AGI公众号回复’mimo7b’获取这份英中对照版:
以下是这份技术报告的简单解读:
MiMo-7B是由小米LLM-Core团队开发的一系列大语言模型(LLM),旨在通过优化的预训练和后训练流程,释放模型在复杂推理任务中的潜力。技术报告详细介绍了MiMo-7B的架构设计、训练策略以及在多个基准测试中的表现。本文将深入解析这份技术报告,探讨MiMo-7B如何在有限的参数规模下实现卓越的推理能力。
MiMo-7B的核心目标是提升语言模型在推理任务上的表现,尤其是在数学、代码生成及一般性推理任务中。其创新点包括:
多任务学习
:MiMo-7B在预训练阶段引入了多样化的数据集,涵盖自然语言理解、科学问题解答、阅读理解、数学推理、编程等任务。
高效的强化学习(RL)框架
:通过“SeamlessRolloutEngine”和增强的vLLM推理引擎,MiMo-7B实现了高效的RL训练和验证。
MTP支持
:模型集成了MTP(Multi-TokenPrediction)模块,以提高推理时的解码效率。
动态采样与早期终止机制
:这些机制显著减少了GPU的空闲时间,提升了训练速度。
MiMo-7B采用了标准的Transformer架构,并在此基础上进行了多项改进:
GQA(GeneralizedMulti-QueryAttention)
:允许模型在推理过程中更灵活地处理多查询任务。
RootMeanSquareLayerNormalization(RMSNorm)
:作为标准化方法,RMSNorm提供了更好的训练稳定性和收敛速度。
MTP(Multi-TokenPrediction)
:支持多token预测,增强了模型在长输出任务中的表现。
MiMo-7B的预训练数据集经过精心设计,涵盖了广泛的任务类型:
自然语言理解与推理
:BBH、MMLU、ARC、HellaSwag、PIQA等基准测试。
科学问题解答
:GPQA(Graduate-LevelGoogle-ProofQ&A)和SuperGPQA,用于评估模型对研究生水平问题的理解能力。
数学推理
:Math和AIME相关数据集,专注于复杂的数学推理任务。
编程能力
:LiveCodeBench、CruxEval等数据集,用于评估模型在代码生成和执行方面的表现。
中文理解
:C-Eval、CMMLU等中文多任务基准测试。
长上下文理解
:RULER数据集,用于评估模型在长文本处理中的能力。
这些数据集的整合使得MiMo-7B在预训练阶段就具备了广泛的推理能力基础。
MiMo-7B的预训练采用了一个分阶段的训练策略,首先进行大规模的语言建模训练,随后逐步引入特定任务的数据,以增强模型在关键领域的表现。这一阶段的目标是让模型掌握基本的语言结构和语义表示。
在多个基准测试中,MiMo-7B-Base表现出色,尤其在BBH上取得了75.2的得分,展示了其强大的推理能力。此外,在SuperGPQA上的表现也表明该模型能够有效处理复杂的研究生级问题。
监督微调阶段,MiMo-7B使用高质量的人工标注数据对模型进行进一步优化。这一阶段的重点是提升模型在特定任务上的准确性和泛化能力。
在强化学习(RL)阶段,MiMo-7B采用了基于难度驱动的奖励机制。具体来说,模型会根据问题的难易程度动态调整奖励函数,鼓励模型在解决复杂问题时获得更高的回报。这种机制有助于缓解稀疏奖励问题,使模型在训练过程中更有效地学习到复杂的推理模式。
MiMo-7B的RL训练采用了改进版的GroupRelativePolicyOptimization(GRPO)算法。该算法结合了最新的研究成果,如动态采样和KL损失的移除,进一步提高了训练的稳定性和效率。
为了应对不同问题的难度差异,MiMo-7B引入了测试难度驱动的奖励机制。该机制灵感来源于国际信息学奥林匹克竞赛(IOI)的评分规则。每个完整的问题被划分为多个子任务,模型可以通过解决部分子任务获得相应的奖励。这种方式不仅提高了训练的效率,还使得模型能够在面对复杂问题时逐步积累经验。
在RL训练中,MiMo-7B采用了动态采样策略,即在rollout阶段过采样并过滤掉那些passrate为0或1的提示词,从而确保每次更新都基于有效的梯度。这一策略自动调整问题的难度,使得训练过程更加高效。
MiMo-7B的RL训练依赖于自研的SeamlessRolloutEngine和增强版的vLLM推理引擎。这两个组件共同构成了一个高效的RL系统。
SeamlessRolloutEngine是MiMo-7B的核心之一,它通过以下三个关键组件优化了GPU利用率:
连续rollout
:减少rollout过程中的等待时间,最大化GPU的使用效率。
异步奖励计算
:在rollout的同时进行奖励计算,避免GPU空闲。
早期终止机制
:当某个任务的奖励不再变化时,提前终止该任务,节省资源。
实验结果显示,SeamlessRolloutEngine在训练和验证阶段分别实现了2.29×和1.96×的加速效果。
MiMo-7B使用vLLM作为推理引擎,并对其进行了多项增强:
MTP支持
:vLLM被扩展以支持MTP模块,从而提高推理时的解码速度。
更强的鲁棒性
:通过清理prefixcaching中的已计算块,保持KVCache的一致性;同时禁用异步输出处理以确保兼容性。
在后训练阶段,MiMo-7B的性能得到了进一步提升。尤其是RL调优后的模型(MiMo-7B-RL-Zero和MiMo-7B-RL)在数学、代码生成和一般性推理任务上表现出色,甚至超过了OpenAI的o1-mini模型。
MiMo-7B在多个基准测试中进行了评估,包括:
数学推理
:AIME2025
代码生成
:LiveCodeBenchv6
一般性推理
:GPQADiamond
AIME2025
:MiMo-7B-RL达到了55.4%的通过率。
LiveCodeBenchv6
:MiMo-7B-RL达到了49.3%的通过率。
GPQADiamond
:MiMo-7B-RL达到了54.4%的通过率。
这些结果表明,MiMo-7B在多个领域均具备出色的推理能力。
MiMo-7B通过优化的预训练和后训练流程,成功解锁了语言模型在复杂推理任务中的潜力。其核心贡献包括:
高效的RL框架
:通过SeamlessRolloutEngine和vLLM推理引擎,大幅提升了训练和推理效率。
动态采样与奖励机制
:解决了稀疏奖励问题,使模型在复杂任务中更快地收敛。
多任务学习
:通过整合多个基准测试数据集,MiMo-7B在多个领域均表现出色。
尽管MiMo-7B已经取得了令人瞩目的成果,但仍有进一步优化的空间:
更大规模的模型
:随着硬件资源的进步,未来的MiMo系列可能会推出更大参数量的模型,进一步提升推理能力。
跨模态推理
:将视觉、音频等多模态信息集成到推理过程中,拓展模型的应用场景。
实时推理优化
:针对实际应用场景,进一步优化推理延迟和吞吐量。
MiMo-7B的开源也为社区提供了宝贵的研究资源,期待更多开发者和研究人员在其基础上构建更强大的推理模型。
感兴趣的朋友可以关注AGI公众号回复’mimo7b’获取这份英中对照版:


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录