小米MiMo-7B技术报告英中对照版.pdf

发布日期: 2025-04-30

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

小米今天开源了Mimo-7b相关模型同时发布了技术报告：
https ://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf
我们用大模型翻译了这份技术报告并提供英中对照版，感兴趣的朋友可以关注AGI公众号回复’mimo7b’获取这份英中对照版：
以下是这份技术报告的简单解读：
MiMo-7B是由小米LLM-Core团队开发的一系列大语言模型（LLM），旨在通过优化的预训练和后训练流程，释放模型在复杂推理任务中的潜力。技术报告详细介绍了MiMo-7B的架构设计、训练策略以及在多个基准测试中的表现。本文将深入解析这份技术报告，探讨MiMo-7B如何在有限的参数规模下实现卓越的推理能力。
MiMo-7B的核心目标是提升语言模型在推理任务上的表现，尤其是在数学、代码生成及一般性推理任务中。其创新点包括：
多任务学习
：MiMo-7B在预训练阶段引入了多样化的数据集，涵盖自然语言理解、科学问题解答、阅读理解、数学推理、编程等任务。
高效的强化学习（RL）框架
：通过“SeamlessRolloutEngine”和增强的vLLM推理引擎，MiMo-7B实现了高效的RL训练和验证。
MTP支持
：模型集成了MTP（Multi-TokenPrediction）模块，以提高推理时的解码效率。
动态采样与早期终止机制
：这些机制显著减少了GPU的空闲时间，提升了训练速度。
MiMo-7B采用了标准的Transformer架构，并在此基础上进行了多项改进：
GQA（GeneralizedMulti-QueryAttention）
：允许模型在推理过程中更灵活地处理多查询任务。
RootMeanSquareLayerNormalization（RMSNorm）
：作为标准化方法，RMSNorm提供了更好的训练稳定性和收敛速度。
MTP（Multi-TokenPrediction）
：支持多token预测，增强了模型在长输出任务中的表现。
MiMo-7B的预训练数据集经过精心设计，涵盖了广泛的任务类型：
自然语言理解与推理
：BBH、MMLU、ARC、HellaSwag、PIQA等基准测试。
科学问题解答
：GPQA（Graduate-LevelGoogle-ProofQ&A）和SuperGPQA，用于评估模型对研究生水平问题的理解能力。
数学推理
：Math和AIME相关数据集，专注于复杂的数学推理任务。
编程能力
：LiveCodeBench、CruxEval等数据集，用于评估模型在代码生成和执行方面的表现。
中文理解
：C-Eval、CMMLU等中文多任务基准测试。
长上下文理解
：RULER数据集，用于评估模型在长文本处理中的能力。
这些数据集的整合使得MiMo-7B在预训练阶段就具备了广泛的推理能力基础。
MiMo-7B的预训练采用了一个分阶段的训练策略，首先进行大规模的语言建模训练，随后逐步引入特定任务的数据，以增强模型在关键领域的表现。这一阶段的目标是让模型掌握基本的语言结构和语义表示。
在多个基准测试中，MiMo-7B-Base表现出色，尤其在BBH上取得了75.2的得分，展示了其强大的推理能力。此外，在SuperGPQA上的表现也表明该模型能够有效处理复杂的研究生级问题。
监督微调阶段，MiMo-7B使用高质量的人工标注数据对模型进行进一步优化。这一阶段的重点是提升模型在特定任务上的准确性和泛化能力。
在强化学习（RL）阶段，MiMo-7B采用了基于难度驱动的奖励机制。具体来说，模型会根据问题的难易程度动态调整奖励函数，鼓励模型在解决复杂问题时获得更高的回报。这种机制有助于缓解稀疏奖励问题，使模型在训练过程中更有效地学习到复杂的推理模式。
MiMo-7B的RL训练采用了改进版的GroupRelativePolicyOptimization（GRPO）算法。该算法结合了最新的研究成果，如动态采样和KL损失的移除，进一步提高了训练的稳定性和效率。
为了应对不同问题的难度差异，MiMo-7B引入了测试难度驱动的奖励机制。该机制灵感来源于国际信息学奥林匹克竞赛（IOI）的评分规则。每个完整的问题被划分为多个子任务，模型可以通过解决部分子任务获得相应的奖励。这种方式不仅提高了训练的效率，还使得模型能够在面对复杂问题时逐步积累经验。
在RL训练中，MiMo-7B采用了动态采样策略，即在rollout阶段过采样并过滤掉那些passrate为0或1的提示词，从而确保每次更新都基于有效的梯度。这一策略自动调整问题的难度，使得训练过程更加高效。
MiMo-7B的RL训练依赖于自研的SeamlessRolloutEngine和增强版的vLLM推理引擎。这两个组件共同构成了一个高效的RL系统。
SeamlessRolloutEngine是MiMo-7B的核心之一，它通过以下三个关键组件优化了GPU利用率：
连续rollout
：减少rollout过程中的等待时间，最大化GPU的使用效率。
异步奖励计算
：在rollout的同时进行奖励计算，避免GPU空闲。
早期终止机制
：当某个任务的奖励不再变化时，提前终止该任务，节省资源。
实验结果显示，SeamlessRolloutEngine在训练和验证阶段分别实现了2.29×和1.96×的加速效果。
MiMo-7B使用vLLM作为推理引擎，并对其进行了多项增强：
MTP支持
：vLLM被扩展以支持MTP模块，从而提高推理时的解码速度。
更强的鲁棒性
：通过清理prefixcaching中的已计算块，保持KVCache的一致性；同时禁用异步输出处理以确保兼容性。
在后训练阶段，MiMo-7B的性能得到了进一步提升。尤其是RL调优后的模型（MiMo-7B-RL-Zero和MiMo-7B-RL）在数学、代码生成和一般性推理任务上表现出色，甚至超过了OpenAI的o1-mini模型。
MiMo-7B在多个基准测试中进行了评估，包括：
数学推理
：AIME2025
代码生成
：LiveCodeBenchv6
一般性推理
：GPQADiamond
AIME2025
：MiMo-7B-RL达到了55.4%的通过率。
LiveCodeBenchv6
：MiMo-7B-RL达到了49.3%的通过率。
GPQADiamond
：MiMo-7B-RL达到了54.4%的通过率。
这些结果表明，MiMo-7B在多个领域均具备出色的推理能力。
MiMo-7B通过优化的预训练和后训练流程，成功解锁了语言模型在复杂推理任务中的潜力。其核心贡献包括：
高效的RL框架
：通过SeamlessRolloutEngine和vLLM推理引擎，大幅提升了训练和推理效率。
动态采样与奖励机制
：解决了稀疏奖励问题，使模型在复杂任务中更快地收敛。
多任务学习
：通过整合多个基准测试数据集，MiMo-7B在多个领域均表现出色。
尽管MiMo-7B已经取得了令人瞩目的成果，但仍有进一步优化的空间：
更大规模的模型
：随着硬件资源的进步，未来的MiMo系列可能会推出更大参数量的模型，进一步提升推理能力。
跨模态推理
：将视觉、音频等多模态信息集成到推理过程中，拓展模型的应用场景。
实时推理优化
：针对实际应用场景，进一步优化推理延迟和吞吐量。
MiMo-7B的开源也为社区提供了宝贵的研究资源，期待更多开发者和研究人员在其基础上构建更强大的推理模型。
感兴趣的朋友可以关注AGI公众号回复’mimo7b’获取这份英中对照版：