MiniMax-M1:闪电注意力重塑大模型推理效率,百万上下文时代来临,附技术报告英中对照版
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
1. 闪电注意力(LightningAttention)
:传统Transformer的Softmax注意力存在O(n²)计算复杂度,限制长文本处理能力(如DeepSeek-R1仅支持128K上下文)。
:
采用线性注意力变体(Qinetal.),通过核函数近似Softmax,将复杂度降至O(n)。
:减少GPU内存读写次数,实测生成100Ktoken的FLOPs仅为DeepSeek-R1的25%。
:
原生支持1Mtoken输入(8倍于DeepSeek-R1)
输出长度扩展至80Ktoken(超越Gemini2. 5Pro的64K)
2. 混合专家架构(MoE-Hybrid)
:每7个闪电注意力层+1个Softmax注意力层(共456B参数,激活45. 9B/Token)
:
保留局部感知能力(Softmax层)的同时,实现长序列高效处理。
通过四阶段平滑扩展策略(32K→1M),解决训练中梯度爆炸问题。
1. CISPO:重新定义RL训练稳定性
:PPO/GRPO裁剪Token更新会抑制关键推理Token(如“However”、“Recheck”),阻碍复杂推理行为涌现。
:
而非Token更新(公式4-5),保留所有Token的梯度贡献。
实验验证:在AIME数学基准上,训练效率2倍于DAPO(50%步数达成相同性能)。
2. 低成本大规模RL训练
:
修复FP16精度误差:LM输出头升级至FP32,训练/推理概率对齐至0. 99+。
动态截断:检测重复模式(连续3000Token概率>0. 99)提前终止生成。
:
仅用512张H800GPU,3周完成全量RL训练(成本53. 47万美元)
发布40K/80K思考预算双版本模型。
1. 可验证任务(规则驱动)
:50K竞赛级问题,过滤Pass@10∈(0,0. 9)的样本防过拟合。
:构建GitHub问题沙箱(SWE-bench衍生),执行测试用例作为RL奖励信号。
:SynLogic框架生成53K密码/数独等任务,动态调整难度参数。
2. 开放域任务(模型驱动)
:监测RL中“长文本投机行为”,动态校准奖励模型。
:
先训练可验证任务(数学/代码)
逐步混合开放域任务(写作/问答)
防止灾难性遗忘的同时提升泛化性。
软件工程(SWE-bench)
34. 4%
67. 2%
长上下文(1MMRCR)
58. 8%
工具调用(TAU零售)
58. 6%
67. 0%
数学推理(AIME2025)
76. 9%
88. 0%
关键结论:
:1M输入理解接近Gemini2. 5Pro,80K输出超越Claude4Opus(32K)。
:TAU工具调用击败Gemini和OpenAIo3。
:落后DeepSeek-R1-0528约5%,反映MoE架构对符号推理的优化空间。
:
模型权重、训练代码、部署指南(GitHub/HuggingFace)
支持vLLM/Transformers推理框架,提供商业API(minimax. io)。
:
:验证线性注意力在大规模RL中的可行性,为后续模型(如Mamba、RWKV)铺路。
:百万上下文推理成本降低75%,加速企业级Agent应用落地。
:混合架构对符号逻辑的适应性待提升。
:奖励模型仍需在线校准防“注水文本”。
:工具链完善度较Transformer生态仍有差距。
附MiniMax-M1技术报告英中对照版,仅供学习参考,感兴趣的朋友可以关注\“AINLP公众号\“回复’minimaxm1’获取全文pdf:
感兴趣的朋友可以关注\“AINLP公众号\“回复’minimaxm1’获取全文pdf:
进技术交流群请添加AINLP小助手微信(id:ainlp2)
请备注具体方向+所用到的相关技术点
关于AINLP
AINLP是一个有趣有AI的自然语言处理社区,专注于AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括LLM、预训练模型、自动生成、文本摘要、智能问答、聊天机器人、机器翻译、知识图谱、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLP小助手微信(id:ainlp2),备注工作/研究方向+加群目的。