Magistral 发布:用纯RL打造出首个多语言、透明Reasoning大模型!


Magistral 发布:用纯RL打造出首个多语言、透明Reasoning大模型!

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

论文:Magistral链接:https ://mistral. ai/static/research/magistral. pdf
传统AI模型增强推理能力依赖“蒸馏”——用大模型生成解题步骤教小模型,如差生直接抄写学霸作业。而Mistral的Magistral首次实现纯强化学习(RL)训练推理模型,让AI从“抄答案”变成“自己刷题进化”。
关键突破:完全抛弃现成解题数据,仅用数学题和编程题作为题库,通过RL让模型自主探索解题路径,最终在AIME数学竞赛题上准确率提升50%!
算法魔改GRPO:抛弃PPO的“监工”critic模型,用群体平均分作基准(省算力+稳定训练)。公式中红色部分是灵魂改动:关键操作:放松上限ε(允许探索冷门解题思路)+剔除零分小组(避免无效训练)。
多语言自由切换:10%题目翻译成6种语言,用语言一致性奖励强制模型用用户语言推理。结果:中文解题也能丝滑输出!
格式严师出高徒:答案必须用标签包裹,数学答案装进\boxed{},代码用三重引号——格式错直接零分!
异步流水线架构解决RL训练最大痛点:生成答案速度不均(有的1秒写完,有的卡壳5分钟),进而会导致生成器频繁空闲,流水线效率低下。
三大工人分工:
Generator(持续生成答案,不等训练器完成更新)
Verifier(秒批卷子打分)
Trainer(实时更新模型权重)
关键技巧:
权重更新不中断生成
权重在生成中途被替换后回继续续使用旧的KV缓存
利用NCCL在GPU间广播(Broadcast)(单次更新<5秒),GPU利用率拉满!
推理能力:MagistralMedium在AIME数学竞赛题上73. 6分(原模型仅26. 8),超越DeepSeek-R1。
跨领域通吃:纯数学训练的模型,编程能力竟自动提升15. 6%(反哺效应惊人)。
多语言环境下的推理能力:相较于英文版本,非英文版本上的表现下降了4. 3%到9. 9%(中文63. 7%vs英语73. 6%),但仍是突破!
最反直觉结论:纯文本训练竟提升图像理解力!
多模态基准MMMU-Pro视觉部分暴涨12%
原理:文本推理的思维链能力迁移到图像问题(案例:光折射/化学键/植物病理分析)
MagistralSmall(24B参数)开源!
三步打造性价比之王:1️⃣用MagistralMedium生成题库2️⃣教给小模型(SFT蒸馏)3️⃣RL强化训练
结果:小模型在多项基准逼平大模型,代码能力反超5. 8%!
比例奖励陷阱:编程题按测试通过率给分→性能反降2%(模糊信号干扰学习)
熵惩罚翻车:加熵鼓励探索→数学任务有效,编程任务熵值爆炸!
Magistral证明:
工具调用能力未受损(87. 4%→87. 2%)
自主刷题式训练将是下一代AGI核心路径
下一步:更大规模RL+多模态代理+自我进化推理
备注:昵称-学校/公司-方向/会议(eg. ACL),进入技术/投稿群
id:DLNLPer,记得备注呦


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录