从 Magistral 技术报告看 RL for Reasoning  LLM 的最佳实践


从 Magistral 技术报告看 RL for Reasoning  LLM 的最佳实践

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

Author:初七123334
Link:https ://zhuanlan. zhihu.com/p/1916102534818406913
2025年6月10日,MistralAI发布了他们最新的推理模型MagistralRL微调技术报告:
https ://mistral. ai/static/research/magistral. pdf
尽管这项工作并没有提出特别新的方法,但它系统性地集成了目前业界较为热门且效果显著的一系列强化学习(RL)训练技巧。本文将对其中几项关键技术做简要总结和分析,帮助大家更高效地理解与应用。
首先,PPO-clip是强化学习中一个核心工具,尤其适用于大语言模型(LLM)的对齐训练。它通过对比旧策略与新策略的概率比值设定裁剪区间,从而在不牺牲学习效率的前提下,有效提升训练的稳定性,避免策略更新过快导致性能震荡。

这两个策略最早在DAPO中提出,是提升训练效率的关键点:
DynamicSampling:过滤掉奖励全为正或全为负的训练样本,避免无效学习;
ClipHigher:放宽PPO的裁剪上限,缓解entropy坍塌,提升多样性。
长度惩罚避免输出推理太长Mistral在奖励函数中引入了长度惩罚,用于控制模型推理输出的长度。这个技巧可以有效防止模型生成无意义的长文本,提升响应质量和效率。
除了主奖励信号外,MAGISTRAL还使用了其它辅助奖励,比如:
输出格式奖励(FormatReward):鼓励模型输出结构规范;
语言一致性奖励(LanguageConsistencyReward):提升文本的语言一致性和自然度。
这些奖励的加入可以提高模型输出的可读性和可控性,是实际训练中中非常实用的优化方向。
进技术交流群请添加AINLP小助手微信(id:ainlp2)
请备注具体方向+所用到的相关技术点
关于AINLP
AINLP是一个有趣有AI的自然语言处理社区,专注于AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括LLM、预训练模型、自动生成、文本摘要、智能问答、聊天机器人、机器翻译、知识图谱、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLP小助手微信(id:ainlp2),备注工作/研究方向+加群目的。


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录