Meta最新大模型RL微调:在线DPO/GRPO显著优于离线DPO


Meta最新大模型RL微调:在线DPO/GRPO显著优于离线DPO

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

Meta和NYU最新研究:强化学习方法在大型语言模型(LLMs)微调中的有效性,特别是在从离线到半在线再到完全在线的不同训练范式下,针对可验证任务和不可验证任务的性能表现:半在线和在线训练方法显著优于离线方法,并且在多任务训练中结合可验证和不可验证任务可以进一步提升模型性能。
(左):展示了训练流程中单个训练步骤的可视化,该流程可用于任何训练目标,例如直接偏好优化(DPO)或分组奖励策略优化(GRPO)。通过同步权重,可以使用最新模型生成rollout响应。
(右):从离线到在线训练的进展,展示了在不同训练步骤中模型权重同步发生的时间点。离线训练仅在训练开始前同步一次,而在线训练则在每一步都进行同步。
可验证任务:在线和半在线训练方法(如在线DPO和GRPO)在所有基准测试中均显著优于离线DPO。例如,在Math500数据集上,离线DPO的准确率为53. 7%,而在线DPO和GRPO的准确率分别达到58. 7%和58. 1%。
不可验证任务:在线和半在线方法同样优于离线方法。在线DPO在AlpacaEvalLC的胜率比离线DPO提高了56. 6%,在ArenaHard的得分提高了45. 6%。
多任务训练:结合可验证和不可验证任务的多任务训练进一步提升了模型性能。例如,在非验证任务上,从NuminaMath检查点微调的模型在AlpacaEvalLC上的胜率达到了78. 8%,显著高于仅训练非验证任务的模型。
https ://arxiv. org/pdf/2506. 21495BridgingOfflineandOnlineReinforcementLearningforLLMs
推荐阅读
•动手设计AIAgents:(编排、记忆、插件、workflow、协作)
•DeepSeekR1+Agent的下半场
•单智能体(Agent):企业员工AI助理
•Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1. 2万字,20+文献,27张图)
欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录