alphaxiv热榜第一|RL推理边界或被基座锁死


alphaxiv热榜第一|RL推理边界或被基座锁死

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

论文题目:DoesReinforcementLearningReallyIncentivizeReasoningCapacityinLLMsBeyondtheBaseModel?
论文地址:https ://arxiv. org/pdf/2504. 13837
代码地址:https ://github. com/LeapLabTHU/limit-of-RLVR
传统评估指标如单次采样成功率或平均核采样等,可能低估了模型在经过多次采样后解决复杂问题的潜力。为此,本文引入了pass@k指标,通过多次采样来评估模型的推理能力边界,为比较基础模型和RLVR训练模型的性能提供了一种更全面、更严谨的方法。
与RLVR不同,蒸馏能够将教师模型的推理模式引入到学生模型中,从而真正扩展学生的推理能力范围,使其能够超越基础模型的限制。
本文主要研究方法是通过引入pass@k指标,对大型语言模型(LLMs)及其经过强化学习与可验证回报(RLVR)训练的对应模型进行评估。在数学、编程和视觉推理等多个基准测试中,比较基础模型和RLVR训练模型在不同k值下的表现。随着k值的增加,基础模型在较大k值时的pass@k分数超过RLVR模型,表明RLVR训练并未带来新的推理模式。同时,研究还分析了RLVR对模型输出分布的影响,发现RLVR提高了采样效率却限制了模型的探索能力。此外,研究也对不同的RL算法进行了比较,并探讨了RLVR与知识蒸馏之间的差异。
本图左侧展示了基础模型和RLVR模型在给定问题时生成的搜索树。灰色表示模型不太可能采样的路径,黑色表示可能采样的路径,绿色表示正确路径。关键发现是RLVR模型的所有推理路径在基础模型中已经存在。对于像问题A这样的某些问题,RLVR训练使分布偏向奖励路径,提高了采样效率,但这是以降低推理能力范围为代价的。右侧展示了随着RLVR训练的进行,平均性能(即pass@1)提高,但可解问题的覆盖范围(即pass@256)减少,表明模型推理能力上限降低。
本图展示了多个数学基准测试中,基础模型及其零RL训练对应模型的pass@k曲线。当k较小(例如k=1)时,RL训练模型的性能优于基础模型。然而,随着k增加到几十或几百,基础模型在所有基准测试和LLM家族中无一例外地赶超RL训练模型,表明基础模型的可解问题范围更广。
本图左侧展示了由基础模型、RL模型和其他模型生成的响应的困惑度分布。结果显示,RL模型的响应很可能由基础模型生成,表明RL训练并未引入基础模型之外的全新推理能力。右侧比较了基础模型、指令模型、RL模型和蒸馏模型的覆盖范围,表明蒸馏模型能够超越基础模型的推理能力上限。
本表展示了不同RL算法在Omni-MATH-Train、Omni-MATH-Test和MATH500数据集上的pass@1和pass@256的表现。pass@1表示模型在单次采样中的通过率,反映了模型在小k值下的性能;pass@256表示模型在256次采样中的通过率,反映了模型在较大k值下的性能和推理能力的上限。从表中可以看出,不同RL算法在pass@1上的表现差异不大,整体上DAPO算法在pass@1上略优于其他算法,这可能与其动态采样策略有关。此外,RLOO和Reinforce++在整个k范围内表现相对稳定,且训练成本较低,取得了效果与效率之间的良好平衡。表中的数据还显示,当前所有RL算法在提升采样效率方面仍有较大提升空间,因为采样效率差距(∆SE)在所有算法中都保持在一个较高的水平。
–END–
最后对强化学习创新感兴趣的可公众号后台私信‘加群’或者扫描下方👇二维码进入强化学习交流群!
关注“学姐带你玩AI”公众号,回复“RL优化”
领取2025强化学习优化方案合集+开源代码
往期推荐:
强化学习+组合优化创新!快速学会登上CCF-A的热门组合
强化学习+多目标优化,get到这种思路,发一区TOP就不远了!
强化学习的大杀器!登上《Nature》正刊!
爽!强化学习+注意力机制,吞吐量提升了10多倍!
发论文idea来了!强化学习+Transformer,29个创新点汇总
ACCEPT
据说点赞的都Accept了!


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录