仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
机器之心报道
编辑:张倩、陈陈
谁说强化学习只能是蛋糕上的樱桃,说不定,它也可以是整个蛋糕呢?
在2016年的一次演讲中,YannLeCun曾将强化学习比喻成蛋糕上的樱桃。他提到,「如果把智能比作一块蛋糕,那么无监督学习就是蛋糕的主体,监督学习就是蛋糕上的糖霜,而强化学习则是糖霜上的樱桃。我们已经知道如何制作糖霜和樱桃,但却不知道如何制作蛋糕本身。」
从2016年至今,LeCun对强化学习一直不看好。然而,不可否认的是,强化学习在提升AI模型能力方面正变得越来越重要。而且,来自微软的一项新研究显示,它不仅在后训练阶段发挥着关键作用,甚至在预训练阶段也展现出巨大的潜力。
在这篇题为「ReinforcementPre-Training」的论文中,作者提出了一种名为「强化预训练(RPT)」的新范式。在这种范式中,下一个token预测任务可以被重新定义为一个通过强化学习训练的推理任务。在这一任务中,模型会因正确预测给定上下文中的下一个token而获得可验证的奖励。
这就好比在制作蛋糕的过程中,直接将樱桃融入到蛋糕的主体结构中。
作者指出,RPT范式的好处在于,它提供了一种可扩展的方法,能够利用海量文本数据进行通用强化学习,而无需依赖特定领域的标注答案。
通过激励模型进行下一个token的推理,RPT显著提升了预测下一个token的语言建模准确性。此外,RPT为后续的强化微调提供了一个强大的预训练基础。
scaling曲线表明,随着训练计算量的增加,下一个token预测的准确性持续提升。这些结果表明,RPT是一种有效且有前景的scaling范式,能够推动语言模型预训练的发展。
不过,由于论文提出的方法比较新,社区对该方法的有效性、效率、前景等还有所疑问。
接下来,我们看文章内容。
论文概览
论文标题:ReinforcementPre-Training
论文链接:https ://www. arxiv.org/pdf/2506. 08007
大语言模型(LLMs)通过在海量文本语料库上采用可扩展的对下一个token的预测,展现出跨多种任务的卓越能力。这种自监督范式已被证明是一种高效的通用预训练方法。
与此同时,RL已成为微调大语言模型的关键技术,既能让LLM符合人类偏好,又能提升诸如复杂推理等特定技能。
然而,目前RL在LLM训练中的应用面临着可扩展性和通用性方面的挑战。
一方面,基于人类反馈的强化学习虽然在对齐方面有效,但依赖于昂贵的人类偏好数据,而且其学习到的奖励模型容易受到rewardhacking攻击,从而限制了其可扩展性。
另一方面,可验证奖励的强化学习(RLVR)利用客观的、基于规则的奖励,这些奖励通常来自问答对。虽然这可以缓解rewardhacking攻击,但RLVR通常受限于数据的稀缺性,不能用于通用预训练。
本文提出了强化预训练(ReinforcementPre-Training,RPT)这一新范式,旨在弥合可扩展的自监督预训练与强化学习能力之间的鸿沟。
RPT将传统的对next-token的预测任务重构为对next-token的推理过程:对于预训练语料中的任意上下文,模型需在预测前对后续Token进行推理,并通过与语料真实的next-token比对获得可验证的内在奖励。
该方法无需外部标注或领域特定奖励函数,即可将传统用于next-token预测的海量无标注文本数据,转化为适用于通用强化学习的大规模训练资源。
这种方法提供了几个关键的优点。
首先,RPT具有固有的可扩展性和通用性:该方法充分利用了传统next-token预测所使用的海量无标注文本数据,无需任何外部标注,即可将其转化为适用于通用强化学习的大规模训练数据集。
其次,使用直接的、基于规则的奖励信号本质上可以最大限度地降低rewardhacking风险。
第三,通过明确奖励next-token推理范式,让模型能够进行更深入的理解和泛化,而不仅仅是记住下一个Token。
最后,预训练期间的内部推理过程允许模型为每个预测步骤分配更多的思考(计算资源),这类似于将推理时间扩展能力提前应用到训练过程中,从而直接提升下一Token预测的准确性。
强化预训练(RPT)详解
Next-Token预测与Next-Token推理对比如下。
在Next-Token推理范式下,长思维链可以包含各种推理模式,例如自我批评和自我修正。
Next-Token推理将预训练语料库重构为一系列庞大的推理问题,使预训练不再局限于学习表面的Token级关联,而是理解其背后的隐藏知识。
RPT通过on-policy强化学习的方式训练大语言模型执行next-token推理任务,如图3所示。
对于给定的上下文,提示语言模型生成G个响应(思维轨迹)。每个响应由一系列思维推理序列和最终预测序列组成。
此外,为了验证的正确性,本文还引入了前缀匹配奖励(prefixmatchingreward)。
对于的第i个输出的奖励定义为:
实验设置。本文使用OmniMATH数据集进行强化预训练,其包含4,428道竞赛级数学题目及答案。实验基础模型为Deepseek-R1-Distill-Qwen-14B。
实验结果
语言建模能力
表1显示了RPT方法和基线方法在不同难度级别测试集上的下一个token预测准确性。结果显示,RPT在与标准下一个token预测基线和基于推理的预测基线对比时均表现更优。
具体来说,与R1-Distill-Qwen-14B相比,RPT-14B在所有难度级别上都具有更高的下一个token预测准确率。
值得注意的是,它的性能与一个更大的模型的性能相媲美,即R1-Distill-Qwen-32B(图4)。这些结果表明,强化预训练在捕获token生成背后的复杂推理信号方面是有效的,并且在提高LLM的语言建模能力方面具有强大的潜力。
强化预训练的scaling特性
如图5所示,RPT的下一个token预测准确率随着训练计算的扩大而可靠地提高。所有难度级别的高R2值表明拟合曲线准确地捕捉了性能趋势。
在RPT基础上进行强化微调
如表2所示,经过强化预训练的模型在进一步使用RLVR进行训练时能够达到更高的性能上限。当模型持续使用下一个token预测目标在相同数据上进行训练时,其推理能力显著下降。随后的RLVR训练仅能带来缓慢的性能提升。这些结果表明,在数据有限的情况下,强化预训练能够快速将从下一个token推理中学到的强化推理模式迁移到下游任务中。
零样本性能
Next-Token推理模式分析
如图6所示,RPT-14B的next-token推理过程与R1-Distill-Qwen-14B的问题解决过程明显不同。表明next-token推理引发的推理过程与结构化问题解决存在质的差异。
最后,本文还在表4中提供了一个推理模式的示例。他们表明,RPT-14B参与的是深思熟虑的过程,而非简单的模式匹配。
©THEEND
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin. com