奖励模型终于迎来预训练新时代!上海AI Lab、复旦POLAR,开启Scaling新范式


奖励模型终于迎来预训练新时代!上海AI Lab、复旦POLAR,开启Scaling新范式

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

机器之心发布
机器之心编辑部
在大语言模型后训练阶段,强化学习已成为提升模型能力、对齐人类偏好,并有望迈向AGI的核心方法。然而,奖励模型的设计与训练始终是制约后训练效果的关键瓶颈。
目前,主流的奖励建模方法包括“基于偏好的奖励建模”(Preference-basedRewardModeling)和“基于规则的验证”(Rule-basedVerifier)两种方法。
其中,“基于偏好的奖励建模”一般利用标注的偏好对数据来训练奖励模型,这种方法存在着诸多局限。首先,高质量偏好数据的获取成本极高,难以大规模扩展;其次,这种基于“主观绝对偏好”的奖励建模面对新任务时表现不佳,泛化能力有限,极易受到“奖励黑客”(RewardHacking)的影响。这些问题严重制约了奖励模型在大模型后训练阶段的实际落地。
随着DeepseekR1等推理模型的成功,“基于规则的验证”强化学习方法(RLVR)迎来了广泛应用。RLVR会依赖给定问题的标准答案或预期行为给出奖励,从而保证了奖励信号的准确性。因此,RLVR尤其适用于数学推理、代码生成等具有明确评价标准的“可验证”任务。然而,在真实世界中,大量任务难以用规则简单验证,如开放域对话、写作、复杂交互等。这导致基于规则的验证方法难以扩展到更通用的场景。
基于偏好的奖励建模难以扩展和泛化,基于规则的验证难以满足通用场景的需求。那么,究竟什么才是扩展方便、泛化性强、场景通吃的奖励建模方案呢?
图一:传统的奖励模型和基于规则的验证器
回顾大模型(LLM)的成功之路,是利用NextTokenPrediction的形式统一了所有任务,解决了任务形式不同导致无法泛化的难题。而奖励模型(RM)的设计仍然在重蹈传统方案的老路,即为特定场景标注偏好数据,训特定场景的RM。因此,是否可以仿照LLM的成功之路,重新设计RM的训练范式呢?消除RM的“打分标准”,就像消除LLM的“任务形式”一样,找到一个脱离于“打分标准”之外的更本质的优化目标函数来进行预训练,从而达到真正的通用性。
近期,上海人工智能实验室邹易澄团队联合复旦大学桂韬团队推出了预训练奖励模型POLAR,找到了一种与绝对偏好解耦的、可以真正高效扩展的奖励建模新范式:策略判别学习(PolicyDiscriminativeLearning,POLAR),使奖励模型能够像大语言模型一样,具备可扩展性和强泛化能力。POLAR为大模型后训练带来突破性进展,有望打通RL链路扩展的最后一环。
论文链接:https ://arxiv. org/pdf/2507. 05197
项目链接:https ://github. com/InternLM/POLAR
模型链接:https ://huggingface. co/internlm/POLAR-7B
POLAR是什么?——与绝对偏好解耦的策略判别学习
在强化学习中,策略优化实际上是一个不断调整策略分布、使其逐步接近最优策略分布的过程。因此,当前的候选策略与最优策略之间的“距离”可以被视为一种潜在的奖励信号:当候选策略越接近最优策略时,奖励函数应当给予越高的奖励,从而引导策略进一步向最优方向收敛。
通过衡量候选策略与目标最优策略之间的“距离”,我们可以建立一种不依赖于人类绝对偏好的奖励建模方式,使奖励模型摆脱“绝对的好坏”,而是为更接近目标策略的候选策略赋予更高的奖励分数。由于“距离”是一种相对性的概念,因此目标策略可任意指定,从而摆脱了对偏好数据人工标注的依赖,具有极强的可扩展潜力。具体而言,POLAR利用从候选策略采样的轨迹(trajectories)来近似候选策略的分布;同时,以参考轨迹(demonstrations)来近似最优策略分布。通过衡量轨迹之间的差异来近似衡量策略分布之间的距离。
对于“距离度量”,经典的方案有“对比学习”(ContrastiveLearning),通过构造正负样本来训练模型(如CLIP)。POLAR就是一种利用对比学习来建模策略分布之间“距离”的训练方案。至此,还剩下一个最关键的问题:正负例如何定义?
不论是候选策略的采样轨迹,还是代表最优策略的参考轨迹,直接用来近似策略分布都会造成一定的偏差,因此我们不能单纯基于单个轨迹来衡量两者的样本相似性。例如,在数学场景中,如果候选策略输出的答案与参考相同,可以说明此策略质量较高;但是,在写作等多样性较高的场景中,如果候选策略每次输出的都与标准答案相同,反而说明此策略质量不好。因此,“轨迹是否相似”无法成为无偏的判断标准。
对此,POLAR采用了另一种方案:同一个策略生成的轨迹作为正例,不同策略生成的轨迹作为负例。这一判断标准虽然有一些反直觉,但它是一种真正无偏的信号,和对抗生成网络(GAN)中判断是否是真实样本类似。我们可以把策略模型看作是某个分布的无偏采样器,虽然单次采样可能会产生正负例相反的噪声,但是当采样规模增大,大规模扩展数据时,分布间的差异和距离会被刻画得越来越精确。
如图二所示,POLAR的预训练阶段采用上述对比学习方案进行大规模扩展。由同一个模型输出的一对样本作为正例,由不同模型输出的样本作为负例,从而让奖励模型学会区分策略分布,而非建模人类的绝对偏好。这一阶段无需任何的人类偏好数据。在第二阶段的SFT微调中,才引入少量的偏好数据对齐到人类偏好。
图二:策略判别学习(PolicyDiscriminativeLearning)
POLAR如何训练?——预训练和偏好微调
POLAR的预训练语料完全通过自动化合成数据构建。具体而言,从LLM预训练语料中采样出大量的文本前缀,并从策略模型池(由开源的131个BaseLLM和53个ChatLLM组成)中随机取模型进行轨迹采样。预训练目标使用Bradley-TerryLoss:
其中,A1和A2代表相同策略模型生成的轨迹(正样本对);B1代表不同策略模型生成的轨迹(负样本)。通过这种方式,POLAR使RM学会为相近策略产生的轨迹赋予更高奖励,从而隐式建模策略分布的差异和距离。在这一阶段,POLAR-1. 8B共使用了0.94TToken的预训练数据,POLAR-7B共使用了3. 6TToken的预训练数据。
在微调阶段,POLAR使用少量的偏好数据对齐人类偏好。对于同一个Prompt,采样三条轨迹,由人工标注偏好顺序。同样使用Bradley-TerryLoss进行微调:
其中,A>B>C,分别代表偏好最优、次优、最差的轨迹。这种偏好排序隐式定义了一种“策略差异”,例如A可以视为从最佳策略分布中采样得到,而C可以视为从一个与最佳策略相差较远的策略分布中采样得到。
图三:POLAR的两阶段训练(预训练和偏好微调)以及在RFT中的使用方法
POLAR如何使用?——对强化微调的完美适配
强化微调(ReinforcementFine-tuning,RFT)是POLAR的最佳使用场景。
传统的奖励模型建模的是绝对偏好,无法根据参考来打分,难以应用于领域外(Out-of-Domain)场景。RLVR虽然可以根据参考答案和规则对模型输出进行正确与否的判断,但难以扩展到通用任务。
POLAR完美适配RFT强化学习框架,基于问题的参考答案对模型输出进行打分。如果模型输出与参考答案更为接近,则会获得更高的奖励值。通过这一训练过程,可以使得候选策略逐步向最优策略偏移。
POLAR效果如何?——性能和泛化的双重保证
1. 样例展示:闭式问题和开放问题全搞定
以下分别展示了在闭式问题和开放问题下,POLAR-7B的打分效果,以分数从高到低呈现。测试例充分考虑了各种陷阱,以及轨迹之间的细微差别,考验其在边界情况下的打分准确性。
闭式问题:
问题:单词“strawberry”中有几个“r”?
参考答案:单词“strawberry”中包含3个字母“r”。我们可以逐字母数一下:“s”、“t”、“r”、“a”、“w”、“b”、“e”、“r”、“r”、“y”。因此,答案是3。
轨迹一(与参考完全一致):单词“strawberry”中包含3个字母“r”。我们可以逐字母数一下:“s”、“t”、“r”、“a”、“w”、“b”、“e”、“r”、“r”、“y”。因此,答案是3。
分数:-1. 5380859375

分数:-2. 767578125
轨迹三(答案正确,无思路):单词“strawberry”中有3个“r”
分数:-7. 45703125

分数:-7. 6328125

分数:-8. 65625

分数:-9. 2890625
轨迹七(答案错误,无思路):单词“strawberry”中有2个“r”
分数:-11. 921875
开放问题
问题:帮我想3个形容雨很大的成语,要求不能重复。
参考答案:1. 倾盆大雨2.暴雨如注3. 瓢泼大雨
轨迹一(与参考完全一致):1. 倾盆大雨2.暴雨如注3. 瓢泼大雨
分数:-1. 4267578125
轨迹二(正确回答):1. 大雨滂沱2.狂风骤雨3. 大雨如注
分数:-5. 234375
轨迹三(与参考相似,多一个):1. 倾盆大雨2.暴雨如注3. 瓢泼大雨4.大雨滂沱
分数:-5. 6328125
轨迹四(非成语):1. 急雨如瀑2.豪雨倾天3. 雨势磅礴
分数:-5. 70703125
轨迹五(与参考相似,少一个):1. 倾盆大雨2.暴雨如注
分数:-6. 609375
轨迹六(与参考相似,重复一个):1. 倾盆大雨2.暴雨如注3. 暴雨如注
分数:-6. 65625
轨迹七(成语正确,少一个):1. 大雨滂沱2.狂风骤雨
分数:-6. 83203125
轨迹八(成语正确,多一个):1. 大雨滂沱2.狂风骤雨3. 大雨如注4.倾盆大雨
分数:-7. 0234375
轨迹九(成语正确,重复一个):1. 大雨滂沱2.狂风骤雨3. 狂风骤雨
分数:-7. 234375
轨迹十(带雨字成语,一个含义不符):1. 大雨滂沱2.狂风骤雨3. 雨后春笋
分数:-7. 26953125
轨迹十一(带雨字成语,两个含义不符):1. 大雨滂沱2.雨过天晴3. 雨后春笋
分数:-8. 578125
2. 偏好评估:准确率跃升
图四:偏好评估实验结果
在偏好评估方面,POLAR展现出优越的性能和全面性,在大多数任务维度上优于SOTA奖励模型。例如,在STEM任务中,POLAR-1. 8B和POLAR-7B分别超越了最佳基线24. 9和26.2个百分点,并且能够准确识别推理、聊天、创意写作等通用任务中轨迹的细微区别,准确预测人类偏好。值得注意的是,POLAR-1. 8B仅有1.8B参数,就可取得与Skywork-Reward-27B和WorldPM-72B-UltraFeedback(参数量分别为其15倍和40倍)相当的结果,凸显了POLAR的强大潜力。
3. RFT应用:全面增强LLM能力
图五:强化微调实验结果
在RFT实验中,POLAR持续优于SOTA的开源奖励模型。例如,使用POLAR-7B微调的Llama-3. 1-8B在所有基准测试中,相对于初始结果平均提升了9. 0%,相对于WorldPM-72B-UltraFeedback优化的结果提升了6. 7%。POLAR能够从预训练阶段学习策略模型之间的细微区别,而不仅仅依赖于标注的偏好对,从而显著增强了实际RL应用时的奖励信号泛化性。实验结果表明,尽管POLAR-1. 8B和POLAR-7B在偏好评估中表现相似,但在下游RL实验中,POLAR-7B展现出了显著优势。从1. 8B到7B的效果提升,进一步说明了POLAR所具有的Scaling效应。这也侧面说明了当前传统RewardBench可能存在的局限性,即与真实强化学习场景存在较大的差别。
4. Scaling效应
图六:POLAR的ScalingLaws
POLAR展现出了与LLMNextTokenPrediction目标类似的ScalingLaws。这进一步体现了POLAR无监督预训练方法的巨大潜力。验证集损失随模型参数N的增加呈幂律关系下降,拟合的幂律函数为L=0. 9⋅N^−0. 0425,R2值为0. 9886。验证集损失也随最优训练计算量C的增加呈幂律关系下降,拟合的幂律函数为L=2. 4⋅C^−0. 0342,R2值为0. 9912。这些结果表明,分配更多的计算资源将持续带来更好的RM性能。POLAR的极佳Scaling效应,体现了其用于构建更通用和更强大的奖励模型的巨大潜力。
结语
POLAR在预训练阶段通过对比学习建模策略间的距离,仅需少量偏好样本就可对齐人类偏好。在使用阶段,POLAR利用RFT范式对LLM进行强化学习,展现出了极佳的泛化性。POLAR作为一种全新的、可扩展的奖励模型预训练方法,为LLM后训练带来了新的可能,让通用RFT多了一种有效实践方案。有望打通RL链路Scaling的最后一环。
©THEEND
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin. com


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录