奖励模型迎来预训练新时代!上海AI Lab和复旦联合重塑RL奖励机制
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
大型语言模型(LLM)的精调常依赖强化学习人类反馈(RLHF),其效果核心在于奖励模型(RM)能否提供精准的反馈信号。传统RM面临两大瓶颈:
数据依赖:需海量人工标注的偏好对(如\“A回复优于B\“),成本高昂且难以扩展;
泛化脆弱:基于绝对偏好训练的RM易出现\“奖励破解\“(RewardHacking),即模型钻规则漏洞刷高分,却未真正对齐目标。
论文:Pre-TrainedPolicyDiscriminatorsareGeneralRewardModels
链接:https ://arxiv. org/pdf/2507. 05197
本文提出POLAR(POLicyDiscriminAtiveLeaRning),颠覆性地将RM重构为策略判别器——通过量化策略间的差异而非绝对偏好生成奖励。例如:
若目标策略是\“严谨的数学家\“,RM会为接近该风格的答案(如分步推导)赋予高奖励,而非死记\“3>2\“的规则。
这种范式突破使POLAR仅需1. 8B7B参数量,便在STEM任务准确率上超越72B的SOTA模型(81. 0%vs. 54.8%),为奖励建模开辟了新方向。1B参数)验证:
论文揭示RL优化目标隐含的本质:
核心思想:最优策略由初始策略通过奖励调整而来,奖励实际编码了两者策略分布的差异。
关键推论:奖励函数可表示为KL散度的缩放形式:
物理意义:奖励大小反映当前策略与目标策略的\“行为距离\“,距离越小奖励越高。
POLAR从多样化的策略池(131个基础LLM+53个对话LLM)采样轨迹构建数据集。其训练目标使用对比损失(Bradley-Terry):
:同策略生成的相似轨迹(正样本对);
:不同策略生成的轨迹(负样本);目标:使RM学会为相同策略的轨迹对赋予更高奖励,从而隐式建模策略分布差异。
预训练后的RM能度量策略差异,但需对齐人类标准。微调阶段:
输入构造:对同一提示生成三条候选轨迹,人工标注排序;
损失函数:
关键设计:人类排序隐含定义\“虚拟策略差异\“(如代表理想策略),使RM将策略差异判别能力迁移到人类偏好。
输入格式:提示+参考轨迹提示+候选轨迹;
训练规模:POLAR-7B使用3. 6Ttoken,912张H800GPU训练175小时。
在RMB基准(3,162个问题)上,POLAR-7B对比SOTA模型:
STEM
54. 8%
81. 0%
创意写作
57. 9%
85. 5%
整体平均
70. 8%
76. 3%
在20个基准测试中,POLAR驱动的强化微调(RFT)显著提升模型性能:
LLaMa3. 1-8B
47. 36%
56. 33%
Qwen2. 5-32B
64. 49%
70. 47%
训练不同规模POLAR模型(50M
损失与参数量:()
损失与计算量:()
脱离人工标注:通过策略差异的自监督信号替代偏好对,数据成本降低90%+;
根治奖励破解:度量相对差异使RM更鲁棒,避免模型过拟合绝对偏好规则。
提供明确优化锚点:传统RM需隐式猜测\“好答案\“标准,POLAR通过参考轨迹显式定义目标策略(如人类示范或GPT-4生成结果);
消融实验证明():
无参考轨迹时(w/oPT&Ref),模型性能平均下降5%;
即使无预训练(w/oPT),参考轨迹仍能提升3%。
泛化性
数据依赖
传统RM(如WorldPM-72B)
绝对偏好标注
弱
极高
规则验证器(如代码测试)
预设规则
极窄
中
POLAR通过重构奖励模型=策略判别器,开创了奖励建模的新范式:
方法创新:无监督预训练捕获策略差异+轻量微调对齐人类偏好;
性能跃迁:7B模型在STEM任务准确率超72B基线26%,RLHF显著提升主流LLM性能;
理论价值:揭示奖励函数与策略差异的数学等价性,并验证缩放定律的普适性。
这项工作不仅为RLHF提供了高效可靠的奖励生成工具,更启示了一条通向通用奖励模型的可行路径——让AI学会\“辨别好坏\“的本质,而非记忆人类规则。