仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
大型语言模型(LLM)的对齐(Alignment)是让模型行为符合人类价值观的关键技术。传统主流方法RLHF依赖人工标注偏好数据训练奖励模型(RM),成本高昂且难以扩展。虽然RLAIF等方案尝试用AI反馈替代人工,但这些方法缺乏理论根基且易受评判模型偏见影响。本文突破性地发现:任何通过Next-token预测训练的LLM内部,已隐含一个通用奖励模型。团队不仅从理论上证明该内生奖励(EndogenousReward)与逆强化学习的等价性,更揭示其用于RL微调可显著降低策略误差。实验表明,这种零训练成本的方法在多个基准上超越人工训练的RM,为模型对齐提供了高效、可扩展的新范式。以下逐部分深入解析。
论文:GeneralistRewardModels:FoundInsideLargeLanguageModels
链接:https ://arxiv. org/pdf/2506. 23235
传统RLHF瓶颈:
数据成本:训练优质RM需海量人工偏好数据(例如ChatGPT的万人标注),标注过程缓慢昂贵。
脆弱性:RM质量直接决定对齐效果,但标注噪声和主观性会导致奖励黑客(RewardHacking)。
现有替代方案的缺陷:
RLAIF/LLM-as-a-judge:用大模型(如GPT-4)生成偏好数据或奖励。虽降低成本,但本质是启发式方法:①依赖“教师模型”的未验证假设;②会继承教师模型的风格偏见;③缺乏理论保障。
核心问题:
“是否必须依赖外部奖励信号?能否从模型内部挖掘高质量奖励?”本文首次给出肯定答案:预训练模型通过Next-token预测已隐式学习了一个通用奖励函数。
语言生成的MDP建模(关键概念解释)
状态():当前已生成的文本序列(如\“巴黎是法国的__\“)
动作():从词表中选择下一个词(如\“首都\“)
奖励():未定义的传统RLHF需人工标注
策略():LLM根据当前状态预测动作(即Next-token概率)
核心定理:Next-token预测≡逆强化学习
标准训练目标:最大化观测数据的对数似然
本质是行为克隆(ImitationLearning),模仿专家数据分布。
逆强化学习目标:
通过优化Q函数解释专家行为,再推导奖励。
命题1的突破性:
当LLM通过公式1训练至最优时,其logits函数正是公式6的最优解。物理意义:模型的输出logits可直接视为熵正则化的Q函数(评估状态-动作值),彻底统一生成与评估能力。
内生奖励的提取(公式10-11)
即时奖励价值差
核心性质:
奖励塑形(RewardShaping):与原始对数概率共享最优策略。
结果奖励(公式12):完整响应的奖励常量,体现数据分布偏好。
覆盖现有方法:如GenerativeVerifier(判断\“Yes\“概率)是本文方法的特例。
两步实现自对齐:
奖励提取(零成本):
输入:预训练或SFT模型
输出:按公式10计算每个token的奖励
强化学习优化:
目标函数(类比公式4):
关键优势:避免模仿学习的误差传播(详见定理2)
自我改进的局限性:
定理证明:首次RL优化显著提升策略,但再次提取内生奖励会收敛(因策略对奖励已最优)。
启示:内生奖励的优化是单次有效过程,需与外部数据迭代更新。
定理1:偏好预测可靠性
结论:若LLM策略接近专家策略(对数概率误差小),则内生奖励的偏好预测接近真实偏好。
误差界:(:生成长度,:熵正则系数)
意义:模型自身评估能力决定奖励质量。
定理2:RL优化的本质优势
模仿学习(行为克隆):
误差随长度二次方增长(因错误累积,如写作时开头偏题导致全文无效)。
内生奖励+RL:
误差仅线性增长(RL学习奖励函数,避免逐级模仿)。
革新性:首次从理论上证明RL对LLM的有效性。
实验设计三大问题:
Q1:EndoRM奖励质量能否超越传统RM?
Q2:能否通过提示动态定制奖励标准?
Q3:RL优化是否实现理论预测的自我提升?
基准:RM-Bench(7类任务)、Multifacted-Bench(千级偏好)
对比方法:
训练免费方法:GenerativeVerifier,GenRM-Pairwise/Pointwise
训练式SOTARM:Skywork-Reward,Nemotron-Reward等
核心结果:
EndoRM平均准确率70. 2%,超越所有人工训练RM(最高70. 1%)。在Chat类任务达84. 7%,显著优于次优模型(71. 2%)。
方法:为不同领域(学术/商业等)添加专属系统提示
结果:
学术场景的EndoRM-Academy在学术数据准确率76. 89%,而在娱乐数据仅52. 57%。对角线优势证明奖励标准可通过提示动态调整。
任务:数学推理(MATH-lighteval)
基模型:Qwen2. 5-Math-7B
关键结果:
RL微调后模型在5大数学基准平均提升5. 8%,Minerva任务提升10. 7%。案例对比(附录E):
原始模型:对三次方程求解时错误调用代码,输出混乱。
EndoRM+RL后:通过因式分解给出简洁解。
本文揭示了语言模型的内在奖励机制,颠覆了依赖外部奖励的对齐范式。核心贡献包括:
理论奠基:证明Next-token预测隐式学习逆强化学习奖励,且该内生奖励可通过logits直接提取。
误差突破:首次证明基于内生奖励的RL使策略误差从降至,解决模仿学习的错误累积问题。
实证优势:EndoRM在多个基准超越人工训练RM,RL微调显著提升数学推理能力。
此研究预示奖励建模阶段可能退出历史舞台,代之以更高效的自我对齐。未来方向包括:开发偏见抑制技术、探索多模态内生奖励、构建个性化AI价值观引擎。这项工作不仅降低对齐成本,更让AI对齐进入动态可编程时代。