仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
点击上方“小白学视觉”,选择加\“星标\“或“置顶”
重磅干货,第一时间送达
团队:南大周志华团队,来源:机器之心
将大语言模型(LLMs)与复杂的人类价值观对齐,仍然是AI面临的一个核心挑战。当前主要的方法是基于人类反馈的强化学习(RLHF)。该流程依赖于一个通过人类偏好训练的奖励模型来对模型输出进行评分,最终对齐后的LLM的质量在根本上取决于该奖励模型的质量。
因此,创建一个先进的奖励模型需要建立庞大且高质量的人类偏好数据集,而这一过程通常既缓慢、昂贵,又难以扩展。
这种对人类标注数据的依赖促使研究者探索其他对齐方法。一个重要的研究方向是基于AI反馈的强化学习(RLAIF)。该方法利用强大的专有大语言模型生成奖励信号或偏好标签,从而规避人类标注需求。虽然成本效益显著,但这些方法缺乏严谨的理论基础,且容易继承评判模型本身的风格偏差与固有偏见。这引发了一个关键问题:高质量奖励信号是否必须依赖外部来源?
来自南京大学的研究者发现,一个强大的通用奖励模型并非需要构建,而是可以挖掘出来的,因为它已经潜在地存在于通过标准的下一个Token预测训练的任何语言模型中,称之为「内源性奖励(endogenousreward)」。
本文的核心贡献是为这一观点提供严格的理论基础。本文证明了可以从标准的下一个Token预测目标中恢复出一种特定形式的离线逆强化学习(IRL)奖励函数,该目标用于预训练和监督微调(SFT)。这一见解能够超越启发式方法,并建立一种原则性的方法,来引出语言模型在训练过程中隐式学习到的奖励函数。
具体来说,本文展示了语言模型的logits可以直接解释为softQ函数,通过逆soft贝尔曼算子可以从中恢复出奖励函数。
至关重要的是,这一理论联系不仅仅提供了一种奖励提取的方法。本文还证明了,使用模型自身的内源性奖励进行微调可以使策略在误差界限上优于基线模型。强化学习过程有效地修正了标准模仿学习(即下一个Token预测)中的累积误差,将性能差距从任务视野的二次依赖关系O(H²)降低到优越的线性关系O(H)。
据了解,这是首次理论证明强化学习在LLM中的有效性。广泛实验验证了这一理论,表明这种内源性奖励不仅优于现有的LLM-as-a-judge方法,而且可以超越那些通过昂贵的人类标注数据显式训练的奖励模型的表现。
论文标题:GENERALISTREWARDMODELS:FOUNDINSIDELARGELANGUAGEMODELS
论文链接:https ://arxiv. org/pdf/2506. 23235
这篇论文提出了解决LLM的对齐问题,通过利用模型内部的奖励机制,而不是依赖外部的人类反馈,这可能会改变未来LLMs的开发和应用方式。
本文在实验中旨在评估以下核心问题:
Q1:在与启发式基线方法和显式训练的最新奖励模型对比时,免训练内源性奖励模型(EndoRM)在常见奖励模型基准测试中的表现如何?
Q2:内源性奖励是否具备强大的指令遵循能力,能否作为可通过提示词调用的通用奖励模型?
Q3:基于内源性奖励的强化学习能否产生更优策略,实现理论预测的自我改进效果?
多样偏好对上的奖励准确率(Q1)
为回答Q1,本研究通过预测RM-Bench中被选中的回复来评估奖励模型性能。更高的准确率意味着奖励质量更优。
由于本评估的方法无需训练,因此本评估将其与其他无需训练的方法进行对比:生成式验证器(GenerativeVerifier)、GenRM-Pairwise和GenRM-Pointwise。
所有基线方法及本评估的EndoRM均采用Qwen2. 5-7B-Instruct作为基础模型以确保公平比较。此外,本评估还列出了四个显式训练的高性能奖励模型的结果作为参考。
表1中的结果显示,EndoRM不仅显著优于所有使用相同基础模型的无需训练基线方法,还以更高的平均得分超越了最先进的显式训练奖励模型。
这一发现表明,EndoRM相比依赖高成本偏好数据筛选和训练的奖励模型更具有效性。
图1中进一步展示了Multifaceted-Bench的实验结果,从中可以观察到EndoRM在五个领域上始终优于所有基线方法。考虑到Multifaceted-Bench中可能包含数以千计的偏好对,这一结果证明了即使在任务复杂度和偏好多样性增加的情况下,EndoRM仍能实现可扩展的鲁棒性。
这一发现进一步验证了本评估的核心假设:强大的奖励信号已潜在存在于基础模型之中。
验证指令遵循能力(Q2)
一个关键论点是内源性奖励并非静态的,而是可以通过提示来引导。
为验证这一点,本文使用了DSP数据集,该数据集包含四个不同的领域。本评估通过将DSP论文中相应的系统提示作为输入,创建了四个特定领域的版本的内源性奖励。
然后,本评估测试每个特定领域的内源性奖励在所有四个测试集上的响应分类准确率。
表2中的结果显示出强烈的对角模式:每个EndoRM在其自身领域上表现最佳。例如,EndoRM-Academy在学术数据上达到了其最高准确率(76. 89%)。
这证实了内源性奖励不是一个固定的评估器,而是一个动态的、可提示的评判器,继承了基础大型语言模型强大的指令遵循能力。
通过强化学习实现自我提升(Q3)
最后,本评估测试了定理2中的核心理论主张:带有内源性奖励的强化学习可以通过减轻复合误差来改进基础策略。
本评估在MATH-lighteval数据集上通过强化学习对基础模型Qwen2. 5-Math-7B进行训练。内源性奖励模型同样是Qwen2. 5-Math-7B,在策略学习期间其参数保持固定。提示和响应的最大长度均设为1024,KL系数设为0. 01。
表3中的结果表明,带有内源性奖励的强化学习微调有助于模型在所有五个基准测试中一致地优于基础模型。
本评估还在附录E中给出了模型在强化学习前后的响应示例,从中可以看出,对于同一个问题,在基于内源性奖励进行优化之前,模型无法解决问题,并且随着响应的进行开始胡言乱语,甚至输出Python代码。
相比之下,本评估的方法提供了一个清晰简洁的解决方案。
了解更多内容,请参考原论文。
下载1:OpenCV-Contrib扩展模块中文版教程
在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。
下载2:Python视觉实战项目52讲
在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。
下载3:OpenCV实战项目20讲
在「小白学视觉」公众号后台回复:OpenCV实战项目20讲,即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。
交流群
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三+上海交大+视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~