仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
论文题目:RewardReasoningModels
论文地址:https ://arxiv. org/pdf/2505. 14674
代码地址:https ://thegenerality. com/agi/
与传统奖励模型直接输出标量分数不同,RRMs在生成最终奖励前会先进行逐步推理,通过链式思考(chain-of-thought)过程,使模型能够更深入地理解问题和回答的内容,从而提高奖励判断的准确性。
该框架能够在基于规则的奖励环境中,鼓励RRMs自我进化奖励推理能力,而无需依赖显式的推理轨迹作为训练数据,降低了数据准备的难度和成本。
为适应不同的实际应用场景,文中引入了ELO评分系统和淘汰赛两种多回应奖励策略,使RRMs可以灵活地处理一个查询的多个候选回应,既可用于生成完整的评分,也可用于确定最佳回应。
本文主要研究方法是提出奖励推理模型(RRMs),其核心在于将奖励建模视为一个推理任务,让模型在生成最终奖励前先进行链式思考推理过程,以提高奖励估计的准确性。具体而言,RRMs接受包含查询和两个对应回应的输入,根据系统提示对两个回应进行多方面评估,通过逐步推理输出最终决策。
本图展示了在MMLU-Pro、MATH和GPQA子集上,各种奖励模型的平均准确率对比。RRM在不同模型大小下均优于之前的奖励模型,并且在未标记数据上使用RRM作为奖励模型进行强化学习,也能显著提升GPQA的准确率,这表明RRM在多领域奖励建模基准测试中具有优越性能。
本图a展示了标量奖励模型的输入输出形式,直接输出一个标量奖励值;图b展示了生成式奖励模型的输入输出形式,除了输出奖励值外,还会生成带有解释的奖励反馈;图c展示了RRMs的输入输出形式,其输入是查询和对应的两个回应,输出是经过链式思考推理过程后,对两个回应的判断及最终决策。
本图横坐标是强化学习训练步骤,纵坐标是GPQA的准确率。随着训练步骤的增加,GPQA的准确率稳步提升,这表明即使在没有真实答案的情况下,使用RRM作为奖励模型的强化学习也能有效地提高模型的性能。
本表总结了RRMs在与其他基线模型对比下的性能表现。总体来看,RRMs在多个领域中表现出色,特别是在推理领域,其中RRM-32B的准确率达到了98. 6%。与直接生成判断的DirectJudge模型相比,RRMs的性能明显更好,这说明RRMs通过在测试时进行推理能够有效提升模型表现。此外,RRMs在与大规模模型如GPT-4和Claude3. 5Sonnet的对比中也显示出竞争力。总体而言,RRMs能够有效地产生与人类偏好一致的奖励信号,这表明将推理过程纳入奖励模型的设计中是一种有效的方法。
–END–
最后对大模型创新感兴趣的可公众号后台私信‘加群’或者扫描下方👇二维码进入大模型交流群!
关注“学姐带你玩AI”公众号,回复“2025大模型”
领取2025大模型创新方案合集+开源代码
往期推荐:
如何给大模型喂时序数据?基于LLMs的时间序列预测5大方法汇总
强化学习+大模型轻松发顶会!不要光想着LLM,OpenAIo1这样做才是对的
时间序列+预训练大模型!最新开源成果性能暴涨42. 8%
结合创新!高性能小模型+热门大模型=王炸,8种策略教你拿下顶会顶刊!
完美融合!LLM大模型x知识图谱2024最新SOTA!(附代码)
ACCEPT
据说点赞的都Accept了!