微软提出Reward Reasoning Model

发布日期: 2025-07-01

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

论文题目：RewardReasoningModels
论文地址：https ://arxiv. org/pdf/2505. 14674
代码地址：https ://thegenerality. com/agi/
与传统奖励模型直接输出标量分数不同，RRMs在生成最终奖励前会先进行逐步推理，通过链式思考（chain-of-thought）过程，使模型能够更深入地理解问题和回答的内容，从而提高奖励判断的准确性。
该框架能够在基于规则的奖励环境中，鼓励RRMs自我进化奖励推理能力，而无需依赖显式的推理轨迹作为训练数据，降低了数据准备的难度和成本。
为适应不同的实际应用场景，文中引入了ELO评分系统和淘汰赛两种多回应奖励策略，使RRMs可以灵活地处理一个查询的多个候选回应，既可用于生成完整的评分，也可用于确定最佳回应。
本文主要研究方法是提出奖励推理模型（RRMs），其核心在于将奖励建模视为一个推理任务，让模型在生成最终奖励前先进行链式思考推理过程，以提高奖励估计的准确性。具体而言，RRMs接受包含查询和两个对应回应的输入，根据系统提示对两个回应进行多方面评估，通过逐步推理输出最终决策。
本图展示了在MMLU-Pro、MATH和GPQA子集上，各种奖励模型的平均准确率对比。RRM在不同模型大小下均优于之前的奖励模型，并且在未标记数据上使用RRM作为奖励模型进行强化学习，也能显著提升GPQA的准确率，这表明RRM在多领域奖励建模基准测试中具有优越性能。
本图a展示了标量奖励模型的输入输出形式，直接输出一个标量奖励值；图b展示了生成式奖励模型的输入输出形式，除了输出奖励值外，还会生成带有解释的奖励反馈；图c展示了RRMs的输入输出形式，其输入是查询和对应的两个回应，输出是经过链式思考推理过程后，对两个回应的判断及最终决策。
本图横坐标是强化学习训练步骤，纵坐标是GPQA的准确率。随着训练步骤的增加，GPQA的准确率稳步提升，这表明即使在没有真实答案的情况下，使用RRM作为奖励模型的强化学习也能有效地提高模型的性能。
本表总结了RRMs在与其他基线模型对比下的性能表现。总体来看，RRMs在多个领域中表现出色，特别是在推理领域，其中RRM-32B的准确率达到了98. 6%。与直接生成判断的DirectJudge模型相比，RRMs的性能明显更好，这说明RRMs通过在测试时进行推理能够有效提升模型表现。此外，RRMs在与大规模模型如GPT-4和Claude3. 5Sonnet的对比中也显示出竞争力。总体而言，RRMs能够有效地产生与人类偏好一致的奖励信号，这表明将推理过程纳入奖励模型的设计中是一种有效的方法。
–END–
最后对大模型创新感兴趣的可公众号后台私信‘加群’或者扫描下方👇二维码进入大模型交流群！
关注“学姐带你玩AI”公众号，回复“2025大模型”
领取2025大模型创新方案合集+开源代码
往期推荐:
如何给大模型喂时序数据？基于LLMs的时间序列预测5大方法汇总
强化学习+大模型轻松发顶会！不要光想着LLM，OpenAIo1这样做才是对的
时间序列+预训练大模型！最新开源成果性能暴涨42. 8%
结合创新！高性能小模型+热门大模型=王炸，8种策略教你拿下顶会顶刊！
完美融合！LLM大模型x知识图谱2024最新SOTA！(附代码)
ACCEPT
据说点赞的都Accept了！