RL真让大模型更会推理?清华新研究:其能力边界或仍被基座「锁死」
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
近年来,RLVR(可验证奖励的强化学习)训练大模型在数学、代码等各项任务中表现惊艳,大模型的推理能力快速提升,强化学习因而被视为重要的推手。然而,其中直指核心的重要问题却悬而未决:强化学习真的能让大模型获得超越基础模型的新推理能力吗?
清华大学LeapLab团队联合上海交通大学开展的最新实证研究,通过实验现象揭示了一个值得关注的问题:当前的RLVR方法似乎尚未突破基座模型的能力上限。
通过数学、代码、视觉推理三大领域的系统性实验,他们发现了这一出人意料的现象——引入强化学习的模型在某些任务中的表现,竟然不如未使用强化学习的基座模型。RLVR只是将采样做得更有效率,而其输出的正确答案,早已藏在基座模型的「基因」里。
论文标题:DoesReinforcementLearningReallyIncentivizeReasoningCapacityinLLMsBeyondtheBaseModel?
论文链接:https ://arxiv.org/abs/2504.13837
展示页面:https ://limit-of-RLVR.github.io
针对给定问题,通过从基础模型和RLVR训练模型中重复采样生成搜索树。灰色表示模型不太可能采样的路径,黑色表示模型更可能采样的路径,绿色表示能获得正向奖励的正确路径。
论文的核心发现是:RLVR模型中的所有推理路径均已存在于基础模型中。
对于某些问题(如问题A),RLVR训练会偏向奖励路径的分布,从而提升采样效率;但代价是推理范围的缩减:对于其他问题(如问题B),基础模型包含正确路径,而RLVR模型却可能丢失该路径。)
这篇工作刷新了AI圈里的「普遍认知」:此前各类基于RLVR做后训练的大模型,如OpenAI的o1、DeepSeek-R1等,在各项评测中成绩显著,似乎它就能让大模型实现「自我进化」,赋予模型超越其基座模型的能力。然而,此项研究指出,RLVR的潜力并不像之前认为的那样强大——它并不能使模型解决基础模型无法解决的问题。论文一经发出,就获得国内外学者的广泛关注,发布首日即登顶HuggingFace日榜和alphaxiv榜首,在Twitter上累计接近30万次浏览,引起大量讨论。
当技术社区关注于RL带来的短期收益时,或许需要此类研究提醒我们:大模型的真正突破,永远始于对本质问题的追问。
实验设计:用pass@k揭开模型的「能力边界」
一个很重要的问题是:如何界定模型所能触及的能力边界?
传统评测聚焦单次回答准确率(pass@1)或多次回答平均准确率。然而,模型在几次采样下未能解决问题、采样更多次后最终成功解决的现象并非个例,对这种情况的忽视将会极大低估模型的真实潜力。因而,它们都不适合作为所谓「能力边界」的参照指标。
为找到更合适的指标,研究团队提出了一个更本质的问题:当允许多次尝试时,模型究竟能解决多少问题?为此,他们引入pass@k指标:若模型在k次采样中至少生成一次正确答案,则认为其具备解决该问题的能力。若RL训练真能扩展推理能力,我们应看到RL模型比基座模型解决更多此类问题。为减小直接采样计算pass@k值可能导致的高方差,他们采用无偏估计的方法,使用严格定义来确保pass@k的可靠性。
多个数学基准测试中的基础模型及其经强化学习训练的对应模型的pass@k曲线,横轴为采样次数k,纵轴为pass@k准确率
研究团队强调,使用pass@k而非大多数研究采用的多数表决(majorityvoting)——这并不会导致结果无效。他们使用pass@k并非为了衡量实际效率,而是为了探索大语言模型的推理能力边界。
所谓「能力边界」是指模型是否具有正确解决某类问题的潜质,而「效率」是在给定时间和资源成本下模型的表现,因而不能将大模型的「能力边界」和「效率」混为一谈。这项研究从未否定RL带来的「效率」上的提升,而是更深入地发起对其能力边界的探讨。
跨领域的一致性:与RL相比,基座模型表现出更广泛的覆盖能力
实验中,研究团队在三个具有代表性的领域进行实验,对比评估RLVR模型和基座模型的能力边界。在所有的实验中,都获得了以下的核心发现:
RL模型在小k时占优,然而基座模型在大k时逆袭:在数学题、代码生成和视觉推理等任务中,RL模型在pass@1上的表现显著优于基座模型。而当采样次数增至数十或数百时,在所有基准测试和LLM模型家族中,基础模型的表现会无一例外地逐渐追平强化学习训练的模型,并最终实现反超。
答案同源性:验证RL模型的正确答案均存在于基座模型的输出分布中,RL仅通过调整概率分布「筛选」高奖励路径。
数学推理
在数学推理任务中,研究团队在AIME24、AMC23、MATH500等多个基准上评估多个LLM系列(如Qwen-2.5和LLaMA-3.1)及其经过RL后训练的变体。
实验结果显示,在两大LLM系列、6个数据集的总共24个对比实验中,基础模型的能力表现均在采样次数增大后追平并反超对应的RL模型。
人工检查推理链。数学解题,存在着「蒙对」的可能。为此,研究团队人工检查了基座模型正确答案的CoT推理过程,发现对于大部分题目,基座模型在多次采样中至少存在一个CoT推理过程是正确的,从而确认了答案的得出符合逻辑而非随机蒙对。同时团队观察到,基座模型输出的CoT也能很复杂但逻辑完整,例如通过多次试错调整解题方法和方程参数,说明基座模型也有输出长CoT和自我反思的能力。
此外,团队还研究了另一款在AIME24上表现优异的RL模型Oat-zero。结果同样表明,尽管RL在初始阶段提高了准确性,但基础模型仍保持更广泛的推理覆盖能力。
代码生成
值得注意的是,生成的代码必须通过所有测试样例,几乎不可能蒙对正确答案,模型必须真正写出符合逻辑的代码才能得分。代码生成任务的实验结果同样支持前述的核心发现:RLVR强化学习模型CodeR1-Zero-Qwen2.5-7B提升了单样本pass@1得分,但在更高采样次数(k=128)时降低了覆盖范围。原始模型在更大的k值下仍展现出持续改进的潜力,而RLVR的性能则趋于稳定。
视觉推理
在视觉数学推理数据集MathVista中,RL训练后的模型在单次回答准确率上提升显著,但当k增至64次时,基座模型仍展现出更广的问题覆盖能力。RLVR在视觉推理上的改进与数学和代码基准中的表现一致,表明原始模型已涵盖广泛的可解决问题范围,即使在多模态任务中也是如此。
以上跨领域的一致性表明,与RL相比,基座模型表现出更广泛的覆盖能力。RLVR并未从根本上改变模型的问题解决方式。
深度探索:RL无法突破基座天花板
通过以上的实验,研究团队发现,强化学习提高了采样效率,但缩小了推理能力边界。
更进一步的困惑度(perplexity)分析表明,RLVR训练模型生成的推理路径本就存在于基础模型的输出分布中,这意味着RLVR只是让模型更偏向高奖励解决方案,而非创造新的推理能力。然而,这种对奖励路径的聚焦削弱了模型的探索能力,限制了其在大规模采样时对可解问题的覆盖范围。这些发现说明RLVR并未从根本上突破基础模型的推理能力,而是以牺牲解决问题的多样性为代价来优化现有路径。
那么,不同的RLVR算法在此问题上是否表现出差异?对比实验发现,各RLVR算法表现相似且均远未达最优。
研究比较了多种RL算法(PPO、GRPO、Reinforce++,RLOO,DAPO,ReMax),发现它们的采样效率差距(∆SE)衡量的性能差异很小。尽管算法间∆SE存在细微差别,但所有方法都与最优效率存在显著差距。这表明当前以提高采样效率为目标的RL方法仍远未达到最优性能。
研究团队还发现,RLVR与蒸馏训练存在本质区别。RL仅能提升采样效率,而蒸馏训练能真正为模型注入新知识。因此蒸馏模型通过学习蒸馏数据往往能拓展基础模型的推理能力边界,这与能力始终受限于基础模型的RLVR训练模型形成鲜明对比。
作者答疑
针对AI圈对这项工作的广泛关注和困惑,研究团队在论文网站上精选具有代表性的问题并给出答复,希望能够更好地阐释他们的工作。
Q1:既然随机采样在k极大时也能命中答案,你们关于「RL提升pass@k」的结论岂非毫无意义?
A1:并非如此。「量变引发质变」。理论上随机打字确实有非零概率生成正确答案(约1/V^L,V为词表大小约3万,L为输出长度超200),但实际搜索空间堪比天文数字。关键在于概率量级:若基座模型正确概率为1/10⁴-10⁵,RL或需百万次采样才能找到;但若概率低于1/10¹⁰,RL几乎无法突破局部最优。我们的实验显示,多数问题在k=128或1024时就能观测到正确输出(当代算力可及),因此pass@k恰恰证明基座模型已具备必要推理路径。
Q2:RL将pass@k提升为pass@1不是常识吗?
A2:RLVR将pass@k转为pass@1并不意外——这本就是RL的设计目标。但更值得关注的是:RLVR在实验中并未展现出超越性。若基座模型无法解决的问题,RL训练后依然无解。这清晰揭示了RL在推理任务中的能力上限。此现象与传统RL(如Atari或围棋)形成鲜明对比——传统RL能通过自我对弈不断发现新策略,而LLM的RL微调却受限于基座模型原有能力。实际上,RL微调模型在pass@k上表现反而不如基座模型,这一现象令许多研究者惊讶。
Q3:论文是否宣称RL完全无法激励超越基座模型的推理?
A3:不,我们并未做出如此绝对论断。本研究旨在通过系统实验探讨「RL能否真正扩展LLM的推理能力」,并为学界提供新视角。
我们不排除模型规模与训练数据扩展可能改变结果的可能性。事实上,我们正在基于DeepSeek-V3-base与R1-zero开展进一步研究。
Q4:DeepSeek-Math已报道类似结果,你们的工作有何不同?
A4:DS-Math确实观察到相似趋势,但其研究仅针对单一指令微调模型和两个数学基准。我们的工作系统性地考察了零RL设置的纯基座模型,覆盖更多LLM家族和多样化基准测试。我们还通过人工分析思维链、困惑度分析、不同RL算法对比、蒸馏模型评估等提供了更全面的RLVR能力边界分析。我们认为「RLVR的推理范围受限于基座模型」这一现象值得研究社区深入关注。
结语:超越「精耕细作」,探索「开疆拓土」
清华和上交的这项研究为当前火热的RL训练热潮提供了冷思考:若将base模型比作一棵树,RLVR只能修剪枝叶使其更整齐,却无法让树长出新的枝干。RLVR在实现大模型能力提升的进程中究竟能够扮演怎样的角色,是我们不得不思考的问题。
该研究可能暗示着,可验证奖励的强化学习更像是一位精于调律的乐师,而非谱写新曲的作曲家。它能将模型已有的潜能雕琢得更加纯熟,却难以赋予其全新的能力维度。能否将当前的RLVR视作开启通用智能的万能密钥需要我们重新思考。
未来的探索之路,或许更需聚焦于基础模型自身的架构革新——在知识表征的广度、认知结构的深度以及推理脉络的构建等方面潜心耕耘,而非仅仅寄望于下游策略的微调润色。基座模型的「原始智慧」很可能被低估,知识蒸馏的思路很可能有更大的用武之地。
真正的「进化」,或许需要更根本的范式变革——让模型不仅能高效利用既有知识,更能主动跳出先验去探索未知领域。
作者信息
另一位一作是清华大学自动化系本科生ChenZhiqi(陈之琪),目前在黄高教授团队LeapLab实习。
©THEEND
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com