【源头活水】UC伯克利:让推理模型少思考,准确率反而更高了!
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注!
让推理模型不要思考,得到的结果反而更准确?
UC伯克利新研究发现,强制要求模型跳过思考过程,推理能力却比正常思考还好。
例如在定理证明任务当中,“不思考”模式仅使用30%的Token,就能实现和完整思考一样的准确率。
特别是施加Token限制之后,“不思考”模式的效果变得更加明显。
这究竟是怎么一回事呢?来看下UC伯克利发表的论文。
跳过思考,推理模型反而更强了
论文的研究目的,是比较显式思考过程(Thinking)和跳过思考过程(NoThinking)的效果差异,并在不同约束条件下评估这两种方法的表现。
研究使用DeepSeek-R1-Distill-Qwen-32B作为主要实验模型,该模型通过在Qwen-32B基础上使用DeepSeek-R1生成的数据进行蒸馏得到。
为了确保结果的可靠性,研究同时选择了Qwen-32B-Instruct作为基线模型,并在7B和14B规模的相同架构模型上进行了验证实验。
在数据集的选择上,研究力求全面覆盖不同类型的推理任务:
在数学问题方面,既包含了AIME2024、AIME2025、AMC2023等标准难度的测试集,也包含了更具挑战性的OlympiadBench数学子集;
在编程能力评估方面,使用了持续更新的LiveCodeBenchv2版本;
在定理证明领域,则通过MiniF2F测试形式化数学推理能力,通过ProofNet评估逻辑和定理证明能力。
实验首先进行了基础性能评估,也就是在不限制token的情况下比较三种方法的表现。研究团队详细记录了每种方法在不同k值下的pass@k性能表现和token使用量。
结果显示,在无预算限制的情况下,NoThinking在定理证明任务上能够以30%的token用量达到与Thinking相似的性能,两种方法都明显优于基线模型。
在其他任务上,虽然NoThinking的初始pass@1性能较低,但随着k值增加会逐渐追平Thinking的表现,同时token使用量减少
随后,实验引入了预算强制,通过设置token限制来进行对照实验。
具体来说,当模型达到预设的token预算时,系统会强制其生成最终答案,如果此时模型仍在思考框内,则会在最终答案标签前添加结束思考标记。
研究分别在低预算(约3000tokens以下)和高预算(约3500tokens)两种场景下进行了详细测试。
在预算受限的场景下,NoThinking在低预算情况下(<3000tokens)完全优于Thinking,这种优势会随着k值的增加而扩大。
在高预算场景下(~3500tokens),尽管Thinking在pass@1上略有优势,NoThinking从k=2开始就展现出更好的性能。
在并行扩展测试中,研究根据任务特性采用了不同的评估方法。
对于有完美验证器的任务(如形式定理证明),可以直接使用验证器选择最佳答案,并详细记录延迟和token使用量;
对于没有验证器的任务,研究实现了多数投票机制和基于置信度的选择策略,通过实验比较了不同选择策略的效果。
对于具有验证器的任务,NoThinking可以在将延迟降低至1/7、token使用量减少至1/4的同时,保持与传统方法相似的准确率。
在没有验证器的任务中,比如AMC2023和OlympiadBench,NoThinking甚至超越了完整版Thinking的表现,同时可将延迟降低至1/9。
为了避免实验结果受到数据污染的影响,研究团队专门使用了新发布的AIME2025数据集进行验证。
结果作者发现。相同的性能模式在新旧数据集上都能稳定重现,这证实了研究发现反映了模型的真实行为特征。
大模型“思考过程”引热议
HackerNews上,有人表示这项研究让其对大模型的思考有了新的认识:
过去我认为大模型“思考”很有用,是因为它可以把更多的概念带到上下文当中,但现在看似乎不是?
还有人想到了Claude厂商Anthropic前些天发表的报告,其中指出大模型输出的“思考过程”不一定代表其真实想法。
这份报告的实验发现,Claude3.7Sonnet仅在25%的情况下在其思维链中提及收到的提示信息,DeepSeekR1则为39%,意味着大多数情况下模型不会忠实反映其真实决策过程。
Anthropic的这份报告,引起了针对大模型“思考过程”的热烈讨论。
有人表示,思维链有效的关键是产生了更多用于“思考”的计算,但如果用它来展示模型工作过程,那只不过是额外的上下文。
但也有人认为Anthropic的研究并没有切中问题要害,因为模型的训练过程就是为了获得正确答案而优化,不能指望这样的训练方式能够让模型准确说出推理过程。
作者简介
本论文第一作者是UC伯克利博士生马文洁,导师是MateiZaharia副教授和SewonMin助理教授研究重点是理解和提升语言模型的推理能力,以及测试时计算。
马文洁本科毕业于南京大学计算机学院,期间曾参加该学院的PASCAL(编程语言与统计分析)研究组。
另一名华人作者何静轩,目前在UC伯克利从事博士后研究,研究兴趣为机器学习和计算机安全,合作导师是宋晓冬(DawnSong)教授。
何静轩博士和本科分别毕业于苏黎世联邦理工学院和浙江大学。
另外,UC伯克利博士生CharlieSnell、TylerGriggs,以及一作马文洁的两名导师也参与了此项研究。
本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。
收藏,分享、在看,给个三连击呗!