推理模型其实无需「思考」?伯克利发现有时跳过思考过程会更快、更准确
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
机器之心报道
机器之心编辑部
当DeepSeek-R1、OpenAIo1这样的大型推理模型还在通过增加推理时的计算量提升性能时,加州大学伯克利分校与艾伦人工智能研究所突然扔出了一颗深水炸弹:别再卷token了,无需显式思维链,推理模型也能实现高效且准确的推理。
这项研究认为显式思考过程会显著增加token使用量和延迟,导致推理效率低下。
就比如在控制延迟条件时,NoThinking的效果就显著好于Thinking。
这项研究给出的出人意料的结论吸引了不少眼球。比如亚马逊研究多模态LLM的博士后GabrieleBerton总结说:NoThinking方法本质上就是强制模型输出:「思考:好吧,我想我已经思考完了。」
具体怎么回事?来看一下原文:
论文标题:ReasoningModelsCanBeEffectiveWithoutThinking
论文地址:https ://arxiv.org/pdf/2504.09858
与Thinking相比,NoThinking能更好地权衡精度与预算的关系
定义Thinking和NoThinking
大多数现代推理模型,如R1和R1-Distill-Qwen,在其生成过程中都遵循类似的结构:在思考框内的推理过程,以和为标志,然后是最终答案。基于这种结构,将两种方法(Thinking和NoThinking)定义如下。
Thinking指的是查询推理模型以生成以下输出的默认方法:思考框内的推理过程、最终解决方案和最终答案(图1(蓝色))。
NoThinking指的是通过提示绕过显式推理过程,直接生成最终解决方案和答案的方法。这可通过在解码过程中强制思维框为空来实现(图1(橙色)),如下所示。
Okay,IthinkIhavefinishedthinking.
为了控制两种方法中的token使用量,当模型达到token预算时,它将被迫生成「最终答案」,以确保立即得到最终答案。如果模型在达到token限制时仍在思考框内,将附加在最终答案标签之前。
实验设置
实验使用DeepSeek-R1-Distill-Qwen-32B作为主要模型。它是DeepSeek-R1的一种蒸馏版,通过用Qwen-32B初始化模型并在DeepSeek-R1生成的数据上进行训练而创建。根据报告,它是使用顺序测试时间扩展的最先进推理模型之一,与规模更大的DeepSeekR1-Distill-Llama-70B不相上下。
还提供了一系列具有挑战性的推理基准,包括数学竞赛、编码、奥林匹克竞赛问题和定理证明等任务。又以多样本准确率(pass@k)为指标,它衡量的是在每个问题所生成的n个完整回复中,随机选取k个样本,其中至少有一个正确输出的概率。
其形式化定义为
其中n是每个问题的采样输出数量,c是正确输出的数量。
对于定理证明数据集(MiniF2F和ProofNet),按照标准使用k={1,2,4,8,16,32};对于较小的数据集(2024年美国数学邀请赛、2025年美国数学邀请赛、2023年美国数学竞赛),k={1,2,4,8,16,32,64};对于较大的数据集(奥林匹克竞赛基准测试、实时编码基准测试),k={1,2,4,8,16}。对于形式定理证明基准测试,「多样本准确率(pass@32)」是标准指标,而对于数学和编程基准测试,最常用的是「单样本准确率(pass@1)」(即准确率)。
实验结果
在未控制token预算的情况下对Thinking、NoThinking与QwenInstruct进行对比
在token预算控制下的情况下对Thinking和NoThinking进行对比
除MiniF2F和ProofNet外,NoThinking在其他数据集上的表现虽稍逊于Thinking,但其token消耗量也显著更低。
因此,接下来继续通过预算约束方法,在相近token预算下比较两者的性能表现。
如图5所示,当token使用量受到控制时,NoThinking方法通常优于Thinking方法。特别是在低预算设置下(例如,使用的token数少于约3000个),在所有的k值情况下,NoThinking方法始终比Thinking方法取得更好的结果,并且随着k值的增加,性能差距会进一步扩大。当token使用量较高时(例如,大约3500个token),在单样本准确率(pass@1)方面,Thinking方法的表现优于NoThinking方法,但从k=2开始,NoThinking方法的表现就迅速超过了Thinking方法。
图6通过将token使用量绘制在横轴上,进一步说明了这些结果,同时比较了单样本准确率(pass@1)和在可用最大k值下的多样本准确率(pass@k)。在多样本准确率(pass@k)方面,NoThinking方法在整个预算范围内始终无一例外地优于Thinking方法。对于单样本准确率(pass@1)而言,NoThinking方法在低预算情况下表现更好,而在高预算情况下表现较差。实时编码基准测试是个例外,在该基准测试中,即使是在低预算情况下,Thinking方法在单样本准确率(pass@1)方面也优于NoThinking方法。这很可能是因为在实时编码基准测试上,禁用思考模块并不能显著减少token使用量。
为了降低数据污染的风险,实验还纳入了新发布的AIME2025,这些数据不太可能出现在现有模型的预训练数据中。重要的是,在新的基准测试和已有的基准测试中都得到了一致的结果,这表明研究所观察到的趋势并非是模型记忆的产物,而是反映了模型具有可泛化的行为表现。
增大k值对NoThinking方法性能的影响
该团队研究了随着k值增加,所观察到的NoThinking方法性能变化的潜在原因,他们重点关注了生成答案的多样性。这是通过计算每个问题的答案分布的熵来衡量的。具体而言,对于答案分布为的一个问题,熵的定义为:
其中p_i是第i个独特答案的经验概率。然后,使用所有问题的熵的均值和标准差来总结多样性。均值熵越高表明总体多样性越大,而标准差越低则意味着各个问题之间的多样性更为一致。这些分析基于图5中Thinking方法与NoThinking方法的对比情况,但不包括缺少确切答案的实时编码基准测试。
从表1可以看到,就平均多样性而言,两种模式都没有始终如一的优势。在某些情况下,NoThinking模式得出的平均熵更高;而在另一些情况下,Thinking模式的平均熵更高。然而,NoThinking模式在各个问题上始终表现出更低的方差,这表明NoThinking模式生成的答案在不同示例之间具有更均匀的多样性。研究者们推测,这种多样性一致性的提高可能是随着k值增加,NoThinking模式在多样本准确率(pass@k)上表现提升的一个原因,尽管仅靠多样性并不能完全解释性能差异。
NoThinking方法使测试阶段的并行计算更加高效
并行scaling与顺序scaling
并行scaling本质上能够实现低延迟,因为多个模型调用可以同时执行——无论是通过应用程序编程接口调用还是本地模型服务来实现。这可以通过多GPU设置或者在单个GPU上进行批处理来达成,与顺序scaling相比,这种方式能够实现更高的GPU利用率。总体延迟由单个最长的生成时间决定。
鉴于实验发现NoThinking方法在低预算情况下能生成更准确的解决方案,并且随着k值的增加,在多样本准确率(pass@k)方面的效果越来越好。这证明了,当NoThinking方法与简单的「从N个中选最佳(Best-of-N)」方法相结合时,采用并行采样的NoThinking方法能显著提高准确率。在延迟相当的情况下,它的表现优于其他方法,比如采用强制预算和并行采样的Thinking方法。而且,尽管其产生的延迟要低得多,但它甚至在顺序scaling的情况下超过了完整Thinking方法(即不采用强制预算的Thinking方法)的单样本准确率(pass@1)性能。
结果
图7中展示了Thinking方法和NoThinking方法在所有基准测试中的单样本准确率(pass@1)结果。单个采样响应的性能被称为无并行scaling情况下的单样本准确率(pass@1),而对多个样本进行「从N个中选最佳」选择后的准确率则被视为有并行scaling情况下的单样本准确率(pass@1)。对于没有验证器的任务,在图中使用基于置信度的结果,并在表2中给出选定实验的消融实验结果。该表比较了上述讨论的「从N个中选最佳」方法。基于置信度的选择方法通常优于多数投票法。还报告了多样本准确率(pass@k),将其作为使用并行scaling时单样本准确率(pass@1)的上限。
NoThinking方法与并行scaling相结合,为传统的顺序方法提供了一种高效的替代方案,能够在显著降低延迟和token使用量的情况下,达到相似甚至更好的准确率。如图7的前两个图所示,NoThinking方法实现了与Thinking方法相当甚至更高的性能,同时延迟要低得多。在没有并行scaling的情况下,NoThinking方法在准确率上与Thinking方法相近,而延迟仅为后者的一小部分。
如果有一个完美的验证器可用,那么从k个采样响应中选择最佳的一个就能实现pass@k准确度。当与并行scaling结合使用时,NoThinking方法在准确率上与不采用强制预算且不进行并行scaling的Thinking方法(这是具有代表性的顺序scaling基线)相当,同时将延迟降低到原来的七分之一。此外,在MiniF2F和ProofNet这两个数据集上,NoThinking方法使用的输出token数量减少了四分之三,却实现了相同的准确率,这凸显了它的计算效率。这些结果强调了在有验证器可用的情况下,并行采样的有效性。
当NoThinking方法与并行scaling以及基于置信度的选择方法相结合时,在大多数基准测试中,它在低token预算的情况下始终优于Thinking方法。图7(最后五个图)展示了基于置信度选择方法在多个基准测试中的结果,比较了在受控token使用量情况下Thinking方法和NoThinking方法的表现。
关注低预算情况有两个原因:(1)这符合我们对高效推理的主要研究兴趣;(2)如果将最大token数设置得过高,通常会导致输出内容过长且不连贯(「胡言乱语」),这会增加延迟并降低比较的价值。
正如预期的那样,并行scaling提高了Thinking方法和NoThinking方法的单样本准确率(pass@1)性能。然而,在所有数学基准测试中,NoThinking方法始终处于帕累托最优边界的主导地位。
在采用并行scaling的Thinking方法方面,NoThinking方法展现出了更优的准确率与预算之间的权衡。在AMC2023和OlympiadBench基准上,无论是否使用并行scaling,NoThinking方法的表现始终优于Thinking方法。值得注意的是,即使与完整的Thinking方法(不采用强制预算的Thinking方法)相比,NoThinking方法在将延迟降低到原来的九分之一的同时,还实现了更高的单样本准确率(pass@1)得分(55.79比54.1)。
NoThinking方法在LiveCodeBench上的效果较差,该基准测试似乎是个例外情况。这可能是因为基于置信度的选择方法在编码任务中存在局限性,在没有完全匹配输出的情况下,投票策略无法应用。在这些情况下,只能退而求其次,选择置信度最高的答案,而这种方式的可靠性较低。如表2所示,与在可应用投票策略的任务中基于投票的方法相比,这种方法的表现一直较差(通常差距很大)。总体而言,这些结果凸显了在无验证器的情况下,当NoThinking方法与并行采样以及强大的选择策略相结合时的有效性。
随着k值的增加,NoThinking方法在多样本准确率(pass@k)方面令人惊喜的表现可以通过并行scaling得到进一步利用,从而在相似甚至显著更低的延迟(最多可降低至原来的九分之一)情况下,提升单样本准确率(pass@1)的结果。对于配备了完美验证器的任务,这种方法还能在达到相似或更高准确率的同时,将token的总使用量减少多达四分之三。
总结
大型语言模型在生成解答之前会产生冗长的思考过程,这种方式在推理任务上已经取得了很好的成果。该研究对这一过程的必要性提出了质疑,为此引入了NoThinking方法。
这是一种简单而有效的提示策略,能够绕过显式的思考过程。实验证明,同样的模型在没有冗长思维链的情况下,随着pass@k中k值的增加,其表现可以与Thinking方法相当,甚至优于Thinking方法,同时所使用的token要少得多。
在token预算相当的情况下,对于大多数k值,NoThinking方法的表现始终优于传统的Thinking结果。
此外,研究还发现,NoThinking方法可以与「从N个中选最佳」的选择方法相结合,从而在准确率和延迟的权衡方面,取得比标准Thinking方法更好的效果。
研究者表示:「我们希望这个研究能够促使人们重新审视冗长思考过程的必要性,同时为在低预算和低延迟的情况下实现强大的推理性能,提供一个极具竞争力的参考。」
©THEEND
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com