苹果《思考的错觉》再挨批,Claude与人类共著论文指出其三大关键缺陷


苹果《思考的错觉》再挨批,Claude与人类共著论文指出其三大关键缺陷

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

机器之心报道
编辑:Panda
几天前,苹果一篇《思考的错觉》论文吸睛无数又争议不断,其中研究了当今「推理模型」究竟真正能否「推理」的问题,而这里的结论是否定的。
论文中写到:「我们的研究表明,最先进的LRM(例如o3-mini、DeepSeek-R1、Claude-3. 7-Sonnet-Thinking)仍然未能发展出可泛化的解决问题能力——在不同环境中,当达到一定复杂度时,准确度最终会崩溃至零。」
不过,这篇论文的研究方法也受到了不少质疑,比如我们的一位读者就认为「给数学题题干加无关内容,发现大模型更容易答错,而质疑大模型不会推理」的做法并不十分合理。
著名LLM唱衰者GaryMarcus也发文指出这项研究的缺点,并再次批评LLM。总结起来,他的意见有7点:
https ://garymarcus. substack.com/p/seven-replies-to-the-viral-apple
人类在处理复杂问题和记忆需求方面存在困难。
大型推理模型(LRM)不可能解决这个问题,因为输出需要太多的输出token。
这篇论文是由一名实习生撰写的。
更大的模型可能表现更好。
这些系统可以用代码解决这些难题。
这篇论文只有四个例子,其中至少有一个(汉诺塔)并不完美。
这篇论文并不新鲜;我们已经知道这些模型的泛化能力很差。
更多详情可参阅报道《质疑DeepSeek-R1、ClaudeThinking根本不会推理!苹果争议论文翻车了?》
而现在,我们迎来了对这项研究更强有力的质疑:《思考的错觉的错觉》。是的,你没有看错,这就是这篇来自Anthropic和OpenPhilanthropy的评论性论文的标题!其中指出了那篇苹果论文的3个关键缺陷:
汉诺塔实验在报告的失败点系统性地超出了模型输出token的限制,而模型在其输出中明确承认了这些限制;
苹果论文作者的自动评估框架未能区分推理失败和实际约束,导致对模型能力分类错误;
最令人担忧的是,由于船容量不足,当N≥6时,他们的「过河(RiverCrossing)」基准测试包含在数学上不可能出现的实例,但模型却因未能解答这些本就无法解决的问题而被评为失败。
论文很短,加上参考文献也只有短短4页内容。而更有趣的是,来自Anthropic的作者名为C. Opus,实际上就是ClaudeOpus。另需指出,另一位作者AlexLawsen是一位「AI治理与政策高级项目专员」,曾经也担任过英国SixthFormCollege(第六学级学院)的数学和物理学教师。(第六学级学院是英国教育体系中的一种专门为16至19岁学生开设的学院,是英国中学教育(SecondaryEducation)之后、大学教育(HigherEducation)之前的一个关键阶段。)
https ://x. com/lxrjl/status/1932499153596149875
所以,这其实是一篇AI与人类合著的论文,并且AI还是第一作者。
论文标题:TheIllusionoftheIllusionofThinking
论文地址:https ://arxiv. org/pdf/2506. 09250v1
下面我们就来看看这篇评论性论文的具体内容。
1引言
Shojaeeetal.(2025)声称通过对规划难题的系统评估,发现了大型推理模型(LRM)的根本局限性。他们的核心发现对AI推理研究具有重要意义,即:在超过某些复杂度阈值后,模型准确度会「崩溃」为零。
然而,我们的分析表明,这些明显的失败源于实验设计的选择,而非模型固有的局限性。
2模型能识别输出约束
苹果的原始研究中忽略了一个关键观察结果:模型在接近输出极限时能够主动识别。𝕏用户@scaling01最近进行了一项复现研究,表明在进行汉诺塔实验时,模型会显式地陈述「这种模式仍在继续,但为了避免内容过长,我将在此停止」。这表明模型其实已经理解了该问题的求解模式,但会由于实际限制而选择截断输出。
https ://x. com/scaling01/status/1931817022926839909
这种将模型行为错误地描述为「推理崩溃」的行为反映了自动化评估系统的一个更广泛的问题,即未能考虑模型的感知和决策。当评估框架无法区分「无法解决」和「选择不进行详尽列举」时,它们可能会错误评估模型的基本能力。
2. 1僵化评估的后果
这种评估限制可能导致其他分析错误。考虑以下统计论证:如果我们逐个字符地对汉诺塔的解进行评分,而不允许纠错,那么完美执行的概率将变为:
其中p表示每个token的准确度,T表示token总数。如果T=10,000个token,则有:
p=0. 9999:P(success)<37%
p=0. 999:P(success)<0. 005%

3不可能解答的难题

由于苹果研究者自动将这些不可能的实例计为失败,就无意中暴露了纯程序化评估的弊端。模型获得零分并非因为推理失败,而是因为正确识别了不可解的问题——这相当于惩罚SAT求解器,因为该程序对不可满足的公式返回了「不可满足」。
4物理token限制导致明显崩溃
回到汉诺塔分析,我们可以量化问题规模与token需求之间的关系。
汉诺塔游戏规则:将所有圆盘从起始柱按大小顺序完整移动到目标柱,且每次只能移动一个圆盘,且大圆盘不能叠在小圆盘上。
苹果研究者的评估格式要求在每一步输出完整的移动序列,从而导致token数量呈二次方增长。如果序列中每一步大约需要5个token:
考虑到分配的token预算(Claude-3. 7-Sonnet和DeepSeek-R1为64,000个,o3-mini为100,000个),则最大可解规模为:
原始论文报告的超出这些规模的所谓「崩溃」与这些约束一致。
5使用另一种表示来恢复性能
为了检验模型失败能否反映推理限制或格式限制,这位AI作者与AlexLawsen使用了不同的表示方法,初步测试了相同的模型在N=15的汉诺塔上的表现:
提示词:求解有15个圆盘的汉诺塔问题。输出一个被调用时会print答案的Lua函数。
结果:所有被测模型(Claude-3. 7-Sonnet、ClaudeOpus4、OpenAIo3、GoogleGemini2. 5)的准确度都非常高,且使用的token数都不到5000。
下面展示了𝕏用户@janekm分享的一次测试结果
https ://x. com/janekm/status/1933481060416799047
6重新评估原始论文的复杂性主张
苹果的作者使用了「组合深度(compositionaldepth)」(最小步数)作为复杂度指标,但这其实将机械执行与问题求解难度混为一谈了:
问题的复杂度不仅仅由解答的长度决定
汉诺塔虽然需要指数级数量的步数,但每步的决策过程都很简单,为O(1)。过河问题步数少得多,但需要满足复杂的约束条件并进行搜索。这解释了为什么模型可能有能力完成100步以上的汉诺塔,却无法解决5步的过河问题。
7总结
Shojaeeetal. 的结果只能表明,模型输出的token数量无法超过其上下文限制,程序化评估可能会同时遗漏模型能力极限和难题的不可解性,并且解答长度无法准确预测问题的难度。这些都是宝贵的工程见解,但它们并不支持关于基本推理局限性的论断。
未来的研究应该:
设计能够区分推理能力和输出约束的评估方法;
在评估模型性能之前验证难题的可解性;
使用能够反映计算难度而非仅仅反映解答长度的复杂度指标;
考虑多种解答表示,以区分算法理解和执行。
问题不在于大型推理模型(LRM)能否推理,而在于我们的评估方法能否区分推理和文本生成。
网友怎么看?
同样,这篇论文也吸引了不少眼球,并且基本都是好评。
https ://x. com/janekm/status/1933481060416799047
有读者打听了这两位作者的合作模式——其实就是聊天。
https ://x. com/lxrjl/status/1932557168278188517
也许,我们可以将这篇论文称为氛围论文(vibepaper),正如CMUPhDBehnamMohammadi调侃的那样:’)
https ://x. com/OrganicGPT/status/1932502854960366003
不过,反对意见当然也还是存在的。
对此,你怎么看?
©THEEND
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin. com


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录