LLM神话破灭？苹果论文最新实锤：难以实现真正智能

发布日期: 2025-06-10

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

在苹果年度全球开发者大会（WWDC）前夕，苹果公司的处境并不轻松。尽管过去数月持续放出关于人工智能（AI）功能的预告，包括“更聪明的Siri”即将上线，但承诺尚未兑现，技术展示寥寥，让苹果在日益激烈的AI竞赛中显得很被动。与此同时，曾一手缔造iPhone传奇的前首席设计师JonyIve，如今也转而与OpenAI合作，外界纷纷质疑苹果是否还可以站在下一轮科技发展的潮头。
正是在这一微妙时刻，苹果研究团队发布了一项颠覆认知的新研究，并被纽约大学心理学与神经科学教授GaryMarcus解读为对当下大语言模型（LLMs）的“致命一击”。

当前模型存在根本性限制，尽管引入了复杂的自我反思机制，依然无法在超过一定复杂度阈值的问题中表现出可泛化的推理能力。
模型在不同复杂度问题中的表现存在三种分界：在低复杂度问题中标准LLMs表现优于LRMs，在中等复杂度问题中LRMs占优，在高复杂度问题中两者均表现失败。
研究发现一个反直觉现象，当问题接近关键复杂度时，模型的推理努力反而减少，这提示LRMs可能存在计算能力扩展的内在极限。
模型的推理行为呈现复杂度相关性，在简单问题上表现为低效的“过度思考”，在复杂问题上则完全无法作答。
LRMs可能存在可泛化推理的根本性障碍；在执行精确计算方面也有局限性。
Marcus在一篇题为“AknockoutblowforLLMs?”（对LLMs的致命一击？）中表示，LLMs无法替代精心设计的传统算法，虽在未来十年内仍有编码、头脑风暴和写作等用途，但他认为LLMs能直接通往可根本改变社会的AGI是不切实际的。
在Marcus看来，苹果这篇论文从两个维度强化了对LLMs根本性弱点的批判：一个是他本人自1998年以来不断强调的“训练分布边界问题”，另一个则是亚利桑那州立大学计算机科学家Subbarao（Rao）Kambhampati近年来围绕“推理模型”提出的一系列质疑。
神经网络擅长在“训练分布”范围内进行归纳和泛化，但一旦脱离这一熟悉的数据分布，模型的能力便迅速崩溃。早在1998年，他就以多层感知器为例，指出这类神经网络在基础数学与语言预测任务中一旦遇到分布外（out-of-distribution）情境，性能大幅下降，这一批判思路贯穿他之后的主要研究。
此外，苹果论文也延续了Rao对“推理模型”（reasoningmodels）的系统性反思。Rao指出，许多LLMs生成的“思维链”（chainofthought）看似严密，实则未必反映真实的推理过程。即便模型输出了一系列“思考步骤”，它的执行路径往往并不与之对应。即它“说”自己这样推理了，但它其实并没有这么做。此外，即使推理轨迹逻辑上无懈可击，模型的最终答案也可能错误。Rao甚至早在苹果团队之前，就发现了o1模型存在类似的结构性问题，并在线上发表了相关工作。
苹果的最新论文进一步证实了这一点，表明即使是最新一代的“推理模型”也无法解决这一根本性问题。这对于那些期待LLMs通过“推理”或“推理时计算”（inference-timecompute）来克服这些局限性的人来说，是一个沉重的打击。
“汉诺塔”是计算机科学的经典入门难题：你需要将一组从大到小排列的圆盘，从左边的柱子全部搬到右边，每次只能移动一个盘，且不能把大的叠在小的上面。对于计算机而言，它几乎是“基础操作”，任何一本入门教材都能教会学生如何用递归算法解决七层汉诺塔。
然而，苹果团队的实验证明，Claude在处理这个看似简单的逻辑问题时表现令人失望：7层准确率不足80%，8层基本崩盘。而备受瞩目的o3-min（high）模型表现同样平平。
更让人无法接受的是，即使直接把标准算法喂给模型，只要求其“照做”，它们依旧无法正确执行。这不仅是对“推理模型”名号的质疑，更暴露出当前主流大模型在结构性问题上的严重不可靠。
苹果论文作者之一ImanMirzadeh表示：我们的观点并非是“人类毫无局限，而LRMs存在局限，因此它们不智能”。只是从它们的思维过程来看，其逻辑性和智能性确实有所欠缺。
Marcus认为，AI的未来应该将科学家级别的因果推理能力与机器的计算速度相结合，从而在科学、医疗、能源等关键领域实现真正的突破，才可能让AI对人类真正有益。
反之，如果连8层汉诺塔都玩不好，那什么“提取地球光锥”或“解构物理学”都将沦为空中楼阁。而更现实的是，像o3这样的模型实际上比专注的人类更容易产生幻觉，在绘制可靠的图表等方面也十分吃力；它们确实与人类有一些相似的弱点，但在许多方面，它们实际上表现得更差。
“人类有时会犯错，往往是因为记性不太好；而LLMs拥有海量的存储空间，再犯错实在说不过去。”
苹果的这项研究揭示：无论AGI的定义如何变化，当前主流LLMs都无法取代结构明确、逻辑清晰的传统算法。它们在处理某些复杂任务时，表现远不如几十年前开发的专用系统。
就像LLMs难以稳定解出汉诺塔问题一样，它们在国际象棋、蛋白质折叠、数据库查询等方面也远逊于现有的专用工具。即使是被广泛称赞的o3或Claude模型，也未必能够可靠地运行。
某些情况下，LLMs能生成Python代码来“补足”自己的逻辑缺陷，但这仅仅是将问题外包给外部程序逻辑，本身并没有建立通用解题能力。而最危险的是，它们在简单场景中（如4层汉诺塔）偶然成功，从而误导人们以为模型具备了可泛化的认知结构。
Marcus说道，那些认为LLMs是通往能够从根本上为社会带来积极变革的那种AGI的直接途径的人，未免太天真了。这并不意味着神经网络这个领域已经死亡，也不意味着深度学习已经过时。LLMs只是深度学习的一种形式，或许其他形式——尤其是那些更善于处理符号的——最终会蓬勃发展起来。时间会证明一切。但目前这种方法的局限性正日益清晰。
但是，苹果的研究也有一些局限性：谜题环境虽能精细控制问题复杂性，但只能代表推理任务的一个小领域，难以涵盖现实世界中多样化和知识密集型的推理问题；大部分实验依赖对封闭前沿的LRMs的黑箱API访问，限制了对其内部状态和架构组件的分析能力；使用确定性的谜题模拟器假设推理可逐步完美验证，但在结构不严谨的领域，这种精确验证难以实现，限制了该分析方法向更具普遍性的推理领域的应用。Marcus还指出，实际上，人类在进行汉诺塔游戏时也会出错，因此单纯通过该任务来否定其价值存在一定争议。
参考资料：
https ://techxplore. com/news/2025-06-apple-pressure-ai-stumble. html
https ://garymarcus. substack.com/p/a-knockout-blow-for-llms
https ://machinelearning. apple.com/research/illusion-of-thinking
编辑：锦鲤
如需转载或投稿，请直接在公众号内留言