LLM神话破灭?苹果论文最新实锤:难以实现真正智能


LLM神话破灭?苹果论文最新实锤:难以实现真正智能

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

在苹果年度全球开发者大会(WWDC)前夕,苹果公司的处境并不轻松。尽管过去数月持续放出关于人工智能(AI)功能的预告,包括“更聪明的Siri”即将上线,但承诺尚未兑现,技术展示寥寥,让苹果在日益激烈的AI竞赛中显得很被动。与此同时,曾一手缔造iPhone传奇的前首席设计师JonyIve,如今也转而与OpenAI合作,外界纷纷质疑苹果是否还可以站在下一轮科技发展的潮头。
正是在这一微妙时刻,苹果研究团队发布了一项颠覆认知的新研究,并被纽约大学心理学与神经科学教授GaryMarcus解读为对当下大语言模型(LLMs)的“致命一击”。

当前模型存在根本性限制,尽管引入了复杂的自我反思机制,依然无法在超过一定复杂度阈值的问题中表现出可泛化的推理能力。
模型在不同复杂度问题中的表现存在三种分界:在低复杂度问题中标准LLMs表现优于LRMs,在中等复杂度问题中LRMs占优,在高复杂度问题中两者均表现失败。
研究发现一个反直觉现象,当问题接近关键复杂度时,模型的推理努力反而减少,这提示LRMs可能存在计算能力扩展的内在极限。
模型的推理行为呈现复杂度相关性,在简单问题上表现为低效的“过度思考”,在复杂问题上则完全无法作答。
LRMs可能存在可泛化推理的根本性障碍;在执行精确计算方面也有局限性。
Marcus在一篇题为“AknockoutblowforLLMs?”(对LLMs的致命一击?)中表示,LLMs无法替代精心设计的传统算法,虽在未来十年内仍有编码、头脑风暴和写作等用途,但他认为LLMs能直接通往可根本改变社会的AGI是不切实际的。
在Marcus看来,苹果这篇论文从两个维度强化了对LLMs根本性弱点的批判:一个是他本人自1998年以来不断强调的“训练分布边界问题”,另一个则是亚利桑那州立大学计算机科学家Subbarao(Rao)Kambhampati近年来围绕“推理模型”提出的一系列质疑。
神经网络擅长在“训练分布”范围内进行归纳和泛化,但一旦脱离这一熟悉的数据分布,模型的能力便迅速崩溃。早在1998年,他就以多层感知器为例,指出这类神经网络在基础数学与语言预测任务中一旦遇到分布外(out-of-distribution)情境,性能大幅下降,这一批判思路贯穿他之后的主要研究。
此外,苹果论文也延续了Rao对“推理模型”(reasoningmodels)的系统性反思。Rao指出,许多LLMs生成的“思维链”(chainofthought)看似严密,实则未必反映真实的推理过程。即便模型输出了一系列“思考步骤”,它的执行路径往往并不与之对应。即它“说”自己这样推理了,但它其实并没有这么做。此外,即使推理轨迹逻辑上无懈可击,模型的最终答案也可能错误。Rao甚至早在苹果团队之前,就发现了o1模型存在类似的结构性问题,并在线上发表了相关工作。
苹果的最新论文进一步证实了这一点,表明即使是最新一代的“推理模型”也无法解决这一根本性问题。这对于那些期待LLMs通过“推理”或“推理时计算”(inference-timecompute)来克服这些局限性的人来说,是一个沉重的打击。
“汉诺塔”是计算机科学的经典入门难题:你需要将一组从大到小排列的圆盘,从左边的柱子全部搬到右边,每次只能移动一个盘,且不能把大的叠在小的上面。对于计算机而言,它几乎是“基础操作”,任何一本入门教材都能教会学生如何用递归算法解决七层汉诺塔。
然而,苹果团队的实验证明,Claude在处理这个看似简单的逻辑问题时表现令人失望:7层准确率不足80%,8层基本崩盘。而备受瞩目的o3-min(high)模型表现同样平平。
更让人无法接受的是,即使直接把标准算法喂给模型,只要求其“照做”,它们依旧无法正确执行。这不仅是对“推理模型”名号的质疑,更暴露出当前主流大模型在结构性问题上的严重不可靠。
苹果论文作者之一ImanMirzadeh表示:我们的观点并非是“人类毫无局限,而LRMs存在局限,因此它们不智能”。只是从它们的思维过程来看,其逻辑性和智能性确实有所欠缺。
Marcus认为,AI的未来应该将科学家级别的因果推理能力与机器的计算速度相结合,从而在科学、医疗、能源等关键领域实现真正的突破,才可能让AI对人类真正有益。
反之,如果连8层汉诺塔都玩不好,那什么“提取地球光锥”或“解构物理学”都将沦为空中楼阁。而更现实的是,像o3这样的模型实际上比专注的人类更容易产生幻觉,在绘制可靠的图表等方面也十分吃力;它们确实与人类有一些相似的弱点,但在许多方面,它们实际上表现得更差。
“人类有时会犯错,往往是因为记性不太好;而LLMs拥有海量的存储空间,再犯错实在说不过去。”
苹果的这项研究揭示:无论AGI的定义如何变化,当前主流LLMs都无法取代结构明确、逻辑清晰的传统算法。它们在处理某些复杂任务时,表现远不如几十年前开发的专用系统。
就像LLMs难以稳定解出汉诺塔问题一样,它们在国际象棋、蛋白质折叠、数据库查询等方面也远逊于现有的专用工具。即使是被广泛称赞的o3或Claude模型,也未必能够可靠地运行。
某些情况下,LLMs能生成Python代码来“补足”自己的逻辑缺陷,但这仅仅是将问题外包给外部程序逻辑,本身并没有建立通用解题能力。而最危险的是,它们在简单场景中(如4层汉诺塔)偶然成功,从而误导人们以为模型具备了可泛化的认知结构。
Marcus说道,那些认为LLMs是通往能够从根本上为社会带来积极变革的那种AGI的直接途径的人,未免太天真了。这并不意味着神经网络这个领域已经死亡,也不意味着深度学习已经过时。LLMs只是深度学习的一种形式,或许其他形式——尤其是那些更善于处理符号的——最终会蓬勃发展起来。时间会证明一切。但目前这种方法的局限性正日益清晰。
但是,苹果的研究也有一些局限性:谜题环境虽能精细控制问题复杂性,但只能代表推理任务的一个小领域,难以涵盖现实世界中多样化和知识密集型的推理问题;大部分实验依赖对封闭前沿的LRMs的黑箱API访问,限制了对其内部状态和架构组件的分析能力;使用确定性的谜题模拟器假设推理可逐步完美验证,但在结构不严谨的领域,这种精确验证难以实现,限制了该分析方法向更具普遍性的推理领域的应用。Marcus还指出,实际上,人类在进行汉诺塔游戏时也会出错,因此单纯通过该任务来否定其价值存在一定争议。
参考资料:
https ://techxplore. com/news/2025-06-apple-pressure-ai-stumble. html
https ://garymarcus. substack.com/p/a-knockout-blow-for-llms
https ://machinelearning. apple.com/research/illusion-of-thinking
编辑:锦鲤
如需转载或投稿,请直接在公众号内留言


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录