仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
人工智能(AI)及未来的通用人工智能(AGI),对国家安全具有深远影响,尤其在目前多国技术竞争背景下更为凸显。当前以大型语言模型(LLMs)为代表的AI技术已展现巨大潜力,许多技术专家与政策制定者认为LLM可能在短期内通过超规模扩展实现AGI。本文旨在质疑这一观点,阐释LLM超规模扩展至AGI面临的障碍,并论证AGI更可能源于一系列互补性或替代性的算法与计算技术。
我们认为AGI可能通过多种技术路径实现,因此相关政策应避免对某一可能未来(如LLM超规模扩展)过度优化,即便在应对超规模范式下AGI短期突破的可能性时,也需保持技术路径的开放性。
目录:
01从大型语言模型通向人工通用智能
02大型语言模型性能持续提升,但这足够实现AGI吗?
03实现人工通用智能还需要哪些技术要素?
04潜在的算法与计算技术
05覆盖多元未来的稳健战略
从大型语言模型通向人工通用智能
大型语言模型是一项变革性技术,它吸引了全球范围的巨大关注和投资,竞相开发规模更大、性能更强的模型。2022年ChatGPT的推出是一个轰动性的时刻。人工智能(ArtificialIntelligence,AI)能够通过自然语言解决问题并与人类互动,这种前景,加上大数据和算力领域的互补性趋势,开启了新一轮\“AI热潮\“,并产生深远的社会经济影响。例如,AI的快速发展使得美国商业资本纷纷加大对生成式人工智能(GenerativeAI)的投入,这些投资已突破1万亿美元,这源于对LLM性能持续提升的预期。
本文将从以下三个维度界定人工通用智能(ArtificialGeneralIntelligence,AGI):
具有跨多种认知与元认知任务的人类或超人类能力
通过自动化替代人工劳动完成经济价值创造的AI系统
展现新兴属性,如学习新技能和执行新任务的AI系统
扩大和优化这些模型的资金投入同样高昂,现有模型,如GPT-4的训练成本超过7800万美元,而更大型模型的训练费用据推测可能达到数十亿美元级别。这种巨额投资反映了LLM潜在的经济与科学影响力:它们很可能显著提升多个行业劳动者的生产力,并可能彻底改变科学发现的进程。
业界和AI研究领域许多人认为,随着LLM规模不断扩大且在各类基准测试中表现持续提升,AGI时代即将到来。这被称为超规模扩展范式,LLM系统将持续扩大规模并提升性能,直至实现自我优化,从而不可逆地催生超越人类的AGI。鉴于LLM发展的迅猛速度,如果AGI在未来2-4年内或不久的将来到来,其很可能源于超规模扩展的LLM。部分AI专家认为,这种前景意味着可控的风险以及导向\“后稀缺世界\“(post-scarcityworld)的智能爆发,而另一些专家则担忧这将对人类构成真实存在的生存威胁。
鉴于这些风险,理解超规模扩展范式的可行性至关重要。如果该范式不具备现实可能性,那么政府的AI政策就需预设:即使不构成战略误判,超规模扩展也可能存在脆弱性。
本文后续将阐述现有AI研究如何佐证以下观点:使用LLM或许是通向AGI的重要技术路径,但远非充分条件。LLM似乎存在固有局限,要实现AGI可能需要互补性技术协同推进。尽管当前我们无法断言实现AGI的具体路径,但可以确定的是,通向AGI的路径充满不确定性。决策者应当考量AGI在超规模扩展范式下短期内出现的可能性。然而鉴于这种不确定性,或许不应孤注一掷押注单一方向,而应通过支持多元可能未来的政策框架,审慎对冲技术路径的不确定性风险。
▷图源:RAND。有改动
大型语言模型性能持续提升,
但这足够实现AGI吗?
现有研究表明,超规模扩展可能并非实现AGI的可行途径,至少这不是唯一的路径。例如,尽管领先的AI实验室在推广其LLM产品时强调大模型规模的扩大会提升推理基准测试的表现,但最新研究显示,虽然性能确有改善,但模型规模的扩展也会导致错误答案的置信度同步提升。
关于LLM是否真正具备语言理解能力,而非仅通过表层模式的捷径学习获得能力,AI研究界仍存在广泛争议。著名AI研究者如弗朗索瓦·乔莱特(FrançoisChollet)与梅兰妮·米切尔(MelanieMitchell)指出,LLM并不具备实质的智能,在面对训练数据之外的场景时会失效,这样是无法实现AGI所需的通用能力的。因此,尽管LLM技术持续进步,其发展历程仍充满复杂性。
超规模扩展范式的核心理念在于涌现能力。早期针对LLM的研究发现,随着模型规模扩大,其性能会出现意料之外的显著跃升,某些新能力无需专门训练即可\“涌现\“。然而后续研究表明,这种涌现可能只是由有缺陷的量度所制造的假象。显示涌现现象的基准测试均采用非全即无的二元指标,这使得问题解决能力的渐进性进步被掩盖。当调整指标以评估进程中的进步和局部解决方案时,性能提升曲线趋于平缓,所谓的新能力也随之消失。另一些研究者则认为,模型规模扩展可能确实存在真正的涌现现象,但LLM的能力可能会趋于停滞。
此外,若要使LLM成为实现AGI的可行路径,它就需要突破语言的统计建模局限,使其具备逻辑与数学推理能力。尽管LLM在规模扩展时确实提升了推理基准测试的表现,但这可能仅是模式记忆的结果。证明这一点的典型例证是“逆向诅咒”(reversalcurse),即模型能够单向记忆关系,如可以记住\“A具有特征B\“,但无法逆向推导\“B是A的特征\“,除非经过双重训练分别记忆这种关系。
近期关于数学推理的研究同样凸显了LLM表现依赖记忆的问题。当基准测试被抽象为符号化问题(例如将\“托尼有4个苹果,珍妮有6个\“替换为\“若{某人}有{x}个苹果,{某人}有{y}个\“),LLM的准确率不仅骤降高达65%,且脆弱性随问题长度增加而显著加剧。更值得注意的是,当问题中引入语言相似但无关的信息(如\“有五个猕猴桃的尺寸比平均尺寸小\“),LLM往往会简单地将此类无关信息纳入计算(例如直接减去这些较小的猕猴桃)。
除性能限制外,模型扩展还可能遭遇经济层面的限制,尤其是数据及能源的约束。按照当前模型扩展速率,人类生成的训练数据总量可能在十年内耗尽,而日益增长的AI生成内容也可能污染未来的训练数据,使模型输出质量与多样性持续退化。这种数据墙可能对LLM的规模扩展构成严峻挑战。
此外,训练模型与推理运行的能耗需求也持续攀升,使得LLM的扩展可能遭遇能源的限制。这意味着,即使在理论上确实可能通过技术手段突破这些壁垒,但超规模扩展路径的发展仍可能无法持续。
总的来说,尽管LLM在基准测试中的性能随着模型规模扩大而提升,但这种提升可能源于更高强度的模式记忆能力。且模型扩展与训练会导致不同系列的LLM在面对复杂问题时,输出置信度逐步升高但实质错误的答案。另外LLM的涌现能力可能只是有缺陷的评估指标造成的假象。此外,LLM在形式化推理与数学领域仍存在明显短板,当面对抽象或语言复杂度较高的问题时,它们显然依赖于机械记忆。
从现实角度考量,数据墙与能源墙可能在经济层面制约LLM的规模扩展。当然,上述结论并非绝对:超规模扩展仍有可能催生AGI,且若AGI在近期实现,其很可能源于LLM的持续扩展。然而现有研究对通过超规模扩展实现AGI实现的路径提出了质疑。AGI的真正突破或许需要依赖其他补充性技术路径。
实现人工通用智能还需要哪些技术要素?
如果超规模扩展LLM并非实现AGI的可行路径,有什么替代路径呢?表1列举并描述了一批较有前景的补充性AI技术示例,这些技术可能填补LLM的不足。不过,此处列出的并非穷尽所有可能,而是旨在例示各类AI技术如何为AGI的实现提供支撑。
技术路径
描述
物理/因果混合模型(Physics/CausalHybrids)
将物理定律与因果推理整合到AI模型中,提升模型在现实世界的实用性
认知人工智能(CognitiveAI)
模拟人脑结构以提升处理效率与速度
信息格学习(InformationLatticeLearning)
创建可解释的模式表征;支持小样本数据的鲁棒学习,解决未知新问题
强化学习(ReinforcementLearning,RL)
通过试错机制训练模型学习最优行为(如机器人、游戏、自主系统中的应用)
神经符号架构(NeurosymbolicArchitectures)
融合神经网络与符号推理,增强可解释性及逻辑/数学问题解决能力
具身智能(Embodiment)
通过交互学习空间关系、物体动力学与物理关联(例如配备传感器的学习型机器人)
神经形态计算(NeuromorphicComputing)
使用脉冲神经网络实现高能效计算
▷表1. 可能支撑人工通用智能的关键技术
潜在的算法与计算技术
接下来,我们将从概念层面深入解析算法与计算技术,阐述它们如何应对现有AI系统的根本性局限,以及如何为AGI提供技术支撑。
(1)物理信息神经网络与因果模型
想象一个孩童手握理发剪在家中奔跑的场景。这个画面之所以令人不安,是因为成年人已构建起关于现实世界物理规律与因果关系的健全心智模型。也就是说,我们能够充分理解锋利金属在受力情况下与人体组织接触的物理后果,以及此类事件可能引发的灾难性连锁反应。人类之所以具备通用智能,是因为他们了解物理世界的运行机制。
物理信息神经网络(Physics-InformedNeuralNetworks,PINNs)通过建模物理学基本定律(如牛顿运动定律)来运作。PINNs能够解决动力学问题,如模拟湍流或预测结构应力,而在数据稀缺时,通过整合物理学原理的先验知识具有独特价值。
另一方面,因果模型(CausalModels)旨在理解因果关系。这类模型能够区分相关性与因果性,并允许AI系统模拟反事实场景(counterfactualscenarios),例如\“如果更用力踩下汽车刹车会发生什么?\“。因果模型对自主系统(如机器人、汽车)在动态现实环境中的安全运行至关重要,同时也关系到潜在AGI系统的安全性。
尽管LLM能够捕捉文本或视觉数据中的模式,但它们并未明确的表征现实世界的物理规律或因果关系。现有LLM将\“锋利物体\“建模为词语间的概率关联,而缺乏物理世界的实质锚定。例如,LLM可能将\“刀\“与\“切割\“、\“血液\“在语义空间中邻近分布,但截至目前,尚无LLM能够模拟刀具切割的动力学过程,或从物理层面预判切割行为潜在的致命后果。而PINNs与因果模型弥补了这种现实认知鸿沟。现有语言模型仅能提供表层语义理解,而PINNs则可建模物理过程,并通过因果模型则能推理这些过程的后果。两者的结合可实现更稳健的决策,例如能理解\“在仓库中移动重型托盘靠近脆弱人体存在危险\“。
▷图:PINNs将机器学习与物理学相结合,用科学原理增强人工智能。.可能支撑人工通用智能的关键技术。图源:JousefMurad
(2)认知人工智能
认知AI以人类认知为起点构建AGI。与统计学习和生成式方法不同,认知AI旨在人工复现人类智能的标志性特征。该研究领域的目标是设计出与类人类智能的系统,具体而言,这类系统能够通过与环境及其他行为主体互动习得概念;它们同时具备短期与长期记忆;在不同情境下能自适应地调整行为策略;并实现持续迭代式学习。
尽管不同研究分支使用\“认知计算\“、\“认知AI\“、\“人工认知\“等专业术语,但其共性均聚焦于类人认知。一方面,AI未必需要认知能力,例如,强化学习本质上是种暴力搜索式的学习优化路径,而LLM则是语言或蛋白质等数据的统计模式模型。另一方面,认知AI要求系统具备类人的思维能力,能通过在上下文中理解数据来解决现实问题。这种方法旨在实现更全面的人工智能形态,使机器能够以近似人类认知能力的方式进行推理、问题解决与决策。
这项AI技术可以应对复制人类所具备的广泛适应性智能的挑战。AGI中\“G(General)\“的定义包含一个假设,即此类智能应具备从多样化经验中理解学习、做出语境感知决策、跨领域灵活应用知识的能力,而这些能力正是人类认知的固有特征。通过专注于复现这些认知过程,认知AI为开发新型系统提供了技术路径,使这类系统不仅能执行特定任务,还能将习得的能力泛化至未曾预见的挑战场景。这种适应性与语境理解能力,对于AGI在现实世界特有的复杂动态环境中有效运作至关重要。
(3)信息格学习
假设我们将一组不同尺寸、不同颜色的方形与星形积木抛撒在地面上,即便是幼童也能立即识别区分两类积木的模式。更进一步,达到特定认知阶段的儿童可以明确表述分类规则:正方形具有四条等长边与四个直角,星形则拥有超过四个角且边长不等。而LLM则缺乏这种从单个或极少示例中识别模式的类似人类的能力,它们无法以人类可理解的方式解释模式的规则。然而,一种称作信息格学习(InformationLatticeLearning)的新型AI技术无需依赖神经网络即可实现这一功能。这种AI形式能够从极小数据量中,以教科书般的人类理解形式发现音乐理论、化学、遗传学与量子物理等领域的已知定律,甚至可在无需预先注入领域知识的情况下,突破科学家既有认知边界做出全新发现。
该技术探索知识的能力可衍生出多元化下游应用:例如视觉目标的最先进的分类、6G无线通信的语义压缩,乃至助力人类创造前所未见的创意与实体产物。由于该技术无需预先输入领域知识且训练数据需求极低,信息格学习体现了通用人工智能的关键。在情报、国防、生物安全等涉及国家竞争力的邻域或科研场景中,信息格学习的数据高效性与人类可控性展现出与LLM形成强力互补的能力优势。
(4)强化学习
强化学习通过试错法而非规则或理论学习来训练AI。例如,现有能击败任何人类棋手的AI国际象棋系统并非通过掌握原理与策略的人类学习方式精进棋艺,而是通过尝试数百万种可能的走法组合来寻找最优解。当RL模型取得进展时,其决策策略会因奖励信号得到强化,而次优选择则会被惩罚。最终,可能会出现国际象棋AI专家,在偏僻的路径上提前走几十步,最终只取得很小的收益,比如吃掉对方一个兵的情况。虽然这是一种非常非人类的方法,但对于特定任务和在某些领域内仍具有强大作用。
该技术的典型范例是自动驾驶载具,比如无人机等。通过充分的强化学习训练,无人机或其他智能体能够在无人类监督的情况下学会应对复杂地形与动态场景。例如,货运无人机可安全规避输电线,侦察无人机可实施贴地飞行以躲避侦测。由于RL涉及大量试错过程,其训练多在虚拟环境中完成,并采用时间加速方式以积累足够经验来习得最优策略。除自主运动载具外,RL在医学诊断与教育等多元领域亦展现出应用价值。
RL对开发AGI可能具有关键意义,因为它赋予机器通过过往经验进行学习与适应的能力,这与人类学习机制高度相似。RL系统能基于反馈持续优化行为策略,从而应对多样化任务与环境。此外,RL可与LLM结合,创造出混合系统,融合面向任务时RL的深度学习能力与LLM的问题解决能力。事实上,OpenAI、DeepSeek等公司最新推出的推理型LLM已整合RL技术,用于数学、编程与科学问答等任务。RL的适应性与持续学习能力,是在创造够跨不同情况和任务学习的机器中的关键组成部分,并推动实现AGI的进程。
▷图:强化学习是机器学习的一个子集,其中称为代理的算法通过与环境交互来学习做出决策。代理根据其采取的行动以奖励或惩罚的形式接收反馈,使其能够随着时间的推移迭代地提高其决策能力。图源:YuliaGavrilova
(5)神经符号架构
神经符号架构是整合神经网络与符号推理优势的新兴领域,旨在克服纯数据驱动模型(如LLM)的局限性。LLM是传统神经网络的典型代表,它在模式识别和数据驱动任务方面表现出色,但在需要抽象推理、逻辑推断以及超出训练数据进行泛化的任务上存在困难,尤其是在高等数学领域。神经符号AI则使用形式逻辑和显性知识表征(例如规则或本体)来推理世界。通过结合这两种方法,开发者可以设计一个混合型神经符号AI系统,该系统利用神经网络在处理原始数据方面的灵活性,以及符号系统的可解释性和结构化推理能力,在更广泛的领域中进行更稳健的问题解决,包括那些需要常识知识和复杂推理的领域。
与完全依赖海量文本数据进行统计学习的LLM相比,神经符号AI结合了数据驱动学习和显性知识表征。虽然LLM展示了令人印象深刻的语言能力,但它们仍然受限于依赖模式匹配而不是逻辑推理或世界认知。神经符号AI通过整合逻辑推理、结构化知识等符号组件(symboliccomponents),使模型能更优处理演绎推理、问题分解及解释生成等任务。这些模型弥合了神经网络的数据驱动强度和符号推理的结构化智能之间的差距,允许更通用和可解释的AI系统。
神经符号人工智能可能是实现AGI的关键一步,因为它能够将灵活的学习与结构化的推理相结合。AGI不仅需要巨大的数据处理能力,还需要具备推理、从少量样本中学习、以及在不同领域之间泛化知识的能力,这些能力难以通过纯粹基于神经网络的模型(例如LLMs)来实现。
而将符号推理整合到神经网络中的能力,使系统具备了更高阶的认知能力,比如理解上下文、形成因果关系,以及将学到的知识应用到新情境中。这种混合方法允许思维具有更多类似拟人化的灵活性,比如在处理不完整的信息、解释决策,以及推理新颖情景的情况。
(6)具身智能
如果AI系统能像婴儿那样通过交互感知世界会怎样?设想一个配备多种传感器的机器人,它具有视觉摄像头、麦克风、带触觉传感器的机械手,甚至具备味觉与嗅觉的化学传感器。这样的机器人会通过自主漫游来认知世界,通过听狗叫、摸狗毛、观察狗的运动、嗅闻湿狗气味来理解\“狗\“的概念。通过具身互动来学习。
具身AI系统根植于现实世界,形成对空间关系、物体动力学及物理交互的细致理解。这使得此类系统能像人类般通过交互进行学习,获取LLM所缺乏的情景感知知识。这种高度情景感知能力对AI系统实现实时决策与动态适应至关重要。通过弥合感知与行动之间的鸿沟,具身AI系统可整合物理知识、因果推理与交互认知,从而理解物理世界中的行为后果,并做出更明智且安全的决策。
具身化(Embodiment)使人工智能系统在体验世界的方式上更接近人类,从而实现类人模拟。这种体验方面对于培养同理心、直觉和其他通过单纯数据处理难以实现的认知能力很有价值。
▷图:具身智能使机器人和自主无人机能够与现实世界互动图源:YuichiroChino/GettyImages
(7)神经形态计算
LLM的能耗问题极为严重,不仅训练巨型模型需要海量能源,部署后的推理运行,尤其结合强化学习的链式思维推理技术时同样耗能巨大,这种能耗压力正从训练阶段转向推理阶段扩展。由于LLM本质上是人工神经网络,其运行高度依赖高性能计算芯片,特别是图形处理器(GPU)。尽管GPU能高效处理LLM的复杂矩阵运算,但其训练与推理的高能耗问题随着LLM的超大规模发展会愈加严重。此外,GPU市场由单一供应商(英伟达公司)主导的局面,也带来了成本与供应链风险。
传统芯片使用时钟驱动计时并持续耗能,不过,新一代神经形态芯片则会使用离散而低水平功率的电脉冲进行计算。神经形态芯片从人脑中汲取灵感,使用尖峰信号和计算单元之间的大规模并行连接,比传统计算机电路要节能得多。这些芯片已在实验室中部署,但截至本文撰写时(2025年初)尚未广泛应用。另一种不同的、新兴的技术路径是将真实的生物神经元培养成人工计算设备,使这些设备依靠少量的糖而非大量的电来运行。如果将这些替代物理基质能达到工业规模,它们可能会颠覆AI计算的供应链,并改变AI的能源计算。
覆盖多元未来的稳健策略
介绍了这么多种可能很有成果的通往人工通用智能(AGI)的替代技术路径,我们的目的不是提出具体建议,而是为政策制定者和其他利益相关者提供足够概念性的理解,让他们看到这些替代方案的多样性和广泛性,明白通往AGI的路径不止一条。这些替代途径涉及不同研究领域的算法和硬件技术。这表明,支持AGI替代技术的政策可能需要以一种能考虑到多种开发实体和模型的复杂方式来制定。
我们希望这篇论文已经解释了一些实现AGI技术路径的不确定性,并审视了单纯扩展LLM即可实现AGI的假设。我们要强调这种不确定性:LLM可能是以一种补偿其局限性的方式扩展来实现变革性的AGI。但是,LLM的超大规模扩展存在实证和理论上的障碍。
我们无法预测未来,因此也敦促政策制定者避免猜测未来。尽管本文的范围不包括对特定技术或策略提出任何建议,我们仍认为政府政策需要考虑AGI很快在超大规模扩展范式中出现的可能性,政府应该为不确定性做出计划,并做出适应多种通往AGI路径的政策选择。
编译后记
翻译过程中,笔者面临最核心的挑战在于如何让前沿AI概念在中文语境中既不失专业精度,又能被广泛理解。例如,\“神经符号架构\“这类复合术语,需要在\“类脑\“与\“符号逻辑\“之间找到平衡点;\“脉冲神经网络\“的译法则需在生物启发与工程实现之间把握分寸。
文章展现的学术反思令人深思:当国内科技界沉浸于不断扩展LLM时,国际学界已在严肃审视其技术天花板。但有趣的是,双方在神经形态计算、生物混合系统等替代路径的探索上却呈现出趋同性,或许这说明全球AI发展正面临共性瓶颈。
所谓师夷长技以制夷,当欧美出现对大模型的审视风潮时,我们也可辩证吸收其思想,更加审慎的布局AI,发挥制度优势,走出一条旗帜鲜明的AI探索之路。
本文译自兰德智库,有删改。仅做学术讨论,不代表本公众号立场和观点。原文链接:
https ://www. rand.org/pubs/perspectives/PEA3691-1. html
📢📢📢由天桥脑科学研究院主办的首届AI驱动科学年度研讨会(AIAS2025)将于10月27–28日在美国旧金山举行。会议面向全球征集论文,聚焦能够在科学领域开辟全新研究模式、假设生成及实验方法的变革性人工智能创新。如果您希望与诺贝尔奖得主JenniferDoudna,DavidBaker,知名学者AnimashreeAnankumar,HeatherJ. Kulik,以及业界领袖TomMiller一同登台分享,请点击阅读原文提交您的论文:https ://aias2025. org/call-for-papers/!征稿截止日期为8月1日。
关于追问nextquestion
天桥脑科学研究院旗下科学媒体,旨在以科学追问为纽带,深入探究人工智能与人类智能相互融合与促进,不断探索科学的边界。如果您有进一步想要讨论的内容,欢迎评论区留言,或后台留言“社群”即可加入社群与我们互动。
关于天桥脑科学研究院
天桥脑科学研究院(TianqiaoandChrissyChenInstitute)是由陈天桥、雒芊芊夫妇出资10亿美元创建的世界最大私人脑科学研究机构之一,围绕全球化、跨学科和青年科学家三大重点,支持脑科学研究,造福人类。
ChenInstitute与华山医院、上海市精神卫生中心设立了应用神经技术前沿实验室、人工智能与精神健康前沿实验室;与加州理工学院合作成立了加州理工天桥神经科学研究院。
ChenInstitute建成了支持脑科学和人工智能领域研究的生态系统,项目遍布欧美、亚洲和大洋洲,包括学术会议和交流、夏校培训、AI驱动科学大奖、科研型临床医生奖励计划、特殊病例社区、中文媒体追问、大圆镜科普等。