AGI真方向?谷歌证明:智能体在自研世界模型,世界模型is all You Need
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
来源:机器之心报道
编辑:泽南、Panda
越通用,就越WorldModels。
我们知道,大模型技术爆发的原点可能在谷歌一篇名为《AttentionisAllYouNeed》的论文上。
如今,在通用人工智能(AGI)初现曙光,ScalingLaws却疑似接近极限的当口,又是谷歌对未来方向进行了一番思考,想来想去还是只有五个词:
论文标题:Generalagentsneedworldmodels
论文链接:https ://arxiv. org/abs/2506. 01622
该论文已被机器学习顶会ICML收录。他们发现:如果一个AI智能体能够处理复杂的、长期的任务,那么它一定学习过一个内部世界模型——我们甚至可以通过观察智能体的行为来提取它。
世界模型是实现灵活、目标导向行为的必要要素,还是无需模型的学习就已足够?GoogleDeepMind研究人员为这个问题提供了一个正式的答案——任何能够泛化到多步骤目标导向任务的智能体都必须学习其环境的预测模型。
更进一步,实验证明,这样的模型可以从智能体的策略中提取出来,而提升智能体的性能或其可实现目标的复杂性需要学习越来越精确的世界模型。这将带来一系列影响:从开发安全通用的智能体,到在复杂环境中限制智能体的能力,以及提供从智能体中获取世界模型的新算法。
香港中文大学博士RichardC. Suwandi撰写了一篇博客文章,详细解读了这篇开创性的论文及其对AGI未来的意义。
想象一下,如果我们能够构建一个像人类一样思考和计划的人工智能,未来会是什么样子。大语言模型(LLM)领域的最新突破使我们更接近这一目标。随着这些模型规模不断扩大,并接受更多数据的训练,它们会发展出所谓的涌现。
这显著提升了它们在各类下游任务上的表现。大模型的涌现引发了新一轮的研究,旨在创建能够在现实世界环境中处理复杂、长期任务的通用AI智能体。但令人着迷的是:人类不仅对他们所见的事物做出反应,我们还建立了丰富的心智模型来建模世界的运作方式。这些世界模型可帮助我们设定雄心勃勃的目标,并制定周到的计划。因此,基于这一观察,我们很自然地会问:
世界模型对于实现人类水平的人工智能有用吗?
最近,GoogleDeepMind的研究人员表明,学习世界模型不仅有益,而且对于一般智能体来说也是必要的。在这篇文章中,我们将讨论该论文的主要发现及其对AI智能体未来的影响。
我们需要世界模型吗?
1991年,RodneyBrooks提出了一个著名观点:「世界是其自身的最佳模型」。
他认为,智能行为可以自然地从无模型智能体中产生,只需通过一系列动作和感知与环境互动,无需构建世界运作方式的明确表征。无模型智能体的显著成功有力地支持了Brooks的论点,这些智能体在不同任务和环境中展现出了出色的泛化能力。这种无模型方法为创建通用AI智能体提供了一种颇具吸引力的途径,同时避免了学习显式世界模型的复杂性。
然而,最近的研究提出了一个有趣的可能性:即使是这些所谓的无模型智能体也可能正在表面之下学习隐式的世界模型和规划算法。
IlyaSutskever一直是对的?
这让人们回想起2023年3月,OpenAI联合创始人IlyaSutskever提出了一个深刻的论断:大型神经网络的功能远不止预测下一个单词,它实际上是在学习「世界模型」。他是这样说的:
他认为,神经网络学习的不仅仅是文本信息,而是我们这个世界的一种压缩表征。因此,我们预测下一个词的准确度越高,世界模型的保真度就越高。
智能体与世界模型
虽然Ilya的说法引人入胜,但当时尚不清楚如何将其形式化。但现在,谷歌DeepMind的研究人员已经证明,Ilya的说法并非仅仅是一个假设,而是一条支配所有通用智能体的基本定律。
在论文中作者指出,「任何能够推广到广泛的简单目标导向任务的智能体都必须学习能够模拟其环境的预测模型,并且该模型始终可以从智能体中还原出来。」
任何满足界限的智能体都必须学习环境转换函数,该函数可以从其目标条件策略中提取出来。对于能够处理诸如到达特定状态等基本任务的智能体来说也是如此。
注意,上述内容仅适用于在多步骤范围内进行规划的智能体,因为它们需要了解行动如何影响未来状态。然而,只考虑即时奖励的「短视」智能体可能会避免学习世界模型,因为它们不需要预测长期后果。
为了使上述主张更加精确,作者开发了一个基于四个关键组成部分的严格数学框架:环境、目标、智能体和世界模型。
环境
假设环境是一个受控马尔可夫过程(cMP)本质上是一个没有指定奖励函数的马尔可夫决策过程。cMP的构成包括状态空间S、动作空间A以及过渡函数
作者假设环境是不可简化的和固定的。
目标
本文没有定义复杂的目标结构,而是专注于用线性时间逻辑(LTL)表达的简单、直观的目标。一个目标φ形式为,其中g是一组目标状态,指定时间范围(◯=下一步,⋄=最终,⊤=现在)。更复杂的复合目标ψ可以通过按顺序组合连续目标来形成:ψ=⟨φ_1,φ_2,…,φ_n⟩其中,智能体必须按顺序实现每个子目标。目标的深度等于子目标的数量:depth(ψ)=n。
智能体
作者重点研究了目标条件智能体,定义为策略,其可基于目标ψ将历史h_t映射到一个动作a_t。这就引出了针对给定环境和目标集Ψ的最优目标条件智能体的一个自然定义,即一种策略,该策略能使对于所有ψ∈Ψ,ψ得以实现的概率最大化。
然而,真实的智能体很少是最优的,尤其是在复杂环境中运行,以及执行需要在长期内协调多个子目标的任务时。作者并不要求完美最优,而是定义了一个有界智能体,它能够实现某个最大目标深度的目标,并且相对于最优智能体的失败率是有界的。有界目标条件智能体满足:
对于所有目标ψ∈Ψ_n,其中Ψ_n是所有复合目标的集合,其深度最多为n和δ∈[0,1]是错误率参数。
世界模型
作者考虑了预测世界模型,它可以被智能体用来进行规划。他们将世界模型定义为任何近似环境的过渡函数
有界误差。作者表明,对于任何此类有界目标条件的智能体,可以仅从其的策略中恢复环境转换函数(世界模型)的近似值:
让π成为具有最大失败率的目标条件智能体,δ对于所有目标ψ∈Ψ_n,其中n>1。然后π完全确定模型对于有界误差的环境转移概率:
对于δ≪1以及n≫1,误差尺度为
上述结果揭示了两个重要的见解:
1. 随着智能体能力越来越强(δ→0),可恢复世界模型变得更加准确。
2. 当智能体处理更长远的目标(更大的n),它们必须学习越来越精确的世界模型。
这也意味着学习足够通用的目标条件策略在信息上等同于学习准确的世界模型。
如何还原世界模型
作者还推导出了一种从有界智能体恢复世界模型的算法。该算法通过向智能体查询精心设计的复合目标来工作,这些目标对应于「非此即彼」的决策。例如,它提出诸如「实现过渡最多r次超出n尝试」与「实现它超过r次」之类的目标。智能体的行动选择揭示了哪个结果具有更高的概率,这使我们能够估计。
从有界智能体恢复世界模型的派生算法。
实验
为了测试算法的有效性,作者对一个随机生成的受控马尔可夫过程进行了实验,该过程包含20个状态和5个动作,并采用稀疏转移函数来增加学习难度。他们使用从环境中采样的轨迹,在随机策略下训练智能体,通过延长训练轨迹长度来提高其能力。结果表明:
即使智能体严重违反理论假设(对于某些目标实现最坏情况的regretδ=1,他们的算法仍然恢复了准确的世界模型。
恢复的世界模型中的平均误差随着,匹配误差界限和目标深度之间的理论缩放关系。
随着智能体学会处理更长远的目标(更大的最大深度n),提取出的世界模型变得越来越准确。这证实了智能体能力与世界模型质量之间的根本联系。
随着智能体处理更深层次的目标,恢复的世界模型中的平均误差会减小。b)平均误差与智能体在深度50时的regret成比例。误差线显示10次实验的95%置信区间。
与其他研究的关联
这项工作的成果补充了人工智能研究的其他几个领域:
所提出的算法完善了环境、目标和策略之间的「三角」。规划在给定世界模型和目标(世界模型+目标→策略)的情况下确定最优策略,而逆向强化学习(IRL)给定世界模型和策略(世界模型+策略→目标),恢复目标。提出的算法通过给定智能体的策略和目标(策略+目标→世界模型),恢复世界模型来填补剩余的方向。正如IRL需要跨多个环境观察策略才能完全确定目标一样,算法需要观察智能体在多个目标上的行为,才能完全恢复世界模型。
虽然规划使用世界模型和目标来确定策略,而IRL和逆向规划使用智能体的策略和世界模型来识别其目标,但所提出的算法使用智能体的策略及其目标来识别世界模型。
传统的机械可解释性(MI)通常依赖于分析神经网络激活或使用监督探测另一方面,所提出的算法提供了一种新颖的方法,可以直接从智能体的策略行为中提取世界模型,即使在模型内部无法访问的情况下也能适用。这种无监督且与架构无关的方法适用于任何满足有限regret条件的智能体,无论其具体实现如何。对于LLM,这意味着我们可以通过分析其目标导向行为来揭示其隐含的世界模型,而无需访问其内部表征。
最近的研究《Robustagentslearncausalworldmodels》表明,适应分布变化的智能体必须学习因果世界模型。该研究通过关注任务泛化而非领域泛化来补充这一理论。有趣的是,领域泛化需要比任务泛化更深的因果理解。
例如,在一个状态变量为X和Y是存在因果关系(X→Y),智能体只需学习转移概率即可实现最佳任务绩效,而无需了解潜在的因果关系。这暗示了Pearl因果层级的智能体版本其中不同的智能体能力(如领域或任务泛化)需要不同级别的因果知识。
这些发现对人工智能的发展和安全也具有着重要意义。大语言模型和其他人工智能系统中新功能的出现,可以用在针对各种训练任务进行优化时学习到的隐式世界模型来解释。从能力强大的智能体中提取世界模型的能力,为验证和校准提供了一种新的工具,因为模型保真度会随着智能体能力的提升而扩展。然而,学习复杂现实世界系统的精确世界模型本身就存在困难,这也从根本上限制了智能体的通用能力。
结论
或许,Ilya在2023年的预测比我们意识到的更有前瞻性。如果上述结果属实,那么当前通过扩展语言模型来推进超级人工智能(ASI)的竞赛,或许暗地里就是一场构建更复杂世界模型的竞赛。我们也有可能正在见证一些更为深刻的变革:从DavidSilver和RichardSutton所说的「人类数据时代」向「经验时代」的转变。虽然当前的人工智能系统通过模仿人类生成的数据实现了非凡的能力,但Silver和Sutton认为,超人类智能将主要通过智能体从自身经验中学习而诞生。
例如,随着Genie2等基础世界模型的最新发展,我们可以从单个图像生成无限的3D环境并允许智能体在丰富的环境中产生「经验流」,并根据其能力进行适应和发展。
Genie2,谷歌提出的一个基础世界模型,能够生成无限多样、可操作、可游玩的3D环境,用于训练和评估具身智能体。只需一张提示图像,人类或AI智能体即可使用键盘和鼠标输入来游玩。
如果说一般智能体必须学习世界模型,而超人类智能需要从经验而非人类数据中学习,那么像Genie2这样的基础世界模型或许就是体验时代的终极尺度法则。我们并不是在触及人类知识的上限,而是正在进入一个新阶段:AI智能体的质量从根本上受限于它们能够模拟和探索的世界的保真度。
能够做最精准的梦,并从梦中学习最多的智能体,或许才是最聪明的。
参考原文:
https ://richardcsuwandi. github.io/blog/2025/agents-world-models/
阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”
https ://wx. zsxq.com/group/454854145828
未来知识库是“欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https ://wx. zsxq.com/group/454854145828进入。
截止到3月31日”未来知识库”精选的百部前沿科技趋势报告
(加入未来知识库,全部资料免费阅读和下载)
牛津未来研究院《将人工智能安全视为全球公共产品的影响、挑战与研究重点》
麦肯锡:超级智能机构:赋能人们释放人工智能的全部潜力
AAAI2025关于人工智能研究未来研究报告
斯坦福:2025斯坦福新兴技术评论:十项关键技术及其政策影响分析报告(191页)
壳牌:2025能源安全远景报告:能源与人工智能(57页)
盖洛普&牛津幸福研究中心:2025年世界幸福报告(260页)
Schwab:2025未来共生:以集体社会创新破解重大社会挑战研究报告(36页)
IMD:2024年全球数字竞争力排名报告:跨越数字鸿沟人才培养与数字法治是关键(214页)
DS系列专题:DeepSeek技术溯源及前沿探索,50页ppt
联合国人居署:2024全球城市负责任人工智能评估报告:利用AI构建以人为本的智慧城市(86页)
TechUK:2025全球复杂多变背景下的英国科技产业:战略韧性与增长路径研究报告(52页)
NAVEXGlobal:2024年十大风险与合规趋势报告(42页)
《具身物理交互在机器人-机器人及机器人-人协作中的应用》122页
2025-2035年人形机器人发展趋势报告53页
EvaluatePharma:2024年全球生物制药行业展望报告:增长驱动力分析(29页)
【AAAI2025教程】基础模型与具身智能体的交汇,350页ppt
Tracxn:2025全球飞行汽车行业市场研究报告(45页)
谷歌:2024人工智能短跑选手(AISprinters):捕捉新兴市场AI经济机遇报告(39页)
【斯坦福博士论文】构建类人化具身智能体:从人类行为中学习
《基于传感器的机器学习车辆分类》最新170页
美国安全与新兴技术中心:2025CSET对美国人工智能行动计划的建议(18页)
罗兰贝格:2024人形机器人的崛起:从科幻到现实:如何参与潜在变革研究报告(11页)
兰德公司:2025从研究到现实:NHS的研究和创新是实现十年计划的关键报告(209页)
康桥汇世(CambridgeAssociates):2025年全球经济展望报告(44页)
国际能源署:2025迈向核能新时代
麦肯锡:人工智能现状,组织如何重塑自身以获取价值
威立(Wiley):2025全球科研人员人工智能研究报告(38页)
牛津经济研究院:2025TikTok对美国就业的量化影响研究报告:470万岗位(14页)
国际能源署(IEA):能效2024研究报告(127页)
Workday:2025发挥人类潜能:人工智能(AI)技能革命研究报告(20页)
CertiK:Hack3D:2024年Web3. 0安全报告(28页)
世界经济论坛:工业制造中的前沿技术:人工智能代理的崛起》报告
迈向推理时代:大型语言模型的长链推理研究综述
波士顿咨询:2025亚太地区生成式AI的崛起研究报告:从技术追赶者到全球领导者的跨越(15页)
安联(Allianz):2025新势力崛起:全球芯片战争与半导体产业格局重构研究报告(33页)
IMT:2025具身智能(EmbodiedAI)概念、核心要素及未来进展:趋势与挑战研究报告(25页)
IEEE:2025具身智能(EmbodiedAI)综述:从模拟器到研究任务的调查分析报告(15页)
CCAV:2025当AI接管方向盘:自动驾驶场景下的人机交互认知重构、变革及对策研究报告(124页)
《强化学习自我博弈方法在兵棋推演分析与开发中的应用》最新132页
《面向科学发现的智能体人工智能:进展、挑战与未来方向综述》
全国机器人标准化技术委员会:人形机器人标准化白皮书(2024版)(96页)
美国国家科学委员会(NSB):2024年研究与发展-美国趋势及国际比较(51页)
艾昆纬(IQVIA):2025骨科手术机器人技术的崛起白皮书:创新及未来方向(17页)
NPL&Beauhurst:2025英国量子产业洞察报告:私人和公共投资的作用(25页)
IEAPVPS:2024光伏系统经济与技术关键绩效指标(KPI)使用最佳实践指南(65页)
AGI智能时代:2025让DeepSeek更有趣更有深度的思考研究分析报告(24页)
2025军事领域人工智能应用场景、国内外军事人工智能发展现状及未来趋势分析报告(37页)
华为:2025鸿蒙生态应用开发白皮书(133页
《超级智能战略研究报告》
中美技术差距分析报告2025
欧洲量子产业联盟(QuIC):2024年全球量子技术专利态势分析白皮书(34页)
美国能源部:2021超级高铁技术(Hyperloop)对电网和交通能源的影响研究报告(60页)
罗马大学:2025超级高铁(Hyperloop):第五种新型交通方式-技术研发进展、优势及局限性研究报告(72页)
兰德公司:2025灾难性网络风险保险研究报告:市场趋势与政策选择(93页)
GTI:2024先进感知技术白皮书(36页)
AAAI:2025人工智能研究的未来报告:17大关键议题(88页)
安联Allianz2025新势力崛起全球芯片战争与半导体产业格局重构研究报告
威达信:2025全球洪水风险研究报告:现状、趋势及应对措施(22页)
兰德公司:迈向人工智能治理研究报告:2024EqualAI峰会洞察及建议(19页)
哈佛商业评论:2025人工智能时代下的现代软件开发实践报告(12页)
德安华:全球航空航天、国防及政府服务研究报告:2024年回顾及2025年展望(27页)
奥雅纳:2024塑造超级高铁(Hyperloop)的未来:监管如何推动发展与创新研究报告(28页)
HSOAC:2025美国新兴技术与风险评估报告:太空领域和关键基础设施(24页)
Dealroom:2025欧洲经济与科技创新发展态势、挑战及策略研究报告(76页)
《无人机辅助的天空地一体化网络:学习算法技术综述》
谷歌云(GoogleCloud):2025年AI商业趋势白皮书(49页)
《新兴技术与风险分析:太空领域与关键基础设施》最新报告
150页!《DeepSeek大模型生态报告》
军事人工智能行业研究报告:技术奇点驱动应用加速智能化重塑现代战争形态-250309(40页)
真格基金:2024美国独角兽观察报告(56页)
璞跃(PlugandPlay):2025未来商业研究报告:六大趋势分析(67页)
国际电工委员会(IEC):2025智能水电技术与市场展望报告(90页)
RWS:2025智驭AI冲击波:人机协作的未来研究报告(39页)
国际电工委员会(IEC):2025智能水电技术与市场展望报告(90页)
RWS:2025智驭AI冲击波:人机协作的未来研究报告(39页)
未来今日研究所2025年科技趋势报告第18版1000页
模拟真实世界:多模态生成模型的统一综述
中国信息协会低空经济分会:低空经济发展报告(2024-2025)(117页)
浙江大学:2025语言解码双生花:人类经验与AI算法的镜像之旅(42页)
人形机器人行业:由“外”到“内”智能革命-250306(51页)
大成:2025年全球人工智能趋势报告:关键法律问题(28页)
北京大学:2025年DeepSeek原理和落地应用报告(57页)
欧盟委员会人工智能与未来工作研究报告
加州大学伯克利分校:面向科学发现的多模态基础模型:在化学、材料和生物学中的应用
电子行业:从柔性传感到人形机器人触觉革命-250226(35页)
RT轨道交通:2024年中国城市轨道交通市场数据报告(188页)
FastMoss:2024年度TikTok生态发展白皮书(122页)
CheckPoint:2025年网络安全报告-主要威胁、新兴趋势和CISO建议(57页)
【AAAI2025教程】评估大型语言模型:挑战与方法,199页ppt
《21世纪美国的主导地位:核聚变》最新报告
沃尔特基金会(VoltaFoundation):2024年全球电池行业年度报告(518页)
斯坦福:2025斯坦福新兴技术评论:十项关键技术及其政策影响分析报告(191页)
国际科学理事会:2025为人工智能做好国家研究生态系统的准备-2025年战略与进展报告(英文版)(118页)
光子盒:2025全球量子计算产业发展展望报告(184页)
奥纬论坛:2025塑造未来的城市研究报告:全球1500个城市的商业吸引力指数排名(124页)
FutureMatters:2024新兴技术与经济韧性:日本未来发展路径前瞻报告(17页)
《人类与人工智能协作的科学与艺术》284页博士论文
《论多智能体决策的复杂性:从博弈学习到部分监控》115页
《2025年技术展望》56页slides
大语言模型在多智能体自动驾驶系统中的应用:近期进展综述
【牛津大学博士论文】不确定性量化与因果考量在非策略决策制定中的应用
皮尤研究中心:2024美国民众对气候变化及应对政策的态度调研报告:气候政策对美国经济影响的多元观点审视(28页)
空间计算行业深度:发展趋势、关键技术、行业应用及相关公司深度梳理-250224(33页)
Gartner:2025网络安全中的AI:明确战略方向研究报告(16页)
北京大学:2025年DeepSeek系列报告-提示词工程和落地场景(86页)
北京大学:2025年DeepSeek系列报告-DeepSeek与AIGC应用(99页)
CIC工信安全:2024全球人工智能立法的主要模式、各国实践及发展趋势研究报告(42页)
中科闻歌:2025年人工智能技术发展与应用探索报告(61页)
AGI智能时代:2025年Grok-3大模型:技术突破与未来展望报告(28页)
上下滑动查看更多