杨立昆亲自发布:Meta最强世界模型开源!


杨立昆亲自发布:Meta最强世界模型开源!

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

让AI真正理解世界,Meta又迈出了关键一步。
来源:Meta官网
编译:云鹏
编辑:漠影
智东西6月12日消息,刚刚,Meta发布了最新的开源世界模型V-JEPA2,称其在物理世界中实现了最先进的视觉理解和预测,从而提高了AIagents的物理推理能力。
Meta副总裁、首席AI科学家杨立昆(YannLeCun)亲自发布了该模型,他在官方视频中提到,在世界模型的帮助下,AI不再需要数百万次的训练才能掌握一项新的能力,世界模型直接告诉了AI世界是怎样运行的,这可以极大提升效率。
比如AI会预测我们舀出一勺东西是要放入另一个容器中:
AI甚至可以理解运动员的复杂跳水动作,并进行动作拆解:
据Meta测试数据,V-JEPA2在测试任务中每一步的规划用时缩短至英伟达Cosmos模型的三十分之一,同时成功率还更高。据称V-JEPA2使用了一百多万小时的视频来进行自监督学习训练。
在Meta看来,物理推理能力对于构建在现实世界中运作的AIagents、实现高级机器智能(AMI)非常重要,可以让AIagents真正可以“三思而后行(ThinkBeforeActs)”。
此外,Meta还发布了三个新的基准测试,用于评估现有模型从视频中推理物理世界的能力。
昨天Meta刚刚曝出要成立新AI实验室、招揽28岁华裔天才少年,并豪掷148亿美元(约合人民币1061亿元)收购ScaleAI49%股份的消息,今天Meta发布新世界模型,并让杨立昆出来大讲MetaAI重点研究方向和愿景做法,颇有些要为招兵买马“打广告”的意味。
论文地址:

  1. 世界模型让AI有“类人直觉”
    强化AIagents理解、预测、规划能力
    理解世界物理规律听起来并不复杂,但这是AI与人类差距非常大的一个方面。
    比如你把球抛向空中时,知道重力会将其拉回地面;当你穿过一个陌生的拥挤区域时,你会一边朝目的地移动,一边避免撞到沿途的行人或障碍物;打曲棍球时,你会滑向冰球即将到达的位置,而非它当前的位置。
    ▲判断篮球的运动轨迹
    但AI很难掌握这种能力,很难构建这种理解物理世界的“心理模型”。
    Meta的世界模型,主要会强化AIagents的理解、预测、规划三项核心能力。
  2. 关键架构创新大幅提升学习效率
    高性能同时兼顾准确率
    Meta使用视频来训练V-JEPA2,帮助模型学习物理世界中的重要规律,包括人类如何与物体互动、物体在物理世界中的运动方式,以及物体之间的相互作用。
    据称V-JEPA2通过自监督学习,训练了超过1百万小时的视频。
    V-JEPA2是一种联合嵌入预测架构(JointEmbeddingPredictiveArchitecture)模型,这也是“JEPA”的名称由来。
    模型包括两个主要组成部分:
    一个编码器,负责接收原始视频,并输出包含对于观察世界状态语义上有用的内容的嵌入(embeddings)。
    一个预测器,负责接收视频嵌入和关于要预测的额外内容,并输出预测的嵌入。
    V-JEPA2跟传统预测像素的生成式模型有很大性能差异,根据Meta测试数据,V-JEPA2执行任务时每个步骤的规划用时缩短至Cosmos模型的三十分之一,不仅用时短,V-JEPA2的成功率还更高。
    V-JEPA2的能力对现实世界agents理解复杂运动和时间动态(temporaldynamics),以及根据上下文线索预测动作都非常关键。
    基于这种预测能力,世界模型对于规划给定目标的动作顺序非常有用,比如从一个杯子在桌子上的状态到杯子在桌子边上的状态,中间要经历怎样的动作。
    如今大部分AI都需要专业的训练去解决特定的任务,而V-JEPA这种自监督的方式,只需要为数不多的案例,就可以掌握新的能力,在不同的任务和领域中实现更高的性能表现。
    模型可以部署在机械臂上,去执行物体操作类的任务,比如触碰(Reach)、抓取(Grasp)、选择和摆放物体(Pick-and-place),而不需要大量的机器人数据或者针对性的任务训练。
    根据测试数据,V-JEPA2在执行这三类任务时的成功率分为别100%、45%和73%。
  3. 杨立昆展示世界模型应用场景
    首发三个专项基准测试
    世界模型可能会有哪些应用场景,杨立昆也给大家做了一些展示。
    世界模型加持下的AIagents,可以帮助视障人群更好的认知世界;
    MR头显中的AIagents可以给更复杂的任务提供指导,比如让教育更加的个性化;
    AI编程助手可以真正理解一行新的代码会如何改变程序的状态或变量;
    世界模型对自动化系统同样非常重要,比如自动驾驶汽车和机器人;
    Meta认为世界模型会为机器人开启一个新的时代,让现实世界中的AIagents不需要学习天文数字的训练数据就可以做家务或体力劳动。
    除了发布V-JEPA2,Meta还分享了三个新基准测试,用来帮助研究界评估现有模型通过视频学习和推理世界的能力:

3、CausalVQA:面向视频模型的物理基础因果推理基准测试(APhysicallyGroundedCausalReasoningBenchmarkforVideoModels)。
基准测试地址:
IntPhys2:

CausalVQA:

Shortcut-awareVideo-QABenchmark:

  1. 结语:AI认知世界提速
    AI从数字世界加速走向物理世界
    Meta二代世界模型的发布进一步优化了模型的性能和准确率,让物理世界的AIagents可以更高效地执行任务,而不需要海量的数据训练,这一方向可以说是目前AI圈关注的焦点赛道之一。
    随着数据瓶颈问题越来越凸显,如何在底层技术层面实现突破显得更为关键,Meta在模型架构层面的创新是其世界模型的核心优势。
    随着如今越来越多的视频模型发布,AI逐渐从文本、图像走向动态的视频,AI理解世界、认识世界的速度不断加快,从英伟达、Meta、谷歌这样巨头到各路创企,都对打造世界模型饶有兴致,世界模型之战,或许将成为后续AI产业技术竞争的关键看点。
    阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”
    https ://wx. zsxq.com/group/454854145828
    未来知识库是“欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https ://wx. zsxq.com/group/454854145828进入。
    截止到3月31日”未来知识库”精选的百部前沿科技趋势报告
    (加入未来知识库,全部资料免费阅读和下载)
    牛津未来研究院《将人工智能安全视为全球公共产品的影响、挑战与研究重点》
    麦肯锡:超级智能机构:赋能人们释放人工智能的全部潜力
    AAAI2025关于人工智能研究未来研究报告
    斯坦福:2025斯坦福新兴技术评论:十项关键技术及其政策影响分析报告(191页)
    壳牌:2025能源安全远景报告:能源与人工智能(57页)
    盖洛普&牛津幸福研究中心:2025年世界幸福报告(260页)
    Schwab:2025未来共生:以集体社会创新破解重大社会挑战研究报告(36页)
    IMD:2024年全球数字竞争力排名报告:跨越数字鸿沟人才培养与数字法治是关键(214页)
    DS系列专题:DeepSeek技术溯源及前沿探索,50页ppt
    联合国人居署:2024全球城市负责任人工智能评估报告:利用AI构建以人为本的智慧城市(86页)
    TechUK:2025全球复杂多变背景下的英国科技产业:战略韧性与增长路径研究报告(52页)
    NAVEXGlobal:2024年十大风险与合规趋势报告(42页)
    《具身物理交互在机器人-机器人及机器人-人协作中的应用》122页
    2025-2035年人形机器人发展趋势报告53页
    EvaluatePharma:2024年全球生物制药行业展望报告:增长驱动力分析(29页)
    【AAAI2025教程】基础模型与具身智能体的交汇,350页ppt
    Tracxn:2025全球飞行汽车行业市场研究报告(45页)
    谷歌:2024人工智能短跑选手(AISprinters):捕捉新兴市场AI经济机遇报告(39页)
    【斯坦福博士论文】构建类人化具身智能体:从人类行为中学习
    《基于传感器的机器学习车辆分类》最新170页
    美国安全与新兴技术中心:2025CSET对美国人工智能行动计划的建议(18页)
    罗兰贝格:2024人形机器人的崛起:从科幻到现实:如何参与潜在变革研究报告(11页)
    兰德公司:2025从研究到现实:NHS的研究和创新是实现十年计划的关键报告(209页)
    康桥汇世(CambridgeAssociates):2025年全球经济展望报告(44页)
    国际能源署:2025迈向核能新时代
    麦肯锡:人工智能现状,组织如何重塑自身以获取价值
    威立(Wiley):2025全球科研人员人工智能研究报告(38页)
    牛津经济研究院:2025TikTok对美国就业的量化影响研究报告:470万岗位(14页)
    国际能源署(IEA):能效2024研究报告(127页)
    Workday:2025发挥人类潜能:人工智能(AI)技能革命研究报告(20页)
    CertiK:Hack3D:2024年Web3. 0安全报告(28页)
    世界经济论坛:工业制造中的前沿技术:人工智能代理的崛起》报告
    迈向推理时代:大型语言模型的长链推理研究综述
    波士顿咨询:2025亚太地区生成式AI的崛起研究报告:从技术追赶者到全球领导者的跨越(15页)
    安联(Allianz):2025新势力崛起:全球芯片战争与半导体产业格局重构研究报告(33页)
    IMT:2025具身智能(EmbodiedAI)概念、核心要素及未来进展:趋势与挑战研究报告(25页)
    IEEE:2025具身智能(EmbodiedAI)综述:从模拟器到研究任务的调查分析报告(15页)
    CCAV:2025当AI接管方向盘:自动驾驶场景下的人机交互认知重构、变革及对策研究报告(124页)
    《强化学习自我博弈方法在兵棋推演分析与开发中的应用》最新132页
    《面向科学发现的智能体人工智能:进展、挑战与未来方向综述》
    全国机器人标准化技术委员会:人形机器人标准化白皮书(2024版)(96页)
    美国国家科学委员会(NSB):2024年研究与发展-美国趋势及国际比较(51页)
    艾昆纬(IQVIA):2025骨科手术机器人技术的崛起白皮书:创新及未来方向(17页)
    NPL&Beauhurst:2025英国量子产业洞察报告:私人和公共投资的作用(25页)
    IEAPVPS:2024光伏系统经济与技术关键绩效指标(KPI)使用最佳实践指南(65页)
    AGI智能时代:2025让DeepSeek更有趣更有深度的思考研究分析报告(24页)
    2025军事领域人工智能应用场景、国内外军事人工智能发展现状及未来趋势分析报告(37页)
    华为:2025鸿蒙生态应用开发白皮书(133页
    《超级智能战略研究报告》
    中美技术差距分析报告2025
    欧洲量子产业联盟(QuIC):2024年全球量子技术专利态势分析白皮书(34页)
    美国能源部:2021超级高铁技术(Hyperloop)对电网和交通能源的影响研究报告(60页)
    罗马大学:2025超级高铁(Hyperloop):第五种新型交通方式-技术研发进展、优势及局限性研究报告(72页)
    兰德公司:2025灾难性网络风险保险研究报告:市场趋势与政策选择(93页)
    GTI:2024先进感知技术白皮书(36页)
    AAAI:2025人工智能研究的未来报告:17大关键议题(88页)
    安联Allianz2025新势力崛起全球芯片战争与半导体产业格局重构研究报告
    威达信:2025全球洪水风险研究报告:现状、趋势及应对措施(22页)
    兰德公司:迈向人工智能治理研究报告:2024EqualAI峰会洞察及建议(19页)
    哈佛商业评论:2025人工智能时代下的现代软件开发实践报告(12页)
    德安华:全球航空航天、国防及政府服务研究报告:2024年回顾及2025年展望(27页)
    奥雅纳:2024塑造超级高铁(Hyperloop)的未来:监管如何推动发展与创新研究报告(28页)
    HSOAC:2025美国新兴技术与风险评估报告:太空领域和关键基础设施(24页)
    Dealroom:2025欧洲经济与科技创新发展态势、挑战及策略研究报告(76页)
    《无人机辅助的天空地一体化网络:学习算法技术综述》
    谷歌云(GoogleCloud):2025年AI商业趋势白皮书(49页)
    《新兴技术与风险分析:太空领域与关键基础设施》最新报告
    150页!《DeepSeek大模型生态报告》
    军事人工智能行业研究报告:技术奇点驱动应用加速智能化重塑现代战争形态-250309(40页)
    真格基金:2024美国独角兽观察报告(56页)
    璞跃(PlugandPlay):2025未来商业研究报告:六大趋势分析(67页)
    国际电工委员会(IEC):2025智能水电技术与市场展望报告(90页)
    RWS:2025智驭AI冲击波:人机协作的未来研究报告(39页)
    国际电工委员会(IEC):2025智能水电技术与市场展望报告(90页)
    RWS:2025智驭AI冲击波:人机协作的未来研究报告(39页)
    未来今日研究所2025年科技趋势报告第18版1000页
    模拟真实世界:多模态生成模型的统一综述
    中国信息协会低空经济分会:低空经济发展报告(2024-2025)(117页)
    浙江大学:2025语言解码双生花:人类经验与AI算法的镜像之旅(42页)
    人形机器人行业:由“外”到“内”智能革命-250306(51页)
    大成:2025年全球人工智能趋势报告:关键法律问题(28页)
    北京大学:2025年DeepSeek原理和落地应用报告(57页)
    欧盟委员会人工智能与未来工作研究报告
    加州大学伯克利分校:面向科学发现的多模态基础模型:在化学、材料和生物学中的应用
    电子行业:从柔性传感到人形机器人触觉革命-250226(35页)
    RT轨道交通:2024年中国城市轨道交通市场数据报告(188页)
    FastMoss:2024年度TikTok生态发展白皮书(122页)
    CheckPoint:2025年网络安全报告-主要威胁、新兴趋势和CISO建议(57页)
    【AAAI2025教程】评估大型语言模型:挑战与方法,199页ppt
    《21世纪美国的主导地位:核聚变》最新报告
    沃尔特基金会(VoltaFoundation):2024年全球电池行业年度报告(518页)
    斯坦福:2025斯坦福新兴技术评论:十项关键技术及其政策影响分析报告(191页)
    国际科学理事会:2025为人工智能做好国家研究生态系统的准备-2025年战略与进展报告(英文版)(118页)
    光子盒:2025全球量子计算产业发展展望报告(184页)
    奥纬论坛:2025塑造未来的城市研究报告:全球1500个城市的商业吸引力指数排名(124页)
    FutureMatters:2024新兴技术与经济韧性:日本未来发展路径前瞻报告(17页)
    《人类与人工智能协作的科学与艺术》284页博士论文
    《论多智能体决策的复杂性:从博弈学习到部分监控》115页
    《2025年技术展望》56页slides
    大语言模型在多智能体自动驾驶系统中的应用:近期进展综述
    【牛津大学博士论文】不确定性量化与因果考量在非策略决策制定中的应用
    皮尤研究中心:2024美国民众对气候变化及应对政策的态度调研报告:气候政策对美国经济影响的多元观点审视(28页)
    空间计算行业深度:发展趋势、关键技术、行业应用及相关公司深度梳理-250224(33页)
    Gartner:2025网络安全中的AI:明确战略方向研究报告(16页)
    北京大学:2025年DeepSeek系列报告-提示词工程和落地场景(86页)
    北京大学:2025年DeepSeek系列报告-DeepSeek与AIGC应用(99页)
    CIC工信安全:2024全球人工智能立法的主要模式、各国实践及发展趋势研究报告(42页)
    中科闻歌:2025年人工智能技术发展与应用探索报告(61页)
    AGI智能时代:2025年Grok-3大模型:技术突破与未来展望报告(28页)
    上下滑动查看更多

文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录