LeCun亲自官宣!Meta世界模型V-JEPA 2登场!仅用62小时机器人数据,就能实现零样本控制!


LeCun亲自官宣!Meta世界模型V-JEPA 2登场!仅用62小时机器人数据,就能实现零样本控制!

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

整理|梦依丹
出品丨AI科技大本营(ID:rgznai100)
让AI像人一样理解世界并与环境互动。

这次,Meta首席AI科学家YannLeCun亲自出镜,并介绍了世界模型与其他模型的不同之处。
V-JEPA2是一款基于视频训练的先进AI系统,旨在赋予机器更深层次的物理世界理解、预测及交互能力,向着构建更通用的AI智能体迈出关键一步。
一经发布,便在X上引发了众多关注与讨论。
目前V-JEPA2在HuggingFace物理推理能力排行榜上排行第一,已超过GPT-4o。
Meta团队认为,未来AI的关键在于具备对现实世界进行计划与推理的能力,而“世界模型(WorldModels)”正是实现这一目标的核心路径。
此次,他们不仅开放了V-JEPA2的模型代码与权重检查点,供研究与商业用途自由使用,也希望借此构建起更广泛的开源社区生态,推动世界模型领域的持续进展,加速AI与物理世界交互方式的革新。
V-JEPA2相关链接:

GitHub:https ://github. com/facebookresearch/vjepa2
HuggingFace:https ://huggingface. co/collections/facebook/v-jepa-2-6841bad8413014e185b497a6
V-JEPA2基于联合嵌入预测架构(JEPA)构建,核心由两大组件组成:
编码器(Encoder):接收原始视频输入,并输出嵌入表示,捕捉所观察世界状态中的关键语义信息;
预测器(Predictor):结合视频嵌入与具体的预测任务上下文,生成对应的预测嵌入结果。
V-JEPA2的训练过程分为两个阶段:
第一阶段:无动作预训练
Meta使用了来自多个来源的超过100万小时视频和100万张图像,为模型构建了丰富的感知语义基础。该阶段的核心目标是学习物体、人与环境之间的交互逻辑,不涉及任何控制指令。
在完成这一阶段后,V-JEPA2就已展现出出色的理解与预测能力:
在Something-Somethingv2动作识别任务中,仅通过冻结编码器特征并训练轻量注意力读出模型,V-JEPA2就取得了优异成绩。该任务强调对运动和操作行为的理解。
在Epic-Kitchens-100动作预测任务中,通过冻结编码器和预测器,再训练注意力读出模块,V-JEPA2创造了新的SOTA纪录。该任务需要模型从第一人称视频中预测接下来1秒可能的动作(包括名词与动词)。
此外,将V-JEPA2与语言模型结合,在视频问答基准任务上(如PerceptionTest和TempCompass)也实现了领先的性能。
第二阶段:动作条件训练
在掌握世界如何变化的通用模式后,V-JEPA2进入了更贴近真实Agent的训练阶段——结合动作信息进行规划学习。
Meta使用机器人数据(包括视频观察和控制动作)引导预测器进行有条件推理:模型在预测未来时,会考虑当前执行的动作,从而具备可控性。令人惊讶的是,这一阶段仅使用了62小时的机器人数据,就能训练出一个具备控制能力的模型。
超3000人的「AI产品及应用交流」社群,不错过AI产品风云!诚邀所有AI产品及应用从业者、产品经理、开发者和创业者,扫码加群:
进群后,您将有机会得到:
·最新、最值得关注的AI产品资讯及大咖洞见
·独家视频及文章解读AGI时代的产品方法论及实战经验
·不定期赠送热门AI产品邀请码
从理解到执行:零样本机器人控制能力验证
Meta在实际环境中验证了V-JEPA2的迁移与泛化能力。团队在开源DROID数据集上完成模型训练后,直接部署到实验室机器人,无需针对部署场景再进行微调。
在多个演示中,V-JEPA2展示了强大的零样本任务规划能力,尤其在此前从未见过的物体和环境中,完成了以下任务:
短期任务(如物体拾取与放置):以图像形式设定目标,模型通过对当前状态与目标状态的嵌入,预测一系列动作后果,并实时重规划,执行最优动作。
长期任务(如将物体移动至指定位置):系统会设定一系列视觉子目标,机器人按顺序完成各阶段目标,类似人类的模仿学习过程。
最终,在完全新环境中,V-JEPA2在新物体的拾取与放置任务中达成65%80%的成功率,展示了“世界模型”在实现通用机器人智能方面的广阔潜力。
什么是世界模型?
与此同时,Meta团队还向大家详细介绍了什么是世界模型。
人们对于物理世界的直观理解根深蒂固。例如,人们普遍认知到,抛向空中的网球会被重力拉回地面,若其悬停、骤然转向或变为他物,则会令人感到诧异。这种物理直觉并非成年人教育的产物,而是幼儿在掌握语言之前,通过观察周围环境便已逐渐形成的本能认知。
预测世界对自身或他人行为的反应,是人类在日常生活中持续运用的一项核心能力,尤其在规划行动路径和应对陌生情境时至关重要。
正是这种内化的“世界模型”赋予了人类直觉,并如同一个内部模拟器,使人能够预估假设行为的后果,从而选择最能达成目标的行动方案。
在实际行动前,人类会运用其内在的世界模型来构想潜在结果。因此,在构建能够“三思而后行”的AI智能体时,一个核心目标便是让它们学习到同样强大的世界模型。这样的世界模型应具备以下关键能力:
理解(Understanding):AI的世界模型需能透彻理解对客观世界的观察,包括但不限于识别视频中的物体、行为及运动模式。
预测(Predicting):该模型应能准确预测世界的自然演化趋势,以及在智能体采取特定行动后世界可能发生的变化。
规划(Planning):基于其预测能力,世界模型必须能够有效地规划出一系列连贯行动,以实现预设的目标。
三大物理理解基准测试
与此同时,Meta还发布了三项全新的物理理解基准测试:IntPhys2、MVPBench、CausalVQA,来评估当前AI模型对物理世界理解的合理性、因果关系和反事实的理解能力。
虽然人类在这些任务中的准确率高达85%
95%,但包括V-JEPA2在内的领先模型仍与人类存在明显差距,也为下一阶段模型演进提供了清晰目标。
IntPhys2:判断“哪一段违反了物理规律”,专注于测试模型是否具备直觉物理常识。
MVPBench识别“细微差异下的真实因果”:通过构造一对几乎一致的视频和问题,迫使模型跳脱表层线索,真正理解视频中的物理因果关系。
CausalVQA:回答“如果、接下来、为了什么”,旨在测试视频模型对物理世界因果关系的理解深度
V-JEPA2代表了Meta在实现高级机器智能(AMI)及构建能在物理世界中运行的实用AI智能体目标上的又一重要进展。
下一步
目前V-JEPA2仍以单一时间尺度进行预测,而现实任务往往需要跨时间与空间的复杂规划。
下一阶段,Meta团队将重点探索分层式世界模型,让AI能够像人类一样,将复杂任务拆解为多个步骤并进行推理与执行。
同时,还将推进多模态建模能力,融合视觉、听觉、触觉等多种感知信息,提升AI对世界的理解与预测水平。团队也将持续开源成果,推动这一方向的发展。
参考链接:https ://ai. meta.com/blog/v-jepa-2-world-model-benchmarks/
推荐阅读:
OpenAI的阳谋与野心!「温和的奇点」背后
揭秘夸克首个高考志愿大模型!蒸馏数百名人类专家经验、Agent可完整生成志愿报告
当AI能写代码修bug,高考报计算机专业是“火坑”还是“新机遇”|深度对话6位专家
📢2025全球产品经理大会
8月15–16日 
北京·威斯汀酒店
2025全球产品经理大会将汇聚互联网大厂、AI创业公司、ToB/ToC实战一线的产品人,围绕产品设计、用户体验、增长运营、智能落地等核心议题,展开12大专题分享,洞察趋势、拆解路径、对话未来。
更多详情与报名,请扫码下方二维码。


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录