被“网暴”两个月后,Yann LeCun 携最新世界模型杀回!小扎千万美元激励抢人,Meta AI 内部权利之争开始
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
整理|华卫
昨日,Meta推出了其新的“世界模型”V-JEPA2,旨在实现物理世界中顶尖的视觉理解与预测能力,以提升AI主体的物理推理能力。对于构建能在物理世界中运作的AI智能体和实现高级机器智能(AMI)的工作而言,物理推理能力至关重要。
在一段发布的V-JEPA2视频演示中,图灵奖获得者、Meta首席AI科学家YannLeCun将V-JEPA2描述为“现实的抽象数字孪生”,使AI能够“预测其行为的后果”并“规划行动方案以完成给定任务”。
“我们相信,世界模型将开启机器人技术的新纪元,使现实世界中的AI主体能够帮助完成家务和体力任务,而无需海量的机器人训练数据。”
比英伟达的Cosmos模型快30倍,
现已开源
作为人类,我们具备预测物理世界如何因响应自身或他人行为而变化的能力。例如,你知道将网球抛向空中时,重力会将其拉回地面;在陌生的拥挤区域行走时,你会朝着目的地移动,同时避免碰撞沿途的人群或障碍物;打曲棍球时,你会滑向冰球的前进方向,而非它当前的位置。
实际上,人类是通过观察周围世界并构建内部模型来形成这种物理直觉,进而预测假设行为的结果。
V-JEPA2的作用就是,帮助AI主体模拟这种智能,使其对物理世界的认知更加敏锐。具体来说,此类世界模型赋予AI三大核心能力:理解、预测与规划,试图构建现实的内部模拟,帮助机器预测结果并据此规划行动。
并且,Meta称,V-JEPA2可以在不需要标记视频片段的情况下执行此类推理,这使其有别于ChatGPT或Gemini等现有生成式AI系统,旨在为自动驾驶汽车、仓库机器人和无人机配送系统等AI驱动型技术实现实时空间理解。
另外据了解,这次的V-JEPA2是Meta去年发布的视频训练模型V-JEPA的扩展版本,进一步提升了理解与预测能力,使机器人能与陌生物体和环境交互以完成任务。
该模型是在100多万小时的视频基础上训练出来的,其训练数据旨在帮助机器人或其他人工智能主体在物理世界中运作,理解并预测诸如重力等概念将如何影响序列中的后续事件,这些是幼儿和动物在大脑发育过程中形成的常识性联系。例如,当你和狗玩接物游戏时,狗会理解将球在地上弹跳如何使其向上反弹,或者它应该跑向它认为球将落地的位置,而不是球在那一刻的精确位置。
Meta还描述了一些机器人可能会遇到的情况,比如机器人手持盘子和锅铲、走向放有熟鸡蛋的炉子的视角。AI可以预测,下一个极有可能的动作是用锅铲将鸡蛋移到盘子里。当在实验室机器人上部署时,Meta发现机器人可借助V-JEPA2执行抓取、拾取物体并将其放置到新位置等任务。
同时,该公司还发布了三项新的基准测试,包括IntPhys2、MVPBench和CausalVQA,用于评估现有模型从视频中进行物理世界推理的能力。
据Meta称,V-JEPA2的速度比英伟达的Cosmos模型快30倍。今年的CES上,英伟达宣布公开提供一系列可以预测和生成“物理感知”视频的世界模型,此系列为CosmosWorldFoundation模型,简称Cosmos。不过,Meta评估自己模型的基准可能与英伟达不同。
值得注意的是,现在Meta已将V-JEPA2开源,允许开发人员访问、测试并将其集成到各种用例中。
LeCun力挺V-JEPA2,
“想法已研究20年”
对于这次的V-JEPA2,YannLeCun显然也十分重视,不仅在演示视频中亲自出镜讲解这一成果,并在Meta官方介绍V-JEPA2后火速在社交平台转发帖子。
LeCun在塑造现代AI方面发挥了重要作用,他的早期工作主要集中在神经网络和计算机视觉上,为后来的深度学习奠定了基础。加入Meta后,LeCun就一直负责Meta的AI研究工作,领导的基础AI研究实验室(FundamentalAIResearch)。直到2023年,Meta才又新成立了一个生成式AI小组。
然而,一直以来,LeCun都认为,AI需要世界模型,而不仅仅是大语言模型。“我们需要AI来构建世界如何运作的模型,而不仅仅是模仿人类文本。”他还曾透露:“通过训练系统预测视频中将要发生的事情来理解世界如何运作的想法是非常古老的。我至少以某种形式研究了20年。”
在LeCun最近的公开发言中,他也多次批评LLM不足以实现人类水平的智能,而主张建立通过观察环境和与环境互动来学习的世界模型。今年的英伟达GTC大会上,LeCun直接将LLM贬为“token生成器”,还放话称“五年内没有理智的人会继续使用它们”。
因而,今年4月,当Meta因Llama4发布后表现不佳招致种种“落后”质疑时,就有业内人士直接将根源归咎于其“对LLM前进方向的厌恶/拒绝”心态。还有网友表示,“有像YannLecun这样的顶级科学家、数千亿资本支出用于计算资源以及内部研究,Meta竟然还能搞砸成这样。”
这次发布V-JEPA2后,不少网友都表示,LeCun终于带着他的世界模型“熬出头”了。
Meta公开表示,V-JEPA2标志着其长期AI路线图的一个关键里程碑,尤其是在与OpenAI、微软和谷歌的竞争日益激烈的情况下。随着世界模型在AI进步中变得越来越重要,V-JEPA2将使Meta在开发“通用人工智能”的竞赛中发挥主导作用——这类AI有望在现实世界中更接近人类的思考和行动模式。
急于追赶AI进度的小扎,
已亲自上阵
推出V-JEPA2的这个当下,正值Meta加倍押注其AI雄心之际。据悉,该公司不仅希望通过AI改善Facebook和Instagram的用户体验,还致力于开发机器人技术和自主系统方面的长期能力。
而如今,来自中国的DeepSeek和Qwen,在开源社区中的影响力愈加扩大,Llama激起的“水花”反而越来越小,Llama4也不尽如人意。面对这样的情况,Meta的首席执行官马克・扎克伯格(MarkZuckerberg)似乎也开始着急了。
前不久,有外媒报道,这家科技巨头向ScaleAI投资140亿美元,这是一家总部位于旧金山的初创公司,为机器学习提供训练数据。该公司由AlexandrWang创立,有望在Meta下一阶段的AI发展中发挥关键作用。知情人士透露,Wang还被聘请领导Meta的关键人工智能计划。这笔投资也与扎克伯格的既定目标一致,即“将AI嵌入Meta的核心产品中”。
另据一位知情人士透露,Meta的领导层抱怨该公司领先的AI团队缺乏围绕数据的创新,期望ScaleAI能够重新点燃其AI工作。在过去的几年里,OpenAI等领先的AI实验室一直依靠ScaleAI来生成和标记用于训练模型的数据。Anyscale联合创始人RobertNishihara曾指出,“数据是一个移动的目标,要迎头赶上,这不仅仅是有限的努力——你必须创新。”
并且,时隔两年,Meta再次着手引入新的AI团队。
据外媒报道,该公司正在组建一个专注于实现“超级智能”目标的团队,并由扎克伯格亲自领导进行。他计划为超级智能组招募约50名顶尖AI专家,并将向这些人员提供为期数年、价值数千万美元的薪酬方案,包括股权激励。
当前,他不仅私人会见了多位顶尖AI研究人员和工程师,还组建了名为“RecruitingParty”的WhatsApp群组。谷歌DeepMind首席研究员JackRae预计将加入Meta的超级智能团队,他也是该团队曝出的首个成员。Rae此前在谷歌DeepMind工作了两年,负责Gemini的“思考”相关进展。另有消息称,AI语音初创公司SesameAI的机器学习负责人JohanSchalkwyk也已被Meta招募。
与此同时,Meta的一些竞争对手似乎正在为留住AI研究人员提供新的激励措施。一位知情人士透露,Meta曾试图挖走谷歌顶级人工智能研究员之一KorayKavukcuoglu以及OpenAI首席研究员NoamBrown,但均未成功。
世界模型竞争开始升温
不同于解读和生成文本的大型语言模型,世界模型更注重空间理解、因果推理和预测能力。这些模型可能成为任何在动态现实环境中运行的AI的核心要素。根据Meta的说法,V-JEPA2依赖于简化的空间推理而不是大量的数据输入,这可能使其比现有的AI模型更高效、适应性和可扩展性都更强。
因此,其影响很可能不仅限于物流和机器人技术。
如果像V-JEPA2这样的世界模型继续按预期发展,它们可能会为AI在陌生环境中自主运行铺平道路,进而开拓医疗、农业甚至救灾等领域的应用场景。
并且,Meta的这一举措,似乎也顺应了AI研究正向世界建模发展的增长趋势。
去年9月,AI研究员李飞飞为初创公司WorldLabs筹集了2. 3亿美元,该公司同样专注于构建大规模世界模型。与此同时,谷歌DeepMind部门正在测试名为Genie的世界模型项目,旨在实时模拟游戏和虚拟环境。
参考链接:
https ://techcrunch. com/2025/06/11/metas-v-jepa-2-model-teaches-ai-to-understand-its-surroundings/
https ://about. fb.com/news/2025/06/our-new-model-helps-ai-think-before-it-acts/
https ://www. 1950.ai/post/why-yann-lecun-believes-ai-needs-world-models-not-just-language-models-2
声明:本文为AI前线整理,不代表平台观点,未经许可禁止转载。
直播预告
大模型“上岸”之后,AI应用走到哪了?产品、交互、人才、闭环,三位一线从业者直播开聊。扫码预约直播,不见不散!
今日荐文
字节AI卷出新高度:豆包试水“上下文定价”,Trae覆盖内部80%工程师,战略瞄定三主线
苹果憋一年终超同参数Qwen2. 5?三行代码即可接入AppleIntelligence,自曝如何做推理
YannLeCun炮轰AnthropicCEO!这人“既要又要”:要么太自大、要么不诚实
曝豆包多模态负责人准备离职;马云频繁要求汇报Qwen3开发进度;北大“韦神”粉丝破2000万,评论区变高考许愿池|AI周报
别被MCP的包装骗了!重构系统、向智能体转型,CEO亲述:关键时刻还是RPA兜底?
你也「在看」吗?👇