机器人界「Sora」来了!清华、星动纪元开源首个AIGC机器人大模型,入选ICML2025 Spotlight


机器人界「Sora」来了!清华、星动纪元开源首个AIGC机器人大模型,入选ICML2025 Spotlight

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

机器之心发布
机器之心编辑部
从2023年的Sora到如今的可灵、Vidu、通义万相,AIGC生成式技术的魔法席卷全球,打开了AI应用落地的大门。
无独有偶,AIGC生成式技术同样在具身智能机器人大模型上带来了惊人的表现。
“给我盛一碗热腾腾的鸡汤”,以前这句话能带给你一个温暖感人、栩栩如生的视频。现在,如果你旁边有一个机器人,这句话就能让他真的给你盛一碗汤!
这背后的技术来自于清华大学叉院的ISRLab和星动纪元——ICMLSpotlight高分作品AIGC生成式机器人大模型VPP(VideoPredictionPolicy)!利用预训练视频生成大模型,让AIGC的魔力从数字世界走进具身智能的物理世界,就好比“机器人界的Sora”!
VPP利用了大量互联网视频数据进行训练,直接学习人类动作,极大减轻了对于高质量机器人真机数据的依赖,且可在不同人形机器人本体之间自如切换,这有望大大加速人形机器人的商业化落地。
据悉,今年的ICML2025,Spotlight论文中稿难度极高,在超过12000篇投稿中,仅有不到2.6%的论文能获此殊荣,VPP就是其中之一。
VPP将视频扩散模型的泛化能力转移到了通用机器人操作策略中,巧妙解决了diffusion推理速度的问题,开创性地让机器人实时进行未来预测和动作执行,大大提升机器人策略泛化性,并且现已全部开源!

论文地址:https ://arxiv.org/pdf/2412.14803
项目地址:https ://video-prediction-policy.github.io
开源代码:https ://github.com/roboterax/video-prediction-policy
VPP是机器人界的“Sora”
目前AI大模型领域有两种主流方法,基于自回归的理解模型和基于扩散的生成模型,各自代表作分别为自回归的GPT和生成式的Sora:
GPT的思路演化到具身智能领域,就是以PI(PhysicalIntelligence)为代表的VLA技术,他是从视觉语言理解模型(VLM)微调而来,擅长抽象推理和语义理解。
生成式的技术与机器人的碰撞,就诞生了VPP这样的生成式机器人大模型。
然而,人工智能领域存在着著名的莫拉维克悖论(Moravec’sparadox):高级推理功能反而容易(例如围棋、数学题),下层的感知和执行反而困难(例如各种家务)。VLM更擅长高层级的推理,而AIGC生成式模型更擅长细节处理。VPP基于AIGC视频扩散模型而来,在底层的感知和控制有独特的优势。
如图所示,VPP分成两阶段的学习框架,最终实现基于文本指令的视频动作生成。第一阶段利用视频扩散模型学习预测性视觉表征;第二阶段通过VideoFormer和DiT扩散策略进行动作学习。
1.提前预知未来:让机器人行动前做到“心里有数”
以往机器人策略(例如:VLA模型)往往只能根据当前观测进行动作学习,机器人策略需要先理解指令和场景,再执行。VPP能够提前预知未来的场景,让机器人“看着答案”行动,大大增强泛化能力。
VPP视频预测结果与机器人实际物理执行结果几乎一致。能被视频生成的,就能被机器人执行!
2.高频预测和执行:让机器人执行速度“更快一步”
AIGC视频扩散模型虽能生成逼真的视频,但往往花费大量推理时间。星动纪元研究团队发现,不需要精确地预测未来的每个像素,通过有效提取视频模型中间层的表征,单步去噪的预测就可以蕴含大量未来信息。这让模型预测时间小于150ms,模型的预测频率约6-10hz,通过actionchunksize=10,模型的控制频率能超过50Hz。
如图所示,单步视频扩散模型预测已经蕴含大量未来信息,足够实现高频预测(规划)和执行。
3.跨本体学习:让机器人先验知识流通“畅通无阻”
如何利用不同本体的机器人数据是一个巨大的难题。VLA模型只能学习不同维度的低维度action信息,而VPP可以直接学习各种形态机器人的视频数据,不存在维度不同的问题。如果将人类本体也当作一种机器本体,VPP也可以直接学习人类操作数据,显著降低数据获取成本。同时视频数据也包含比低维度动作更加丰富的信息,大大提高模型泛化能力。
VPP能学习跨本体的丰富视频数据,相比之下,VLA只能学习维度不一致的低维动作信号。
4.基准测试领先:让机器人性能“一骑绝尘”
在CalvinABC-D基准测试中,实现了4.33的任务完成平均长度,已经接近任务的满分5.0。相较于先前技术,VPP实现了41.5%的显著提升。
左图为CalvinABC-D任务的平均长度对比,右图为Real-WorldDexterousHand任务的成功率对比。可以看出,VPP方法在这两项指标中均取得了最佳表现,在仿真环境任务完成平均长度达到4.33,真机测试成功率为67%,显著优于其他方法。
5.真实世界灵巧操作:让机器人灵巧操作“举一反三”
在真实世界的测试中,VPP模型展现出了惊人的多任务学习能力和泛化能力。在星动纪元单臂+仿人五指灵巧手灵巧手XHAND平台,VPP能使用一个网络完成100+种复杂灵巧操作任务,例如抓取、放置、堆叠、倒水、工具使用等,在双臂人形机器人平台能完成50+种复杂灵巧操作任务。
6.可解释性与调试优化:让机器人“透明可控”
VPP的预测视觉表示在一定程度上是可解释的,开发者在不通过real-world测试情况下,通过预测的视频来提前发现失败的场景和任务,进行针对性的调试和优化。
而VLA模型是完全端到端的模型,开发者在调试优化中需要大量真实世界的测试来找到模型漏洞,需要花费大量的时间。
写在最后
然而,就像在大模型领域LLM和生成式模型并存且互相借鉴融合的现状一样,VPP作为首个AIGC生成式机器人大模型与PI等VLA大模型也会相互促进和借鉴。
相信在行业不断开源优质模型与技术的有力推动下,机器人技术将会迈向一个崭新的阶段,而具身AGI也将沿着这条创新之路大步走来,与我们的距离越来越近,一个充满无限可能的智能未来正在朝我们招手。
以下是VPP项目开源部署Tips,供各位开发者参考:
所有实验均使用一个节点(8卡A800/H100)完成;
详细操作说明可在开源GitHub中找到;
实验仿真平台是标准Calvinabc-dBenchmark;
实验真机平台为星动纪元仿人五指灵巧手星动XHAND1以及全尺寸人形机器人星动STAR1。
©THEEND
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录