探索 Action Sapce,VLA 在如何演化?


探索 Action Sapce,VLA 在如何演化?

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

机器之心PRO·会员通讯Week16
—本周为您解读②个值得细品的AI&Robotics业内要事—
1.探索ActionSapce,VLA在如何演化?
VLA目前有哪些主要研究方向,需要解决哪些关键挑战?在VLA的关键问题及研究路径上,业界有哪些共识与非共识?…
2.5亿月活用户的OpenAI,有哪些「软肋」?
SamAltman如何回应OpenAI的版权问题?在安全实践上被评为「D+」的OpenAI有哪些关键「软肋」?AGI时刻何时的到来是否真的能为人来带来好处?OpenAI对人工智能安全性保证都有哪些实际上的动作?…
本期完整版通讯含2项专题解读+28项本周AI&Robotics赛道要事速递,其中技术方面8项,国内方面10项,国外方面10项。
本期通讯总计18529字,可免费试读至8%
消耗99微信豆即可兑换完整本期解读(约合人民币9.9元)
1、2025年初,具身智能领域捷报频传,诸如FigureAI、英伟达、智元机器人等具身智能公司及团队陆续发布产品demo和模型进展,众多VLA模型相继涌现,也让这种多模态模型受到许多关注。
①许多VLA进展来自头部AI公司,如谷歌团队发布了GeminiRobotics,英伟达于GTC发布了GrootN1,微软则发布了VLA基础模型Magma。
②许多国内外创业团队同样发布了各自的VLA模型,如Figure发布了Helix、银河通用发布了GraspVLA、智元机器人则发布了Go-1基座模型及ViLLA架构。
2、这些VLA模型在发布时均展示了其对机器人控制任务的优越性能,但由于不同模型各有特点,模型架构均有差异,引发业界开始关注「VLA」的特征和方案差异。
3、VLA(视觉-语言-动作模型)是在具身智能研究中产生的一种多模态模型,用于处理具身智能系统所面对语言条件机器人任务。谷歌DeepMind在2023年7月发布的RT-2被认为是首个VLA,而后这种概念在具身智能、机器人和智驾领域中迅速扩散。
①具身智能被认为是实现AGI的有效路径,其特征在于涉及控制具身智能体在物理世界中执行任务,而机器人是则是具身智能中最为突出的研究领域。
②在语言条件下的机器人任务中,策略必须具备理解语言指令、视觉感知环境和生成适当行动的能力,因而需要VLAs的多模态能力。
③与早期的深度强化学习方法相比,VLAs在复杂环境中的多功能性、灵活性和泛化能力更强,因此它们不仅适用于受控环境(如工厂)中的任务,也适用于家庭日常任务。
④在RT-2发布不久后,智驾公司Wayve团队在2023年9月提出了相似概念的视觉-语言-动作模型(VLAM),称为LINGO-1,可通过语言解释自动驾驶系统的行为逻辑。(详情请见Pro会员通讯2023年Week38期)
4、作为一种新型的多模态模型,VLA的概念在近年来不断得到探索,并发展出许多不同的技术方案。2024年底,中科院自动化所的研究者在知乎文章中分享了他对VLA的思考,并尝试总结了各类VLA方案的特征。
①该文章将VLA方案分为五种类别,分别是经典方案、基于预训练LLM/VLM的方案、基于扩散模型的方案、结合LLM与扩散模型的方案和结合视频生成与逆动力学的方案。
表:各类VLA技术方案汇总[1-1]
5、在各类VLA方案中,SergeyLevine的创业公司PI、FigureAI和智源机器人作为具身智能领域的知名创企,其相关先后发布了具身智能系统。这些模型因各自的能力特征引起了极大关注。[1-2]
6、π0是SergeyLevine的PI团队在2024年10月提出的端到端VLA,也被该团队称为「通用机器人策略」。[1-3]
①π0由预训练的VLM作为基础骨干,采用了一种基于流匹配(flowmatching)的扩散方法,加入独立的动作专家模块构成。


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录