智驾中的VLA方案总结

发布日期: 2025-04-19

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

技术总结专栏
作者：喜欢卷卷的瓦力
智驾中的VLA方案总结。
相对于VLM，最近智驾中开始流行VLA，VLM关注的重点在于环境建模，VLA除了考虑环境建模，还需要关注规划和控制问题。
总得来说，这些VLA方案中都包含两个核心组件：
PretrainedVLM，侧重思考和慢推理
ActionModel，侧重动作预测
那么本篇整合具身智能中主要的四种VLA方案，并联合智驾领域进行总结。下面是一个快捷目录。
1.PretrainedVLM/LLM+actionprediction
2.Vision/stateencoder-decodertransformer(fromscratch)+actionquery-basedtransformerdecoder
3.Diffusionmodel/LLM+Diffusion
4.Videogeneration+InverseKinematics(有点类似于worldmodel的思路)
一、PretrainedVLM/LLM+actionprediction
顾名思义，这种方案直接基于预训练的VLM或LLM，action直接以token的形式预测出来；这种方案下微调的时候pretrainedmodel也需要跟着进行微调。
这种方案比较典型的例子是openVLA。
可以明显得看到，openVLA输出的不是文本，而是ActionToken，类似于MotionLM的栅格法，把连续的动作分到一些栅格中，每个箱子是一个token。然后拿机器人未来的行为微调VLM。
另外论文也证实了，微调时如果不调visionbackbone，效果会很差。
这种方案的好处是借鉴成熟的语言模型，预训练和scale的经验成本更小。
在智驾中，这种方案容易遇到的问题是：出问题追溯的时候，很难区分是PretrainedVLM部分的问题还是Action部分的问题；所以单独地训练ActionTokenPrediction，或者去考虑两部分的融合设计很有必要。
二、Vision/stateencoder-decodertransformer(fromscratch)+actionquery-basedtransformerdecoder

这种方案比较典型的例子是Act。
网络主要是一个ConditionalVAE。
一般自回归的方案会有一个问题，每次推理都可能有误差，而且这个误差会随着自回归过程累积，越来越大(第一种方案中也存在这样的问题)；即使是连续空间的自回归，也存在一些因果混淆等因素会导致偶现一些帧出现一些错误，这时自回归的方案会放大这种误差。
因此这篇论文的核心是提出了ActionChunking方法，来防止误差随着自回归过程越来越大(compondingerror)，特别是中间哪步比较大的错误会导致后续严重问题，并可以一定程度解决因果混淆问题。
方案如上图所示，每次推理输出k个step作为一个actionchunk，然后最终每步forward时，越旧的结果权重越大，加权后作为最终的结果。
目前大多论文都采用了这种ActionChunking来输出动作序列；在智驾中，也有一些相关的研究与探索。
三、Diffusionmodel/LLM+Diffusion
这种方案主要基于Diffusionmodel，通过多步降噪对于更精细粒度的任务更有优势。

这种方案比较典型的例子是DiffusionPolicy。
这种方法在开始尝试解决actionmulti-modal的问题。
现实世界中解决某一特定任务的方式是多样的，而不是唯一的。但神经网络预测只能给出单一的方式，无法应对可能有多种方式的任务情况。
下面具体说一下actionmulti-modal的问题，这里引用迟宬的解释：
假设我现在在开车，前面有一棵树。比如说，我雇佣了100个司机来解决这个问题。在这种情况下，有可能有50个司机选择往左拐，绕过树的左边，还有50个司机选择从树的右边绕过去。在这种情况下，往左绕和往右绕都是完全合理的。然而，当我们将所有这些解决方案合并为一个时，问题就变成了一个多模态分布，即我看到的相同场景有两种不同的选择。这对传统神经网络的预测来说并不友好，因为它通常使用均方误差（MSE）损失进行训练，而这无法有效处理Multi-Modal情况。
https ://zhuanlan.zhihu.com/p/670555655
想解决上述问题有两大难点：
1）对未来动作的预测不应该只局限于眼前的一步两步动作，而应该更有前瞻性，可以往前预测数十步动作；但是预测高维空间的成本非常高，因为它们只能预测一步，接下来的步骤是什么。如果再加上更多的步骤，维度就会变得越来越高
2）训练过程极易不稳定
那么DiffusionPolicy就是去解决这两大难题。
DiffusionPolicy训练过程非常稳定。基本上，可以随便调整参数，生成器就能够输出结果，可能效果不是最优的，但基本上都能work。
目前这种方案最大的问题不是Policy本身，而是数据。
这块由于智驾领域对于动态障碍物的响应需求是远高于机器人，所以目前来说这种方案很难迁移过去。
四、Videogeneration+InverseKinematics
这种方案先根据首帧和指令生成运动视频，然后逆运动学得到对应的动作；可解释性很强，但是非常受到视频生成质量和instruction-following的能力的影响。
这种方案比较典型的例子是GR2。
论文基本上就是WorldModel的思路，直接拿大规模的带文本描述的视频来学习视频生成任务，然后拿机器人的数据接入机器人的额外传感器输入来完成FineTuning出Action。
这种方案的通用思路是基于一个通用的视频生成模型来做图像和视频场景理解，然后接专用网络、专用数据出action；上限是最高的，但训的时候需要资源量也大。
写在最后，self-reasoning/inferencetimescale这块在未来应该也是能带来收益的研究，下次再着重分享下这块内容。
参考文献