CVPR’25workshop冠军方案!中科院&字节Seed提出BridgeVLA:视觉干扰、任务组合等泛化场景轻松拿捏
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
来源丨机器之心编辑丨极市平台
导读
只需要三条轨迹,就能取得96. 8%的成功率?视觉干扰、任务组合等泛化场景都能轻松拿捏?或许,3DVLA操作新范式已经到来。
当前,接收2D图像进行NextActionToken预测的「2DVLA」模型已经展现出了实现通用机器人操作的潜力;同时,接受3D信息作为输入,并以下一时刻的关键帧作为输出的「3D操作策略」已被证明拥有极高的数据效率(≈10条操作轨迹)。
那么,直觉上来讲,一个好的「3DVLA」模型应该能够综合以上的优点,兼具efficient和effective的特点。然而,当前3DVLA的模型设计并未实现上述期待。
为了解决上述问题,中科院自动化所谭铁牛团队联合字节跳动Seed推出BridgeVLA,展示了一种全新的3DVLA范式,实现了模型能力与数据效率的同步飞跃,并斩获了CVPR2025GRAILworkshop的COLOSSEUMChallenge冠军。目前代码与数据已经全面开源。
论文标题:BridgeVLA:Input-OutputAlignmentforEfficient3DManipulationLearningwithVision-LanguageModels
论文链接:https ://arxiv. org/abs/2506. 07961
项目主页:https ://bridgevla. github.io/
BridgeVLA的核心理念是将预训练和微调的输入输出对齐到统一的2D空间,从而「bridge」VLM和VLA之间的gap。从这个理念出发,作者认为不应该使用传统3DVLA的3D位置编码或3D信息注入,而是将VLA输入与VLM对齐,即仅输入图片和文字指令。
同时,作者将模型的输出方式从Nexttokenprediction变更为Heatmapprediction,通过这种方式,将输出从无空间结构的token变成有空间结构的2DHeatmap,既能充分利用3D空间结构先验,又能将模型的输入输出进一步在2D空间中对齐。
在使用机器人数据进行微调之前,需要先通过预训练以赋予VLM目标检测的能力。为此,作者提出了一种新颖的可扩展预训练方法:给模型输入图片-目标文本对,并提取模型的输出中对应图像的token,再将这部分图像token进行重新排列作为图像的隐藏状态,最后,通过可学习的凸上采样方法将其还原成与输入图片相同大小的Heatmap。通过交叉熵损失监督训练模型,使其具有Heatmap预测的能力。通过这个Heapmap即可获取被操作的目标物体的像素位置。
与RVT、RVT-2等典型的3D操作策略类似,BridgeVLA通过预测关键点来得到下一时刻的动作。具体来说,BridgeVLA采用场景的点云和指令文本作为原始输入。但为了将微调过程的输入与预训练的输入进行对齐,作者将点云从正面、上面、右侧这三个方向进行正交投影,产生3张2D图像输入给模型。模型采用与预训练相同的方式输出Heatmap后,通过将3个Heatmap进行反投影,进而估计3D空间内所有结构化网格点的分数,并选用得分最高的点作为机械臂末端执行器的平移目标。对于旋转、夹持器状态以及碰撞检测,BridgeVLA将提取到的全局特征和局部特征进行拼接,然后输入给MLP进行预测。
此外,BridgeVLA沿用了由粗到细(Coarse-to-fine)的多级预测方式,通过对首次Heatmap预测的目标位置附近的点云进行放大和裁剪,并在裁剪后的点云上进行第二次前向传播,从而获得更加精细的位置预测。
RLBench:实验在18个复杂的RLBench任务上进行,包括非抓取操作任务、抓取放置任务和高精度插入任务等。BridgeVLA在此基准测试中显著优于所有现有基线方法,将平均成功率从81. 4%提高到88. 2%,并在18个任务中的10个中取得了最佳表现,尤其在需要高精度对齐的任务(如「InsertPeg」和「SortShape」)中表现突出。
COLOSSEUM:作为RLBench的扩展,COLOSSEUM基准专注于评估模型在12种扰动(包括物体纹理、颜色、大小、背景、光照、干扰物和相机姿态变化等)下的泛化能力和鲁棒性。BridgeVLA在COLOSSEUM基准测试中展示了强大的鲁棒性,平均成功率从56. 7%提升到64. 0%,并在14种评估扰动中的13种中表现最佳。
GemBench:该测试基准分为四个挑战性递增的层次(L1-L4),涉及新颖的放置、刚性物体、关节物体以及需要组合多个动作才能完成的长周期任务。BridgeVLA在这四个评估设置中取得了最高的平均成功率,尤其在L2和L3设置中取得了最先进的成果,证明了其强大的泛化能力。然而,与大多数基线方法类似,BridgeVLA在L4(长周期任务)设置中的表现仍然有限。
在真实世界评测中,作者设计了13个基本任务,并设计了6种不同的泛化性能测试(包括干扰物体、光照、背景、高度、组合和类别)以全面评估模型性能。如图所示,BridgeVLA在七种设置中的六种中均优于最先进的基线方法RVT-2。
在四种视觉干扰设置中,BridgeVLA表现出十分显著的鲁棒性,尤其在干扰物和背景变换的设置中,其仍然能够保持超高成功率。此外,作者还发现2D热图预训练对于模型理解语言语义和泛化到新的对象-技能组合至关重要。同时,即使在经过机器人动作数据微调后,模型仍能很好地对预训练数据进行预测,证明预训练知识被成功地保留了下来。
VLA新范式:从「NextTokenPrediction」到「HeatmapPrediction」,BridgeVLA为3DVLA的设计提供了数据效率更高、操作效果更好的技术范式;
扩展预训练任务:未来的研究可以尝试在更多样化的任务上进行预训练,例如语义分割和关键点检测,以增强模型的通用视觉理解能力;
提升动作解码能力:研究团队未来将考虑整合更具表达能力的动作解码方法(例如扩散模型),以持续提升策略性能;
改善长周期任务表现:针对复杂长周期任务的挑战,未来计划探索利用大型语言模型(LLM)进行任务分解,以进一步提升模型在此类任务中的表现。