RoboTwin系列新作：开源大规模域随机化双臂操作数据合成器与评测基准集

发布日期: 2025-07-07

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

本文一作：陈天行，TianxingChen. github.io，2025级香港大学MMLab博士生，师从罗平教授。在学术顶会以一作/共一发表多篇论文，获得ECCV协同具身智能研讨会BestPaper，CVPRHighlight等。获得CCF优秀大学生等多项荣誉以及20余项国家级竞赛奖项。担任CVPR2025RoboTwin双臂协作竞赛组织者。发起《具身智能技术指南》项目，已破6kGithubStars。Lumina具身智能社区联合创始人。

两篇论文的第一作者为香港大学MMLab@HKU在读博士生陈天行，通讯作者为上海交大ScaleLab助理教授穆尧以及香港大学副教授罗平。共同第一作者包括陈攒鑫、陈柏均、蔡子健、刘艺彬等。
RoboTwin2. 0介绍视频如下：

项目主页：https ://robotwin-platform. github.io/
论文链接：https ://arxiv. org/abs/2506. 18088
代码链接:https ://github. com/RoboTwin-Platform/RoboTwin
用户文档：https ://robotwin-platform. github.io/doc/

TechnicalReport链接：https ://arxiv. org/abs/2506. 23351
引言
双臂机器人在协同装配、工具使用和物体交接等复杂场景中具有重要作用，但要训练出通用的VLA等操作策略，现有数据收集和仿真管线面临多重瓶颈。一方面，真实示教数据规模化获取成本高、耗时长，难以覆盖足够多的任务、物体形态与硬件差异；另一方面，现有仿真缺乏针对新任务的高效、可扩展的专家数据生成方法；同时其域随机化设计过于表层，无法模拟真实环境中复杂性；更未考虑不同双臂平台在运动学与抓取策略上的行为差异，导致数据合成方案难以在新环境或新硬件上泛化。
因此我们提出了RoboTwin2. 0，提供基于多模态大模型与仿真在环的自动化专家代码合成方案，开源了含731个，147类带丰富标注物体的RoboTwin物体数据集（RoboTwin-OD），并基于两者构建了支持5款本体与50个任务的大规模域随机化仿真双臂操作数据合成器与评测基准集。实验结果表明RoboTwin2. 0的域随机化数据可以极大地增强模型面对未见环境的鲁棒性。我们开源了代码、预采集的操作数据以及用户友好的文档。
方法
1. 专家代码生成
在专家代码生成方面，RoboTwin2. 0首先引入了一套比1.0更加精简易用的API库，显著降低了大型多模态模型生成代码的门槛；随后在仿真闭环中，结合关键帧视觉观测和实时环境反馈，以多模态大模型为核心不断迭代优化，持续提升任务专家代码的准确性与执行效率。
2. RoboTwin-OD（RoboTwin物体数据集）
为了构建更多样的仿真操作数据，覆盖更多的操作技能与交互物体，我们构建了RoboTwin-OD（RoboTwinObjectDataset），包含147类、731个实例，其中534个实例由我们基于AIGC生成并经凸分解优化，其余来自Objaverse与SAPIENPartNet-Mobility。针对每个物体，我们精细标注了多种操作点、操作方向，以及物体级别和操作级别的语义信息，为大模型提供了全面而清晰的语义理解支持。RoboTwin-OD不仅奠定了大规模仿真操作任务设计的基础，也为复杂杂乱场景的布置提供了坚实支撑。
3. 面向本体的自适应抓取
由于自由度和运动结构的差异，不同机械臂在同一任务中的可达空间和操作偏好各异。为此，RoboTwin2. 0针对每个物体构建了涵盖多种抓取轴与接近方向的操作候选集。具体做法是：结合机械臂的优选接近方向、随机姿态扰动与并行运动规划，生成丰富的抓取候选；并在可达性更高的方向上施加角度扰动，以进一步扩展可行姿态空间。基于这种方法，RoboTwin2. 0支持5种本体的操作数据合成与评测。
4. 域随机化
为了让RoboTwin2. 0在各种复杂且多变的真实场景下都能保持卓越的操作性能，我们在数据生成环节引入了一套系统化的DomainRandomization策略。通过对多维度的随机化处理，模型得以在训练阶段见识到充分多样化的样本，从而在实际部署中展现出更强的鲁棒性。下面将从五个关键维度依次说明我们所采用的随机化手段。
场景杂乱(SceneClutter)
随机在工作区中加入与任务无关的干扰物体，利用已构建的RoboTwin-OD对象库进行碰撞感知的放置。通过预先计算碰撞体积并在同类别或功能相似的对象之间做语义分组，避免放置过于相似的干扰物，从而既增强多样性又降低潜在的策略混淆。
多样化背景纹理(BackgroundTextures)
构建包含12000种高质量纹理的背景库：先用大模型自动生成1000条关于真实表面外观的Prompt，再利用StableDiffusionv2为每条Prompt合成20张候选纹理，经过人工过滤后保留最具代表性的样本，用以随机化桌面及周围背景。
光照变化(LightingVariation)
在物理合理范围内，随机化光源类型（点光源、面光源）、数量、颜色温度、强度及位置，以模拟真实世界中多样的灯光条件，增强策略对阴影、反射和色彩偏移的鲁棒性。
桌面高度(TabletopHeights)
将桌面高度在合理范围内均匀采样，改变相机视角和机械臂–物体间的空间关系，使策略适应不同工作台面高度带来的感知与运动学差异。
多样化语言指令(LanguageInstructions)
基于多模态大语言模型，自动生成任务指令模板和对象描述，再结合随机采样的对象属性进行组合，以在轨迹级别引入丰富的语言变化，提升模型对未见指令的泛化能力。
5. RoboTwin2.050个任务的数据生成器以及评测基准集
基于以上几个方法，我们构建了支持5款本体、50个双臂任务的数据生成器以及评测基准集。
实验结果
1. 闭环专家代码生成性能提升
与RoboTwin1. 0相比，在10项典型操作任务上不加入任何技巧，RoboTwin2. 0的平均成功率（ASR）与Top5-ASR均从47. 4%提升至62. 1%；加入结构化执行反馈后，ASR进一步提升至66. 7%，结合多模态反馈时达到71. 3%，迭代次数从2. 46次降低至1.76次，LLMtoken消耗也显著降低。
2. 自适应抓取增强效果明显
在五种双臂机器人平台上自动采集50个任务的数据，对比RoboTwin1. 0的合成方案，RoboTwin2. 0平均成功率提升8.3%；其中低DoF平台增益更大：六自由度的Aloha-AgileX平台提升13. 7%，Piper平台提升22. 7%，ARX-X5平台提升5. 6%。
3. 域随机化对策略鲁棒性的贡献
在基于VLA框架的消融试验中，将预训练模型RDT、Pi0用于32项任务每任务300条数据（共9600条数据）的大规模域随机化数据中微调，然后在未见任务中使用少量无域随机化数据微调后进行评测。RoboTwin2. 0（R2. 0，含域随机化数据）相比起未经过大规模域随机化数据微调的原策略，在新任务上为RDT带来绝对增益10. 6%（相对提升71. 6%），为Pi0带来绝对增益8. 8%（相对提升41. 9%），且均在仅用干净数据微调的情况下仍保持强泛化能力。
4. 真实世界零／少样本迁移效果
在四类真实双臂任务（BowlsStack、BlockHandover、BottlePick、BellClick）的对照实验中，基于10条真实示例训练的基线模型，引入1000条RoboTwin2. 0合成轨迹后，四种测试配置的成功率分别平均提升13. 5%、27. 5%、23. 5%和33. 0%；而在纯合成（zero-shot）设置下，即使完全不依赖真实数据，也能在未见背景场景中取得21. 0%和20. 5%的成功率提升。
以上结果充分展示了RoboTwin2. 0在代码生成、抓取拓展、环境鲁棒性以及sim2real迁移等多维度的综合优势，为后续大规模、场景丰富的双臂操作研究提供了坚实的数据与基准支撑。
开源
我们开源了50个任务的RoboTwin2. 0代码，预采集100,000+条多本体域随机化操作数据，以及完整的RoboTwin-OD大规模丰富语义数字资产库，以及用户友好的使用文档。
RoboTwinCVPRChallengeTechnicalReport
参赛64支队伍，总人次超400人。决胜出来自清华-地平线团队的真机赛冠军，以及来自京东科技集团的仿真赛冠军。并由优胜团队共同合著TechnicalReport。Report中分享了各队伍取得优异成绩的关键算法，包括SEM以及AnchorDP3等，并挖掘了数据质量、数据预处理、语言鲁棒性、多模态融合以及模型架构等关于双臂操作的见解。
©THEEND
转载请联系本公众号获得授权
投稿或寻求报道：liyazhou@jiqizhixin. com