仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
论文题目:RoboRefer:TowardsSpatialReferringwithReasoninginVision-LanguageModelsforRobotics
论文地址:https ://arxiv. org/pdf/2506. 04308
代码地址:https ://github. com/Zhoues/RoboRefer
RoboRefer不仅能够通过监督微调(SFT)实现精确的空间理解,还能通过强化微调(RFT)实现具有泛化能力的多步空间推理,从而在复杂3D环境中准确理解指令指示的位置。
通过引入深度编码器,RoboRefer能够从RGB和RGB-D输入中提取特征,增强模型对深度信息的理解,从而提高空间理解能力。
RoboRefer采用独立的RGB和深度编码器,避免了模态干扰,同时能够利用深度信息增强空间理解。
本文提出了一种名为RoboRefer的3D感知视觉语言模型(VLM),旨在通过结合单步精确空间理解和多步空间推理来实现复杂3D环境中的空间引用。RoboRefer采用两阶段训练策略,首先是监督微调(SFT)阶段,通过引入深度编码器,模型能够从RGB和RGB-D输入中提取特征,增强对深度信息的理解,从而提高空间理解能力。接着是强化微调(RFT)阶段,利用具有明确推理过程注释的数据,通过设计专门的度量敏感过程奖励函数,模型能够在多步空间推理中逐步提高推理精度,从而更准确地预测点。为了支持SFT和RFT训练,作者构建了RefSpatial大规模数据集,包含2000万问答对,涵盖31种空间关系,支持复杂推理过程(最多5步)。
本图展示了在复杂三维环境中,机器人需要准确理解单步空间信息(如物体的位置、方向等),并进行多步空间推理,才能准确执行任务。例如,要抓取一个物体并将其放置到指定位置,需要先识别物体的位置,再确定放置位置,最后进行导航和抓取操作。这种复杂的空间引用任务要求机器人具备精确的空间感知和推理能力,才能在不同的任务(如操作和导航)中有效控制机器人。
本图展示了RoboRefer的整体架构和工作流程。RoboRefer通过监督微调(SFT)阶段引入深度信息,实现了从RGB(D)输入中进行单步精确空间理解。此外,通过强化微调(RFT)阶段,RoboRefer能够进行多步空间引用,并在每一步中利用SFT阶段学到的空间理解能力进行显式推理。图中详细展示了视觉编码器、深度编码器、投影器、LLM等组件的连接方式和数据流。
本图展示了RefSpatial数据集的构成和特点。该数据集包含250万条数据样本,涵盖了31种空间关系,数据来源包括2D图像、3D视频和模拟数据。图中详细展示了不同数据源的分布情况,以及数据集中不同空间关系类型的分布情况。此外,还展示了数据集的构建流程,包括2D图像的过滤、3D视频的处理和模拟数据的生成。
本表展示了多种模型在单步空间理解基准测试中的性能表现,这些基准测试涵盖了2D空间关系、3D深度顺序和3D距离等任务。专有视觉语言模型,如Gemini-2. 5-Pro,展现了强大的空间感知能力,在多个基准测试中表现优异,但在3D深度和距离任务上仍有提升空间。表中还详细展示了RoboRefer的不同变体(如RoboRefer-2B-SFT和RoboRefer-8B-SFT)的性能。这些变体通过监督微调(SFT)阶段训练,能够实现精确的空间理解。本表通过详细的性能比较,展示了RoboRefer在单步空间理解任务上的优势,尤其是在处理复杂的3D空间关系时。这些结果表明,RoboRefer通过结合深度信息和监督微调,能够显著提高空间理解的准确性和鲁棒性。
–END–
最后对具身智能创新感兴趣的可公众号后台私信‘加群’或者扫描下方👇二维码进入具身智能交流群!
关注“学姐带你玩AI”公众号,回复“具身2025”
领取具身智能高分idea合集+开源代码
往期推荐:
“具身智能”顶会大爆发!李飞飞新作获最佳论文,这思路我吹爆!
发顶会首选:具身智能!新成果直接霸榜CVPR
打王者荣耀,发NeurIPS!
李飞飞领衔的「具身智能」,走到哪一步了?
一文速览AIAgent最新研究进展
ACCEPT
据说点赞的都Accept了!