ICCV 2025 | 中科大 CA-I2P:通道自适应 + 全局最优选择,跨模态配准新突破
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
点击上方“小白学视觉”,选择加\“星标\“或“置顶”
重磅干货,第一时间送达
在计算机视觉领域,图像到点云配准(I2P)是一项至关重要的任务,它在3D重建、同时定位与地图构建(SLAM)以及视觉定位等诸多应用中发挥着关键作用。然而,由于图像和点云数据的本质差异,实现准确可靠的配准一直是一个具有挑战性的问题。今天,我们要介绍的ICCV2025这篇论文《CA-I2P:Channel-AdaptiveRegistrationNetworkwithGlobalOptimalSelection》提出了一种创新的解决方案,为I2P配准带来了新的突破。
本文由ZhixinCheng、JiachengDeng等多位作者共同完成,提出了基于全局最优选择的通道自适应配准网络(CA-I2P)。该网络在图像到点云的配准任务中展现出卓越的准确性和强大的泛化能力,为解决现有方法的不足提供了新思路。
图像和点云数据存在着显著的差异。图像是二维数据,以规则、密集的网格表示;而点云是无序、稀疏且不规则的三维数据。这种差异导致来自二维编码器的图像特征与来自三维编码器的点云特征之间存在领域差距,主要表现在特征通道上。以往的方法在处理这些差异时存在诸多问题,例如特征通道注意力的差异会导致匹配结果变差,场景中相似的结构可能会在跨模态匹配中导致冗余的对应关系,从而损害配准精度。
图像和点云特征通道差异可能导致错误匹配
为了应对这些挑战,作者提出了CA-I2P网络,并引入了两个创新模块:通道自适应调整模块(CAA)和全局最优选择模块(GOS)。
CAA模块旨在在通道层面增强和过滤图像和点云特征,减少模态差异。它包含两个阶段:模态内增强阶段(IME)和跨模态通道过滤阶段(CMCF)。
在IME阶段,作者针对图像和点云特征的不同特点,分别设计了图像通道增强单元(ICE)和点云通道增强单元(PCE)。ICE通过三个并行分支捕捉通道维度与空间维度之间的跨维度交互,并建立空间注意力,最终输出三个分支的平均值。PCE则采用通道自注意力机制来增强点云特征。
CA-I2P方法整体架构
在CMCF阶段,作者使用实例归一化(IN)来增强跨域一致性,并通过计算图像和点云特征的协方差矩阵,识别并屏蔽不兼容的通道,从而学习不同模态共享的共同表示。
传统方法通常采用前k选择方法来确定匹配对,但这种方法可能会导致多个相似结构被匹配到同一个跨模态对应物。GOS模块用最优传输取代了之前的前k选择方法,通过最小化相似性成本并加上一个额外的正则化项,获得准确的面片级图像到点云对应关系,有效地减少了多对一匹配错误,提高了全局一致性。
作者在RGB-DScenesV2和7-Scenes两个基准数据集上进行了广泛的实验和消融研究,以验证CA-I2P网络的性能。实验结果表明,该方法在多个指标上都取得了显著的提升。
在RGB-DScenesV2数据集上,作者的方法在内点比率上提高了3. 1个百分点,在特征匹配召回率上提高了2. 8个百分点,在配准召回率上比之前的最先进方法高出6. 9个百分点。在7-Scenes数据集上,作者的方法同样表现出色,配准召回率比2D3D-MATR高出3. 7个百分点,达到79. 5%。
RGB-DScenesV2数据集实验结果对比
消融研究进一步评估了CAA和GOS模块的有效性。结果表明,模态内特征增强、跨模态通道过滤和全局最优选择都对配准性能有积极的影响。例如,最终版本的模型使配准召回率提高了7. 5个百分点。
消融研究评估CAA和GOS模块的有效性
通过t-SNE图和对应关系可视化,作者直观地展示了CA-I2P网络的性能。训练过程减少了图像和点云特征之间的模态差距,使分布更加均匀。同时,经过特征优化后,方法建立了更多准确的对应关系,减少了错误匹配和冗余匹配。
t-SNE图展示不同训练阶段的图像和点云特征
综上所述,CA-I2P网络是一种创新的图像-点云配准方法,通过引入通道自适应调整模块和全局最优选择模块,有效地解决了现有方法在处理图像和点云数据差异时的不足。该方法在两个基准数据集上的实验结果表明,它具有卓越的准确性和强大的泛化能力,为图像到点云配准领域带来了新的突破,有望在相关应用中发挥重要作用。
如果你对这篇论文感兴趣,可以进一步阅读原文,深入了解其具体实现和更多细节。相信这一研究成果将为计算机视觉领域的发展注入新的活力。
下载1:OpenCV-Contrib扩展模块中文版教程
在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。
下载2:Python视觉实战项目52讲
在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。
下载3:OpenCV实战项目20讲
在「小白学视觉」公众号后台回复:OpenCV实战项目20讲,即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。
交流群
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三+上海交大+视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~