CVPR 2025 | 超轻量级特征匹配新突破:轻量级特征匹配Mamba网络解析
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
点击上方“小白学视觉”,选择加\“星标\“或“置顶”
重磅干货,第一时间送达
在计算机视觉领域,特征匹配是众多关键任务的基础,如运动结构(SfM)和同步定位与地图构建(SLAM)等。然而,现有的先进特征匹配器在性能与效率之间的平衡上仍面临挑战。今天,我们将深入介绍CVPR2025一篇名为JamMa:Ultra-lightweightLocalFeatureMatchingwithJointMamba的论文,看看它是如何解决这些问题的。
题目:JamMa:Ultra-lightweightLocalFeatureMatchingwithJointMamba(JamMa:基于联合Mamba的超轻量级局部特征匹配)
作者:XiaoyongLu,SonglinDu
源码:https ://leoluxxx. github.io/JamMa-page/
该论文提出了基于联合曼巴(JointMamba)与JEGO策略的超轻量级半稠密特征匹配器JamMa。它能够在单GPU上收敛,在推理过程中实现了性能与效率的出色平衡。
名为JEGO的扫描合并策略是一大亮点。它能对跨视图特征进行联合扫描,高效生成全局全向特征。具体表现为通过联合扫描实现高频相互作用、利用跳跃步长扫描减少序列长度、获得全局感受野以及实现全向特征表示。
通过高频相互作用,以及在平衡感受野上使用局部聚合器,在最小化计算开销的同时,生成了具有惊人鲁棒性的特征。
通过定量和定性实验,充分展示了JamMa卓越的性能-效率平衡,并突出了JEGO策略在其中的关键作用。
JamMa的整体架构如图所示:使用CNN编码器提取粗特征和细特征。粗特征通过联合Mamba进行处理,即JEGO扫描→Mamba→JEGO合并,以执行内部和相互作用,感知两张图像的全局和全方位信息。最后,利用由粗到细匹配(C2F)模块生成匹配结果。
采用ConvNeXtV2作为编码器,从图像和中提取局部粗特征和细特征。
基于ConvNeXt的编码器仅0. 65M参数,就足以支持JamMa实现有竞争力的性能。
联合Mamba由JEGO扫描、Mamba和JEGO合并组成,旨在有效地在粗特征中建立全局依赖关系,以实现鲁棒的粗匹配。
联合扫描:现有Mamba模型为单图像任务设计,而特征匹配需要两组特征间的相互作用。作者将粗特征在水平和垂直方向拼接,探索了顺序扫描和联合扫描两种策略。如图所示:联合扫描在两张图像之间交替进行,实现高频相互作用,更有利于跨视图依赖关系,在特征匹配方面明显优于顺序扫描。
高效四向扫描:结合EVMamba的跳跃扫描策略,JEGO扫描通过安排四个方向上序列的起点和终点,实现了平衡的感受野和全方位性。生成四个方向上长度为的四个序列,由四个Mamba块独立处理以建立长距离依赖关系。
水平扫描
垂直扫描
将四个序列中的特征恢复到原始扫描位置,得到联合特征图和,再分割为图像和的特征,相加得到合并后的特征图。为使特征在微观层面全局和全方位,使用门控卷积单元作为聚合器进行局部信息聚合。
基于聚合后的粗特征和细特征,采用XoFTR中的由粗到细匹配模块生成匹配。
粗匹配:计算粗相似度矩阵,进行行Softmax和列Softmax操作,得到匹配概率矩阵和,建立粗匹配。
细匹配:为每个粗匹配裁剪的特征窗口,由MLP-Mixer处理,计算细相似度矩阵,应用双Softmax得到细匹配概率矩阵,通过相互最近邻(MNN)标准建立一对一的细匹配。
亚像素细化:采用基于回归的细化,为每个细匹配裁剪特征窗口,由MLP-Mixer处理,计算偏移量添加到中,得到最终的亚像素匹配。
损失函数由粗匹配损失、细匹配损失和亚像素损失组成。真实匹配矩阵和由相机姿态和深度图生成。
在MegaDepth数据集上评估,使用LO-RANSAC估计本质矩阵。报告阈值(5°,10°,20°)下姿态误差的累积曲线下面积(AUC)等指标。JamMa平均排名3. 5,大幅领先,在性能和效率上都有出色表现。
在HPatches数据集上评估,计算角点的平均重投影误差,报告角点误差阈值为3、5和10像素时的AUC。JamMa取得了有竞争力的性能,且比ASpanFormer轻得多。
通过在MegaDepth数据集上的消融研究,验证了联合扫描、聚合器、JEGO策略等的有效性。联合扫描比顺序扫描性能更优,聚合器对全局感受野和全方位性至关重要,JEGO策略优于EVMamba和VMamba的策略,且JamMa比基于注意力的方法更高效。
对JamMa的运行时间进行组件分析,发现粗匹配中使用Softmax成为新瓶颈,探索无Softmax粗匹配可加速10ms。在ScanNet数据集上的零样本姿态估计实验表明,JamMa在室外场景有竞争力,但在室内场景泛化能力受限。
总的来说,JamMa作为一种基于Mamba的超轻量级特征匹配器,通过探索新的扫描-合并策略,在性能和效率之间实现了显著的平衡,为特征匹配领域带来了新的思路和方法。
下载1:OpenCV-Contrib扩展模块中文版教程
在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。
下载2:Python视觉实战项目52讲
在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。
下载3:OpenCV实战项目20讲
在「小白学视觉」公众号后台回复:OpenCV实战项目20讲,即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。
交流群
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三+上海交大+视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~