CVPR 2025 MINIMA：首个通用多模态图像匹配架构（模型、数据已全部开源）

发布日期: 2025-06-10

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

论文题目：MINIMA:ModalityInvariantImageMatching
论文地址：https ://arxiv. org/pdf/2412. 19412
代码：https ://github. com/LSXI7/MINIMA
MINIMA通过数据扩展的方式，利用生成模型从廉价且丰富的RGB图像数据中生成多种模态的图像数据，从而解决了现有跨模态图像匹配数据集规模小、场景覆盖不足的问题。
为了支持MINIMA框架的训练，作者提出了一种简单而有效的数据引擎，能够自动生成包含多种模态、丰富场景和精确匹配标签的大规模数据集。
MINIMA框架在训练过程中仅使用合成数据，但能够在真实场景中实现零样本跨模态匹配，并且在多个跨模态场景中表现出色，显著超过了现有的模态特定方法。这表明该框架具有强大的泛化能力和适应性。
本文的主要研究方法是提出了一种名为MINIMA（ModalityInvariantImageMatching）的统一图像匹配框架，旨在处理多种跨模态图像匹配任务。该方法通过数据扩展的方式，利用生成模型从廉价且丰富的RGB图像数据中生成多种模态的图像数据，从而解决了现有跨模态图像匹配数据集规模小、场景覆盖不足的问题。
本图展示了多个代表性方法在六个真实跨模态图像对数据集上的平均准确率（AUC）和匹配效率（每秒匹配对数）。左侧显示了每个数据集上各方法的AUC值，右侧总结了不同匹配流程（稀疏、半密集和密集匹配）的平均性能。MINIMA方法（标记为⋆）仅使用合成多模态数据进行训练，就能在真实跨模态场景中实现显著的性能提升，同时保持较高的匹配效率。
本图比较了MINIMA方法（MINIMALG和MINIMARoMa）与其他方法（ReDFeat、OmniGlue和XoFTR）在真实跨模态图像对上的匹配结果。图中绘制了每种方法生成的匹配对，红色线条表示误差超出阈值的错误匹配。MINIMALG和MINIMARoMa在稀疏和密集匹配场景下均能生成更多的正确匹配对，显示出更高的匹配精度和更强的泛化能力。
本图展示了MINIMA框架的整体流程，包括数据引擎如何从基础RGB数据生成多模态图像匹配数据集，以及如何利用这些数据训练匹配模型以获得跨模态能力。数据引擎由源数据、引导数据和生成模型组成，通过这种方式可以生成丰富的多模态数据，用于训练能够处理各种跨模态匹配任务的统一模型。
本表展示了在MINIMA团队构建的合成数据集上，不同图像匹配方法在多种跨模态任务中的性能表现。整体来看，表中数据表明，MINIMA方法在多种跨模态匹配任务中普遍优于其他方法，无论是在稀疏、半密集还是密集匹配场景下，均能获得更高的匹配准确率，这说明MINIMA的数据增强和预训练策略有效提升了模型在跨模态图像匹配任务中的泛化能力和性能表现。
–END–
最后对多模态图像创新感兴趣的可公众号后台私信‘加群’或者扫描下方👇二维码进入多模态图像交流群！
关注“学姐带你玩AI”公众号，回复“融合新9”
领取多模态图像融合创新方案合集+开源代码
往期推荐:
SAM+多模态图像融合”这个idea一出，就有人用它发了CCF-A
入选AAAI2025！多模态医学图像融合新突破！
多模态医学图像处理，超容易出成果！
多模态图像融合新突破！9种创新SOTA方案引爆顶会
多模态融合可能是现在或者未来一段时间最好发论文的方向了！
ACCEPT
据说点赞的都Accept了！