TGRS 2025 | 融合Mamba与 Transformer!HSI-MFormer:图像分类的多尺度建模新框架
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
点击上方“小白学视觉”,选择加\“星标\“或“置顶”
重磅干货,第一时间送达
在计算机视觉和遥感领域,高光谱图像(HSI)分类一直是一个关键且具有挑战性的任务。它广泛应用于环境监测、精准农业、城市规划以及军事监视等众多领域。今天要给大家介绍的是一篇名为“HSI-MFormer:IntegratingMambaandTransformerExpertsforHyperspectralImageClassification”的论文,该论文提出了一种创新的混合架构HSI-MFormer,为高光谱图像分类问题提供了新的解决方案。
高光谱图像包含丰富的光谱和空间信息,能够在像素级别实现精确的物质识别。早期,卷积神经网络(CNNs)在HSI分类中得到了广泛应用,如1-DCNN、2-DCNN和3-DCNN等架构。然而,这些基于CNN的模型在捕捉像素之间的全局依赖关系方面存在挑战。
随后,Transformer架构凭借其强大的注意力机制逐渐在HSI分类中占据主导地位。像HSI-BERT、Spectral-Former等模型,能够有效地捕捉有区分性的空间-光谱特征。但Transformer的内在注意力机制计算复杂度随着序列长度呈二次增长,在处理长序列时面临计算和内存的巨大挑战。
最近,基于状态空间模型(SSMs)构建的Mamba成为序列建模的一个有前景的替代方案。它具有线性计算复杂度,在长距离建模中表现出竞争力。例如,HSIMamba、MambaHSI等模型都在HSI分类中取得了不错的效果。
论文提出了一种新颖的混合Mamba-Transformer架构HSI-MFormer,它结合了Transformer和Mamba的短程和长程建模能力,实现了多尺度光谱-空间特征提取。
对ITE(内尺度Transformer专家)和CME(跨尺度Mamba专家)的多种混合策略进行了研究,包括并行、间隔和串行结构,以最大限度地发挥Transformer和Mamba的互补优势。
在IndianPines、PaviaUniversity、Houston2013和WHU-Hi-LongKou这四个公开高光谱数据集上进行了大量实验,验证了所提方法的有效性和优越性。
对所提模型进行了全面的性能分析,包括对不同输入补丁大小、嵌入维度、深度、内核尺度以及训练比例的敏感性分析,结果表明HSI-MFormer在计算效率和分类精度之间实现了良好的权衡。
HSI-MFormer架构主要由多尺度令牌生成(MTG)模块、内尺度Transformer专家(ITE)、跨尺度Mamba专家(CME)和分类器组成。
传统的HSI分类方法通常在单一尺度内进行数据令牌化,限制了模型捕捉多尺度信息的能力。MTG模块采用具有不同核尺度的多个3-D卷积进行多尺度令牌生成,将HSI数据立方体转换为不同尺度的多个空间-光谱令牌组。
ITE采用分组自注意力策略,在每个尺度的令牌组内进行短距离依赖建模,有效地捕捉细粒度的多尺度空间-光谱模式,同时降低了计算复杂度。
CME执行长距离序列建模,将所有令牌组按分辨率尺度顺序整合并展平为一个整体的长距离序列,通过双向Mamba块进一步探索不同尺度令牌组之间的相互作用和互补性。
为了充分利用Transformer和Mamba的互补优势,论文研究了四种混合结构:并行结构、间隔结构、串行结构V1和串行结构V2。不同的结构在不同数据集上表现出不同的性能,但总体来说,串行结构V1和并行结构在所有数据集上始终取得有竞争力的结果。
论文在四个公开高光谱数据集上进行了广泛的实验对比,与传统方法、基于CNN的方法、基于Transformer的方法和基于Mamba的方法相比,HSI-MFormer表现出明显的优越性。
在各个数据集上,不同的混合结构都表现出了卓越的分类性能,凸显了HSI-MFormer在有效整合Mamba和Transformer优势方面的优越性。
在所有数据集上,HSI-MFormer在总体分类精度(OA)、平均分类精度(AA)和kappa系数(Kappa)等指标上都优于其他对比方法。同时,从分类图中可以看出,HSI-MFormer展示了良好的类别边界且误标记最少。
HSI-MFormer通过将Mamba和Transformer集成用于HSI分类,有效地利用了长距离和短距离建模的优势,实现了光谱-空间特征的高效提取。实验结果表明,该方法在计算效率和分类精度之间实现了良好的权衡,具有很强的有效性和优越性。
未来,作者计划进一步研究更优的参数组合,特别是在复杂和高分辨率的高光谱场景中,探索具有更大尺度差的内核尺度配置,以提升模型的性能。相信HSI-MFormer将为高光谱图像分类领域带来新的发展和突破。
下载1:OpenCV-Contrib扩展模块中文版教程
在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。
下载2:Python视觉实战项目52讲
在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。
下载3:OpenCV实战项目20讲
在「小白学视觉」公众号后台回复:OpenCV实战项目20讲,即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。
交流群
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三+上海交大+视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~