TGRS 2025 | 从CNN到Mamba:UMFormer 轻量级网络用自注意力与状态空间,刷新分割效率天花板
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
在计算机视觉的浩瀚星空中,遥感图像语义分割宛如一颗璀璨的明珠,吸引着无数研究者的目光。它不仅能帮助我们准确识别和标记遥感图像中的地物和地表特征,还为地物识别、变化检测和土地覆盖分类等领域提供了坚实的基础支持。然而,这一领域并非一帆风顺,面临着诸多挑战。今天,我们就来深入了解一篇名为“ALightweightSemanticSegmentationNetworkBasedonSelf-AttentionMechanismandStateSpaceModelforEfficientUrbanSceneSegmentation”的论文,看看它是如何应对这些挑战的。
在遥感图像语义分割领域,基于卷积神经网络(CNN)和Transformer的方法得到了广泛研究。然而,CNN因其局部特征提取的特性,难以捕捉全局上下文信息;而Transformer则受限于二次计算的复杂性。最近,基于Mamba的状态空间模型受到了广泛关注。但是,现有的基于Mamba的方法没有充分考虑局部信息在遥感图像分割任务中的重要性。在本文中,作者构建了一种编解码风格的网络UMFormer,用于遥感图像的语义分割。具体而言,UMFormer采用ResNet18作为编码器,旨在进行初步的图像特征提取。随后,作者优化了自注意力机制,以便在多尺度条件下提取不同大小物体的全局信息。为了融合编解码特征图信息,作者构建了另一种注意力结构,用于重构空间信息并捕捉相对位置关系。最后,作者设计了一个基于Mamba的解码器,以有效地对全局和局部信息进行建模。同时,作者还设计了一种利用特征相似性的特征融合机制,目的是将局部信息嵌入到全局信息中。在无人机影像数据集(UAVid)、Vaihingen和Potsdam数据集上进行的大量实验表明,所提出的UMFormer在保持高效运行速度的同时,精度有所提高。
遥感图像具有覆盖范围广、分辨率高的特点,但城市场景的多样性和复杂性给准确分割带来了巨大挑战。比如,大类目标(如道路、植被和建筑物)分布广泛,小类目标(如车辆和行人)像素数量少且空间分布不均匀,导致分割结果中各类物体的边缘容易混淆。此外,同一类别之间存在全局依赖关系,不同类别之间存在局部依赖关系,传统的卷积操作在捕捉这些关系时能力有限,而Transformer的自注意力机制在遥感图像语义分割中的效率又较低。
在这样的背景下,Mamba状态空间模型作为一种高效的长距离上下文捕捉模块,为解决上述问题带来了新的希望。然而,现有的基于Mamba的方法没有充分考虑局部信息在遥感图像分割任务中的重要性,无法在准确性和效率之间实现最佳平衡。
为了应对这些挑战,论文作者提出了UMFormer,这是一种编解码风格的网络,巧妙地融合了卷积神经网络(CNN)、自注意力机制和Mamba的各自优势。
作者选择ResNet18作为UMFormer的编码器,它具有不错的特征提取能力,且计算和存储成本较低。图像首先经过7×7卷积处理,然后通过四级双层Resblock进行特征提取和下采样,前三层生成的特征图通过跳跃连接发送到解码层进行特征整合。
为了从多尺度的角度提取物体之间的依赖关系,作者提出了多尺度自注意力模块(MSAM)。它利用自注意力机制捕捉长距离上下文语义信息,通过在不同尺度上实现相互自注意力,显著提高了分割精度。
为了解决基于Transformer的网络训练速度慢的问题,作者将VisionMamba引入到UMFormer的解码层,并提出了全局局部视觉状态空间(GL-VSS)块。同时,设计了轻量级注意力机制——信息整合注意力(IIA),用于增强编解码器生成的特征图的融合。
IIA通过对编码器和解码器输出的特征图进行处理,提取通道内的顺序信息,并转换为序列信息进行处理,最终得到位置注意力表示,从而重构特征图的空间位置信息。
GL-VSS块包括局部信息分支、全局信息分支和特征嵌入头。局部信息分支通过级联不同感受野的卷积,提高对不同大小物体的关注度;全局信息分支使用VSS块提取全局特征;特征嵌入头将局部信息有效地嵌入到全局信息中,通过计算余弦相似度和添加残差连接,提高最终输出的表达能力和泛化能力。
作者将软交叉熵(SCE)损失和Dice损失的组合定义为损失函数,通过设置缩放因子,更好地结合这两个损失,提高网络的训练效果。
为了验证UMFormer的有效性,作者在三个公开数据集(UAVid、Vaihingen和Potsdam)上进行了大量实验和可视化分析。
通过在基线模型中添加单个组件或组件组合进行实验验证,结果表明MSAM、IIA和GL-VSS块都能显著提高模型的性能。例如,添加MSAM后,三个数据集上的mIoU均提高了0. 4%以上;添加IIA后,UAVid和Vaihingen数据集上的mIoU提高了0. 5%;用GL-VSS块替换原始解码器后,三个数据集上的MeanF1、OA和mIoU分别至少提高了0. 6%、0. 5%和1. 1%。
与多种基于CNN、Transformer和Mamba的语义分割网络进行对比,UMFormer在保持较少参数和较低计算复杂度的同时,维持了遥感图像分割的准确性。在UAVid数据集上,UMFormer取得了最高的mIoU分数,为67. 6%;在Vaihingen和Potsdam数据集上,也表现出了卓越的性能。
UMFormer通过融合CNN、Transformer和Mamba的优势,在遥感图像语义分割领域取得了显著的成果。它不仅提高了分割的准确性,还降低了计算复杂度。然而,作者也指出,Mamba的加入导致FPS相对较低,在未来的研究中,将继续关注网络的轻量化,并持续优化模型结构,以满足实时城市场景分割的要求。同时,也将探索Mamba在计算机视觉任务中的更广泛应用前景。
相信随着研究的不断深入,UMFormer将为遥感图像语义分割领域带来更多的惊喜,让我们拭目以待!