CVPR 2025 | GroupMamba新范式:动态分组状态空间+多向扫描,图像分类/检测/分割全任务 SOTA!
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
点击上方“小白学视觉”,选择加\“星标\“或“置顶”
重磅干货,第一时间送达
提出调制分组曼巴层:受分组卷积启发,论文提出调制分组曼巴层,采用多方向扫描方法,对输入通道进行分组,每个分组独立应用基于状态空间模型的高效视觉单选择性扫描(VSSS)块,在四个空间方向上进行扫描,增强了状态空间模型的计算效率和交互性,能有效对局部和全局信息进行建模。
设计通道亲和调制算子:为解决分组操作中通道交互有限的问题,设计通道亲和调制(CAM)算子。该算子通过对输入进行平均池化计算通道统计信息,再进行亲和度计算,对分组曼巴算子的输出进行重新校准,增强了通道间的信息交换和特征聚合能力。
引入蒸馏训练目标:针对基于状态空间模型的架构在大模型训练时不稳定的问题,引入基于蒸馏的训练目标。将标准交叉熵损失与蒸馏损失相结合,使学生模型学习教师模型的行为,稳定了大参数模型的训练,实现了更好的性能和更平滑的损失收敛趋势。
构建分组曼巴模型系列:基于提出的调制分组曼巴层,构建了一系列参数高效的通用分类模型,称为GroupMamba。
状态空间模型(SSMs)最近在以低于二次方的计算复杂度捕获长距离依赖方面展现出了潜力,这使其在各种应用中颇具吸引力。然而,纯基于SSM的模型在计算机视觉任务中面临着与稳定性和实现最先进性能相关的关键挑战。作者的论文旨在解决将基于SSM的模型扩展应用于计算机视觉时所面临的挑战,特别是大型模型尺寸带来的不稳定性和低效率问题。作者引入了一种参数高效的调制分组Mamba层,该层将输入通道划分为四组,并将作者提出的基于SSM的高效视觉单选择性扫描(VSSS)块独立地应用于每组,每个VSSS块在四个空间方向之一进行扫描。调制分组Mamba层还将四个VSSS块封装到一个通道调制算子中,以改善跨通道通信。此外,作者引入了一种基于蒸馏的训练目标,以稳定大型模型的训练,从而实现持续的性能提升。
作者的全面实验证明了所提出方法的优点,在ImageNet-1K图像分类、MS-COCO目标检测和实例分割以及ADE20K语义分割等任务上,相较于现有方法取得了更优的性能。作者的微型变体模型拥有2300万个参数,在ImageNet-1K上实现了83. 3%的分类top-1准确率,达到了最先进的性能,并且与相同模型尺寸的最佳现有Mamba设计相比,参数效率提高了26%。
作者的方法是基于对现有视觉状态空间模型局限性的观察而提出的。
大型模型缺乏稳定性:作者从文献[ 46]中观察到,基于Mamba[ 16]且带有多层感知机(MLP)通道混合器的图像分类模型在扩展到大量参数时是不稳定的。这种不稳定性在SiMBA-L(MLP)[46]中可见,它导致了49%的次优分类准确率。作者通过引入调制分组Mamba设计以及蒸馏目标(如3. 4节所述)来缓解这个问题,在不修改通道混合器的情况下稳定MambaSSM的训练。
高效改进的交互性:考虑到基于Mamba的设计对通道数量的计算影响,所提出的调制分组Mamba层在计算上比默认的Mamba更便宜,且参数效率更高,并且能够通过多方向扫描从输入令牌中对局部和全局信息进行建模。作者在这项工作中提出了一个额外的通道亲和调制算子,以补偿由于分组操作导致的有限通道交互,并增强它们之间的交互。
状态空间模型:像S4[ 17]和Mamba[ 16]这样的状态空间模型(SSMs)是受循环神经网络(RNNs)和卷积神经网络(CNNs)组合启发的结构化序列架构,在序列长度上具有线性或接近线性的扩展性。从连续系统派生而来,SSMs通过一个隐藏状态,为输入到输出定义了一个一维的函数到函数的映射。更正式地说,SSMs由式(1)中的连续时间常微分方程(ODE)描述:
其中,是当前隐藏状态,是更新后的隐藏状态,是当前输入,是输出,是SSM的演化矩阵,和分别是输入和输出投影矩阵。
离散状态空间模型:为了使这些模型能够用于深度学习中的序列建模任务,需要对它们进行离散化,即将SSM从连续时间的函数到函数映射转换为离散时间的序列到序列映射。S4[ 17]和Mamba[ 16]是连续系统的离散适应版本,它们引入了一个时间尺度参数,将连续参数、转换为它们的离散等价形式、。这种离散化通常通过式(2)中给出的零阶保持(ZOH)方法完成:
虽然S4[ 17]和Mamba[ 16]都使用了如式(2)中所述的类似离散化步骤,但Mamba通过S6选择性扫描机制,将参数、和与输入相关联,从而与S4区分开来,其中是批量大小,是序列长度,是特征维度。
如图2(a)所示,作者的模型使用了类似于Swin-Transformer[ 36]的分层架构,包含四个阶段,以有效地处理不同分辨率的图像。假设输入图像,作者首先应用一个块嵌入层,将图像划分为大小为的非重叠块,并将每个块嵌入到一个维的特征向量中。块嵌入层使用两个步长为2的卷积实现。这在第一阶段产生了大小为的特征图。这些特征图通过个作者的调制分组Mamba块(如3. 3节详细描述)。在每个后续阶段,一个下采样层将区域内的块合并,然后再通过个作者的调制分组Mamba层。因此,第二、三、四阶段的特征大小分别为、和。
作者为输入序列(维度为,其中是批量大小,是输入通道数,和是特征图的宽度和高度)展示了所提出的调制分组Mamba层(图2(b))的整体操作,如式(3)所示:
这里,是式(6)的输出,是式(9)的输出,是层归一化[ 1]操作,是如式(5)所描述的前馈网络,是调制分组Mamba块的最终输出。各个操作,即分组Mamba算子、分组Mamba算子中使用的VSSS块以及CAM算子,分别在3. 3.1节、3. 3.2节和3. 3.3节中介绍。
VSSS块(图2(c))是一个基于Mamba算子的令牌和通道混合器,由一个Mamba块和一个前馈网络组成,每个部分之前都有一个层归一化。从数学上讲,对于输入令牌序列,VSSS块执行如式(4)所描述的操作:
其中,是输出序列,是如式(2)所描述的离散化MambaSSM算子。
其中,[24]是激活函数,、、和是线性投影的权重和偏置。
考虑到3节中前面提出的动机,作者旨在设计一种Mamba[ 16]的变体,它既具有计算效率,又能有效地对输入序列的空间依赖关系进行建模。鉴于Mamba在输入序列中大量通道上的计算效率较低,作者受分组卷积的启发,提出了该算子的分组变体。分组Mamba操作是3. 3.1节中提出的VSSS块的一种变体,其中输入通道被划分为多个组,并且VSSS算子分别应用于每个组。具体来说,作者将输入通道划分为四个组,每个组的大小为,并且将一个独立的VSSS块应用于每个组。因此,所提出的分组Mamba算子通过将通道划分为较小的组来提高模型效率。为了更好地对输入中的空间依赖关系进行建模,四个组中的每一个都在输入的四个方向之一进行扫描:从左到右、从右到左、从下到上和从上到下,如图2(d)所示。
设为表示四个扫描方向(从左到右、从右到左、从上到下和从下到上)的组数。作者从输入序列形成四个序列,即、、和,每个序列的形状为,表示前面指定的四个方向之一。然后将这些序列展平,形成一个形状为的单个令牌序列,其中是序列中的令牌数量。四个组的参数可以分别由、、和指定,它们代表VSSS块的参数。
根据上述定义,分组Mamba算子的整体关系可以写成如式(6)所示:
其中:
、、和表示在各自方向上扫描的输入张量。
、、和表示每个方向上VSSS块的参数。
每个Mamba算子的输出再次重塑为,并重新连接以形成令牌序列,其大小再次为。
就其本身而言,分组Mamba算子可能存在一个缺点,即通道间的信息交换有限,因为组中的每个算子仅在个通道上操作。为了鼓励通道间的信息交换,作者提出了一个通道亲和调制算子,该算子重新校准通道级的特征响应,以增强网络的表示能力。在这个块中,作者首先对输入进行平均池化,以计算通道统计信息,如式(7)所示:
其中,是输入张量,表示全局平均池化操作。接下来是如式(8)所示的亲和性计算操作:
其中,和表示非线性函数,和是可学习的权重。的作用是为每个通道分配一个重要性权重,以计算亲和性。亲和性计算的结果用于重新校准分组Mamba算子的输出,如式(9)所示:
其中,是重新校准后的输出,是式(6)中四个VSSS组的连接输出,是输入张量,是从式(8)中的通道亲和性计算操作获得的通道级注意力分数。
虽然CAM模块采用的平均池化和亲和性计算过程类似于挤压-激励(SE)块[ 26],但它引入了一种专门针对多组变换中的跨通道注意力的独特机制。具体来说,CAM允许组间信息交换,以克服“分组Mamba算子”固有的局限性,该算子本质上限制了各个组内的交互。相比之下,SE块通常专注于重新校准单个特征组,并且尚未在基于Mamba的架构背景下进行研究。
本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。
下载1:OpenCV-Contrib扩展模块中文版教程
在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。
下载2:Python视觉实战项目52讲
在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。
下载3:OpenCV实战项目20讲
在「小白学视觉」公众号后台回复:OpenCV实战项目20讲,即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。
交流群
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三+上海交大+视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~