【CVPR 2025亮点】MambaVision:当Mamba遇上Transformer,视觉骨干网络迎来新范式
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
点击上方“小白学视觉”,选择加\“星标\“或“置顶”
重磅干货,第一时间送达
在计算机视觉领域,骨干网络的设计始终围绕着一个核心命题:如何在计算效率与表征能力之间找到最优平衡点。Transformer凭借自注意力机制的全局建模能力,成为处理长距离依赖的利器,但其二次时间复杂度限制了在高分辨率图像中的部署效率。而基于状态空间模型(SSM)的Mamba模型虽实现了线性复杂度,却因自回归特性在视觉任务中难以捕捉全局空间关系。
原始Mamba模块的因果卷积和自回归特性(信息单向传播)难以适配图像的二维空间结构。为此,论文进行了两项关键改进:
因果卷积→常规卷积:去除信息传播的方向限制,允许特征在空间维度上双向流动,更符合图像局部空间关系的并行处理需求。
新增对称非SSM分支:引入由卷积和SiLU激活函数构成的无状态空间模型分支,补偿因SSM顺序约束丢失的空间信息。两个分支输出通过拼接融合(各占一半维度),实现顺序信息与空间信息的互补(图3)。
通过系统消融实验,论文发现自注意力模块的位置对性能至关重要:将其置于网络后阶段(第3、4阶段的最后几层)可显著增强全局上下文建模能力。具体集成模式为:
前半层使用MambaVision混合器:利用改进后的Mamba模块处理局部空间特征,保持线性计算复杂度。
后半层插入自注意力:在特征图分辨率降低(计算成本可控)时引入全局建模,捕捉长距离空间依赖。
MambaVision采用四阶段分层设计(图2),实现不同分辨率下的高效特征提取:
阶段1-2:CNN主导的快速特征提取采用基于残差块的3×3卷积层,对高分辨率输入进行下采样(步长2),快速生成低维嵌入(如输入H×W×3→H/4×W/4×C)。
阶段3-4:Mamba-Transformer混合建模前半层使用MambaVision混合器处理局部特征,后半层通过自注意力捕获全局依赖,实现“局部-全局”特征的渐进式融合。
在主流分类任务中,MambaVision展现出碾压性优势(表1):
准确率领先:MambaVision-B的Top-1准确率达84. 2%,超越ConvNeXt-B(83. 8%)、Swin-B(83. 5%)等经典模型。
计算效率突出:吞吐量(图像/秒)显著高于同类模型,且GFLOPs比MaxViT-B低56%,实现“更少计算,更高精度”。
ADE20K语义分割基于UPerNet的MambaVision模型在mIoU指标上全面超越Swin系列,例如MambaVision-B的mIoU比Swin-B高1. 0%(表3)。
混合器结构优化替换因果卷积为常规卷积+新增对称分支拼接,使ImageNet准确率提升1. 8%,检测分割指标同步增长(表4),证明双向特征融合的必要性。
自注意力位置影响仅在阶段最后N/2层使用自注意力时,准确率达82. 3%,显著优于随机插入或前置方案(表5),验证“后阶段全局建模”策略的合理性。
MambaVision的成功证明了异构架构融合的潜力:通过将线性复杂度的局部建模模块与全局建模模块分阶段协同,既能保持高效计算,又可突破单一架构的表征瓶颈。这种设计思路不仅适用于视觉领域,也为多模态模型(如图文、视频理解)的发展提供了新范式。
目前,论文已开源代码(https ://github. com/NVlabs/MambaVision),感兴趣的读者可进一步复现实验或探索变体。随着硬件加速技术(如GPU/TPU对SSM的优化)的成熟,MambaVision有望在实时视觉任务(如自动驾驶、工业检测)中实现大规模应用。
从CNN到Transformer,再到如今的Mamba-Transformer混合架构,视觉骨干网络的进化史始终遵循“需求驱动创新”的逻辑。MambaVision的出现,不仅是对“效率-精度”矛盾的一次优雅解答,更标志着视觉模型进入“混合智能”的新纪元——或许,真正的突破从来不是非此即彼的选择,而是博采众长的智慧。
参考文献[ 1]HatamizadehA,KautzJ. MambaVision:AHybridMamba-TransformerVisionBackbone[ C]//CVPR,2025.
下载1:OpenCV-Contrib扩展模块中文版教程
在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。
下载2:Python视觉实战项目52讲
在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。
下载3:OpenCV实战项目20讲
在「小白学视觉」公众号后台回复:OpenCV实战项目20讲,即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。
交流群
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三+上海交大+视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~