【CVPR 2025亮点】MobileMamba:轻量级多感受野视觉 Mamba 网络,突破视觉处理效率与性能瓶颈


【CVPR 2025亮点】MobileMamba:轻量级多感受野视觉 Mamba 网络,突破视觉处理效率与性能瓶颈

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

点击上方“小白学视觉”,选择加\“星标\“或“置顶”
重磅干货,第一时间送达
在移动设备广泛普及的今天,资源受限环境下对高效准确的视觉处理需求日益增长。轻量级模型因其能显著降低计算和存储成本、提高推理速度,成为了研究热点。然而,现有的轻量级模型,无论是基于CNN还是基于Transformer的结构,都存在各自的局限性。最近,CVPR2025最新论文“MobileMamba:LightweightMulti-ReceptiveVisualMambaNetwork”提出了MobileMamba框架,为解决这一问题提供了新的思路。
基于CNN的MobileNets使用深度可分离卷积降低计算复杂度,但主要缺点是其局部有效感受野(ERF)局限于中心区域,缺乏长距离相关性。在高分辨率输入的下游任务中,只能通过增加计算负载来提高性能。
视觉Transformer(ViTs)具有全局ERF和长距离建模能力,但二次计算复杂度导致开销较高。一些工作通过降低分辨率或通道数来减轻复杂度,但纯ViTs缺乏归纳偏差,混合CNN-ViT结构仍面临二次计算复杂度的问题,特别是在处理高分辨率输入时。
状态空间模型因能以线性计算复杂度捕捉长距离依赖关系受到关注,但当前基于Mamba的轻量级模型仅报告了FLOPs,不一定与快速推理速度相关,存在推理速度慢和性能差的问题。
大多数现有网络遵循四阶段框架,而MobileMamba采用三阶段网络。四阶段网络特征图尺寸大,计算需求多,运行速度慢。相比之下,三阶段网络在第一次下采样时将输入图像缩小到,最终输出特征图为。实验表明,三阶段网络能实现更快的推理,Top-1和Top-5准确率分别提高了0. 4%。
MRFFI模块位于每个MobileMamba块中对称局部信息感知和前馈网络(FFN)之间,将特征沿通道维度分为三个部分处理。
长距离WTE-Mamba:目的是在全局建模的基础上增强对细粒度信息(如高频边缘细节)的提取能力。对输入特征进行双向扫描Mamba模块处理学习全局信息,同时进行哈尔小波变换获得不同频率尺度的特征表示,经过局部卷积信息提取和逆小波变换后,与Mamba模块输出特征图相加。
高效MK-DeConv:提取具有不同的局部信息,实现多感受野交互。将剩余特征通道分为部分,每部分使用不同的内核大小进行局部卷积操作,最后将结果连接起来。
消除冗余恒等:对剩余通道应用恒等映射,减少高维空间中的特征冗余,提高操作效率。
知识蒸馏:让轻量级的学生模型MobileMamba从更强大的教师分类模型中学习,遵循DeiT中的软蒸馏设置,最小化教师模型和学生模型的softmax输出之间的Kullback-Leibler散度。
延长训练轮数:传统300轮训练下,小模型MobileMamba的损失未完全收敛,Top-1准确率未达潜力,因此将训练延长至1000轮。
归一化层融合:在推理过程中,将批归一化与前面的卷积层或线性层融合,通过重新计算新卷积层的权重和偏差,减少层数,提高计算效率,加快前向传递速度。
MobileMamba设计了6种结构,在不同模型规模下与其他最先进方法比较。例如,MobileMamba-T2在Top-1准确率上比基于Transformer的SHViTS1高出0. 8%;MobileMamba-T4在Top-1准确率上比基于线性注意力的VRWKV-T高出1%,而FLOPs仅为其33%。增加输入分辨率后,MobileMamba-B2和B4模型在FLOPs更少的情况下实现了更高的分类结果,训练策略也显著提升了性能。

通过增量实验、效率比较、各组件的消融实验等,进一步验证了MobileMamba的有效性和优势。例如,增量实验表明,相较于基线模型,MobileMamba在Top-1准确率上提高了0. 9%,Top-5准确率上提高了0. 6%,同时吞吐量提高了729张图像/秒。
MobileMamba框架通过轻量级三阶段设计、MRFFI模块以及训练和测试策略,在性能和效率之间取得了良好的平衡,解决了现有基于Mamba模型的局限性。然而,Mamba模型在工程实现方面仍存在不足,如在CPU加速和边缘设备加速方面需要大幅改进。未来,作者将继续专注于提升Mamba模型在一系列设备上的推理能力,尤其关注效率问题。
MobileMamba的提出为轻量级视觉模型的发展提供了新的方向,有望在更多实际应用场景中发挥重要作用。相信随着研究的不断深入,轻量级视觉模型将迎来更广阔的发展前景。
下载1:OpenCV-Contrib扩展模块中文版教程
在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。
下载2:Python视觉实战项目52讲
在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。
下载3:OpenCV实战项目20讲
在「小白学视觉」公众号后台回复:OpenCV实战项目20讲,即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。
交流群
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三+上海交大+视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录