LSNet，2025年最新主干网络，见大观小！

发布日期: 2025-06-13

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

以下文章来源于微信公众号：AI智韵
作者：AI智韵
链接：https ://mp. weixin.qq. com/s/nTQE73QFTU4gu7ipzlwkAA
本文仅用于学术分享，如有侵权，请联系后台作删文处理
导读
本文提出了轻量级视觉网络LSNet，基于“先观全局，再聚焦细节”的设计策略，创新性引入LS卷积，结合大核感知与小核聚合，兼顾全局感知与高效特征提取。LSNet在多个视觉任务中展现出优越的性能与计算效率，为轻量级模型设计提供了新思路。
视觉网络设计，包括卷积神经网络（ConvolutionalNeuralNetworks，CNNs）和视觉Transformer（VisionTransformers，ViTs），显著推动了计算机视觉领域的发展。然而，它们复杂的计算给实际应用部署带来了挑战，尤其是在实时应用中。为解决这一问题，研究人员探索了各种轻量级且高效的网络设计。不过，现有的轻量级模型主要依赖自注意力机制和卷积进行令牌混合（tokenmixing）。这种依赖性在轻量级网络的感知和聚合过程中带来了有效性和效率方面的局限性，阻碍了在有限计算预算下性能与效率之间的平衡。在本文中，我们从高效人类视觉系统固有的动态异尺度视觉能力中汲取灵感，提出了一种用于轻量级视觉网络设计的“先观全局，再聚焦细节”（\“SeeLarge,FocusSmall\“）策略。我们引入了LS（大-小，Large-Small）卷积，它将大核感知与小核聚合相结合。它能够高效地捕获广泛的感知信息，并对动态且复杂的视觉表征实现精确的特征聚合，从而实现对视觉信息的熟练处理。基于LS卷积，我们提出了一种新的轻量级模型系列——LSNet。大量实验表明，在各种视觉任务中，LSNet相较于现有的轻量级网络具有更优越的性能和效率。
代码链接：https ://github. com/jameslahm/lsnet
论文链接：https ://arxiv. org/pdf/2503. 23135
视觉网络设计一直是计算机视觉领域的研究重点[19,24,26,52,53,102]，其中两种突出的网络架构，即卷积神经网络（CNNs）[26,31,40,41,53]和视觉Transformer（ViTs）[19,52,67,78,92,97]，在各种计算机视觉任务中显著推动了边界拓展[3,4,25,74,86,88,96]。然而，它们传统上计算成本较高，给实际应用部署带来了显著挑战，尤其是实时应用[46,51]。
近期，研究人员一直在积极探索用于实际应用的轻量级且高效的视觉网络设计[7,36,59,61,64,80]。尽管这些轻量级模型有效，但它们通常依赖某些基本模块，如自注意力机制[19,81,90]和卷积[40,41]，来进行令牌混合[ 77]。这种依赖性给轻量级网络中底层的感知和聚合过程的效率和有效性带来了挑战，往往会影响架构的表现力或推理速度。
本质上，上下文感知和聚合是令牌混合的核心过程[21,77,95]，有助于空间信息融合。感知对令牌之间的上下文关系进行建模，而聚合则根据对应关系整合令牌特征。在现有的轻量级模型中，自注意力和卷积这两种主要的令牌混合方法采用了不同的感知和聚合过程。具体而言，自注意力通过整体特征交互实现全局感知，并通过所有特征的加权和实现全局聚合。卷积则利用令牌之间的相对位置关系进行感知，并使用静态核权重聚合特征。然而，如图1.(a)和(b)所示，这两种方法都有局限性。(1)自注意力常常对缺乏显著关联的区域给予过多关注，导致不太关键的聚合，例如在信息量较少的背景区域[48,69]。此外，其感知和聚合共享相同的混合范围。自注意力及其变体[21,35,51]中上下文范围的扩大是以显著的计算复杂度为代价的。这些因素阻碍了轻量级模型在低计算预算下追求高表征能力。(2)在卷积中，感知所建模的令牌之间的关系，即聚合权重，由固定的核权重决定。因此，尽管卷积高效，但缺乏对不同上下文邻域的敏感性。这对轻量级模型的表现力施加了限制，尤其是考虑到轻量级网络的模型能力本身就有限。鉴于这些情况，在有限的计算成本下，探索一种具有更有效和高效的感知和聚合过程的轻量级模型令牌混合方式势在必行。
为此，我们首先深入研究了感知和聚合过程背后的直觉。我们发现，它们与高效人类视觉系统中动态异尺度视觉能力的现象密切相关。具体而言，如图1.(c)所示，人类视觉系统遵循两步机制：(1)首先通过边缘视觉的大视野感知捕捉场景的广泛概览[66,73]，即“先观全局”。(2)随后，注意力可以指向场景的特定元素，通过中央视觉的小视野聚合实现详细理解[63,73]，即“再聚焦细节”。这种特性源于视网膜中两种类型的光感受器细胞——视杆细胞和视锥细胞——在空间分布和视觉能力上的差异[38,66]，如图1.(d)所示。视杆细胞广泛分布在视网膜的周边区域[ 63]，产生的图像相对模糊，空间细节有限[ 82]。然而，它们在可见光谱范围内具有广泛的响应，并与视网膜周边的视锥细胞共同作用，有助于大视野的边缘视觉[ 76]，从而实现“先观全局”。此外，视锥细胞主要集中在中央凹，这是中央视觉的一个小区域[ 91]。中央凹包含高密度的视锥细胞，构成了能够捕捉精细细节和复杂特征的最敏锐区域[37,79,82]，从而实现“再聚焦细节”。在边缘光感受器细胞高效的大视野感知引导下，中央凹能够通过小视野聚合有效地聚焦于细微特征的精确成像[ 66]。这种“先观全局，再聚焦细节”的方法使人类视觉系统能够快速且熟练地处理视觉信息[ 82]，从而促进准确且高效的视觉理解。
这些观察促使我们设计具有感知大视野和聚合小视野能力的有效且高效的视觉网络。为此，我们首先提出了一种新的操作——大-小（Large-Small，LS）卷积，旨在模拟人类视觉系统中观察到的“先观全局，再聚焦细节”策略，从而提取具有区分度的视觉模式。一般来说，LS卷积采用大核静态卷积进行大视野感知，采用小核动态卷积进行小视野聚合。它并非简单地结合大核和小核卷积，而是首先利用大核深度可分离卷积捕获的广泛上下文信息来建模空间关系。然后，以此为参数，构建一个具有分组机制的小核动态卷积操作，以在高度相关的视野内融合特征。通过这种方式，大核静态卷积能够很好地感知扩大的邻域信息，从而改进关系建模，类似于边缘视觉系统。此外，得益于这一点，小核动态卷积能够自适应地聚合小范围内的复杂视觉特征，实现类似于中央视觉系统的详细视觉理解。同时，我们通过深度可分离卷积和分组机制精心设计了高效的LS卷积。聚合范围被限制在一个小区域内。这些很好地确保了感知和聚合过程的低复杂度。因此，我们的LS卷积既注重性能又注重效率，使轻量级模型能够在低计算成本下充分发挥表征能力。
我们将LS卷积视为令牌混合的基本操作，并将其与其他常见的架构设计相结合，形成一个LS模块。基于LS模块，我们提出了一种新的轻量级模型系列——LSNet。大量实验表明，在各种视觉任务中，LSNet相较于现有的最先进轻量级模型具有更优越的性能和效率。我们希望LSNet能够作为一个强有力的基准，并激发轻量级和高效模型领域的进一步发展。
高效卷积神经网络（EfficientCNNs）在过去十年中，卷积神经网络（CNNs）已成为各种视觉任务[2,17,18,54,70,83]中的基础网络架构。为促进其实际应用，研究人员投入了大量精力设计轻量级且高效的网络[13,14,32,33,57,75,85]。例如，MobileNet[ 33]和Xception[ 8]提出了利用深度可分离卷积的架构。MobileNetV2[ 71]引入了带有线性瓶颈的反向残差块以提高效率。ShuffleNet[ 104]和ShuffleNetV2[ 57]融入了通道洗牌（channelshuffling）和通道分割（channelsplit）操作，以增强组间信息交换。还探索了硬件感知的神经架构搜索（NAS）以获得紧凑的视觉网络[32,75]。同时，考虑到感受野有限，一些工作探索了增强轻量级CNN建模长距离依赖关系的能力[36,65,101]。例如，ParC-Net[ 101]引入了位置感知的循环卷积，以拥有全局感受野。AFFNet[ 36]通过循环填充（circularpadding）提出了用于全局卷积的自适应频率滤波。
高效视觉Transformer（EfficientViTs）后来，自从视觉Transformer（VisionTransformer，ViT）[19]问世以来，基于Transformer的架构在计算机视觉领域获得了广泛关注。ViT已被适配到各种视觉任务中，并表现出卓越的性能[20,103]。同时，为提高效率，人们做出了努力，开发出用于实际部署的轻量级ViT[46,62,80,84]。例如，MobileViT[ 61]结合了MobileNet块和MHSA（多头自注意力，Multi-HeadSelf-Attention）块，实现了混合架构。EdgeViT[ 64]提出了将自注意力与卷积相结合，以实现具有成本效益的信息交换。此外，为缓解推理瓶颈，EfficientFormer[ 46]提出了一种维度一致的设计范式，增强了延迟与性能之间的权衡。FastViT[ 80]引入了结构重参数化和大核卷积，以增强混合ViT。
高效令牌混合（EfficientTokenMixing）卷积神经网络（CNNs）和视觉Transformer（ViTs）分别采用不同的令牌混合方式，即卷积和自注意力，并伴随不同的感知和聚合过程。基于此，为开发轻量级视觉网络，研究人员探索了用于空间信息交换的不同高效令牌混合方式。例如，对于卷积，Involution[ 43]利用多层感知机（MLP）进行感知，以推导出基于单个像素的条件聚合权重。CondConv[ 94]提出了基于全局上下文的逐示例路由，以线性组合多个卷积核。对于自注意力，EdgeNeXt[ 59]提出了分裂深度可分离转置注意力（splitdepth-wisetransposeattention，SDTA）来混合多尺度特征。PVTv2[ 89]采用了线性空间缩减注意力（linearspatialreductionattention，LSRA），以实现注意力层的线性计算复杂度。EfficientViT[ 51]设计了级联组注意力（cascadedgroupattention），以高效地增强能力。
自注意力（Self-attention）和卷积（Convolution）是现有轻量级网络中用于建模视觉特征的两个重要令牌混合方式[ 97]。对于输入图像，给定其特征图，其中为空间分辨率，为通道数，令牌混合基于每个令牌的上下文区域，生成特征表示，其过程为：
，
其中，和为投影矩阵。可以看出，和在信息量较少的区域存在冗余的注意力和过度的聚合[48,69]，限制了轻量级模型的有效性。此外，它们在的同一上下文尺度上操作。这种同尺度特性导致在扩大混合范围时，计算复杂度显著增加，从而在低计算预算下扩展感知上下文时面临挑战。因此，现有轻量级模型中的自注意力及其变体[21,51]难以在有限的计算成本下实现表征能力与效率之间的最佳平衡[ 36]。
对于核大小为的卷积，其上下文区域为以为中心、大小为的邻域，记为。感知利用与之间的相对位置来推导聚合权重。对于每个，其聚合权重为固定卷积核权重中对应相对位置的值。聚合则利用这些权重对中的特征进行卷积。如图2.(b)所示，整个过程可表示为：
，
其中，表示卷积操作。可以看出，卷积中的令牌混合范围由核大小决定，而轻量级模型通常使用较小的核大小，因此感知范围有限。此外，感知建模的令牌间关系（即聚合权重）仅依赖于相对位置，因此对所有令牌而言是共享且固定的。这阻止了令牌适应其相关上下文，限制了表达能力。考虑到轻量级网络固有的较小建模能力，这种局限性尤为明显。
受人类视觉系统所展现的动态异尺度视觉能力启发[63,66,76]，我们提出了一种新的“见大知小”（“SeeLarge,FocusSmall”）策略，用于感知和聚合过程，旨在实现轻量级模型中高效且有效的令牌混合，如图2.(c)所示。我们的方法通过大场域感知实现全面上下文信息的有效收集和关系的建模，并进一步通过小场域聚合在高度相关的周围环境中进行高效融合，促进详细的视觉表示。具体而言，对于令牌，其感知和聚合的上下文区域分别为和，其中比包含更大的空间范围，该过程可表示为：
可以看出，（1）感知和聚合涉及不同的上下文范围，即分别为和，从而允许利用异尺度上下文信息，并同时捕获整体上下文和细粒度细节。（2）对于具有较大空间范围的感知，可以采用成本效益高的操作，如大核深度卷积，从而以最小的开销扩大感知上下文。（3）对于具有较小周围区域的聚合，可以采用自适应加权特征求和。由于聚合范围有限，可以在低计算成本下保证效率，并缓解自注意力中不太重要的聚合问题。
基于这些，我们提出了一种新的LS（大-小）卷积。如图3.(a)所示，对于每个令牌，它引入了两个步骤：（1）大核感知通过大核静态卷积，利用扩大的感受野对邻域关系进行建模。（2）小核聚合通过小核动态卷积自适应地整合周围特征。
大核感知（LKP）采用大核瓶颈块的设计。给定视觉特征图，我们首先利用逐点卷积（PW）将令牌投影到较低的通道维度，即默认情况下为，以降低计算成本并使模型尽可能轻量。对于，我们然后采用核大小为的大核深度卷积（DW），以高效捕获的大场域空间上下文信息，其中表示以为中心、大小为的周围环境。大核DW可以在最小成本下很好地扩大感受野并增强上下文感知能力。然后，我们利用逐点卷积（PW）对令牌之间的空间关系进行建模，即生成聚合步骤的上下文自适应权重。整个过程可表示为：
其中，是为生成的权重。
小核聚合（SKA）采用分组动态卷积的设计。对于视觉特征图，我们将其通道分为组。每组包含个通道，且同一组内的通道共享聚合权重，以降低轻量级模型的内存开销和计算成本。对于每个，我们重塑其由大核感知生成的对应权重，以获得，其中为小核大小。然后，我们利用聚合其高度相关的上下文，其中表示以为中心、大小为的邻域。具体而言，我们将的第个通道记为，它属于第个通道组。我们通过与之间的卷积操作，获得其聚合特征表示。这样，可以有效地表示自适应的细粒度特征，使模型对不同上下文中的动态和复杂变化敏感。整个过程可表示为：
与简单地将大核与小核卷积结合以及其他动态卷积相比，我们的LKP利用丰富的大场域视觉感知来指导SKA在高度相关的上下文内进行自适应特征融合。这为复杂的视觉信息提供了更具判别力的表示。因此，LS卷积表现出优于它们的性能，如表6和表7所示。我们还在补充材料中从数学角度进行了比较。
复杂度分析。LS卷积的计算主要包括三部分：中的逐点卷积、中核大小为的深度卷积，以及中核大小为的卷积聚合。它们对应的计算量分别为、和。因此，总计算量为，相对于输入分辨率具有线性计算复杂度。
使用LS卷积作为主要操作，我们提出了基本块（即LS块）和轻量级模型设计（即LSNet），如图3.(b)所示。
LS块利用LS卷积进行有效的令牌混合。采用跳跃连接以促进模型优化。此外，我们利用额外的深度卷积和SE层[ 34]通过引入更多的局部归纳偏置[11,51]来增强模型能力。采用前馈网络（FFN）进行通道混合。
LSNet利用重叠的补丁嵌入[ 93]将输入图像投影到视觉特征图上。对于下采样，我们分别利用深度卷积和逐点卷积来降低空间分辨率和调制通道维度。此外，我们在前三个阶段堆叠LS块。在最后一个阶段，我们采用MSA块来捕获长距离依赖关系，这是由于分辨率较小，遵循[61,80]。MSA块结合了多头自注意力（MHSA），我们利用与LS块相同的深度卷积和SE层来引入更多的局部结构信息。
我们为不同的计算预算构建了三种LSNet变体。具有微小尺寸（LSNet-T）、小尺寸（LSNet-S）和基础尺寸（LSNet-B）的LSNet分别具有0. 3G、0. 5G和1.3G的浮点运算数（FLOPs）。遵循[23,51]，由于在高分辨率的早期阶段进行处理更耗时，我们在后期阶段采用更多的块。我们根据经验默认对所有模型变体使用和，遵循[14,53]。架构细节可在补充材料中找到。
我们在ImageNet-1K[ 12]数据集上，采用与[36,51,64]相同的训练方案进行实验，以评估LSNet在图像分类任务上的性能。
如表1所示，我们注意到LSNet在各种计算成本下均能持续达到最先进的性能。此外，它在准确率和推理速度之间实现了最佳权衡。例如，我们的LSNet-B在推理速度几乎快3倍的情况下，其top-1准确率比先进的AFFNet高出0. 5%。它还分别以更高的效率超过了RepViT-M1. 1和FastViT-T12，top-1准确率分别高出0. 9%和1. 2%。对于较小的模型，我们的LSNet也能以更低的计算成本获得更优的性能。具体而言，LSNetS的top-1准确率分别比UniRepLKNet-A和FasterNet-T1高出0. 8%和1. 6%，同时吞吐量也更高。与StarNet-S1和EfficientViT-M3相比，LSNet-T的top-1准确率也分别提高了1. 4%和1. 5%。这些结果充分展示了我们的LSNet模型的有效性和高效性。
目标检测与实例分割。我们对LSNet在目标检测和实例分割任务上的可迁移性进行了评估。遵循[51,64]的做法，我们将LSNet集成到RetinaNet[ 50]和MaskR-CNN[ 27]中，并在COCO-2017[ 49]数据集上进行实验。如表2所示，与竞争对手模型相比，我们的LSNet始终表现出更优越的性能。具体而言，在用于目标检测的RetinaNet框架中，LSNet-T在计算成本显著降低的情况下，其AP和分别比StarNet-S1高出0. 6和1.3。对于大型模型，我们的LSNet-B也分别以较大的优势（3. 0AP和2.5AP）超过了PoolFormer-S12和PVT-Tiny。当集成到用于目标检测和实例分割的MaskR-CNN框架中时，LSNet-S相对于SHViT-S3和EfficientViT-M5分别获得了0. 5和2.5的有利改进。与RepViTM1. 1相比，LSNet-B也实现了1. 0更高的和0.6更高的，展示了其在迁移学习中的优越性。
语义分割。我们在ADE20K[ 106]数据集上进行实验，以评估LSNet在语义分割任务上的性能。遵循[46,64]的做法，我们将LSNet纳入SemanticFPN[ 39]分割模型中。如表3所示，在所有不同模型规模的比较中，LSNet的性能均明显更优。它能在低计算成本下实现优越的性能。具体而言，LSNet-T的mIoU比VAN-B0显著高出1. 6，同时也比PVTv2-B0高出2. 9mIoU。对于较大的模型，LSNet-S在计算复杂度更低的情况下，分别比先进的RepViT-M1. 1和SHViT-S3高出0. 4mIoU和1.0mIoU。此外，LSNet-B分别以1. 6和2.0mIoU的优势超过了SwiftFormer-L1和FastViT-SA24。这些结果进一步证明了LSNet的有效性。

我们在ImageNet-1K上进行了实验，以分析LSNet中的设计元素。遵循[23,51]的做法，由于训练时间和计算资源的限制，所有模型均训练100个epoch。默认情况下，采用LSNet-T进行分析，其中，，且。
LS卷积的有效性。我们首先通过将其与“无LS卷积”（“w/oLSconv.”）进行比较来分析我们提出的LS卷积的有效性，在“无LS卷积”中，所有LS卷积均被替换为恒等函数。如表5所示，与“无LS卷积”相比，我们的LS卷积仅增加了0. 02GFLOPs，就将top-1准确率提高了2. 3%。此外，我们通过直接将所有LS卷积替换为其他有效的token混合方法来比较我们的LS卷积。如表5所示，LS卷积在低计算成本下实现了优越的性能。采用其他方法时，top-1准确率均有所下降。与(S)W-SA[ 52]、SDTA[ 59]和LSRA[ 89]相比，LS卷积在更少的FLOPs下分别实现了0. 8%、1. 0%和1. 1%的top-1准确率提升。此外，LS卷积在top-1准确率上分别超过了RepMixer[ 80]和CGA[ 51]1. 9%和1. 1%。同时，我们通过简单替换LS卷积来与其他动态卷积进行比较。如表6所示，由于融入了大场感知和小场聚合，LS卷积在准确率和效率方面均优于其他方法。例如，LS卷积分别以1. 8%和1. 6%的显著优势超过了CondConv[ 94]和DYConv[ 6]，充分展示了其有效性。
大核感知的重要性。我们首先通过与“无大核感知”（“w/oLKP”）进行比较来验证大核感知（LKP）的效果，在“无大核感知”中，我们移除了LKP中的大核深度卷积。如表7所示，在缺乏大场感知的情况下，top-1准确率显著降低了1. 1%。我们进一步研究了LKP中大核尺寸（即）的影响。如表7所示，随着核尺寸的增大，模型性能持续提高，这显示了利用大感受野捕获上下文信息的好处。此外，top-1准确率在核尺寸约为7时达到饱和点，这与之前工作[ 53]中的观察结果相似。
小核聚合的重要性。我们首先通过与“无小核聚合”（“w/oSKA”）进行比较来展示小核聚合（SKA）的重要性，在“无小核聚合”中，我们利用一个静态的深度卷积（核尺寸为）直接处理LKP的输出作为最终输出。需要注意的是，“无小核聚合”是大核卷积与小核卷积的简单组合。表7展示了比较结果。我们可以观察到，我们的LS卷积在top-1准确率上显著优于“无小核聚合”，提高了1. 5%。这突出了我们的LS卷积相对于大核卷积与小核卷积简单组合的优势。此外，我们通过在SKA中采用不同的来检查聚合上下文范围（即）的影响。如表7所示，在时，我们可以在准确率和计算成本之间实现最佳权衡。这展示了在高度相关的环境中进行自适应聚合的有效性。
组数的影响。我们检查了LS卷积中不同组数（即）的影响。随着的增加，共享聚合权重的通道数（即）减少，同时计算成本增加。如表8所示，当从1增加到32时，top-1准确率从71. 7%下降到70. 9%，同时计算复杂度降低。这展示了针对不同通道采用不同聚合方式的好处，因为它们通常编码不同的表示子空间和多样的语义属性[ 1]。此外，我们可以观察到时实现了最佳平衡。
额外DW和SE层的影响。我们通过分别移除额外的深度卷积和SE层来验证它们的效果，分别记为“无DW”（“w/oDW”）和“无SE”（“w/oSE”）。如表8所示，它们分别使top-1准确率降低了0. 5%和0. 3%，显示了引入更多局部结构信息的效果。
LS卷积在其他架构中的泛化能力。我们通过将LS卷积转移到其他视觉网络中来展示其泛化能力。具体而言，我们在两种广泛认可的架构（即ResNet[ 26]和DeiT[ 78]）上进行实验，分别用LS卷积替换它们的所有卷积和自注意力机制。所有模型均在相同设置下训练300个epoch。如表9所示，将LS卷积融入ResNet50和DeiT-T中，分别显著提高了它们的top-1准确率1. 9%和0. 8%，展示了其良好的泛化能力。
在本工作中，我们提出了LSNet，这是一个新型的轻量级视觉网络系列，其灵感来源于人类视觉系统的“见大观小”策略。LSNet集成了LS卷积这一新操作，该操作结合了大核感知与小核聚合，从而能够高效且准确地处理视觉信息。大量实验表明，LSNet在性能与效率之间实现了最先进的权衡。它在各种任务中均展现出优于其他方法的优越性。我们希望LSNet能够作为一个强有力的基准，并激发在轻量级和高效视觉网络开发方面的进一步进展。
本研究工作得到了北京市自然科学基金（编号：L223023、L247026）、中国国家自然科学基金（编号：62271281、62441235、62021002）以及中国新疆重点研发计划（2022B01006）的支持。
欢迎加入《AI未来星球》，一起成长
扫描下方二维码即可加入~
真诚分享AI落地过程（AI商机->项目签约->算法开发->产品开发->实施运维）中的各方面经验和踩过的坑。
你可以获得什么？
1、大白之前花费10W+购买，AI行业各场景私有数据集下载，星球内倾情分享；2、AI行业研发、产品、商业落地问题咨询（目前AI公司创业中），都可获高质量解答，有效期一年，无限次提问，有问必答。3、定期邀请AI行业各类嘉宾分享，创业/商业等方面的经验！
帮助你解决遇到的实际问题，升职加薪！
大家一起加油！