【TCSVT 2025】即插即用，边缘高斯聚合模块EGA，目标检测新SOTA！

发布日期: 2025-06-05

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

点击上方“小白学视觉”，选择加\“星标\“或“置顶”
重磅干货，第一时间送达
本文转载自：AI缝合术
一、论文信息
1

所属单位：安徽大学计算机科学与技术学院、香港中文大学数据科学学院等
核心速览：本文介绍了一种名为LEGNet的轻量级网络，该网络专门针对低质量遥感图像的目标检测问题。通过引入边缘高斯聚合（EGA）模块，LEGNet在保持架构简单的同时，提高了特征的精确度和模型的鲁棒性。
二、论文概要
Highlight
图1：在DOTA-v1. 0测试集上的可视化结果。所有模型都是使用定向R-CNN构建的。我们的LEGNet在遮挡和低光条件下展示了稳健的检测能力，例如被树木和建筑物遮挡的目标，其准确性和鲁棒性超过了先前的最先进水平。
图5：在DOTA-v1. 0测试集上检测结果的可视化展示。输入图像的分辨率为1024×1024。
1. 研究背景:
研究问题：遥感图像目标检测（RSOD）在复杂的视觉环境中面临巨大挑战，如低空间分辨率、传感器噪声、模糊物体、低光环境退化和部分遮挡等问题。这些因素共同降低了检测模型中特征的可区分性，导致前景与背景分离困难、边缘表示的结构不连续以及光照变化引起的特征响应模糊等问题。
研究难点：低质量遥感图像的特征退化问题，尤其是在阴影、遮挡区域等复杂背景下，目标特征可能被遮蔽或难以辨识。此外，传统的目标检测技术无法有效提取和表示遥感图像的多尺度特征和低质量特征。
文献综述：为了解决RSOD中的多尺度检测问题，研究者们提出了多种创新方法，例如LSKNet引入大核卷积来动态扩展感受野，而PKINet采用多尺度卷积核提取不同空间尺度的特征。尽管这些方法在多尺度检测方面取得了显著进展，但在有效表示低质量或模糊物体方面仍存在挑战。
2. 本文贡献:
LEGNet网络架构：LEGNet是一个轻量级网络，专为低质量遥感图像目标检测设计。它包含一个新颖的边缘高斯聚合（EGA）模块，该模块结合了基于Scharr算子的边缘先验和不确定性的高斯建模，以增强网络对噪声和目标形状及方向变化的鲁棒性。
LoG-Stem层：LoG-Stem层使用LaplacianofGaussian（LoG）滤波器进行初步下采样和边缘信息捕获，以增强边缘特征并整合多尺度不确定性信息。
EGA模块：EGA模块通过选择机制应用边缘提取或高斯建模，根据阶段的不同，将处理后的特征与原始输入特征相结合，通过卷积块增强特征表示。（本文讲解重点）
三、创新方法
1
图2：LEGNet架构概述。它包含四个阶段。H、W和C分别表示特征的高度、宽度和通道宽度。AN和Conv分别表示带有激活函数的归一化层和卷积层。
图4：EGA模块的示意图。
EGA模块通过选择机制处理输入特征Fin，根据阶段应用边缘提取或高斯建模。该模块的输出Aega与Fin相加，然后通过卷积块（ConvBlock）进行处理，再进行残差连接，以增强特征表示，通过3×3卷积产生Fega。具体步骤如下：
1. 边缘提取与高斯建模：根据阶段，EGA模块选择边缘提取（stage1）或高斯建模（stage2-4）来处理输入特征Fin。边缘提取关注于边缘信息的增强，而高斯建模则通过概率方式细化低置信度特征。
2. 特征增强：将Aega与Fin相加，然后通过卷积块处理，以增强特征表示。卷积块的定义包括以下步骤：1×1卷积调整通道数；激活和归一化（AN）；3×3卷积捕获空间关系；再次应用AN；1×1卷积调整通道数；应用归一化。
3. 特征融合：将Fin和Fa通过元素乘法和加法操作结合，然后应用3×3卷积产生Fega。这一步骤进一步细化特征，以提高特征语义。
四、实验分析
1. 数据集和实现细节：LEGNet在四个遥感目标检测基准数据集（DOTA-v1. 0、DOTA-v1. 5、DIOR-R、FAIR1M-v1. 0）和一个无人机视角数据集（VisDrone2019）上进行了评估。为了公平比较，在ImageNet-1K上对网络的骨干进行了预训练，并使用了AdamW优化器和余弦学习率调度策略。训练和测试配置遵循先前工作的设置，以保持一致性。
2. 性能对比：LEGNet在多个遥感目标检测基准数据集上均表现出色，特别是在检测低质量对象方面。例如，在DOTA-v1. 0数据集上，LEGNet-S在小车辆（SV）和游泳池（SP）检测类别中分别达到了81. 42%和82. 00%的AP，显著超过了其他方法。
3. 模型效率：LEGNet-T作为轻量级变体，实现了78. 96%的mAP，仅使用3. 6M参数，比之前最有效的竞争对手（DecoupleNet-D2）少41. 9%的参数，同时提供了0. 92%更高的mAP。
4. 实时性能：LEGNet-S在保持高精度的同时，还展示了良好的实时性能。在DOTA-v1. 0上，LEGNet-S在使用O-RCNN检测器时，以20. 9FPS的速度达到了80.03%的mAP，比ARC-R50快1. 77倍。
5. 消融实验：比较了包含和不包含LoG-Stem和EGA模块的LEGNet-T模型，以及单独移除每个模块的情况。结果显示，移除EGA模块后，模型的平均精度均值（mAP）略有下降至71. 2%，而没有LoG-Stem模块的版本mAP为71. 5%，但在直升机（HC）检测上有所提升。LEGNet-T整体性能最佳，mAP达到72. 2%，在小型车辆（SV）和直升机（HC）检测上分别有显著提升。这些结果表明LoG-Stem和EGA模块对提升检测性能，尤其是对具有挑战性的类别检测性能有显著贡献。
五、结论
1
1. 研究发现：LEGNet通过整合边缘信息和高斯建模，显著提升了低质量遥感图像目标检测的性能。该网络在保持模型轻量级的同时，实现了高精度和高效率，非常适合在资源受限的边缘设备上部署。
2. 解释与分析：LEGNet的轻量级设计和高效的特征提取能力使其在处理具有挑战性的遥感图像时表现出色。其在多个基准数据集上的表现证明了其在复杂环境下的鲁棒性和泛化能力。
3. 意外发现：尽管LEGNet在参数数量和计算复杂度上进行了优化，但其在保持实时性能方面也取得了显著成果，这表明了轻量级网络在实际应用中的巨大潜力。
六、运行结果与即插即用代码
运行结果
下载1：OpenCV-Contrib扩展模块中文版教程
在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。
下载2：Python视觉实战项目52讲
在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。
下载3：OpenCV实战项目20讲
在「小白学视觉」公众号后台回复：OpenCV实战项目20讲，即可下载含有20个基于OpenCV实现20个实战项目，实现OpenCV学习进阶。
交流群
欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三+上海交大+视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~