仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
论文题目:AnEfficientAerialImageDetectionwithVariableReceptiveFields
论文地址:https ://arxiv. org/pdf/2504. 15165
代码地址:https ://github. com/LiuWenbin-CV/VRF-DETR.
引入自适应接收场选择机制,通过深度空洞卷积生成不同接收场的特征图,再利用空间注意力建立通道间关系,最后通过门控元素乘积实现自适应增强。
将门控机制引入卷积操作中,通过深度可分离卷积降低参数量,同时利用门控机制动态抑制不重要的空间响应,保留关键局部模式。
改进了RT-DETR中的C2f模块,采用级联结构,依次通过MSCF建立区域间关联、批量归一化和dropout层正则化特征、GConv进行空间自适应精炼,两侧的快捷连接保证梯度稳定流动,中间的dropout层防止特征共适配。
本文提出了一种基于Transformer的无人机图像检测框架VRF-DETR,旨在解决无人机(UAV)检测任务中的小目标检测、密集遮挡和计算资源限制等问题。该框架通过三个关键组件实现:多尺度上下文融合(MSCF)模块,通过动态调整特征贡献解决固定尺度注意力的局限性,利用深度空洞卷积生成不同接收场的特征图,结合空间注意力和门控元素乘积实现自适应增强,提高对不同尺度目标的适应性;门控卷积(GConv)模块,将门控机制引入卷积操作,利用深度可分离卷积降低参数量,同时动态抑制不重要的空间响应以保留关键局部模式,提高局部特征建模能力;
本图展示了VRF-DETR的主体结构,包括远程遥感骨干网(RS-Backbone,其包含GMCF瓶颈用于特征学习)、多尺度融合编码器(集成了自适应空间注意力的MSCF)以及网络中广泛分布的轻量级GConv操作符。这些模块共同构成了VRF-DETR实现航空检测中准确性和效率平衡的基础架构。
本图展示了MSCF模块的详细结构,包括其重新组织的双分支结构,通过深度空洞卷积生成不同接收场的特征图,随后进行特征连接、空间选择和加权融合等操作,最终实现自适应接收场选择机制,为后续对不同尺度目标的检测提供动态调整特征贡献的能力。
本图呈现了GConv模块的三个关键部分:逐点卷积投影层、基于深度卷积的特征处理器(带有门控机制)以及残差连接。输入张量经过1×1卷积扩展通道后分为两部分,其中一部分经过深度可分离卷积和激活函数处理,再与门控张量进行逐元素乘法以实现动态特征重校准,最后通过1×1卷积恢复通道数并添加原始输入,实现高效的空间上下文建模。
本表展示了VRF-DETR与多种先进目标检测方法在VisDrone-2019-DET验证数据集上的性能对比,包含两阶段、单阶段和端到端三类方法。VRF-DETR在模型复杂度(参数量13. 5M、浮点运算44. 3G)和检测性能(mAP50为51. 4%、mAP50-95为31. 8%)上均取得了优异平衡,超越了多种现有方法,如在与RT-DETR-R50对比中,VRF-DETR在保持更低参数量和浮点运算的同时,mAP50高出0. 6%,mAP50-95高出0. 3%。这表明VRF-DETR能有效应对无人机检测中的小目标、密集遮挡等问题,在资源受限设备上也有良好表现。
–END–
最后对目标检测创新感兴趣的可公众号后台私信‘加群’或者扫描下方👇二维码进入目标检测交流群!
关注“学姐带你玩AI”公众号,回复“目标创新点”
领取目标检测创新方案合集+开源代码
往期推荐:
目标检测除了改YOLO没得做了?来看看这些一投一个准的高区idea!
CVPR王炸组合:特征融合+目标检测!想发高分就看这篇
目标检测DETR升级版横空出世!超越YOLO系列,高区Accept拿到手软~
完爆YOLOv10!Transformer+目标检测新算法性能无敌,狠狠拿捏CV顶会!
Mamba+目标检测这么做发Nature子刊!超好上手的思路,你做你也行!
ACCEPT
据说点赞的都Accept了!