CVPR 2025 | 南开提出全新DFormerv2,使用几何自注意力机制,多任务快速涨点
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
点击上方“小白学视觉”,选择加\“星标\“或“置顶”
重磅干货,第一时间送达
题目:DFormerv2:GeometrySelf-AttentionforRGBDSemanticSegmentation
论文地址:https ://arxiv. org/pdf/2504. 04701
创新点:传统RGB-D语义分割方法普遍使用深度图与RGB图分别编码,然后进行特征融合。而DFormerv2不再使用神经网络直接编码深度图,而是将深度图和空间距离建模为几何先验(GeometryPrior),用于引导自注意力机制中的权重分配。
意义:实现了从“编码再融合”到“先验引导”的范式转变,使得模型对物体的空间结构理解更加自然高效。
创新点:基于深度和空间距离生成的几何先验,作者设计了新的注意力机制——GeometrySelf-Attention(GSA)。该机制通过几何距离矩阵调整attention权重,使得注意力集中于语义和几何上更相关的区域。
技术细节:使用衰减因子βG方式将几何关系矩阵引入原始attention矩阵,通过元素乘实现。
优势:相比于vanillaattention、windowattention和localattention,GSA能更好地保持物体结构边界、建模物体间几何关系。
创新点:不再使用双分支或统一编码器来处理深度图,而是直接从深度图中平均池化构建几何先验,用于引导RGB的注意力机制。
结果:参数更少、计算开销更小,同时精度更高(比如DFormerv2-L在NYUDepthV2上达到58. 4%mIoU,超过Geminifusion的57. 7%,而计算量仅为其一半)。
创新点:对GSA进行横向与纵向解耦(Gx和Gy),以降低高分辨率下的计算复杂度,保持精度同时减少计算资源消耗。
创新点:在NYUDepthV2、SUNRGBD、Deliver三大RGB-D语义分割数据集上实现SOTA性能,在小、中、大模型尺度上均优于其他方法。
DFormerv2创新性地用深度图构建几何先验,引导self-attention权重分布,以更轻量、更精确的方式实现RGB-D语义分割,是一种关注场景空间结构理解的全新范式。
DFormerv2的整体结构基于Encoder-Decoder框架,编码器采用四阶段金字塔结构,逐步提取多尺度RGB特征,并在每个阶段引入几何自注意力(GeometrySelf-Attention,GSA),通过由深度图生成的几何先验(融合深度距离与空间位置)引导注意力权重分布,实现RGB与Depth信息的融合;解码器则将不同尺度的特征融合、上采样,生成最终的语义分割图。整个模型结构统一、轻量高效,摒弃了传统的双分支编码器,提升了分割性能与计算效率。
传统方法(如Fig. 1(a))中使用双编码器,分别处理RGB和Depth,再通过复杂的fusionmodule融合特征;
而DFormerv2不再对depth特征单独编码,而是完全取消depth编码分支,只保留一个RGB特征提取主干。
RGB图像输入编码器主干提取图像特征;
Depth图像不再进入编码器,而是通过池化生成几何先验GeometryPrior;
几何先验作为输入指导自注意力权重计算,让attention模型具备空间感知能力;
RGB和Depth实际上在注意力层融合了信息,但结构上只有一套主干编码器——这就是所谓“统一架构”。
编码器采用4层金字塔结构(逐层下采样),每层内使用GSA块;
解码器则融合多尺度特征进行语义分割预测。
把RGB图像编码+Depth几何引导attention融合为一个“通用特征提取流程”;
整个网络从结构上只有一条主干路径(不是两个modality平行编码),深度图信息是以geometryprior的形式隐式引导attention,从而实现结构上的统一,功能上的融合。
DFormerv2实现了“结构统一”的RGB-D语义分割架构,仅使用一个编码器,借助GeometryPrior实现RGB和Depth信息融合,使得模型更轻、更高效、更一致。
📌说明:展示从VanillaSelf-Attention到完整GSA(GeometrySelf-Attention)构建的全过程,包括:
Step0:VanillaAttention(无几何先验)
Step1:仅加入DepthPrior
Step2:仅加入SpatialPrior
Step3:融合Depth+Spatial→GeometryPrior
Step4:在此基础上加入轴向分解(AxialDecomposition)
📈结论:
每引入一种先验,mIoU逐步提升;
GeometryPrior是关键;
加入轴向分解能降低计算量几乎不损失精度。
📌说明:对比不同方式融合Depth与Spatial先验(如Add、Hadamard、Conv、Memory),构建GeometryPrior。
📈结论:作者提出的Memory加权融合方式表现最好,提升准确率同时保持低计算量。
📌说明:控制β值对最终attention分布的影响,测试固定值与不同区间内随机采样效果。
📈结论:
设置不同Head的β∈[0. 75,1. 0)随机采样效果最好;
增加多样性可提升attention表达能力。
展示内容:VanillaAttention、WindowAttention、LocalAttention与作者提出的GeometrySelf-Attention(GSA)对比示意图
说明:
GSA能通过几何距离调整注意力权重,使注意力集中于具有真实空间联系的区域;
颜色越红表示几何距离越近,注意力值越高,体现GSA的空间感知能力。
(a)先验构建流程图:DepthPrior+SpatialPrior→GeometryPrior(b)热力图示例:以某个patch为query,显示其与其他区域的几何关系说明:
可视化验证几何先验确实捕捉了物体内部区域和空间近邻;
显示几何先验能够提供结构性引导,聚焦于物体间的真实位置关系。
内容:将DFormerv2与DFormer、GeminiFusion进行分割效果可视化对比
说明:
DFormerv2在边缘保持、细节恢复方面明显更优;
可视化展示了模型在复杂场景中的实际表现提升。
内容:选取不同位置的query,显示其GeometryPrior热度图
说明:
准确识别query所在物体范围及其结构;
可视化地支持GSA能理解语义对象的空间布局与组成。
内容:对比VanillaAttention与GeometrySelf-Attention的注意力分布
说明:
引入GeometryPrior后,注意力更加聚焦于有结构联系的区域;
强调GSA更有能力建模物体内和物体间的结构。
内容:比较引入几何先验前后的中间特征图
说明:
使用GeometryPrior后特征响应更集中、物体轮廓更清晰;
支持其对语义理解与边缘分割的提升作用。
下载1:OpenCV-Contrib扩展模块中文版教程
在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。
下载2:Python视觉实战项目52讲
在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。
下载3:OpenCV实战项目20讲
在「小白学视觉」公众号后台回复:OpenCV实战项目20讲,即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。
交流群
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三+上海交大+视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~