超强!傅里叶调制注意力FMA,线性复杂度捕捉全局感受野,直接涨点!


超强!傅里叶调制注意力FMA,线性复杂度捕捉全局感受野,直接涨点!

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

点击上方“小白学视觉”,选择加\“星标\“或“置顶”
重磅干货,第一时间送达
一、论文信息
1

所属单位:合肥工业大学计算机科学与工程学院,山东大学控制科学与工程学院,北京交通大学信息科学研究所
核心速览:本文提出了一种结合卷积神经网络(ConvNet)和视觉Transformer优点的轻量级图像超分辨率模型SRConvNet,通过设计傅里叶调制注意力(FMA)和动态混合层(DML),实现了高效且高质量的图像超分辨率重建。
二、论文概要
Highlight
图1展示了所提出的SRConvNet与现有轻量级最先进单图像超分辨率(SISR)方法在BSD100数据集(Arbeláez等人,2011)上对×4倍超分辨率的模型复杂度与性能对比。浮点运算次数(FLOPs)的计算基于将低分辨率图像超分辨至1280×720分辨率的过程。可以观察到SRConvNet实现了更优的权衡。
图4展示了在Set14(Zeyde等人,2012年)和Urban(Huang等人,2015年)数据集上进行的4×4超分辨率视觉结果对比。SRConvNet生成的图像展现出更清晰的细节和更精确的纹理特征,呈现出令人期待的视觉效果。
图8采用提出的空间-傅里叶交互机制与大核的FMA平均特征图。
1. 研究背景:
研究问题:单图像超分辨率(SISR)旨在从低分辨率图像恢复高分辨率图像,是计算机视觉中的基础问题。然而,现有方法在追求高性能的同时往往带来巨大的计算成本和参数量,难以在资源受限的移动设备上高效部署。因此,如何设计一种既能保持高性能又能显著降低计算复杂度的轻量级SISR模型成为重要研究方向。
研究难点:在轻量级SISR模型的设计中,主要面临两个关键挑战:一是如何在减少参数量和计算成本的同时不显著降低超分辨率性能;二是如何在有限的卷积层数和小空间卷积下扩大感受野并增强特征学习能力。此外,尽管视觉Transformer在全局依赖建模方面表现出色,但其多头自注意力机制(MHSA)的二次复杂度导致在处理高分辨率图像时内存占用过高,难以在移动设备上推广。
文献综述:近年来,基于卷积神经网络的方法(如SRCNN、RCAN等)在SISR领域取得了显著进展,但这些模型通常需要大量参数和高昂的计算成本。为提升效率,一些工作尝试通过递归学习、轻量模块设计或结构重参数化来降低复杂度,但往往以牺牲性能为代价。与此同时,视觉Transformer(如ViT)凭借强大的全局建模能力在多个任务中表现出色,但其计算复杂度随输入尺寸二次增长,限制了其在移动设备上的应用。尽管已有研究尝试将卷积与Transformer结合,但卷积网络仍在轻量级SISR领域占据主导地位。
2. 本文贡献:
傅里叶调制注意力机制:SRConvNet引入了傅里叶调制注意力(FMA)来模拟视觉Transformer中的多头自注意力(MHSA),以更低的计算和参数成本实现长短期依赖建模。FMA通过区域频率空间调制与聚合,结合傅里叶谱和逆傅里叶变换,有效学习从全局到局部的空间和通道上下文信息。具体来说,FMA将特征划分成非重叠的局部区域,并用傅里叶变换替代大核卷积操作,执行区域频率空间调制。这样,FMA能够以线性复杂度捕捉图像级全局感受野,同时保持高效性和准确性。
动态混合层设计:动态混合层(DML)利用多尺度深度动态卷积与通道拆分和洗牌操作,增强模型的局部特征表示能力。DML通过在多尺度形式下进行动态卷积,不仅能够学习多尺度上下文,还能生成动态权重,强化传统卷积的适应性。此外,借助通道拆分和洗牌操作,DML实现了高效的局部上下文信息混合与交互,优化了网络的局部性和适应性。
三、创新方法
1
一、SRConvNet整体架构
图2. 所提出的SRConvNet整体架构。
该网络由连续的3×3卷积层、堆叠的注意力卷积块(ACBs)、像素混洗模块以及3×3重建层构成。其中ACB包含(b)傅里叶调制注意力机制(FMA)和(c)动态混合层(DML),分别用于执行区域频率-空间调制和多尺度上下文信息学习。\“IRealFFT\“表示逆实数快速傅里叶变换。\“⊕\“和\“⊗\“分别代表逐元素相加和相乘运算。
二、傅里叶调制注意力(FMA)
图傅里叶调制注意力(FMA)实现过程。
1. 特征预处理与频域调制:首先通过层归一化(LayerNormalization,LN)对输入特征X进行标准化处理。标准化后的特征被投影到频域以学习频率信息。这一过程利用了二维离散实数快速傅里叶变换(2D-discreteRealFFT),将空间特征从空间域转换到频谱域。将转换到频域的特征A通过1×1卷积进一步处理,从而在频谱域中学习频率信息,其目的是对整个图像级别的频谱进行有效操作,捕获全局感受野。表达式:
2. 频域到空间域的逆变换:频域完成调制后,使用逆傅里叶变换(InverseRealFFT)将频域特征重新投影回空间域。基于频谱卷积定理(SpectrumConvolutionTheorem),使得模型能够高效地操纵整个图像级别的频谱信息。表达式:
其中LN(·)、F(·)、Conv1×1(·)和InvF(·)分别表示层归一化、二维离散实数快速傅里叶变换(RealFFT)、1×1卷积和逆二维离散实数快速傅里叶变换(IRealFFT)运算。
3. 多头注意力机制与局部区域划分:为了结合多头注意力机制的优势,FMA将特征A和V(值空间表示)划分为多个非重叠的局部区域(patches)。每个局部区域通过逐元素乘法计算线性注意力,从而实现局部和全局上下文的学习。表达式:
4. 残差连接与输出:最终,通过1×1卷积操作将线性注意力结果LA映射回原始维度,并结合残差连接(ResidualShortcut)生成最终输出X’。这一步确保了模型的稳定性和梯度流动。表达式:
四、实验分析
1. 数据集设计:研究中采用了广泛使用的DF2K数据集进行训练,该数据集包含来自Flickr2K和DIV2K的高质量图像。实验评估基于五个基准数据集:Set5、Set14、BSD100、Urban100和Manga109。所有结果均通过双三次插值生成低分辨率图像,并采用峰值信噪比(PSNR)和结构相似性(SSIM)作为评价指标。
2. 定量对比:在基准数据集上的定量结果表明,SRConvNet在参数和计算成本方面显著优于现有方法,特别是在×2、×3和×4放大倍数下的PSNR和SSIM表现。例如,在×2放大时,SRConvNet以387K参数和74GFLOPs获得了38. 00/0. 9605的PSNR/SSIM,超越了许多现有方法。
3. 定性结果对比:通过可视化比较,SRConvNet生成的高分辨率图像具有更清晰的细节和更准确的纹理,尤其在“barbara”和“img_92”等图像的重建中表现出明显优势。此外,用户研究显示,大多数受试者更倾向于SRConvNet生成的超分辨率图像,尽管其模型复杂度较低。
4. 消融研究:通过逐步添加FMA的不同组件,研究验证了每个组件对SR重建的贡献。实验结果表明,仅使用1×1卷积的基线模型表现最差,而加入空间-傅里叶特征交互后,模型性能显著提升。进一步引入区域调制和多头设计后,模型性能持续改善,最终达到最佳效果。
五、结论
1
主要贡献:SRConvNet通过结合卷积神经网络和Transformer的优点,设计了一种轻量级的纯Transformer风格卷积网络,成功在效率和准确性之间取得平衡。实验结果表明,SRConvNet在多个基准数据集上表现出色,参数和计算成本显著减少,同时保持了较高的重建质量。
研究意义:本研究提出的新机制如傅里叶调制注意力和动态混合层,为轻量级图像超分辨率任务提供了新的解决方案,展示了在资源受限设备上高效部署的可能性。这些方法不仅适用于SISR,还可推广至其他图像恢复任务,具有广泛的应用前景。
未来工作:尽管SRConvNet在轻量级模型中表现出色,但在超越较重模型的性能方面仍有改进空间。未来研究可进一步探索如何优化注意力机制和动态卷积,以实现更快的推理速度和更高的重建质量。
六、运行结果与即插即用代码
运行结果
下载1:OpenCV-Contrib扩展模块中文版教程
在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。
下载2:Python视觉实战项目52讲
在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。
下载3:OpenCV实战项目20讲
在「小白学视觉」公众号后台回复:OpenCV实战项目20讲,即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。
交流群
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三+上海交大+视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录