CVPR 2025 Oral | DiffFNO：傅里叶神经算子助力扩散，开启任意尺度超分辨率新篇章

发布日期: 2025-05-04

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

本文由圣路易斯华盛顿大学与北京大学联合完成，第一作者为圣路易斯华盛顿大学的刘晓一，他在北京大学访问期间完成了该项研究；通讯作者为北京大学计算机学院唐浩助理教授/研究员。
从单张低分辨率（LR）图像恢复出高分辨率（HR）图像——即“超分辨率”（SR）——已成为计算机视觉领域的重要挑战。近年来，随着医疗影像、卫星遥感、视频监控和游戏渲染等应用对图像细节的需求不断提升，该技术的应用愈发广泛。传统深度学习超分模型（如SRCNN、EDSR）在固定放大倍数下表现优异，但要么无法支持任意放大尺度，要么在大倍率和复杂纹理场景中常出现细节模糊和伪影。扩散模型能有效恢复高频细节，却因需多次迭代去噪而推理缓慢，难以满足实时应用需求。为彻底打破“高质量重建”与“快速推理”之间的矛盾，算子学习在运算效率和分辨率不变性方面的提升为该领域带来了新的机遇。
圣路易斯华盛顿大学和北京大学团队提出的DiffFNO（DiffusionFourierNeuralOperator）以神经算子赋能扩散架构。该方法支持高质、高效、任何连续倍率（如2.1、11.5等）的超分。它的优秀表现来源于三大组件：【1】加权傅里叶神经算子（WFNO）、【2】门控融合机制、和【3】自适应ODE求解器。在各大基准上，DiffFNO均以2~4dBPSNR优势领先于SOTA方法。在训练分布外的超分倍率上，改进效果尤为明显。此研究已入选CVPR2025Oral。
论文题目：DiffFNO:DiffusionFourierNeuralOperator
论文主页：https ://jasonliu2024.github.io/difffno-diffusion-fourier-neural-operator/
论文链接：https ://arxiv.org/abs/2411.09911
一、核心思路与框架概览
DiffFNO由三大模块组成：

2.GatedFusionMechanism（门控融合机制）：并行引入轻量化的注意力算子（AttnNO），以捕捉局部空间特征。时空动态门控图将谱域与空域特征按需融合，兼具全局一致性与细节刻画。
3.ATSODESolver（自适应步长ODE求解器）：将扩散模型逆过程从随机SDE转化为确定性ODE，仅几十步内即可完成去噪重建，大大提升推理速度。
下图展示了DiffFNO的完整流架构。此方法将图片视作从空间坐标到RGB值的方程，通过WFNO学习此类方程之间的任意分辨率超分映射，在门控机制的调适下与空域算子协作，再由自适应求解器高效地用扩散模型进一步优化重构结果的质量。
二、加权傅里叶神经算子与模式重平衡
传统FNO在频域对输入特征进行截断处理，舍弃高频模式以降低计算量，但这也导致超分场景中纹理、边缘等细节难以恢复。WFNO通过以下两步予以改进：
全模式保留：保留完整傅里叶频谱，兼顾图片信息的整体解构与局部细节；
可学习频率权重：在每一层引入可学习的标量参数，与频率范数结合，动态调整不同频段的影响力。
具体地，频域滤波器由权重实现了对高频细节的自适应放大。实验表明，WFNO相比普通FNO在大倍率超分任务中，PSNR提升约0.3–0.5dB，细节还原更加清晰。
三、门控融合：谱域与空域特征的智慧分配
尽管WFNO强于全局依赖建模，但局部纹理如微小纹路、噪点修复仍需空域信息。于是，DiffFNO并行引入Attention-basedNeuralOperator（AttnNO），其核心由双三次插值、Galerkin注意力和非线性激活组成，可高效捕捉局部关联。两路输出WFNO和AttnNO特征经通道拼接后，通过1×1卷积加sigmoid得到门控图。
此方式兼具光谱全局信息与空间局部信息，让网络在不同像素位置灵活“借力”，避免了简单拼接带来的冗余计算与信息冲突。
四、自适应步长ODE：从上千步到数十步
扩散模型逆向过程本质为去噪迭代，若按原生SDE形式采样，通常需上千步，耗时数百毫秒以上。DiffFNO首先将随机SDE转化为确定性概率流ODE，再引入自适应时间步分布：
1.以多项式基函数构造可学习的映射，通过其逆函数生成非均匀步长；
2.在每一步评估区域复杂度，动态分配步长，使关键阶段步长更细、平滑区域步长更粗；
3.采用经典的RK4高阶求积器，兼顾精度与效率。
如此一来，DiffFNO使用自适应ODE求解器后，仅需约30步即可还原高清图像——与传统需要约1000步的逆扩散过程相比，推理步数减少了近33倍；推理时间也几乎减半（从266ms缩短至约141ms），但图像质量依旧保持不变，甚至在大尺度放大下表现更佳。
五、实验验证与视觉对比

定性结果中，DiffFNO对建筑细节、植物纹理、动物皮毛、玻璃反射等高频结构均有出色复原，边缘轮廓锐利且伪影极少。
消融研究表明：
去除模式重平衡，PSNR下降约0.4dB；
去除AttnNO，局部纹理复原受损；
去除ATS，所需推理步数回升至千步级。
这些实验共同证明，三大组件缺一不可，相辅相成。
六、总结
本文介绍了DiffFNO，一种以神经算子强化扩散的新颖任意分辨率方法。通过加权傅里叶神经算子、门控融合机制、和自适应ODE求解器，该方法取得了优异的计算时效和高质量的重构，为看似矛盾的“高精度”与“低成本”取舍提供了新的思路。实验结果表明，我们的方法在多个数据集中、训练分布之外均优于以往与当代任意分辨率方法。DiffFNO有力地打破了超分任务中固定尺寸的枷锁，适用于医学，勘探，游戏等多个对图像质量有着高要求的领域。
©THEEND
转载请联系本公众号获得授权
投稿或寻求报道：liyazhou@jiqizhixin.com