告别Transformer!北大、北邮、华为开源纯卷积DiC:3x3卷积实现SOTA性能,比DiT快5倍!
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
当整个AI视觉生成领域都在Transformer架构上「卷生卷死」时,一项来自北大、北邮和华为的最新研究却反其道而行之,重新审视了深度学习中最基础、最经典的模块——3x3卷积。
他们提出的DiC(DiffusionCNN),一个纯卷积的扩散模型,不仅在性能上超越了广受欢迎的DiffusionTransformer(DiT),更在推理速度上实现了惊人的提升。这项工作证明了,经过精心设计,简单的卷积网络依然能在生成任务中登峰造极。
论文标题:DiC:RethinkingConv3x3DesignsinDiffusionModels
论文链接:https ://arxiv. org/abs/2501. 00603
项目主页/代码:https ://github. com/YuchuanTian/DiC
从StableDiffusion到Sora,基于Transformer的扩散模型已经成为AIGC领域的绝对主流。它们强大的可扩展性和卓越的生成效果令人惊叹,但也带来了巨大的计算开销和缓慢的推理速度,成为实际应用中的一大瓶颈。
我们真的只能在Transformer这条路上走到底吗?
在这篇论文中,研究者们给出了一个响亮的否定答案。他们大胆地抛弃了复杂的自注意力机制,回归到了最纯粹的3x3卷积,并构建了一个兼具速度与性能的全新扩散模型架构——DiC。
在AI硬件和深度学习框架(如cuDNN)的加持下,3x3卷积是硬件支持最好、优化最彻底的算子之一。得益于像Winograd这样的高效算法,它的计算速度远超其他类型的操作,是实现高吞吐量的关键。
然而,3x3卷积也存在一个致命弱点:感受野受限。这使得它在需要全局信息的生成任务中,天然弱于拥有全局感受野的Transformer。之前的工作大多认为,Transformer中的自注意力机制是大型生成模型ScalingLaw的关键。
DiC的作者们正是要挑战这一「常识」。
DiC的基本模块主要由两个Conv3x3组成
研究者们并非简单地堆叠卷积层。他们通过一系列精巧的设计,一步步将一个平庸的卷积网络打造成了性能怪兽。这个过程清晰地展现在了论文的路线图(Roadmap)中:
架构选择:U-NetHourglass是关键
研究发现,对于纯卷积模型,传统的U-Net沙漏型架构比Transformer中流行的直筒形Transformer堆叠架构更有效。通过编码器中的下采样和解码器中的上采样,模型可以在更高层级用同样的3x3卷积核覆盖更广的原始图像区域,从而有效弥补了感受野不足的问题。在此基础上,DiC减少了跳连的频率,降低了U-Net频繁跳连带来的计算冗余。
全方位的条件注入
优化为了让模型更精准地响应条件(如类别、文本等),DiC进行了一套精密的「三连击」优化。首先,它采用分阶段嵌入(Stage-SpecificEmbeddings),为U-Net不同层级的特征提供专属的、维度匹配的条件嵌入。其次,通过实验确定了最佳的注入位置,让条件信息在卷积块的中间层介入,以最高效地调制特征。最后,DiC引入了条件门控(ConditionalGating)机制*,通过动态缩放特征图,实现了对生成过程更精细的控制。这套组合拳确保了条件信息被恰到好处地利用,极大地提升了模型的生成质量。
激活函数替换
将常用的SiLU替换为GELU,带来了一定的效果提升。
超越DiT,性能更优
在同等计算量(FLOPs)和参数规模下,DiC在各个尺寸上都显著优于DiT。以XL尺寸为例,DiC-XL的FID分数(越低越好)从DiT-XL/2的20降低到了13,IS分数(越高越好)也大幅提升,生成图像的质量和多样性都更胜一筹。
DiC生成能力的超越已经足够亮眼,而速度的优势则更具颠覆性。由于纯卷积架构对硬件的高度友好,DiC的推理吞吐量(Throughput)远超同级别的Transformer模型。例如,在相同模型参数量和算力的情况下,DiC-XL的吞吐量达到了313. 7,是DiT-XL/2(66. 8)的近5倍!
ScalingLaw上的探索
研究者们积极探索DiC图像生成能力的上限,发现模型收敛速度快。当不使用cfg时,在相同设定下DiC的收敛速度是DiT的十倍;在使用cfg时,FID可以达到2. 25。
DiC生成效果出众,输出图像十分逼真
大图上的探索
当生成图像尺寸扩大时,Transformer的二次方复杂度问题会急剧恶化。而DiC的线性复杂度使其优势更加突出。实验表明,在512x512分辨率下,DiC-XL模型可以用比DiT-XL/2更少的计算量,远超后者的速度,达到更好的生成效果。
DiC的出现,有力地挑战了「生成模型必须依赖自注意力」的固有观念。它向我们展示了,通过深入的理解和精巧的架构设计,简单、高效的卷积网络依然可以构建强大的生成模型。卷积,在视觉AIGC的广阔天地中仍然大有可为!
论文已被CVPR2025接收,更多内容,请参考原论文。
©THEEND
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin. com