实现扩散与自回归架构协同优化!DiSA:让自回归图像生成又快又稳


实现扩散与自回归架构协同优化!DiSA:让自回归图像生成又快又稳

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

↑点击蓝字关注极市平台
作者丨科技猛兽
编辑丨极市平台
极市导读
这篇文章提出了一种全新的图像生成范式——DiSA,首次将扩散模型的逐步退火过程引入自回归生成框架中,在保持高质量图像生成的同时显著提升采样效率。该方法有效缓解了自回归模型在复杂数据生成中的不稳定性问题,为图像生成任务提供了更稳健且高效的解决方案。>>加入极市CV技术交流群,走在计算机视觉的最前沿
1DiSA:自回归图像生成加速:扩散采样退火(来自AustralianNationalUniversity等)1. 1DiSA研究背景1.2重新思考已有的自回归+扩散模型1. 3自回归+扩散模型的关键发现
通过减少token来实现高分辨率自回归图像生成。
越来越多的自回归模型,如MAR、FlowAR、xAR和Harmon采用扩散采样来提高图像生成的质量。然而,这种策略导致推理效率低,因为扩散采样令牌通常需要50到100步。本文探讨了如何有效地解决这个问题。我们的主要动机是,由于自回归过程中生成了更多的标记,后续标记遵循更多的约束分布,更容易采样。为了直观地解释,如果一个模型生成了一条狗的一部分,剩余的标记必须完成狗,因此受到更多约束。经验证据支持我们的动机:在后期生成阶段,下一个标记可以由多层感知器很好地预测,表现出低方差,并遵循从噪声到标记的更接近直线去噪路径。基于我们的发现,我们引入了扩散步长退火(DiSA),这是一种无需训练的方法,随着生成更多的标记,逐渐使用更少的扩散步骤,例如,在开始时使用50步,并在后期逐渐降低到5步。由于DiSA源自我们在自回归模型中特定于扩散的发现,因此它补充了仅针对扩散设计的现有加速方法。DiSA只能在现有模型上的几行代码中实现,尽管很简单,但MAR和Harmon的推理速度快5-10倍,FlowAR和xAR的推理速度快1. 4-2. 5倍,同时保持生成质量。
论文名称:DiSA:DiffusionStepAnnealinginAutoregressiveImageGeneration
论文地址:
https ://arxiv. org/pdf/2505. 20297
项目主页:
https ://github. com/Qinyu-Allen-Zhao/DiSA

尽管Diffusion可以帮助AutoregressiveModel得到更高的图像质量,但是需要很多denoisingstep来生成每个token,因此推理效率较低。比如MAR去噪100次,而xAR去噪50次。初步实验表明,多步扩散过程占MAR中约50%的推理延迟和xAR中的90%。直接扩散步骤的数量会加速这些模型,但是会显著降低生成质量。比如,假如MAR的diffusionstep变为10,ImageNet256×256上xAR-L的FID从1. 28增加到8.6,MAR-L甚至无法生成有意义的图像。
使用imagetokenizer,图像可以表示为token序列。例如,可以使用VAE将图像编码为256个token。图像生成可以定义为从图像token的联合分布中采样。采样的token被tokenizer解码回图像。
自回归模型将图像的生成制定为下一个token预测任务:
MAR和XAR在每个自回归步骤中生成一组标记。对于这些模型,表示一组token。最近的自回归模型采用扩散过程采样。

训练时,和中的参数根据扩散损失进行更新:
其中,是从和中采样的向量。定义了一个noisescheduler。

xAR将先前生成的token和采样噪声作为输入。xAR运行50次以将噪声去噪为token,并继续对下一个token进行采样。
Harmon是理解生成统一模型。本研究侧重于其T2I能力。Harmon中的Backbone将文本prompt和生成的token作为输入,并为下一个token生成一个条件向量。以这个向量为条件的Diffusionhead将采样噪声去噪到下一个token。
生成的token数越多,后续token的限制就越强。
本文动机是发现:随着生成更多token,token的分布变得更加受限,使得下一个token更容易采样。换句话说,早期的生成依赖于更强的分布建模和token采样,而后期较少。
有3个关键发现:
1)在后期的自回归生成过程中,下一个标记可以很好地预测。
首先,本文训练了一个MLP或重新利用原始模型的head,基于生成的token的hiddenrepresentation,预测扩散过程的结果。

如图2所示,在生成的早期阶段,MLP预测不准确,缺乏细节。预测的token和生成的图像是模糊的,质量低。相比之下,随着生成更多token,MLP预测变得越来越准确,这表明AutoregressiveModel现在为Diffusionhead提供了更强的Condition。
2)在靠后的自回归步骤中,生成token的方差在逐渐减小。
作者探索了下一个token分布的方差。具体来说,使用MAR生成10K图像。在生成每个时,采样100个可能的,并计算采样的方差。生成的示例和平均方差如图3(a)-(b)所示。可以看出,随着生成更多token,下一个token的分布变得越来越受限。
3)后期的扩散路径更接近直线。
RectifiedFlow指出,从噪声到数据分布的直线路径是首选,因为它们可以用粗略的时间离散化来模拟,因此在推理时需要更少的步骤。受此启发,作者测量了在Condition下去噪路径的Straightness。

其中,。
如图3(c)所示,在生成的后期,从噪声到token的扩散路径变得更接近直线,这表明可以使用更大的步长和更少的扩散步骤来完成去噪过程。
上述发现表明,后期生成阶段所需的diffusionsteps比早期阶段少。基于上面的观察,本文提出了一种training-free的采样策略DiSA。

作者比较了3种timescheduler:two-stage,linear,和cosine。
式中,表示自回归步骤为时的diffusionstep。和是控制步数的两个参数。是自回归步骤的总数。
作者在MAR上做了初步实验来验证方法有效性。具体是在MAR-B和MAR-L上实现了3个timescheduler,修改了和的值,并在ImageNetBenchmark上评估模型。自回归步骤数设置为64,和的默认值均为50。结果如图4所示,在前期阶段减少diffusionstep的数量会降低生成质量,但在后期减少diffusionstep的数量就不会。后续实验中使用linearscheduler,因其具有更好的性能。
实验主要包括四个预训练模型:MAR、FlowAR、xAR和Harmon。MAR、FlowAR和xAR在ImageNet256×256生成任务上进行评估。作者还测量了生成一个batch256张图像的推理时间。Harmon在T2I基准GenEval上评估。报告了平均精度和推理时间。所有实验均在4个NVIDIAA100PCIeGPU上运行。
作者将DiSA应用于MAR、xAR和FlowAR,并在图5中比较了ImageNet256×256生成任务的性能。总体而言,DiSA在保持竞争生成质量的同时不断提高Baseline模型的效率。

同样,带有DiSA的FlowAR-H实现了2. 5倍的加速,同时保持了1. 69的FID和273.8的IS。带有DiSA的xAR模型实现了1. 6倍的加速,对性能指标的影响可以忽略不计。带有DiSA的xAR-L实现1. 6倍的加速,甚至将FID从1. 28提高到1.23。这些结果清楚地表明了DiSA的有用性。
DiSA比CSpD和FAR更快,与LazyMAR相比也具有竞争力。而且,LazyMAR适用于MAR的cache技术,无需修改扩散过程,并且在方法上是与DiSA正交的。
如图6所示,DiSA还可以加速T2I生成模型Harmon。使用DiSA的Harmon生成每张图像只需8秒,比原始实现快5倍,同时实现了相当的性能。
DiSA还可以有效地结合现有的专为扩散设计的加速方法(比如DPM-Solver,DPM-Solver++)。

公众号后台回复“极市直播”获取100+期极市技术直播回放+PPT
极市干货
技术专栏:多模态大模型超详细解读专栏|搞懂Tranformer系列|大视觉模型(LVM)解读|扩散模型系列|极市直播
技术综述:小目标检测那点事|大模型面试八股含答案|万字长文!人体姿态估计(HPE)入门教程
#极市平台签约作者#
科技猛兽
知乎:科技猛兽
清华大学自动化系19级硕士
研究领域:AI边缘计算(EfficientAIwithTinyResource):专注模型压缩,搜索,量化,加速,加法网络,以及它们与其他任务的结合,更好地服务于端侧设备。
作品精选
搞懂VisionTransformer原理和代码,看这篇技术综述就够了
用Pytorch轻松实现28个视觉Transformer,开源库timm了解一下!(附代码解读)
轻量高效!清华智能计算实验室开源基于PyTorch的视频(图片)去模糊框架SimDeblur
投稿方式:
添加小编微信Fengcall(微信号:fengcall19),备注:姓名-投稿
△长按添加极市平台小编
觉得有用麻烦给个在看啦~


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录