实现扩散与自回归架构协同优化！DiSA：让自回归图像生成又快又稳

发布日期: 2025-06-09

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

↑点击蓝字关注极市平台
作者丨科技猛兽
编辑丨极市平台
极市导读
这篇文章提出了一种全新的图像生成范式——DiSA，首次将扩散模型的逐步退火过程引入自回归生成框架中，在保持高质量图像生成的同时显著提升采样效率。该方法有效缓解了自回归模型在复杂数据生成中的不稳定性问题，为图像生成任务提供了更稳健且高效的解决方案。>>加入极市CV技术交流群，走在计算机视觉的最前沿
1DiSA：自回归图像生成加速：扩散采样退火(来自AustralianNationalUniversity等)1. 1DiSA研究背景1.2重新思考已有的自回归+扩散模型1. 3自回归+扩散模型的关键发现
通过减少token来实现高分辨率自回归图像生成。
越来越多的自回归模型，如MAR、FlowAR、xAR和Harmon采用扩散采样来提高图像生成的质量。然而，这种策略导致推理效率低，因为扩散采样令牌通常需要50到100步。本文探讨了如何有效地解决这个问题。我们的主要动机是，由于自回归过程中生成了更多的标记，后续标记遵循更多的约束分布，更容易采样。为了直观地解释，如果一个模型生成了一条狗的一部分，剩余的标记必须完成狗，因此受到更多约束。经验证据支持我们的动机：在后期生成阶段，下一个标记可以由多层感知器很好地预测，表现出低方差，并遵循从噪声到标记的更接近直线去噪路径。基于我们的发现，我们引入了扩散步长退火(DiSA)，这是一种无需训练的方法，随着生成更多的标记，逐渐使用更少的扩散步骤，例如，在开始时使用50步，并在后期逐渐降低到5步。由于DiSA源自我们在自回归模型中特定于扩散的发现，因此它补充了仅针对扩散设计的现有加速方法。DiSA只能在现有模型上的几行代码中实现，尽管很简单，但MAR和Harmon的推理速度快5-10倍，FlowAR和xAR的推理速度快1. 4-2. 5倍，同时保持生成质量。
论文名称：DiSA:DiffusionStepAnnealinginAutoregressiveImageGeneration
论文地址：
https ://arxiv. org/pdf/2505. 20297
项目主页：
https ://github. com/Qinyu-Allen-Zhao/DiSA

尽管Diffusion可以帮助AutoregressiveModel得到更高的图像质量，但是需要很多denoisingstep来生成每个token，因此推理效率较低。比如MAR去噪100次，而xAR去噪50次。初步实验表明，多步扩散过程占MAR中约50%的推理延迟和xAR中的90%。直接扩散步骤的数量会加速这些模型，但是会显著降低生成质量。比如，假如MAR的diffusionstep变为10，ImageNet256×256上xAR-L的FID从1. 28增加到8.6，MAR-L甚至无法生成有意义的图像。
使用imagetokenizer，图像可以表示为token序列。例如，可以使用VAE将图像编码为256个token。图像生成可以定义为从图像token的联合分布中采样。采样的token被tokenizer解码回图像。
自回归模型将图像的生成制定为下一个token预测任务：
MAR和XAR在每个自回归步骤中生成一组标记。对于这些模型，表示一组token。最近的自回归模型采用扩散过程采样。

训练时，和中的参数根据扩散损失进行更新：
其中，是从和中采样的向量。定义了一个noisescheduler。

xAR将先前生成的token和采样噪声作为输入。xAR运行50次以将噪声去噪为token，并继续对下一个token进行采样。
Harmon是理解生成统一模型。本研究侧重于其T2I能力。Harmon中的Backbone将文本prompt和生成的token作为输入，并为下一个token生成一个条件向量。以这个向量为条件的Diffusionhead将采样噪声去噪到下一个token。
生成的token数越多，后续token的限制就越强。
本文动机是发现：随着生成更多token，token的分布变得更加受限，使得下一个token更容易采样。换句话说，早期的生成依赖于更强的分布建模和token采样，而后期较少。
有3个关键发现：
1)在后期的自回归生成过程中，下一个标记可以很好地预测。
首先，本文训练了一个MLP或重新利用原始模型的head，基于生成的token的hiddenrepresentation，预测扩散过程的结果。

如图2所示，在生成的早期阶段，MLP预测不准确，缺乏细节。预测的token和生成的图像是模糊的，质量低。相比之下，随着生成更多token，MLP预测变得越来越准确，这表明AutoregressiveModel现在为Diffusionhead提供了更强的Condition。
2)在靠后的自回归步骤中，生成token的方差在逐渐减小。
作者探索了下一个token分布的方差。具体来说，使用MAR生成10K图像。在生成每个时，采样100个可能的，并计算采样的方差。生成的示例和平均方差如图3（a）－（b）所示。可以看出，随着生成更多token，下一个token的分布变得越来越受限。
3)后期的扩散路径更接近直线。
RectifiedFlow指出，从噪声到数据分布的直线路径是首选，因为它们可以用粗略的时间离散化来模拟，因此在推理时需要更少的步骤。受此启发，作者测量了在Condition下去噪路径的Straightness。

其中，。
如图3(c)所示，在生成的后期，从噪声到token的扩散路径变得更接近直线，这表明可以使用更大的步长和更少的扩散步骤来完成去噪过程。
上述发现表明，后期生成阶段所需的diffusionsteps比早期阶段少。基于上面的观察，本文提出了一种training-free的采样策略DiSA。

作者比较了3种timescheduler：two-stage，linear，和cosine。
式中，表示自回归步骤为时的diffusionstep。和是控制步数的两个参数。是自回归步骤的总数。
作者在MAR上做了初步实验来验证方法有效性。具体是在MAR－B和MAR－L上实现了3个timescheduler，修改了和的值，并在ImageNetBenchmark上评估模型。自回归步骤数设置为64，和的默认值均为50。结果如图4所示，在前期阶段减少diffusionstep的数量会降低生成质量，但在后期减少diffusionstep的数量就不会。后续实验中使用linearscheduler，因其具有更好的性能。
实验主要包括四个预训练模型：MAR、FlowAR、xAR和Harmon。MAR、FlowAR和xAR在ImageNet256×256生成任务上进行评估。作者还测量了生成一个batch256张图像的推理时间。Harmon在T2I基准GenEval上评估。报告了平均精度和推理时间。所有实验均在4个NVIDIAA100PCIeGPU上运行。
作者将DiSA应用于MAR、xAR和FlowAR，并在图5中比较了ImageNet256×256生成任务的性能。总体而言，DiSA在保持竞争生成质量的同时不断提高Baseline模型的效率。

同样，带有DiSA的FlowAR-H实现了2. 5倍的加速，同时保持了1. 69的FID和273.8的IS。带有DiSA的xAR模型实现了1. 6倍的加速，对性能指标的影响可以忽略不计。带有DiSA的xAR-L实现1. 6倍的加速，甚至将FID从1. 28提高到1.23。这些结果清楚地表明了DiSA的有用性。
DiSA比CSpD和FAR更快，与LazyMAR相比也具有竞争力。而且，LazyMAR适用于MAR的cache技术，无需修改扩散过程，并且在方法上是与DiSA正交的。
如图6所示，DiSA还可以加速T2I生成模型Harmon。使用DiSA的Harmon生成每张图像只需8秒，比原始实现快5倍，同时实现了相当的性能。
DiSA还可以有效地结合现有的专为扩散设计的加速方法(比如DPM-Solver，DPM-Solver++)。

公众号后台回复“极市直播”获取100+期极市技术直播回放+PPT
极市干货
技术专栏：多模态大模型超详细解读专栏｜搞懂Tranformer系列｜大视觉模型(LVM)解读｜扩散模型系列｜极市直播
技术综述：小目标检测那点事｜大模型面试八股含答案｜万字长文！人体姿态估计(HPE)入门教程
#极市平台签约作者#
科技猛兽
知乎：科技猛兽
清华大学自动化系19级硕士
研究领域：AI边缘计算(EfficientAIwithTinyResource)：专注模型压缩，搜索，量化，加速，加法网络，以及它们与其他任务的结合，更好地服务于端侧设备。
作品精选
搞懂VisionTransformer原理和代码，看这篇技术综述就够了
用Pytorch轻松实现28个视觉Transformer，开源库timm了解一下！（附代码解读）
轻量高效！清华智能计算实验室开源基于PyTorch的视频(图片)去模糊框架SimDeblur
投稿方式：
添加小编微信Fengcall（微信号：fengcall19），备注：姓名-投稿
△长按添加极市平台小编
觉得有用麻烦给个在看啦~