图像自回归新范式!阿里达摩院提出FAR!基于频率渐进自回归的图像生成方法!
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
最新论文解读系列
论文名:FrequencyAutoregressiveImageGenerationwithContinuousTokens
论文链接:https ://arxiv.org/pdf/2503.05305
开源代码:https ://yuhuustc.github.io//projects/FAR.html
基于自回归(AR)模型,大语言模型(LLM以其在通用性和多功能性方面展现出的卓越智能,统一并主导了语言任务,为通用人工智能(AGI)指明了一条充满希望的道路。为了复制AR模型在语言处理领域的成功,并推动视觉与语言的融合以实现通用人工智能,先驱性研究探索了用于图像生成的AR模型。
受自回归(AR)模型在语言建模领域取得巨大成功的启发,用于图像生成的自回归模型通常采用矢量量化和光栅扫描“下一个标记预测”的两阶段范式。然而,由于图像与语言之间存在巨大的模态差异,图像自回归模型可能需要从两个方面进行系统的重新评估:分词器格式和回归方向。在本文中,我们引入了频率渐进自回归(FAR)范式,并使用连续分词器对FAR进行实例化。具体而言,我们将频谱依赖确定为FAR理想的回归方向,即高频分量基于低频分量逐步构建完整图像。这种设计无缝契合了自回归模型的因果性要求,并保留了图像数据独特的空间局部性。此外,我们深入研究了FAR与连续分词器的集成,引入了一系列技术来应对优化挑战,提高训练和推理过程的效率。我们通过在ImageNet数据集上进行全面实验证明了FAR的有效性,并验证了其在文本到图像生成任务中的潜力。
对于自回归模型中的分词器,关键在于对每个词元的概率分布进行建模,这可以通过用于训练的损失函数和用于推理的词元采样器来衡量。遵循多自回归(MAR)方法[20],我们采用扩散模型来解决将连续分词器集成到自回归模型中的这两个瓶颈问题。
损失函数。给定自回归变压器模型生成的连续词元及其对应的真实词元,多自回归(MAR)方法以为条件,采用扩散模型作为损失函数。
这里,和,其中是噪声调度[18]。由参数化的噪声估计器是一个小型多层感知器(MLP)网络。
令牌采样器。采样过程完全遵循扩散模型的推理过程。从开始,反向扩散模型在条件下迭代地去除噪声并生成。
回归方向在用于图像生成的自回归模型中起着至关重要的作用。在图2中,我们展示了图像自回归模型的三种主流回归方向范式。
图2.用于图像生成的自回归(AR)模型中的回归方向范式。(a)普通自回归(VanillaAR):按光栅扫描顺序从左到右、从上到下依次生成下一个标记;(b)掩码自回归(Masked-AR):以随机顺序进行下一组预测,每一步生成多个标记;(c)变分自回归(VAR):结合RQ-VAE和多尺度,将所有尺度相加得到最终预测结果,并且需要定制的多尺度离散标记器;(d)我们的频域自回归(FAR)。我们提出了利用频谱依赖先验的下一个频率预测范式。
普通自回归(下一个标记预测)。受大语言模型(LLMs)[4]启发的“下一个标记预测”方法[13,39]采用光栅扫描方法将相互依赖的二维潜在标记展平。然而,这种范式违反了自回归序列的因果要求。例如,下一行开头的标记应该依赖于其附近的标记,而不是上一行末尾的标记。此外,这种方法通过独立预测每个标记破坏了图像的空间局部性先验。普通自回归的另一个局限性是推理速度,它要求以标记长度为步长,这对于高分辨率图像生成来说慢得令人难以忍受。
掩码自回归(下一组预测)。基于掩码的生成方法[5,20]源自BERT[10],它根据未掩码的标记来预测被掩码的标记。这种范式通过引入随机性并在每一步预测多个标记来增强普通的自回归(AR)。然而,在小采样步骤下,其生成质量受到限制。更重要的是,与自回归方法类似,掩码自回归违反了自回归模型的单向依赖假设,并且忽略了图像先验。
VAR(次尺度预测)。VAR[40]将RQ-VAE[19]与多尺度相结合,聚合所有尺度以产生最终预测结果。VAR保持了空间局部性并遵循因果关系要求。然而,其多尺度离散残差量化分词器(tokenizer)与常用的分词器不同,需要进行专门的训练。此外,由于其多尺度设计,VAR需要为不同的分辨率训练不同的分词器。相比之下,我们提出的方法可以无缝使用现有的分词器,显著提高了其通用性和可扩展性。更重要的是,我们发现VAR范式与连续分词器的兼容性较差。具体而言,将VAR与连续分词器结合的实验产生了较差的生成性能。第5节提供了全面的结果以及对潜在原因的分析。
频谱依赖性。在自回归图像生成的回归方向上,一个关键挑战在于使因果序列要求与固有的图像先验相协调。在本文中,我们将频谱依赖性确定为适合该场景的一种独特图像先验。具体而言,图像由捕捉整体亮度、颜色和形状的低频分量以及传达边缘、细节和纹理的高频分量组成。高频信息的生成本质上依赖于低频信息的预先建立;例如,复杂的细节是在基础形状和结构之上构建并细化的。这一层次化过程也反映了人类的艺术绘画过程,即先绘制初始草图勾勒出整体结构,然后逐步添加细节。
此外,神经网络本质上表现出类似的频谱依赖性。深度图像先验(DIP)[41]表明,神经网络对高频分量呈现高阻抗,同时允许低频分量以低阻抗通过。这表明神经网络自然地优先学习低频信息,然后再处理更复杂的高频细节。这一特性与我们的设计完美契合。基于下一频率预测的自回归图像生成。利用频谱依赖性,我们为自回归图像生成引入了创新的下一频率预测方法。对于每幅图像,其在频率级别的中间输入形式如下:
在此,表示频率级别数量,和分别表示傅里叶变换(Fouriertransform)和傅里叶逆变换(inverseFouriertransform)。表示级别内的频谱滤波器。较高的频率级别表示保留了更多的高频信息。例如,仅保留最低频率分量,捕捉整个图像的平均值,而保留所有频率分量,代表原始图像。如图2(d)所示,我们将每个图像分解为不同的频率级别,并沿着这些级别进行自回归生成,逐步提高图像清晰度。这使FAR(此处未明确含义,保留英文)能够捕捉这些频率分量之间的相互关系,并学习从低频到高频的频谱映射。此外,在每个频率级别内,FAR采用双向注意力机制,并在每一步同时预测所有标记。这有效地对二维平面中标记之间的依赖关系进行建模,从而保留图像的空间局部性。此外,生成包含个标记的图像的推理步骤复杂度也从降低到线性复杂度。
除了开创性的下一频率预测之外,我们进一步深入研究了频率感知推理(FAR)与连续标记的结合。我们首先识别并解决了两个主要挑战:优化难度和不同频率级别上标记分布建模的差异。此外,我们引入了掩码机制来提高训练效率,并采用了频率感知扩散采样策略来加速推理。关于训练和推理过程的更多实现细节和流程图可视化也可在补充材料中获取。
优化难度:简化扩散损失的分布建模。连续分词器中的扩散损失对每个标记的分布进行建模。对于FAR(FAR原文未明确含义,保留英文),扩散损失需要为对进行建模,涵盖频率级别。这种多级分布建模对于相对较小的多层感知器(MLP,Multi-LayerPerceptron)网络来说具有挑战性。为了缓解这一问题,我们建议直接为对进行建模,然后过滤以得到。这种方法通过将扩散损失放宽为仅对进行建模,简化了优化复杂度。
优化方差:频率感知训练损失策略。不同的频率级别呈现出不同的优化难度。具体而言,高频输入更容易预测,这可能导致优化过程被更具挑战性的低频级别主导,从而阻碍对高频细节的学习。为了应对这一问题,我们实施了一种频率感知训练损失策略,该策略为高频级别分配更高的损失权重,以确保在所有频率上实现均衡学习。具体来说,损失权重通过如下正弦曲线来实现。
其中是频率级别的损失权重。
训练效率:用于降低训练成本和提高生成多样性的掩码机制。在自回归生成的早期步骤中,网络主要需要学习低频分量,这些分量信息稀疏。因此,利用前一频率级别的所有标记进行后续预测是多余的。为此,我们建议将掩码机制纳入FAR(频率感知自回归,Frequency-AwareAutoregressive)中,仅利用一部分标记。具体而言,我们设计了一种频率感知掩码策略,该策略会逐步提高低频级别的掩码比例。掩码机制会随机屏蔽频率级别为的输入标记中的个输入标记,其中从0.7线性变换到0。这种设计有效降低了训练成本,并且我们发现它还有助于提高生成多样性。
更快的推理:频率感知扩散采样策略。频率感知分辨率增强(FAR)的频率递进特性也启发我们在低频级别采用更少的扩散采样步骤,因为扩散模型可以通过少量采样步骤充分生成低频信息。因此,我们设计了频率感知扩散采样步骤策略,该策略为较早的频率级别分配逐渐减少的步骤。与多分辨率增强(MAR)中使用的固定扩散采样步骤相比,该策略大大降低了扩散模型的推理成本。
在本节中,我们首先在5.1节介绍实验的实现细节。在5.2节,我们展示类别条件图像生成结果。在5.3节,我们展示文本到图像的图像生成结果。
数据集。对于类别条件生成,我们采用ImageNet[9]数据集。对于文本到图像的生成,我们使用JourneyDB[38]数据集,该数据集包含个图像-文本对和内部数据。默认情况下,所有图像都进行中心裁剪并调整为分辨率。
训练设置。我们使用AdamW优化器(,)[21],权重衰减率为0.02。除非另有说明,对于类别条件,我们以1024的批量大小训练400个轮次,指数移动平均(EMA)率为0.9999。对于文本条件,我们以512的批量大小训练100个轮次,EMA率为0.99。
低通滤波器。我们探索了两种频率滤波类型:(a)在空间域中先下采样再上采样;(b)在傅里叶域中进行低通滤波。我们发现它们的性能相似,具体细节见补充材料。默认情况下,为简单起见,我们根据经验采用类型(a)。
模型。我们基本上遵循MAR[20]来构建我们的模型,该模型包含自回归(AR)变压器(Transformer)和扩散多层感知器(MLP)。AR变压器有三种模型大小:FAR-B(1.72亿参数)、和。如表2所示,扩散MLP要小得多。对于文本到图像生成任务,我们采用Qwen2-15亿参数模型[47]作为文本编码器,并遵循LI-DiT[23]对用户提示进行重新格式化。此外,我们采用交叉注意力机制进行文本条件注入。
评估。我们在ImageNet数据集上使用四个主要指标对FAR进行评估,这四个指标分别是弗雷歇初始距离(Fréchetinceptiondistance,FID)、初始得分(inceptionscore,IS)、精度和召回率,通过生成张图像来进行评估。对于文本到图像生成任务,我们采用MS-COCO和GenEval[16]数据集。FID是根据从MS-COCO2014训练集中随机选择的个图像-文本对计算得出的。GenEval基准测试衡量生成结果与给定提示的对齐程度。
自回归变压器和去噪多层感知机(MLP)的扩展性。我们在表1中研究了自回归变压器和扩散损失模型的扩展性
表2.自回归变压器(AutoregressiveTransformer)承担了对频率依赖关系和映射进行建模的主要任务,因此也占据了大部分参数。我们发现,FAR变压器(FARTransformer)的规模会显著影响性能。当扩大FAR变压器的规模时,性能会持续提升。
对于去噪多层感知器(DenoisingMLP)而言,由于只需对每个标记的分布进行建模,再结合我们的分布建模简化策略,一个小型的多层感知器(例如,)就能取得具有竞争力的性能。正如预期的那样,增加多层感知器的宽度有助于提高生成质量。
FAR(灵活自回归,FlexibleAutoregressive)的采样步骤和扩散损失。FAR的训练采用个自回归步骤中的最大值。然而,在推理阶段,我们可以灵活改变自回归步骤,采用少于的步骤。具体来说,给定,FAR直接对进行建模。在接下来的自回归步骤中,我们可以对进行过滤,以获得灵活的下一个频率级别,即而非,从而实现FAR的动态自回归步骤。图3展示了不同FAR自回归步骤下的生成性能,其中步骤数越多,性能始终越好。
图3.FAR的采样步骤和扩散损失。
去噪多层感知器(MLP)的训练采用了遵循去噪扩散概率模型(DDPM)[18]的1000步噪声调度。在推理过程中,多尺度自回归模型(MAR)验证了较少的采样步骤足以进行生成。我们进一步证明,我们的频率感知扩散采样在较少的步骤下就能取得相当的结果。具体来说,我们将到的采样步骤进行线性移动,实现了平均的采样步骤。这节省了扩散模型的推理时间。图3显示,我们的采样策略在较少的步骤下就能取得相当的结果。向量自回归(VAR)与扩散损失的兼容性。正如我们在第3节中所指出的,向量自回归(VAR)范式与连续分词器的兼容性较差。原因主要有两方面。1)对于连续分词器,残差量化(RQ)方式对每一步的预测都高度敏感。向量自回归(VAR)中的残差量化(RQ)将每个尺度的预测上采样到完整的潜在尺度,然后将它们全部相加得到最终输出。这要求每个尺度的预测都高度准确。然而,自回归(AR)模型的暴露偏差问题[1,3]会导致不可避免的误差累积,偏离了上述要求。2)向量自回归(VAR)范式中的每个标记分布建模任务对于扩散损失来说极具挑战性。不同尺度的标记在数值范围和感受野上都有显著差异。如表4所示,直接将向量自回归(VAR)(残差量化(RQ)+多尺度)与连续分词器结合会导致性能不佳。此外,我们还尝试去除残差量化(RQ)设计。由于残差范式中没有误差累积,性能有所提升。然而,由于多尺度方面的差距,性能仍然落后于当前最优水平(sota)。视觉结果可在补充材料中查看。
请注意,FlowAR[34]通过使用多尺度扩散模型(流模型)直接对整个图像的分布进行建模,而不是对逐个标记的分布进行建模,将自回归模型(VAR)与连续标记器相结合。因此,它更像是一个多尺度扩散模型,而不是自回归模型。
主要结果。在表1中,我们列出了与先前方法的综合性能比较。我们探索了各种模型规模,并训练了400个周期。与大多数自回归方法相比,我们的快速自回归模型(FAR)效率更高,所需的推理步骤更少。我们的方法优于矢量量化生成对抗网络(VQGAN)系列,模型规模和推理步骤都小得多。对于最近的工作,如VAR和MAR,我们的方法在视觉质量上也具有可比性(由inception分数(IS)和感知指标表示)。请注意,弗雷歇inception距离(FID)指标的滞后归因于多样性略低(由召回率指标表示),我们发现FID指标对此非常敏感。图1展示了定性结果。我们在补充材料中提供了更多在ImageNet上的视觉结果。
与MAR和VAR的可视化比较。如图4所示,MAR中的掩码机制在小推理步数下会导致架构性能不佳。VAR中的离散分词器也可能限制性能上限,并且难以生成具有复杂构图的图像。相比之下,由于与图像数据具有内在的协调性,FAR仅需10步就能生成具有一致结构和精细细节的高质量图像。
更多消融实验。我们还进行了广泛的消融实验,以验证我们方法的有效性,包括:S1)DMS:扩散损失分布建模简化策略。S2)掩码机制。掩码机制将训练效率提高了约。S3)FTL:频率感知训练损失策略。如表6所示,采用技术S1时,FAR已经能够生成高质量图像(由IS和感知指标表明)。较低的FID归因于其较低的多样性(由召回率表明)。采用技术S2时,掩码机制中的随机性弥补了多样性,从而显著改善了FID。我们在补充材料中展示了该消融实验的可视化比较结果。
图4.与具有代表性的MAR和VAR方法在10步推理下的可视化比较。由于与图像数据具有内在的协调性,我们的FAR(快速自回归,FastAutoregressive)方法仅需10步就能生成具有一致结构和精细细节的高质量图像。
图5.分辨率为256x256的文本到图像自回归生成的更多可视化结果。
主要结果。在表3中,我们展示了文本到图像生成任务的性能比较。该任务中的先前方法通常使用大量的模型参数、网络规模的数据集以及难以承受的计算成本。FAR(快速自回归,FastAutoregressive)方法可以击败经典的DALL-E、CogView2和LlamaGen,并在训练和推理成本显著降低的情况下,达到与近期最优方法相当的性能。同期工作也验证了在使用大量训练资源的情况下,连续标记在文本到图像生成中的有效性。在图1和图5中,我们展示了文本到图像生成的可视化结果。FAR方法在10步内就能生成具有连贯结构和复杂构图的高质量图像。
在本文中,我们提出了FAR范式(FARParadigm),并使用连续分词器对FAR进行实例化。具体而言,我们确定频谱依赖为FAR理想的回归方向。此外,我们深入研究了FAR与连续分词器的集成。我们通过在类别条件生成任务上的全面实验证明了FAR的有效性和可扩展性,并进一步验证了其在文本到图像生成任务上的潜力。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、StableDiffusion、Sora等相关技术,欢迎一起交流学习💗~