【深度学习】连续Token助力文本生成图像迈向新高度!Kaiming团队提出Fluid:MS-COCO上实现6.16 FID


【深度学习】连续Token助力文本生成图像迈向新高度!Kaiming团队提出Fluid:MS-COCO上实现6.16 FID

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

作者丨科技猛兽编辑丨极市平台
导读
基于连续token的模型比基于离散token的模型实现更好的视觉质量。
1Fluid:MAR连续token自回归范式的文生图版本(来自MIT,Kaiming团队)1.1自回归图像生成1.2Fluid方法介绍1.3实验设置1.4缩放性能

本文研究两个问题:在scaling模型的时候,1)是应该使用连续token还是离散token?2)在自回归生成时候,是该使用raster-order还是random-order?
本文实证结果表明:
基于连续token的模型比基于离散token的模型实现了更好的视觉质量。
生成顺序和注意力机制显着影响GenEval分数。与raster-order的模型相比,random-order的模型实现了明显更好的GenEval分数。

论文名称:Fluid:ScalingAutoregressiveText-to-imageGenerativeModelswithContinuousTokens(ICLR2025)
论文地址:
http ://arxiv.org/pdf/2410.13863
缩放定律帮助LLM取得了前所未有的成功。受这一成功的启发,计算机视觉领域中也涌现了一批缩放自回归模型的工作,尤其在文生图领域。然而,与扩散模型相比,这些模型生成的内容视觉质量不高。尚不清楚类似的缩放定律是否适用于视觉领域。
给定一个token序列,其中上标为顺序。
自回归模型将生成问题建模为”next-tokenprediction”:
按照链式法则,训练网络来建模,并迭代地生成新的token。
在自回归模型的设计中,有2个问题很关键:
token:离散或连续的。
生成的顺序:raster-order还是random-order的。
离散或连续的token
自回归模型的目标是估计。当token是离散的,那么图像会被转化为一组离散imagetoken,然后有一个词汇表,每个token对应为词汇表中的一个id。在训练的时候有GT的id,目标就是最小化模型预测的词汇表id与GT的id之间的Cross-entropyLoss。大多数自回归图像生成模型,比如VQGAN,MaskGIT都依赖这种形式的离散token。
但是,这种离散化往往会导致图像信息损失。MAR使用一个小扩散模型来估计每个imagetoken的分布,使得imagetoken不再需要是离散的,可以以连续的方式建模。这种方法使得我们不再需要VQ,允许使用连续的tokenizer对图像进行建模,产生更好的重建视觉质量。
RasterOrder+GPTvs.RandomOrder+BERT
在自回归图像生成中,有2种生成顺序:RasterOrder和RandomOrder。如图2所示,RasterOrder从左到右依次生成token,从上到下。这种固定顺序生成非常适合类似GPT的架构,它以因果方式预测下一个token。而RandomOrder允许在每一步生成多个token。这些token的选择可以是完全随机的,也可以是基于一种采样机制,该机制优先考虑具有更高预测置信度分数的token。
每个生成顺序都有其优缺点。
类似GPT的Transformer架构,采用Raster-Order的模型通过KV-Cache支持快速推理。然而,这种因果结构也可以引入性能下降。

尽管它们具有各自的优势,但仍不清楚哪种生成顺序更适合文本到图像生成任务。本文比较了Raster-Order和Random-Order自回归模型的性能和缩放行为。
针对文本和视觉领域scaling模型的性能差距,作者提出了几个假设。
大多数视觉自回归模型所需的vectorquantization(VQ)步骤可能会引入显着的信息丢失,最终限制了模型性能。
与语言固有的顺序性质不同,生成视觉内容可能更多地受益于不同的自回归预测顺序。
在评估视觉模型中的缩放定律时,通常存在泛化级别之间的混淆:a)在新数据上使用与训练损失相同的度量(通常称为计算Validationloss)。b)使用不同于训练目标的新度量,比如计算FID,GenEval,或者视觉质量。
作者假设power-lawscaling在”视觉数据+自回归模型”条件下可以适用于Validationloss,但是不适用于新的指标,比如FID等。
为了研究这些假设,作者对自回归模型在文生图背景下的scalingbehavior进行了全面的实证研究。包括:
1)模型应该对连续token还是离散token操作。
2)token是该以random-order生成,还是raster-order生成。
为了研究这两个问题,本文使用DiffusionLoss使自回归模型与连续token兼容。本文将视觉模型MaskGIT推广为随机顺序自回归,因为它在概念上以随机顺序预测输出token,同时保留”基于已知token预测下一个token的自回归性质”。
连续tokenor离散token,random-order生成orraster-order生成,两两组合,一共四种情况,本文分析了四种组合的性能,本文将其参数从150M扩展到3B,并使用3个指标评估它们的性能:ValidationLoss、FID和GenEval分数。作者还检查了生成图像的视觉质量。
本文的文生图框架如下图3所示。
预训练的imagetokenizer将图像转换为转换为离散或连续token。然后对这些token进行部分mask,并训练Transformer以文本为条件重建maskedtoken。
ImageTokenizer
作者使用预训练的ImageTokenizer将256×256的图像编码为token。Tokenizer可以是离散的或连续的,便于自回归模型的不同训练目标。
离散Tokenizer:本文用的是在WebLI数据集上预训练的VQGAN。本文遵循Muse的做法将每个image编码为16×16个离散token,词汇量为8192。
连续Tokenizer:本文用的来自StableDiffusion的,将图像编码为32×32连续token,每个标记包含4个channel。
为了与离散Tokenizer在序列长度上保持一致,进一步把2×2连续token分组成单个token,对齐最终序列长度256,每个标记包含16个channel。如图4所示,连续Tokenizer可以实现明显高于离散Tokenizer的重建质量。
文本编码器

Transformer

输出head
离散token:遵循自回归模型的常见做法。输出被一个”Linear层+Softmax”转换为分类分布。

数据集
使用WebLI(WebLanguageImage)数据集,由来自网络的图像-文本对组成,图像质量和文本的相关性得分很高。默认情况下,图像中心裁剪,调整为256×256分辨率。
训练细节
作者使用2048的batchsize训练了1Miteration,粗略计算了一下,使用的数据集大约有不到700M。
为了训练Random-Order模型,作者按照余弦调度从[0,1]中随机采样maskratio,对imagetoken进行mask,类似于MaskGIT的做法。
推理细节
遵循Imagen、Muse和Parti的做法,从文本提示生成图像。对于Random-Order模型,使用64步来生成余弦schedule。为了进一步增强生成性能,应用了温度和CFG。
评价指标
MS-COCO2014训练集随机采样30K图像上的ValidationLoss,MS-COCO2014训练集中的30K随机选择的图文对的FID,以及GenEval。FID提供了一个评估生成图像保真度和多样性的指标。另一方面,GenEval衡量了模型生成准确反映给定提示的图像的能力。对于定性评估,使用模型从多个提示生成图像,并比较生成图像的视觉质量。
ValidationLoss始终随modelsize呈现出缩放性质。
在图5中,作者检查了四个自回归变体在ValidationLoss方面的缩放行为。可以观察到对数空间中ValidationLoss和模型大小之间的线性关系。这表明模型大小增加导致ValidationLoss的改进可以很好地推广到与训练数据不同的数据的验证损失。
使用连续token的Random-Order模型在FID和GenEval分数中表现最佳。
图6中作者分析了四个自回归变体在FID和GenEval方面的缩放行为。作者发现:Validationloss上观察到的幂律缩放行为没法直接转化为FID和GenEval的缩放,说明这两个指标和模型大小之间暂时没观察到严格的幂律关系。那么就这四种设置本身,使用离散token的Raster-Order模型在FID和GenEval上表示出了平台(1B参数左右)。而且,使用连续token的Random-Order模型实现了最佳的整体性能。
使用离散token的Raster-Order模型随trainingcompute缩放。

Validationloss和评估指标之间的强相关性。
图8绘制了针对流体不同模型大小的验证损失的FID和GenEval分数,并观察到强相关性。FID和GenEval分数的Pearson相关系数分别为0.917和-0.931,表明Validationloss与这些评估指标在模型尺寸为150M到3B之间几乎呈现线性关系。基于这个现象,作者训练了一个10.5B参数的模型,使用4096的batchsize,训练了1M步。
连续token和大模型对视觉质量至关重要。
图9比较了四种自回归变体生成的图像的视觉质量。使用离散token的模型的视觉质量明显低于使用连续token的模型,且放大并不能解决这个问题。这种限制主要是由于离散tokenizer引入了大量的信息丢失。相比之下,具有连续token的模型会产生更高质量的图像。
此外,较大的模型在视觉质量和图像-文本对齐方面都显示出一致的改进。
图10对比了Fluid与领先文生图像模型,是一个系统级的比较。Fluid的最小模型有369M参数,在MS-COCO上实现了7.23的zero-shotFID和0.62的GenEval分数。Fluid的最大模型参数为10.5B,进一步将MS-COCO上的zero-shotFID提高到6.16,并将GenEval分数提高到0.692。这里一个有意思的观察是,随着模型从3.1B增加到10.5B,GenEval分数没继续提高,但是FID和视觉质量更好了。


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录