港大&Adobe联合提出图像生成模型PixelFlow,可直接在原始像素空间中运行,无需VAE即可进行端到端训练。


港大&Adobe联合提出图像生成模型PixelFlow,可直接在原始像素空间中运行,无需VAE即可进行端到端训练。

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

香港大学和Adobe联合提出了一种直接在原始像素空间中运行的图像生成模型PixelFlow,这种方法简化了图像生成过程,无需预先训练的变分自编码器(VAE),并使整个模型能够端到端训练。通过高效的级联流建模,PixelFlow在像素空间中实现了可承受的计算成本。它在256x256ImageNet类条件图像生成基准上实现了1.98的FID。
论文:https ://arxiv.org/pdf/2504.07963
代码:https ://gihub.com/ShoufaChen/PixelFlow
试用:https ://huggingface.co/spaces/ShoufaChen/PixelFlow
PixelFlow是一系列直接在原始像素空间中运行的图像生成模型,与主流的潜在空间模型形成对比。这种方法简化了图像生成过程,无需预先训练的变分自编码器(VAE),并使整个模型能够端到端训练。通过高效的级联流建模,PixelFlow在像素空间中实现了可承受的计算成本。它在256x256ImageNet类条件图像生成基准上实现了1.98的FID。定性的文本转图像结果显示,PixelFlow在图像质量、艺术性和语义控制方面表现出色。
基于潜伏层的扩散模型(LDM)、基于像素的扩散模型(PDM)和PixelFlow的设计范式比较:(a)LDM将训练分为两个独立的阶段——首先独立训练现成的VAE,然后基于从预训练VAE中提取的token训练扩散模型;(b)之前的PDM通常训练两个独立的模型:一个用于低分辨率图像的扩散模型和一个用于高分辨率合成的上采样器;(c)相比之下,PixelFlow为基于像素的生成提供了端到端的解决方案,兼具高效率和强大的生成性能。
PixelFlow用于从像素空间进行级联图像生成。将整个生成过程划分为一系列分辨率阶段。在每个分辨率阶段开始时,我们都会将前一阶段中相对嘈杂的结果进行放大,并将其作为当前阶段的起点。因此,随着分辨率的提高,可以获得更精细的样本。
级联阶段中间结果的可视化。从四个阶段中提取中间结果进行直接可视化。我们在各个分辨率阶段观察到清晰的去噪过程。
PixelFlow类条件图像生成的定性结果。所有图像均为256×256分辨率。
PixelFlow文本条件生成的定性结果。所有图像均为512×512分辨率。题目的关键部分以红色突出显示。
PixelFlow的定性样本。展示了1024×1024分辨率的生成图像。关键词以红色突出显示。
论文推出了一种全新的图像生成模型PixelFlow,它通过直接在原始像素空间上进行操作,重新思考了基于潜在空间的模型的优势。通过直接在不同分辨率阶段之间进行转换,该模型在简洁性和端到端可训练性方面展现出显著优势。在类条件图像生成和文本到图像生成基准测试中,PixelFlow已被证明能够比主流的基于潜在空间的方法展现出更强大的图像生成能力。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、StableDiffusion、Sora等相关技术,欢迎一起交流学习💗~


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录