英伟达开源4K图像生成模型Sana,可在16G显存电脑部署,支持ComfyUI和LoRA训练。
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
英伟达开源了一个可以直接生成4K图片的模型Sana。Sana-0. 6B可以在16GB的笔记本电脑GPU上部署。生成1024×1024分辨率的图像只需不到1秒钟。官方已经支持了Comfyui,而且放出了Lora训练工具。
论文:https ://arxiv. org/pdf/2410. 10629
主页:https ://nvlabs. github.io/Sana
Sana是一个文本到图像的框架,可以高效地生成分辨率高达4096×4096的图像。Sana可以以极快的速度合成具有强大文本-图像对齐功能的高分辨率、高质量图像,可在笔记本电脑的GPU上部署。
深度压缩自动编码器:与仅将图像压缩8倍的传统AE不同,我们训练了一个可以将图像压缩32倍的AE,从而有效减少了潜在标记的数量。-线性DiT:我们用线性注意力取代了DiT中的所有原始注意力,这在高分辨率下效率更高,且不会牺牲质量。
仅解码器的文本编码器:我们用现代仅解码器的小型LLM取代了T5作为文本编码器,并设计了具有上下文学习的复杂人工指令以增强图像-文本对齐。高效的训练和采样:我们提出了Flow-DPM-Solver来减少采样步骤,并通过高效的字幕标记和选择来加速收敛。
因此,Sana-0. 6B与现代巨型扩散模型(例如Flux-12B)相比极具竞争力,其体积小20倍,测量吞吐量快100多倍。此外,Sana-0. 6B可以部署在16GB笔记本电脑GPU上,生成1024×1024分辨率图像只需不到1秒。Sana可以以低成本实现内容创建。
深度压缩自动编码器:我们引入了一种新的深度压缩自动编码器(DC-AE),将缩放因子大幅增加到32。与AE-F8相比,我们的AE-F32输出的潜在标记减少了16倍,这对于高效训练和生成超高分辨率图像(例如4K分辨率)至关重要。
高效的线性DiT:我们引入了一种新的线性DiT,取代了香草二次注意力,并将复杂度从O(N2)降低到O(N)。Mix-FFN在MLP中使用3×3深度卷积,增强了token的局部信息。线性注意力实现与香草相当的结果,将4K生成的延迟提高了1. 7倍。Mix-FFN还消除了位置编码(NoPE)的需要,并且没有质量损失,标志着第一个没有位置嵌入的DiT。
仅解码器的小型LLM作为文本编码器:我们使用仅解码器的LLMGemma作为文本编码器,以增强提示中的理解和推理。与CLIP或T5不同,Gemma提供了卓越的文本理解和指令遵循能力。我们解决了训练不稳定性问题,并设计了复杂的人工指令(CHI)来利用Gemma的上下文学习,改善图像-文本对齐。
高效的训练和推理策略:我们提出了自动标记和训练策略来提高文本与图像的一致性。多个VLM生成不同的重新字幕,基于CLIPScore的策略选择高CLIPScore字幕以增强收敛和对齐。此外,与Flow-Euler-Solver相比,我们的Flow-DPM-Solver将推理步骤从28-50减少到14-20,性能更佳。
我们在表1中将Sana与最先进的文本到图像扩散模型进行了比较。对于512×512分辨率,Sana-0. 6的吞吐量比具有相似模型大小的PixArt-Σ快5倍,并且在FID、ClipScore、GenEval和DPG-Bench中的表现明显优于它。对于1024×1024分辨率,Sana比大多数具有<3B参数的模型要强得多,并且在推理延迟方面表现出色。即使与最先进的大型模型FLUX-dev相比,我们的模型也能实现具有竞争力的性能。例如,虽然DPG-Bench上的准确率相当,GenEval上的准确率略低,但Sana-0. 6B的吞吐量快39倍,Sana-1. 6B快23倍。
作者已经开发了插件来将Sana与ComfyUI集成。
插件:https ://github. com/Efficient-Large-Model/ComfyUI_ExtraModels
GitHub:https ://github. com/NVlabs/Sana/blob/main/asset/docs/ComfyUI/comfyui. md
ComfyUI:https ://github. com/NVlabs/Sana/blob/main/asset/docs/ComfyUI/comfyui. md
Sana-LoRA由diffusers支持。查看我们的指南来训练您的自定义模型。我们在下面展示了Sana-LoRA微调过程中的一些示例。
链接:https ://github. com/NVlabs/Sana/blob/main/asset/docs/sana_lora_dreambooth. md
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、StableDiffusion、Sora等相关技术,欢迎一起交流学习💗~