320-A1.1｜图像生成系列（图像编辑、个性化、定制化、自回归、推理引导、音频生图）

发布日期: 2025-06-26

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

AIGCResearch
主编｜庄才林（CailinZhuang）技术支持｜胡耀淇（YaoqiHu）｜编辑支持｜张奇佳（QijiaZhang）发布日期｜2025年3月14日｜周五
New!｜为了更好的服务广大研究者与爱好者，未来，我们将陆续开源PaperDaily系列源文件至Github平台，欢迎大家持续关注！！！
https ://github. com/AIGCResearch/Awesome-PaperDaily
2025-03-13｜CUHKMMLab,HKU,SenseTime,ShanghaiAILab,THU,BUAA｜⭐️🟡
http ://arxiv. org/abs/2503. 10639v1https ://github. com/rongyaofang/GoT
在视觉生成与编辑领域，传统方法往往依赖直接将文本提示映射为视觉元素，缺乏有效的推理机制。为了解决这一问题，本文提出了“生成链思维”（GoT）框架，它通过显式的语言推理过程来指导图像生成和编辑。GoT将复杂的视觉任务转变为一个推理驱动的框架，能够分析语义关系和空间排列。通过构建包含超过900万条样本的大规模GoT数据集，研究者们成功捕捉到了语义-空间关系的详细推理链。GoT框架结合了多模态大语言模型（MLLMs）与高保真扩散模型，展示了在文本到图像生成和图像编辑任务中的显著性能提升。这一创新方法不仅提升了生成的图像质量，还增强了用户的交互体验，使得用户能够更精确地控制生成过程。
GoT框架的核心在于其推理链的构建和语义-空间指导模块（SSGM）的设计。首先，通过多模态推理链，GoT将输入的文本提示转化为包含语义和空间信息的推理步骤。具体步骤包括：
利用大语言模型生成详细的推理链，明确元素之间的关系和空间位置。
设计SSGM，将推理链的输出作为指导，确保生成的图像与推理过程紧密结合。
采用统一的端到端架构，整合MLLM的推理能力与扩散模型的生成质量，实现高效的训练和推理。此外，GoT还支持用户的交互修改，用户可以通过直接调整推理步骤来精确控制生成内容，从而实现个性化的图像生成和编辑。
为了验证GoT框架的有效性，研究者们进行了多项实验，包括文本到图像生成、交互式生成和图像编辑。实验结果显示，GoT在各项任务中均表现出色，尤其是在复杂场景生成和细致编辑方面。具体而言，GoT框架在GenEval基准上取得了0. 64的最高分，超越了传统的文本编码方法和其他增强型模型。在图像编辑方面，GoT在多个基准测试中也表现优异，尤其是在处理复杂推理任务时，展现了其强大的语义-空间推理能力。通过对比实验，GoT的设计选择得到了验证，显示出其在视觉合成中的显著优势。
GoT框架的工作原理可以简单理解为一个智能助手，它在生成图像之前先进行思考。首先，它会根据用户的文本描述，生成一系列的推理步骤，像是在规划一个故事情节。这些步骤会告诉它每个物体的位置、颜色和关系。接着，GoT会利用这些推理步骤，生成出符合这些描述的图像。比如，如果用户想要一幅画中有一只红色的苹果和一个蓝色的书包，GoT会首先思考这两个物体在画面中的位置，然后生成出一幅与之相符的图像。这个框架还允许用户在生成过程中进行修改，比如调整物体的位置或颜色，使得生成的图像更加符合他们的想法。这种方法不仅让图像生成更准确，也让用户的参与感更强。
2025-03-13｜TelAvivU,BriaAI｜⭐️⭐️
http ://arxiv. org/abs/2503. 10365v1https ://eladrich. github.io/PiT/
本文介绍了一种名为“PieceitTogether”（PiT）的新型生成框架，旨在通过整合用户提供的部分视觉元素，创造出完整且连贯的概念设计。随着图像生成技术的进步，设计师们逐渐超越了文本描述的局限，开始直接从视觉元素中汲取灵感。然而，现有的生成模型往往依赖于文本条件，无法充分捕捉设计师的直观创意。PiT通过利用IP-Prior模型，能够在特定领域内有效地补全缺失信息，并将给定元素无缝整合成一个完整的构思。这一方法不仅提高了生成的多样性和上下文相关性，还为创意设计提供了更加直观和互动的流程。
PiT方法的核心在于构建一个有效的表示空间，以便进行部分构件的组合与生成。其主要步骤包括：
选择表示空间：PiT选择IP-Adapter+的内部表示空间，以确保在生成过程中保留复杂的视觉细节，同时允许进行语义操作。
模型训练：利用从特定目标领域生成的样本来训练一个条件生成模型，使其能够在给定输入的上下文中生成完整的对象表示。此模型能够根据输入的部分元素生成多个合理的输出结果。
生成过程：在生成阶段，模型接收用户提供的部分图像，将其编码为IP+向量，并通过IP-Prior模型生成完整的概念图像。这一过程不仅关注重建质量，还考虑到生成的多样性和上下文一致性。
文本条件的恢复：为了解决生成图像与文本描述之间的低一致性，PiT引入了LoRA适配器，通过少量示例的微调，恢复文本条件的能力，从而使生成的图像能够适应不同的场景和背景。
在实验部分，作者评估了PiT在多个领域的表现，包括角色创意、产品设计和玩具构思。通过提供不同数量的输入部分，模型展示了其生成的多样性和一致性。实验结果表明，PiT能够有效地识别给定部分的语义意义，并将其整合到生成的结果中。具体而言，模型在处理较少输入时表现出更高的变异性，符合设计师迭代精细化概念的需求。此外，作者还比较了PiT与其他生成模型的性能，结果显示，PiT在生成质量和文本一致性方面均表现优越。定量分析表明，使用LoRA适配器后，模型在文本和视觉评分上均有显著提升，进一步验证了其有效性。
在PiT方法中，设计师只需提供一些图像的部分，比如某个角色的头发或衣服，系统就能根据这些部分生成一个完整的图像。这个过程分为几个步骤。首先，系统会选择一种特殊的方式来理解这些图像部分，以便更好地组合它们。接着，系统会通过学习大量的图像样本来训练自己，确保在面对不同的输入时能够生成多种可能的完整图像。然后，当设计师提供输入时，系统会将这些图像部分转化为一种内部表示，最终生成一个完整的概念图。为了让生成的图像更符合设计师的想法，系统还会通过少量示例进行微调，使其能够理解文本描述，从而在不同场景中生成更合适的图像。这样，设计师就可以更轻松地探索和实现他们的创意。
2025-03-13｜Apple｜⭐️🟡
http ://arxiv. org/abs/2503. 10618v1
在这项研究中，作者们对扩散变换器（DiTs）在文本到图像生成中的架构设计进行了深入的实证研究，着重分析了架构选择、文本条件策略和训练协议。他们评估了多种基于DiT的架构，包括PixArt风格和MMDiT变体，并将其与直接处理文本和噪声输入的标准DiT变体进行比较。令人惊讶的是，研究发现标准DiT在参数效率方面表现出色，尤其是在模型规模增大时。通过采用逐层参数共享策略，作者们成功将模型大小减少了66%，并在性能上几乎没有影响。此外，基于对文本编码器和变分自编码器（VAE）的深入分析，作者们提出了DiT-Air和DiT-Air-Lite模型。最终，DiT-Air在GenEval和T2ICompBench上实现了最先进的性能，而DiT-Air-Lite则在保持高竞争力的同时，超越了大多数现有模型。
本研究的方法包括几个关键步骤。首先，进行了一系列关于DiT架构的对比分析，重点关注不同的文本条件机制和变分自编码器的设计。具体而言，研究者们探讨了以下几个方面：
架构设计：开发了一种简化的DiT架构，采用了文本与噪声输入的串联方式，消除了特定模态的投影，从而显著节省了参数。
参数共享：引入了逐层参数共享的策略，特别是在自适应层归一化（AdaLN）方面，通过在所有层之间共享参数来减少模型复杂性。
文本编码器选择：评估了三种主要的文本编码器（CLIP、大语言模型和T5），并通过实验确定了最佳的编码器组合，以提高文本与图像生成的对齐效果。
训练策略：采用了渐进式训练方法，通过逐步增加VAE的通道容量，优化了生成图像的质量，同时保持了计算效率。通过监督和奖励微调，进一步提升了模型性能。
在实验部分，作者们对不同架构的性能进行了评估，采用了标准化的训练和评估协议。实验包括以下几个主要环节：
数据集准备：使用包含15亿对文本-图像的内部数据集，确保实验结果的可靠性。
训练与推理：所有模型都使用共享的VAE和CLIP-H模型作为默认文本编码器，确保了一致的比较基础。
性能评估：通过多项基准测试（如GenEval、T2ICompBench等）对模型进行评价，分析验证损失、FID分数、CLIP分数等多项指标。
参数效率分析：对比不同架构在不同规模下的参数效率，特别关注DiT-Air与其他流行模型（如MMDiT和PixArt-α）的比较，强调DiT-Air在保持较低参数量的同时实现了高性能。
在这项研究中，研究者们提出了一种新的文本到图像生成方法，称为DiT-Air。他们的主要目标是使生成模型更高效，既能产生高质量的图像，又能减少所需的计算资源。方法包括几个步骤：首先，研究者们设计了一种新的模型架构，结合了文本和图像信息，以便更好地生成图像。其次，他们使用了一种聪明的方式来共享模型中的参数，这样可以减少模型的大小，而不会影响生成图像的质量。此外，他们还测试了不同的文本编码器，以找出哪种编码器最适合与图像生成模型配合使用。最后，他们使用了一种分阶段的训练方法，逐步提升模型的能力，从而保证生成的图像既清晰又具有良好的细节。这样的设计使得DiT-Air在生成图像时，不仅速度快，而且效果好。
2025-03-13｜SYSU,LU,SCUT,PolyU｜⭐️⭐️
http ://arxiv. org/abs/2503. 10614v1https ://consislora. github.io
在本研究中，我们提出了一种新的风格迁移方法ConsisLoRA，旨在提升基于低秩适应（LoRA）技术的内容和风格一致性。现有的LoRA方法在捕捉单一图像的风格方面表现出色，但仍面临内容不一致、风格不对齐和内容泄漏等挑战。为了解决这些问题，ConsisLoRA通过优化LoRA权重来预测原始图像，而非噪声，从而显著提高了内容和风格的一致性。此外，我们还提出了一种两步训练策略，将内容和风格的学习过程解耦，以更好地捕捉内容图像的全局结构和局部细节。通过定性和定量评估，我们的方法在内容保留和风格对齐方面超过了四种最新的基线方法。
ConsisLoRA的核心方法包括三个主要方面。首先，我们用x-prediction替代标准的ε-prediction损失，以解决内容不一致和风格不对齐的问题。x-prediction更好地强调高层次特征，从而在风格迁移中表现出色。其次，我们引入了一种两步训练策略，首先训练内容LoRA，使其保持一致性，然后在固定内容LoRA的情况下训练风格LoRA，以更有效地分离风格和内容的学习。最后，我们提出了一种逐步损失过渡策略，以同时捕捉内容图像的整体结构和细节。这种方法确保了在训练过程中，内容和风格的特征能够被有效分离和保留，从而生成高质量的风格迁移结果。
为了验证ConsisLoRA的有效性，我们与四种最先进的基线方法进行了全面比较，采用定性和定量评估。实验结果显示，ConsisLoRA在内容保留和风格对齐方面均优于对比方法。我们使用了400对内容和风格图像进行定量评估，评估指标包括DreamSim距离和CLIP相似度。通过用户研究，我们还收集了1500个反馈，结果显示参与者更倾向于选择我们的方法生成的图像。实验结果表明，ConsisLoRA在减少内容泄漏、提高内容一致性和风格对齐方面表现出色，验证了其在图像风格迁移任务中的有效性。
在我们的研究中，ConsisLoRA是一种新颖的风格迁移方法，旨在让图像在风格和内容上更加协调。简单来说，我们通过一种新的训练方式，先学习图像的内容，再学习它的风格。这就像先画出一幅画的轮廓，再给它上色，使得整个画面看起来更加和谐。我们的方法还用了一种新的损失计算方式，能够更好地捕捉图像的整体结构，而不是仅仅关注细节。通过这些改进，我们的模型能够生成既保留原始图像内容，又能准确展现目标风格的图像。我们对比了四种其他方法，结果显示我们的模型在风格和内容的一致性上表现更好，得到了更多用户的认可和喜爱。
2025-03-13｜UMD｜⭐️🟡
http ://arxiv. org/abs/2503. 10613v1https ://github. com/tianyi-lab/CoSTAR
CoSTA∗（Cost-SensitiveToolpathAgent）是一种新颖的多轮图像编辑工具，旨在解决当前文本到图像模型在复杂编辑任务中的不足。传统的图像编辑模型，如StableDiffusion和DALLE-3，虽然在生成图像方面表现优异，但在处理需要多步操作的复杂指令时常常面临挑战。CoSTA∗通过将任务分解为一系列子任务，并结合大型语言模型（LLM）和图搜索算法的优势，提出了一种高效的工具路径搜索方案。该方法能够在保证编辑质量的同时，有效控制执行成本，从而满足用户的需求。通过构建一个新的基准数据集，CoSTA∗在多轮图像编辑任务中超越了现有的最先进模型，实现了成本与质量的最佳平衡。
CoSTA∗的核心方法包含三个主要阶段：子任务树生成、工具子图构建和A搜索优化执行路径。首先，利用大型语言模型（LLM）从输入图像和指令中生成子任务树，明确各个子任务之间的依赖关系。接着，将该子任务树转化为工具子图，确保每个子任务都与相应的模型相匹配，并保持任务执行的逻辑顺序。最后，应用A搜索算法在工具子图上进行路径优化，平衡执行的成本和输出的质量。在这一过程中，CoSTA∗动态调整成本与质量之间的权重，以适应用户的偏好。此外，系统还集成了实时反馈机制，通过对每个子任务的执行结果进行评估，不断更新工具的成本和质量指标，以便快速恢复并探索其他可能的路径。
为了评估CoSTA∗的性能，研究团队构建了一个包含121幅图像的基准数据集，涵盖了1到8个子任务的多样化编辑需求。实验中，CoSTA∗与多种基线模型进行了比较，包括VISPROG、GenArtist和CLOVA等，结果显示CoSTA∗在准确性和执行效率上均优于这些模型。在处理复杂的多轮图像编辑任务时，CoSTA∗展现出了显著的优势，尤其是在涉及文本和图像的多模态任务中，准确率高达0. 93。研究还通过人类评估与自动化指标（如CLIP相似度）进行对比，验证了CoSTA∗在复杂任务执行中的可靠性和效果。通过这些实验，CoSTA∗不仅证明了其在多任务处理中的能力，还强调了其在成本控制和质量优化方面的独特价值。
CoSTA∗的方法可以简单理解为一个三步走的流程。首先，系统会读取用户给出的图像和编辑指令，然后利用一种智能算法（大型语言模型）将这些指令拆分成多个小任务。就像是把一个复杂的菜谱分解成几个简单的步骤。接下来，系统会根据这些小任务找到合适的工具，并确保它们之间的顺序是合理的。最后，系统会使用一种叫做A搜索的技术，来找到最有效率的执行路径，确保在完成这些小任务时既能节省时间又能保持高质量的结果。在这个过程中，系统还会根据每个步骤的表现，实时调整工具的使用策略，以确保最终的编辑效果符合用户的期望。
2025-03-13｜WestlakeU,CAS｜⭐️🟡
http ://arxiv. org/abs/2503. 10568v1https ://github. com/hp-l33/ARPG
本文提出了一种新颖的视觉自回归模型ARPG（AutoregressiveImageGenerationwithRandomizedParallelDecoding），旨在解决传统图像生成方法在推理效率和零-shot泛化能力方面的局限性。传统自回归模型通常按顺序生成图像，导致生成过程中效率低下且难以处理非因果依赖关系。ARPG通过引入“引导解码”框架，使得模型能够在随机的令牌顺序下进行训练和推理，从而实现更高效的图像生成。该方法能够支持类条件生成、图像编辑、填充和扩展等多种任务，并在ImageNet-1K256×256基准测试中展现出卓越的性能，达到了1. 94的FID值，且在处理速度和内存消耗上均优于现有的同类方法。
ARPG的核心在于其“引导解码”框架，该框架将位置引导与内容表示解耦。具体而言，模型通过以下几个步骤实现高效的随机并行生成：首先，模型使用自注意力机制提取图像令牌的上下文表示，并将其作为全局键值对。其次，模型通过目标感知的查询来指导下一令牌的预测，确保生成过程中的因果一致性。引导解码通过将目标位置编码为查询，并将内容表示保留为键值对，使得每个预测令牌可以独立于其他令牌进行处理。此外，ARPG采用共享的KV缓存，进一步提升推理效率。通过这种设计，ARPG能够在64步的采样下实现高达113. 01图像/秒的生成速度，大幅提升了生成效率。
在实验部分，ARPG的性能通过与多种现有模型的比较进行评估。研究表明，ARPG在ImageNet-1K256×256和512×512基准测试中均表现优异，尤其在FID和生成速度上显著超越了其他竞争对手。具体而言，ARPG-L模型在256×256分辨率下以2. 44的FID值和113.01图像/秒的生成速度刷新了多个基准。实验还包括对可控生成的评估，ARPG能够在保持高质量图像生成的同时，支持图像的条件编辑和扩展。此外，研究还探讨了不同解码器设计对生成质量和效率的影响，结果表明引导解码的比例对推理效率有显著影响，但过多的引导解码器可能会降低生成质量。
ARPG是一种新型的图像生成模型，它通过一种叫做“引导解码”的方法，使得生成图像的过程更加高效和灵活。传统的图像生成方法通常按照固定的顺序生成每一个细节，这样不仅效率低下，而且在处理复杂的图像任务时会遇到困难。ARPG则通过将生成过程中的位置和内容分开处理，允许模型在生成图像时以随机的顺序预测每个部分，这样就可以同时处理多个部分，大大加快了生成速度。比如，当我们需要生成一幅图像时，ARPG能够在短时间内完成，而不需要逐个细节地慢慢生成。此外，ARPG还支持根据不同的条件生成图像，比如根据深度图或边缘图来调整生成的图像内容，这使得它在图像编辑和扩展方面表现得更加灵活和强大。
2025-03-13｜ZJU｜CVPR2025｜⭐️🟡
http ://arxiv. org/abs/2503. 10358v1
在生成对抗网络和文本到图像的扩散模型中，个性化定制已成为一种流行的应用方式。然而，现有的定制方法往往无法有效处理连续概念的集成，这导致了“灾难性遗忘”和“概念混淆”问题。本文提出了一种名为ConceptGuard的方法，旨在解决这些挑战。ConceptGuard结合了动态嵌入、概念绑定提示和记忆保留正则化等策略，并通过优先队列来适应性地更新不同概念的重要性和出现顺序。通过综合实验，结果表明该方法在定量和定性分析中均显著优于现有方法，能够有效生成高质量的图像。
ConceptGuard的核心方法包括以下几个方面：首先，动态嵌入（ShiftEmbedding）通过调整概念嵌入来适应模型的更新，从而减少灾难性遗忘的发生。其次，概念绑定提示（Concept-bindingPrompts）通过引入动态权重来评估不同概念的重要性，帮助模型在生成图像时更好地区分和关联不同的概念。此外，记忆保留正则化（MemoryPreservationRegularization）通过限制模型更新的速度，防止其过快适应新概念，确保旧概念的保留。最后，优先队列（PriorityQueue）用于存储和管理概念的顺序和重要性，使得在生成新概念时能够复用先前的知识，从而减轻概念混淆和遗忘的影响。
在实验部分，作者选择了18个概念进行个性化定制，并评估了生成图像的质量。通过与多种基线方法进行比较，包括TextualInversion、DreamBooth等，ConceptGuard在单一和多概念生成任务中均表现出色。实验结果显示，该方法在文本对齐和图像对齐的评分上均优于其他方法，同时在遗忘度量上也显著降低。通过消融实验，研究者进一步验证了各个组成部分的有效性，证明了动态嵌入、概念绑定提示和记忆保留正则化在提升生成质量和减少遗忘方面的贡献。总体而言，ConceptGuard在处理连续个性化定制时展现了强大的能力和稳定的性能。
ConceptGuard的工作原理可以这样理解：想象你在学习新的知识，比如不同的动物。每当你学习一种新动物时，你需要记住之前学过的动物，而不是把它们忘掉。ConceptGuard通过“动态嵌入”来帮助模型记住这些动物的特征，就像给每种动物的名字加上一个标签，使得它们在脑海中更加清晰。同时，它使用“概念绑定提示”，就像给每个动物的名字加上一个重要性分数，让模型在生成图像时知道哪些动物是主要的，哪些是次要的。最后，通过“记忆保留正则化”，ConceptGuard确保模型不会太快地接受新知识，从而让旧知识得以保留。总之，ConceptGuard帮助模型更好地学习和记住不同的概念，生成更准确和高质量的图像。
2025-03-13｜SJTU,HKUST｜⭐️🟡
http ://arxiv. org/abs/2503. 10270v1https ://eff-edit. github.io/
在图像编辑领域，基于反演的编辑方法正逐渐受到关注，但其高计算开销限制了实时交互场景中的应用。本文提出了一种名为EEdit的新框架，旨在提高图像编辑的效率。EEdit通过重新思考空间和时间上的冗余，提出了三种关键技术：空间局部缓存（SLoC）、令牌索引预处理（TIP）和反演步骤跳过（ISS）。这些技术的结合使得EEdit在多种编辑任务中实现了显著的加速，平均加快了2. 46倍，同时保持了编辑质量。通过优化计算过程，EEdit能够在不影响性能的情况下，提升编辑速度，适用于提示引导、拖动和图像合成等多种编辑任务。
EEdit的核心方法包括以下三个方面：
空间局部缓存（SLoC）：此技术旨在减少未编辑区域的计算，通过缓存已计算的特征来跳过这些区域的处理。具体过程包括在编辑区域及其邻近区域执行完整计算，而对未编辑区域则利用缓存的特征，显著减少计算开销。
令牌索引预处理（TIP）：该步骤通过在离线操作中完成令牌索引的初始化和更新，进一步提升缓存的速度。TIP确保在后续的编辑过程中，能够快速访问必要的令牌，减少实时计算的负担。
反演步骤跳过（ISS）：此策略允许在反演过程中跳过某些步骤，研究表明，这样做不会显著影响编辑质量。通过减少反演计算的时间，EEdit能够显著提高处理速度。
为了验证EEdit的有效性，本文在多种图像编辑任务上进行了广泛的实验，包括提示引导、拖动引导和参考引导编辑。实验结果显示，EEdit在各类任务中均表现出色，平均实现了10. 96倍的延迟加速。具体来说，EEdit在背景一致性、细节保留和美学质量方面优于其他现有方法。此外，定量比较表明，EEdit在背景保留和前景保真度指标上表现出色，证明了其在不同编辑任务中的适应性和高效性。通过这些实验，EEdit不仅展示了其在提高编辑效率方面的潜力，也为未来的实时图像编辑应用提供了新的思路。
EEdit的工作原理可以简单理解为三步走。首先，空间局部缓存就像是一个聪明的助手，它记住了你之前编辑过的地方，这样在下次编辑时，就不需要重新计算那些未修改的区域，节省了很多时间。其次，令牌索引预处理像是为这个助手提前准备好工具，让他在需要的时候快速找到需要的材料，避免浪费时间寻找。最后，反演步骤跳过则允许助手在某些步骤中直接跳过不必要的工作，只专注于重要的部分，这样编辑的速度就能大幅提高。通过这三种方法，EEdit使得图像编辑变得更快、更高效，适合在各种场景中使用。
2025-03-13｜360AI｜⭐️🟡
http ://arxiv. org/abs/2503. 10127v1https ://360cvgroup. github.io/PlanGen
本文提出了一种名为PlanGen的统一布局规划和图像生成模型，旨在通过自回归视觉语言模型实现布局与图像生成的联合建模。与传统的扩散模型将布局规划与图像生成视为两个独立的任务不同，PlanGen将这两个过程整合为一个自回归变换器模型，利用下一个标记预测的方式进行训练。该模型能够在生成图像之前预先规划空间布局条件，极大地提高了生成图像的质量和一致性。PlanGen的优势在于其灵活性和可扩展性，不需要对局部标题和边界框坐标进行特殊编码，从而克服了以往方法在复杂布局处理中的不足。此外，PlanGen还支持多任务训练，包括布局规划、布局到图像生成、图像布局理解等任务，展现出良好的应用潜力。
PlanGen的核心方法包括布局规划与图像生成的联合建模。具体步骤如下：
统一提示设计：在自回归模型中，输入用户的文本提示后，首先进行空间布局规划，获取布局条件，然后在此基础上生成图像。在此过程中，使用特殊标记来标识布局条件的开始和结束。
布局规划：通过最大化给定文本提示和之前生成的布局标记的条件概率，来优化布局生成的过程。该过程确保生成的布局与文本提示高度一致。
图像生成：在布局条件确定后，模型利用布局和文本提示来生成图像，最大化图像标记的条件概率。
图像布局理解：引入图像特征提取，通过分析真实图像的布局条件，提升模型对布局的理解能力，从而生成更符合布局条件的图像。
布局引导的图像操作：通过教师强制内容操作和负布局引导，PlanGen能够进行图像编辑，保持未编辑区域不变，减少生成伪影的风险。
为了验证PlanGen的有效性，进行了多项实验。首先，在布局规划方面，PlanGen与现有基础模型（如Qwen和Llama）进行对比，结果显示PlanGen生成的布局条件更为详细和具体，确保了生成结果与文本提示的一致性。在图像生成实验中，PlanGen展现出较低的FID值，表明其生成的图像质量优越。此外，PlanGen在布局到图像生成任务中，能够与其他主流模型（如GLIGEN和CreatiLayout）相媲美，尤其是在空间、颜色、纹理和形状等方面的评分均表现出色。通过多种定量指标（如PickScore和CLIPScore），进一步验证了PlanGen在布局理解和图像生成中的强大能力，显示出其在实际应用中的潜力。
PlanGen的工作原理可以简单理解为一个两步走的过程。首先，当你给出一个描述（比如“在商店里展示时尚衣物”），PlanGen会先想象出一个布局，决定每个物体在图像中的位置。这就像在画一幅画之前，先用铅笔勾勒出大致的轮廓。接下来，PlanGen会根据这个布局和描述生成最终的图像。这个过程非常灵活，因为它不需要特别的格式或编码，能够处理复杂的布局，确保生成的图像与描述一致。此外，PlanGen还可以通过调整图像的某些部分来进行编辑，比如删除某个物体而不影响其他部分，这让图像编辑变得更加简单和高效。
2025-03-13｜USTC,HKU,NUIST｜⭐️🟡
http ://arxiv. org/abs/2503. 10125v1
本研究探讨了如何利用多模态自回归（AR）模型进行以特定主体为驱动的图像生成。尽管现有的扩散模型在图像生成任务中表现出色，但我们发现AR模型在处理主体驱动的生成任务时存在明显的不足。为了解决这一问题，我们提出了Proxy-Tuning方法，该方法结合了扩散模型的优势，以增强AR模型在特定主体图像生成方面的能力。我们的实验表明，经过Proxy-Tuning的AR模型在主体保真度和提示遵循性方面优于其扩散模型的监督者。此外，我们还观察到一种显著的“弱到强”现象，即经过微调的AR模型在多个方面的表现持续超越其扩散模型监督者，特别是在多主体组合和上下文理解的任务中。
Proxy-Tuning方法的核心在于通过三个阶段来优化AR模型以实现主体驱动的图像生成。首先，我们对扩散模型进行微调，使其能够准确捕捉特定主体的特征。这一过程使用了一种参数高效的方法，称为LoRA（低秩适应）。其次，利用已经微调的扩散模型生成多样化的图像数据集，这些图像使用格式为“aS{category}”的提示进行生成，作为AR模型的代理训练数据。最后，我们在合成的数据集上对AR模型进行微调，进一步提升其对主体特征的学习能力，同时保持其更广泛的语义理解能力。通过这种方式，Proxy-Tuning有效地解决了直接微调AR模型所面临的挑战，使其能够在主体驱动的图像生成任务中表现出色。
在实验部分，我们采用了多种数据集和评估指标来验证Proxy-Tuning的有效性。实验使用了DreamBooth数据集，涵盖了九种主体，包括四种活体和五种非生物对象。我们为每种主体生成了25个独特的提示，并在测试阶段为每个提示生成了四张图像，形成了共225张的综合评估集。评估指标包括主体保真度和提示遵循性，分别通过CLIP-I和DINO度量。实验结果显示，经过Proxy-Tuning的AR模型在主体保真度和提示遵循性方面均显著优于传统的直接微调方法。此外，我们还进行了用户研究，以补充定量评估，结果表明Proxy-Tuning方法在图像质量、主体保真度和提示遵循性上均得到了参与者的高度评价。
Proxy-Tuning是一种增强图像生成模型的方法，主要分为三个步骤。首先，我们使用一种叫做LoRA的技术来调整一个基础的扩散模型，使其能够更好地理解特定主体的特征，比如一只狗。接下来，我们利用这个经过调整的模型生成多种与该主体相关的图像，这些图像将作为训练数据，用于训练更强大的AR模型。最后，我们在这些生成的图像上进一步训练AR模型，让它不仅能准确描绘主体的外观，还能理解与之相关的文字描述。这种方法的好处在于，它能够让AR模型在生成特定主体的图像时，表现得比传统方法要好，能够更好地遵循用户的提示。通过这种方式，Proxy-Tuning帮助模型在图像生成任务中实现更高的质量和准确性。
2025-03-13｜MPU,FZU,GreatBayU,SichuanU,SJTU｜⭐️🟡
http ://arxiv. org/abs/2503. 10112v1https ://github. com/Tear-kitty/MoEdit
MoEdit是一种新颖的多对象图像编辑框架，旨在解决在编辑多对象图像时的数量感知一致性问题。随着增强现实、广告设计和医疗成像等应用的兴起，多对象图像的高效编辑变得尤为重要。尽管现有的图像生成和编辑方法，如StableDiffusion，取得了一定的成功，但在处理多个对象时，往往无法同时考虑每个对象的独特性和整体图像的连贯性。MoEdit通过引入特征补偿（FeCom）模块和数量注意（QTTN）模块，能够在不依赖辅助工具的情况下，实现高质量的图像编辑和数量一致性，从而提升了编辑的视觉质量和可编辑性。实验结果表明，MoEdit在多对象图像编辑方面的性能达到了最先进的水平。
MoEdit的核心方法包括两个主要模块：特征补偿（FeCom）模块和数量注意（QTTN）模块。
特征补偿模块（FeCom）：此模块通过利用用户提供的文本提示，将对象和数量信息与CLIP编码的图像特征相结合，减少多对象之间的交错。它通过增强图像特征的区分性和可分离性，提取每个对象的属性，确保在编辑过程中保持高质量的细节。
数量注意模块（QTTN）：该模块在不依赖任何辅助工具的情况下，感知并保持数量一致性。它通过将每个对象的信息注入U-Net的特定块中，确保在编辑过程中有效控制对象的数量。这种方法使得模型能够理解数量、语义和图像结构之间的相互关系，从而实现高效的编辑性能和可编辑性。
在实验部分，研究团队使用PyTorch在NVIDIAA6000GPU上进行MoEdit的实现，并与多种现有方法进行比较。实验采用了SDXL作为基线模型，并利用预训练的CLIP模型作为图像编码器。团队对超过1200张包含3到14个对象的多对象图像进行了训练和评估，生成了大约3000张结果图像用于定量评估。实验中使用了六个客观指标（如NIQE、CLIPScore等）和两个主观指标（如用户满意度）来评估不同方法在数量一致性、视觉质量和可编辑性方面的表现。结果显示，MoEdit在所有客观指标上均表现优异，尤其在数量一致性和美学质量上具有显著优势。
MoEdit的工作原理可以简单理解为两部分：首先是特征补偿模块，它的任务是帮助计算机更好地理解图像中的每个对象。想象一下，当你用一张照片描述一个场景时，特征补偿模块就像一个助手，确保每个对象都被正确识别和描述，避免混淆。接着是数量注意模块，它的作用是确保在编辑图像时，计算机能够准确地保持每个对象的数量。例如，如果你想在图像中增加或减少某种动物的数量，这个模块能够帮助计算机理解你想要的具体数量，而不只是简单地改变图像。通过这两个模块的配合，MoEdit能够在编辑多对象图像时，确保图像的质量和内容都符合用户的期望。
2025-03-12｜CVCSpain,UAB,UdeValència,HIT｜⭐️⭐️
http ://arxiv. org/abs/2503. 09864v1https ://hecoding. github.io/colorwave-page
在文本到图像（T2I）扩散模型的研究中，尽管已经取得了显著的进展，但精确的颜色控制仍然是一个重要挑战。现有方法如ColorPeel需要模型个性化和额外优化，限制了任意颜色的灵活指定。本文提出了一种新方法ColorWave，旨在实现扩散模型中的RGB级颜色控制，而无需进行额外的训练或微调。通过系统分析IP-Adapter中的交叉注意力机制，研究发现文本颜色描述符与参考图像特征之间存在隐式绑定。利用这一发现，ColorWave重新配置这些绑定，以确保对目标对象的精确颜色归属，同时保持生成模型的能力和多样性。经过广泛评估，ColorWave在颜色准确性和适用性方面超越了以往方法，为结构化、颜色一致的扩散基础图像合成建立了新范式。
ColorWave的核心在于利用IP-Adapter框架中的语义属性绑定，从而实现精确的颜色控制。其方法步骤包括：
语义属性绑定：通过分析IP-Adapter的交叉注意力机制，识别视觉特征与文本描述符之间的隐式连接。这一绑定机制使得模型能够在生成图像时自动应用用户指定的RGB值。
自动颜色名称生成：根据用户指定的RGB值，自动确定最优的语言颜色描述符，形成从连续颜色空间到离散语言颜色类别的双向映射。
空间优先级添加：通过查询模型的目标对象位置，确保颜色信息准确应用于特定对象，从而解决颜色归属的模糊性问题。这一策略增强了生成图像的上下文一致性。
实验部分通过与现有方法ColorPeel进行比较，验证了ColorWave的有效性。采用的评估框架包括两个颜色生成任务：粗粒度和细粒度颜色集。粗粒度集包含四种基本颜色（红、绿、蓝、黄），而细粒度集则包含十八种特定颜色。所有实验均使用相同的提示语，生成200张粗粒度和360张细粒度图像。评估指标包括CIELab颜色空间中的欧几里得距离和均方误差（MAE），以量化生成图像与目标颜色之间的差异。结果显示，ColorWave在颜色准确性和生成质量方面显著优于其他训练自由的方法，并且在复杂场景中也保持了良好的性能。
ColorWave方法的核心在于如何让计算机理解并准确地生成我们想要的颜色。首先，它利用一种叫做“语义属性绑定”的技术，帮助计算机将图像中的颜色与我们用语言描述的颜色联系起来。比如，当我们说“红色”时，计算机会知道它应该生成什么样的颜色。其次，ColorWave会自动为我们指定的颜色找到合适的语言描述，这样计算机就能更好地理解我们的需求。最后，为了确保颜色被应用到正确的物体上，ColorWave会询问计算机目标物体的位置，从而避免颜色混淆。这种方法不仅提高了颜色控制的精确性，还保持了生成图像的质量和多样性，让我们在创作时更加灵活。
2025-03-12｜HKUST,HKUST(GZ)｜⭐️🟡
http ://arxiv. org/abs/2503. 09662v1https ://github. com/xie-lab-ml/CoRe/tree/main
CoRe2是一种新颖的推理框架，旨在提高文本到图像生成模型的效率和效果。该框架通过三个阶段：收集（Collect）、反思（Reflect）和精炼（Refine），实现了在多个生成模型（如SD3. 5、SDXL和LlamaGen）上的显著性能提升。CoRe2通过收集无分类器指导（CFG）轨迹，训练一个弱模型来捕捉易于学习的内容，从而减少推理过程中的函数评估次数。之后，利用弱到强的引导方式，精炼条件输出，增强模型生成高频和真实内容的能力。实验结果表明，CoRe2在多个基准测试中超越了许多现有的最先进方法，显示出其在生成质量和计算效率上的优越性。
CoRe2的核心方法分为三个阶段：
收集（Collect）：在这一阶段，CoRe2收集生成模型的CFG轨迹，以构建从条件输出到CFG输出的映射。该阶段的目标是获取易于学习的内容，同时减少推理时的计算负担。
反思（Reflect）：在反思阶段，CoRe2使用一个轻量级的弱模型来学习映射关系，专注于捕捉容易学习的内容。该弱模型的设计旨在保持与强模型之间的显著差距，以便后续精炼阶段能有效提升性能。
精炼（Refine）：最后，在精炼阶段，CoRe2利用W2S引导策略，结合快慢模式进行推理。快模式直接利用训练好的弱模型来快速生成输出，而慢模式则将CFG视为强模型，进一步提升生成内容的质量。这一设计使得CoRe2能够在保持生成质量的同时，显著减少计算延迟。
在多个基准测试中，CoRe2的表现优于传统的生成模型。实验使用了Pick-of-Pic、DrawBench和HPDv2等标准数据集，评估指标包括PickScore、HPSv2、AES和图像奖励。结果显示，CoRe2在生成图像的质量、语义一致性和计算效率上均有显著提升。例如，在SD3. 5和SDXL的测试中，CoRe2在保持较低GPU延迟的同时，提升了生成质量和细节表现。此外，CoRe2在LlamaGen上也展现出良好的适应性，能够应对出域挑战。实验还探讨了不同迭代次数和W2S引导比例对性能的影响，进一步验证了CoRe2的有效性和灵活性。
CoRe2的工作原理可以简单理解为一个三步走的过程。首先，在“收集”阶段，CoRe2会从生成模型中收集信息，帮助它理解如何生成更好的图像。接着，在“反思”阶段，CoRe2使用一个简单的模型来学习这些信息，专注于那些容易理解的部分。最后，在“精炼”阶段，CoRe2结合两种不同的推理方式来生成图像：一种快速、简单，另一种则更加复杂但能提供更高质量的结果。通过这种方法，CoRe2不仅能更快地生成图像，还能让生成的图像更加真实和细致。
2025-03-13｜NEU｜⭐️🟡
http ://arxiv. org/abs/2503. 10637v1https ://distillation. baulab.info
本研究探讨了在扩散模型中提炼多样性和控制能力的有效方法。尽管蒸馏模型在计算效率上具有显著优势，但它们通常会牺牲样本多样性。我们的工作揭示，尽管蒸馏模型在多样性方面存在缺失，但它们仍保留了基础模型的基本概念表示。我们提出了一种新的控制蒸馏方法，使得像ConceptSliders这样的控制机制可以无缝地从基础模型转移到蒸馏模型，反之亦然。通过这种方式，我们不仅恢复了蒸馏模型的多样性能力，还意外地超越了基础模型的多样性，同时保持了蒸馏推理的计算效率。
我们的方法包括三个主要部分：
控制蒸馏：通过将控制机制（如ConceptSliders和LoRA）从基础模型转移到蒸馏模型，来实现控制的有效提炼。这种转移不需要额外的训练，确保了模型的灵活性和适应性。
DT可视化：我们引入了一种新颖的可视化工具，称为DT可视化，旨在分析和调试扩散模型在生成过程中的表现。该工具帮助我们理解模型在每个时间步的决策过程，揭示了早期时间步对输出多样性的影响。
多样性蒸馏：我们提出了一种混合推理方法，结合基础模型和蒸馏模型的优点。在生成过程中，利用基础模型的初始关键时间步以确保结构多样性，然后切换到蒸馏模型进行高效的细节优化。
我们通过多种蒸馏模型变体（如SDXL-Turbo、SDXL-Lightning等）进行实验，评估控制机制的转移效果。实验结果显示，控制机制在基础模型与蒸馏模型之间的转移保持了高效性，且在不同蒸馏技术中效果一致。我们还通过DT可视化分析了生成过程中的模式崩溃现象，发现蒸馏模型在初始时间步迅速做出结构决策，导致输出多样性降低。通过对比不同模型生成的图像，我们的混合推理方法在多样性和计算效率之间取得了理想的平衡，表明我们的多样性蒸馏方法有效恢复了蒸馏模型的多样性。
在这项研究中，我们提出了一种新方法，旨在让图像生成模型在生成图像时既快速又多样。首先，我们发现尽管快速生成的模型（蒸馏模型）通常会生成相似的图像，但它们仍然保留了基础模型的基本概念。这就像是一个厨师在烹饪时，虽然使用了不同的调料，但依然保持了食材的本味。接着，我们设计了一种工具，可以在生成图像的过程中观察模型的“思考过程”，帮助我们理解它是如何决定最终图像的。最后，我们的混合方法利用基础模型的初始步骤来确保图像的多样性，然后再转向快速模型进行细节处理。这样，我们不仅让模型生成的图像多样性恢复到基础模型的水平，还保持了快速生成的优势。
2025-03-13｜USTC｜⭐️🟡
http ://arxiv. org/abs/2503. 10406v1https ://lyne1. github.io/RealGeneral/
RealGeneral是一个创新的框架，旨在通过将图像生成重新定义为条件帧预测任务，从而统一多种视觉生成任务。当前的视觉生成模型往往依赖特定任务的数据集和大规模训练，限制了其通用性。相比之下，RealGeneral借鉴了大型语言模型（LLMs）的成功，提出了两个核心模块：统一条件嵌入模块（UnifiedConditionalEmbedding,UCE）和统一流DiT块（UnifiedStreamDiTBlock），以实现多模态对齐和跨模态干扰的减轻。通过利用视频模型的时间相关性，RealGeneral能够在多个视觉生成任务上显著提升性能，具体而言，在定制生成任务中提升了14. 5%的主题相似度，并在边缘到图像的生成任务中提高了10%的图像质量。
RealGeneral的核心方法包括几个重要组件。首先，统一条件嵌入模块（UCE）负责融合多模态输入，确保条件图像和目标图像之间的语义对齐。该模块包含两个路径：一是针对特定主题的嵌入层，用于跨模态条件语义对齐；二是条件嵌入层，用于内部生成语义的区分。其次，分离条件自适应层归一化（SC-AdaLN）模块通过三个独立的分支来解决多模态条件之间的干扰，分别处理文本、条件帧和目标帧。最后，帧条件去耦合模块（FCD）采用注意力掩码，防止条件图像与文本之间的交互，从而确保生成的图像与输入条件之间的清晰关系。这些模块共同构成了RealGeneral的基础，使其能够高效地处理多种视觉生成任务。
在实验中，RealGeneral被评估在三个主要任务上：主题驱动的文本到图像生成、边缘到图像生成和深度到图像生成。每个任务旨在考察模型在不同输入条件下生成图像的能力。实验使用FLUX生成的图像对，确保高质量的输入数据。通过对比现有方法，RealGeneral在主题驱动生成任务中展示了更高的图像相似度，并在边缘到图像和深度到图像任务中表现出更好的结构理解能力。定量结果显示，RealGeneral在多个指标上超越了现有模型，特别是在CLIP-I和DINO分数上，表明其在生成图像的主题一致性和文本控制能力方面具有显著优势。
RealGeneral的工作原理可以简单理解为将图像生成看作一个时间序列的预测任务。想象一下，给定一张图像（条件图像），模型的任务是生成下一张图像（目标图像）。为了实现这一点，RealGeneral设计了几个关键模块来帮助模型更好地理解输入的内容。首先，统一条件嵌入模块将不同类型的输入（比如文字和图像）结合在一起，确保它们之间的关系清晰。接着，分离条件自适应层通过独立处理文本和图像信息，避免了信息混淆。最后，帧条件去耦合模块则确保生成的图像不会受到输入文本的干扰。通过这些方法，RealGeneral能更准确地生成高质量的图像，适应多种不同的生成任务。
2025-03-13｜NTU｜⭐️🟡
http ://arxiv. org/abs/2503. 10287v1
在深度生成模型的推动下，音频到图像生成已成为一个重要的跨模态任务，旨在将复杂的音频信号转化为丰富的视觉表现。然而，现有研究主要集中在单一音源的音频生成上，忽略了自然音频场景中的多源特性，限制了生成效果。为了解决这一问题，本文提出了MACS（Multi-sourceAudio-to-imageGenerationwithContextualSignificanceandSemanticAlignment），这是首个明确分离多源音频以捕捉丰富音频成分的音频到图像生成方法。MACS采用两阶段的方法，首先通过弱监督学习将多源音频输入分离，随后通过映射生成条件实现高效图像生成。实验结果表明，MACS在多个评估指标上优于现有的最先进方法，生成的图像质量显著提升。
MACS的核心是一个两阶段的架构。第一阶段是多源音频分离，使用弱监督的方法将混合音频分解为单独的音频信号。具体步骤如下：
音频信号转换：将混合音频信号转换为频谱图，利用短时傅里叶变换（STFT）。
U-Net模型：使用U-Net模型生成二元掩模，从而提取各个音频成分。
语义对齐：通过预训练的CLAP模型将分离的音频信号和文本标签嵌入到共享的语义空间，确保音频和文本之间的语义一致性。
排名损失：引入排名损失以考虑分离音频信号的上下文重要性，帮助模型识别和优先处理更重要的音频成分。
第二阶段是图像生成，利用去耦交叉注意力模块将音频嵌入转化为图像生成的条件输入。此模块有效融合多个音频信号，确保生成的图像在语义上与音频内容一致。
在实验中，MACS在多源、混合源和单源音频到图像生成任务上进行了广泛评估。使用LLP-multi和AudioSet-Eval数据集，实验结果显示MACS在17个评估指标中超越了现有的最先进方法。具体来说，MACS在FID、CLIP-FID和KID等指标上表现优异，表明其生成图像的质量和语义一致性显著高于其他方法。此外，实验还验证了MACS在处理复杂的多源音频场景时的有效性，生成的图像在视觉质量和内容保真度上均表现出色。通过与传统方法的对比，MACS的“分离再生成”策略被证明是提升生成效果的关键。
MACS的方法可以简单理解为一个两步走的过程。首先，我们需要把混合的音频信号分开，就像把不同乐器的声音从一首乐曲中提取出来。为了做到这一点，研究人员使用了一种叫做U-Net的模型，它可以分析音频信号的频谱，找到每个乐器的声音。接下来，分离出来的声音会被送入一个聪明的系统（CLAP模型），这个系统帮助我们确保每个声音和它的描述（比如“吉他声”）之间的联系是准确的。第二步是生成图像。这里，MACS使用了一种叫做去耦交叉注意力的技术，将所有分离的声音结合起来，生成一幅图像。这种方式不仅能确保图像与音频内容相符，还能让生成的图像更真实、更生动。