318-A1.2|中英双语图像生成,虚拟试衣,手部图像生成,统一理解与生成系列(细粒度面部,SSM),图像“标记化”系列


318-A1.2|中英双语图像生成,虚拟试衣,手部图像生成,统一理解与生成系列(细粒度面部,SSM),图像“标记化”系列

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

AIGCResearch
主编|庄才林(CailinZhuang)技术支持|胡耀淇(YaoqiHu)|编辑支持|张奇佳(QijiaZhang)发布日期|2025年3月12日|周三
2025-03-10|ByteDance|⭐️🟡
http ://arxiv. org/abs/2503. 07703v1https ://team. doubao.com/tech/seedream
Seedream2. 0是一个新型的中英双语图像生成基础模型,旨在解决现有图像生成模型在文本渲染能力、文化理解及模型偏差等方面的不足。传统模型如Midjourney和Flux在处理多语言文本时表现有限,尤其是在中文文化的细腻表达上。Seedream2. 0通过先进的数据系统和自开发的双语大型语言模型(LLM),实现了高保真图像生成和准确的文化细节表达。其独特之处在于能够处理中文和英文的文本提示,支持双语图像生成,并在图像描述的准确性和丰富性上取得平衡。此外,Seedream2. 0经过多轮的后期训练优化,包括监督微调(SFT)和人类反馈对齐(RLHF),显著提升了模型的整体能力,尤其在美学、文本渲染和结构准确性等方面表现优异。
Seedream2. 0的方法论包括多个关键步骤,以确保模型的高效性和准确性。首先,数据预处理阶段通过数据组成、清洗和活跃学习引擎,构建出高质量、多样化的训练数据集。其次,模型的预训练采用扩散变换器架构,结合自开发的文本编码器和字符级文本编码器,确保文本与图像的良好对齐。文本编码器利用大型语言模型的优势,增强了对中文和英文的理解能力。此外,通过Glyph-AlignedByT5模型,Seedream2. 0能够灵活处理字符级文本渲染,确保生成文本的准确性。后期训练阶段则通过继续训练、监督微调和人类反馈对齐,进一步提升模型的美学表现和人类偏好的对齐程度。这一系列方法的结合,使得Seedream2. 0在多方面达到了行业领先的性能。
为验证Seedream2. 0的有效性,研究团队进行了广泛的实验。实验结果显示,该模型在多个评估维度上均表现出色,包括文本提示遵循、美学质量、文本渲染能力和结构准确性。通过与现有模型的对比,Seedream2. 0在图像生成的细节和文化表达上展现了显著优势。此外,模型在处理复杂中文提示和长文本内容时,能够生成高质量的图像,显示出其强大的双语能力。人类评估结果也表明,Seedream2. 0在用户偏好方面表现良好,ELO评分高于其他模型,证明了其输出与人类期望的高度一致性。这些实验结果为Seedream2. 0的实际应用奠定了坚实的基础,显示出其在设计、艺术创作等领域的广泛潜力。
Seedream2. 0的工作原理可以简单理解为几个步骤。首先,它收集了大量的图像和文本数据,确保这些数据的质量和多样性。接着,模型通过一个叫做扩散变换器的技术,将图像和文本结合起来,使其能够理解和生成与这两种信息相关的内容。为了让模型更好地处理中文和英文,它使用了一个强大的文本编码器,这个编码器可以从大量的中文和英文数据中学习,从而提高对这两种语言的理解能力。此外,Seedream2. 0还特别关注文本的渲染,比如如何在图像中准确显示文字。最后,通过多次训练和优化,模型能够生成既美观又符合人类审美的图像。这种方法让Seedream2. 0在图像生成领域表现得更加出色,尤其是在处理中文文化元素时,能够更好地捕捉到其中的细微差别。
2025-03-11|UMelbourne,USYD,MBZUAI|⭐️
http ://arxiv. org/abs/2503. 08650v1https ://zhenchenwan. github.io/MF-VITON/
MF-VITON是一种新型的虚拟试衣框架,旨在通过消除对用户提供的掩码的依赖,提升虚拟试衣的视觉质量和用户体验。传统的虚拟试衣技术(VITON)通常需要用户提供精确的掩码,以指示服装放置区域,但这往往导致图像中出现不自然的伪影和细节损失。MF-VITON通过引入一种双阶段的处理流程,仅依靠单一的人物图像和目标服装,生成高质量的合成图像。该框架的创新之处在于利用已有的基于掩码的模型生成多样化的训练数据集,并对这些数据进行微调,从而实现服装的无掩码传输。实验结果显示,MF-VITON在服装转移准确性和视觉真实感方面均超越了现有的基于掩码的方法,设立了新的性能基准。
MF-VITON的实现分为两个主要阶段。首先,在“基于掩码的训练和数据集生成”阶段,利用预训练的掩码模型生成高质量的人物与服装配对数据集。这些数据集通过多样化的背景增强了真实场景的表现。其次,在“无掩码的训练”阶段,使用生成的数据集对模型进行微调,以实现服装的转移而不依赖于掩码。该框架还引入了“输出为输入”(OFI)策略,利用基于掩码模型的输出作为无掩码模型的训练输入,增强模型对噪声的鲁棒性。此外,模型通过与参考网络的“即插即用”集成,提升了服装细节的保留和真实感,确保在各种复杂场景中仍能保持高质量的合成图像。
为了验证MF-VITON的有效性,研究团队在多个数据集上进行了广泛的实验,包括VITON-HD、DressCode以及自构建的“VITON-HDIn-the-Wild”数据集。实验评估分为定量和定性分析,主要关注基于掩码的方法在处理复杂场景时的局限性,以及MF-VITON在生成高质量试衣结果方面的表现。定量分析使用了多种指标,如LPIPS、SSIM、FID和KID,以评估生成图像的感知质量和真实感。在定性分析中,MF-VITON的输出与基准模型进行比较,强调其在服装合成、背景一致性和在复杂场景中的鲁棒性。此外,研究还探讨了OFI训练策略的有效性,结果表明该策略显著提升了模型在极端场景下的表现。
MF-VITON的工作原理可以简单理解为一个两步走的过程。第一步是通过已有的技术生成一个包含多种服装和人像的训练数据集,而这一步不需要用户提供任何掩码。这样可以减少用户的操作难度。第二步则是利用这个数据集来训练模型,使其能够在不依赖掩码的情况下,将目标服装自然地融入到用户的形象中。此外,MF-VITON还引入了一种叫做“输出为输入”的策略,这意味着模型在训练时会使用之前生成的图像作为参考,帮助它更好地学习如何处理真实世界中的各种情况。这种方法让虚拟试衣变得更加简单和真实,用户只需上传一张照片,就能看到自己穿上不同服装的效果。
2025-03-11|KAIST,KT|⭐️🟡
http ://arxiv. org/abs/2503. 08133v1
MGHanD(Multi-modalGuidanceforauthenticHandDiffusion)是一个新颖的框架,旨在解决文本到图像(T2I)生成中人手图像的真实感问题。尽管现有的扩散模型在生成高质量图像方面表现出色,但生成自然的人手图像仍然存在诸多挑战,例如手指数量不正确和形状畸变等。MGHanD通过在推理过程中引入多模态指导,结合视觉和文本信息,显著提高了人手生成的质量。该方法的核心在于使用一个训练好的判别器来提供视觉指导,同时利用LoRA适配器进行文本指导,确保生成的手图像在结构和细节上更加准确。此外,MGHanD采用累积手掩模技术,能够在扩散过程中逐步优化手部区域的生成,最终生成的手图像在视觉上更加自然且符合文本描述。
MGHanD的框架由三个主要部分组成:视觉指导、文本指导和累积手掩模。首先,视觉指导通过一个训练有素的判别器来实现,该判别器基于真实手部图像与生成图像的配对数据集进行训练,旨在提高手部细节的真实感。其次,文本指导使用LoRA适配器,能够从一般的描述(如“手”)转向更具体的描述(如“自然手”或“解剖学正确的手指”),在潜在空间中引导模型生成更精确的手部图像。最后,累积手掩模在扩散过程中逐步扩大,确保指导信息能够精确应用于手部区域,同时保持整体图像的风格和一致性。通过这种方式,MGHanD在不需要额外训练的情况下,优化了生成过程,使得生成的手图像在视觉质量和文本一致性上均有所提升。
在实验部分,MGHanD的性能通过定量和定性评估进行了全面验证。首先,研究团队创建了一个包含真实和生成手图像的定制数据集,并使用Mediapipe手检测模型来确保数据的质量。在定量评估中,MGHanD在生成图像的多样性和保真度上表现出色,使用FrechetInceptionDistance(FID)和KernelInceptionDistance(KID)等指标进行比较,结果显示其优于其他现有方法。此外,手部生成的信心和概率也显著高于对比模型,表明MGHanD在生成符合文本描述的手图像方面具有更高的准确性。在定性评估中,通过用户研究,参与者对MGHanD生成的图像在视觉质量和文本一致性上给予了更高的评价,进一步验证了该方法的有效性。
MGHanD的工作原理可以简单理解为一个结合了多种信息来生成更真实手图像的系统。首先,它使用一个专门的“检查员”模型,这个模型会对生成的手图像进行评估,确保手的细节符合真实情况。其次,它通过一种叫做LoRA的技术,允许系统在生成手图像时可以从简单的描述(比如“手”)变换到更详细的描述(如“自然的五指手”)。最后,MGHanD还使用了一种逐渐扩大的手部区域掩模,确保在生成手的过程中,其他图像部分不会受到影响,这样可以保持整体图像的美观和一致性。通过这种方法,MGHanD能够生成更自然的手图像,且这些图像与输入的文本描述更加吻合。
2025-03-11|PKU,CAS,CSU,THU,FDU,GDLAB|⭐️🟡
http ://arxiv. org/abs/2503. 08120v1
UniF2ace是首个专为细粒度面部理解和生成设计的统一多模态模型(UMM),旨在克服现有研究在面部领域的局限性。传统的面部理解主要集中在粗略的面部特征上,缺乏对细节的处理能力,同时生成能力也受到限制。为了填补这一空白,UniF2ace结合了图像理解和生成任务,通过引入两种互补的扩散技术和双层混合专家架构,显著提升了模型对细粒度面部属性的捕捉能力。研究中构建了一个名为UniF2ace-130K的大规模数据集,包含130K个图像-文本对和一百万个视觉问答对,覆盖了多种面部属性。通过理论上的创新,UniF2ace实现了图像和文本的统一嵌入,支持更为精细的面部特征学习和生成,为未来的人工智能发展奠定了基础。
UniF2ace的核心方法包括三个主要方面:数据集构建、生成策略和网络架构。首先,UniF2ace-130K数据集通过高质量的面部图像和详细的文本描述相结合,利用GPT-4生成多样化的视觉问答(VQA)对,涵盖多种面部属性。其次,在生成策略上,UniF2ace采用双离散扩散(D3Diff)损失,通过将分数匹配与掩蔽生成模型相结合,优化生成质量。最后,网络架构方面,UniF2ace引入了双层混合专家(MoE)结构,分为令牌级和序列级专家,分别处理图像和文本输入。这种设计不仅提高了模型的灵活性和可扩展性,还促进了细粒度面部特征的高效学习,确保了理解和生成任务的优异表现。
在实验中,UniF2ace在UniF2ace-130K数据集上进行了全面评估,验证其在面部理解和生成任务中的性能。通过与现有的最先进模型(如LlamaGen、StableDiffusion等)进行比较,UniF2ace在多个指标上都表现出色,包括VQA分数、FréchetInception距离(FID)和VLM分数。具体而言,UniF2ace在生成任务中生成的图像与文本描述的相关性显著高于其他模型,同时在理解任务中也展现出更强的细节捕捉能力。实验结果表明,UniF2ace不仅在同参数规模模型中表现优异,还在大规模模型中达到了可比的性能,证明了其在细粒度面部理解和生成领域的潜力。
UniF2ace的工作原理可以简单理解为一个智能系统,它能够同时理解和生成关于人脸的详细信息。首先,它使用一个特别制作的数据集,里面包含了大量的脸部图片和相关描述,帮助模型学习如何识别和描述面部特征。接着,UniF2ace采用了两种不同的生成技术,让模型在生成图像时更准确。最后,模型的架构设计得非常聪明,分为不同的部分来处理不同的任务,比如理解图片和生成描述,这样可以更高效地学习和处理面部细节。总的来说,UniF2ace就像一个多才多艺的艺术家,既能理解别人说的内容,又能根据这些内容创作出精美的脸部图像。
2025-03-11|HUST,HorizonRobotics|⭐️🟡
http ://arxiv. org/abs/2503. 08686v1https ://github. com/hustvl/OmniMamba
OmniMamba是一种新型的统一多模态生成模型,旨在同时处理文本和图像生成任务。与现有的统一模型相比,OmniMamba在数据效率和推理速度上表现出色,训练仅需200万对图像-文本数据,显著低于其他模型所需的大规模数据集。该模型基于Mamba-2架构,采用线性计算复杂度的状态空间模型,克服了传统Transformer模型的二次复杂性问题。OmniMamba的设计引入了两项关键创新:解耦词汇和任务特定的LoRA模块,以提高模型在多模态理解和生成任务上的表现。此外,OmniMamba还采用了两阶段的训练策略,有效缓解了理解与生成任务之间的数据不平衡问题,从而实现了更高效的训练和推理。
OmniMamba的核心架构采用统一的下一个标记预测范式,支持文本和图像的生成。其方法主要包括以下几个方面:首先,解耦编码器设计,分别为多模态理解和图像生成任务使用不同的编码器,以满足各自的需求;其次,解耦词汇的使用,模型为每种模态设定独立的词汇表,从而避免了模态混淆,提高了生成的准确性;再次,任务特定的LoRA模块被引入到每个Mamba-2层的输入投影中,以实现参数高效的适应;最后,采用两阶段的训练策略,首先独立训练多模态理解和文本到图像生成模块,然后进行统一微调,确保模型能够同时优化这两项任务的性能。
在实验中,OmniMamba在多个多模态理解基准上进行了评估,结果显示其性能超过了Show-o模型,并与JanusFlow相媲美。具体来说,OmniMamba在训练过程中仅使用了200万对图像-文本数据,显示出优秀的训练效率。在视觉生成任务中,OmniMamba在MS-COCO数据集上表现突出,达到了最佳的FID评分。此外,在推理速度和GPU内存使用方面,OmniMamba表现出色,实现了高达119. 2倍的速度提升和63%的内存减少,尤其在处理长序列生成时,展现了其在实际应用中的优势。通过一系列消融实验,进一步验证了解耦词汇和任务特定LoRA模块对模型性能的积极影响。
OmniMamba的工作原理可以简单理解为一个聪明的“翻译器”,它能够同时处理文字和图像。首先,它有两个“翻译助手”:一个专门处理文字,另一个专门处理图像。这样可以确保每个助手都能专注于自己的任务,避免混淆。其次,OmniMamba使用了不同的词汇表,确保在生成图像时不会误用文字的词汇。为了让模型更聪明,它还引入了任务特定的辅助工具,这些工具能帮助模型更好地理解和生成内容。最后,OmniMamba采用了两阶段的训练方法,先分别训练这两个助手,然后再让他们一起工作,这样可以提高整体的表现。总之,OmniMamba通过这些聪明的设计,使得处理多模态内容变得更加高效和准确。
2025-03-11|OPPO,NKU,THU|⭐️⭐️
http ://arxiv. org/abs/2503. 08377v2https ://github. com/
Layton是一种创新的图像标记器,旨在通过仅使用256个离散视觉标记,实现1024×1024像素图像的高效重建与生成。该方法结合了预训练的潜在扩散模型(LDM)和自回归模型,克服了现有技术在高分辨率图像生成中的效率与保真度之间的矛盾。Layton通过引入潜在一致性解码器(LCD),使得图像重建过程中的颜色和亮度差异得以修正,并将多步骤采样减少到1-2步,从而实现了更直接的像素级监督。实验结果表明,Layton在图像重建方面的表现优于传统方法,尤其在MSCOCO-2017基准测试中,Layton达到了10. 80的重建FrechetInceptionDistance(rFID)得分,显示出其在高保真度重建和生成方面的强大能力。
Layton的核心方法包括三个主要组成部分:变换器编码器、量化代码本和潜在一致性解码器(LCD)。具体步骤如下:
潜在扩散重建:Layton的设计思路是通过LADD(潜在扩散解码器)来预测图像的潜在表示。首先,使用变分自编码器(VAE)将原始图像转换为潜在代码,并通过扩散过程生成潜在表示。
像素重建:采用扩散损失来训练LADD,以促使解码器重构出与原始图像相似的结果。为了改善颜色和亮度的一致性,Layton引入了像素重建损失,确保生成的图像与原始图像在视觉上更为接近。
文本到图像生成:Layton还扩展到文本到图像生成,通过自回归模型来预测图像标记。该模型接受文本输入,并生成相应的图像标记序列,最终通过解码器将其转换为高质量图像。
在实验部分,Layton在多个基准数据集上进行了广泛的评估,包括ImageNet和MSCOCO-2017。通过与现有的图像生成模型(如VQGAN和LlamaGen)进行比较,Layton在多个指标上均表现出色。在图像重建方面,Layton-H在MSCOCO-2017上取得了10. 80的rFID分数,显著优于其他模型。此外,在文本到图像生成的GenEval基准测试中,LaytonGen达到了0. 73的得分,超越了当前的最先进方法。实验还表明,Layton在生成高分辨率图像时,能够有效降低采样步骤,从而减少计算资源的消耗,同时保持图像的细节和质量。
Layton方法的核心在于如何高效地处理和生成图像。首先,它将图像转换为一种更简单的格式,只用256个标记来代表一个完整的1024×1024像素图像。这就像用少量的拼图块拼出一幅大画。然后,Layton会通过一种叫做潜在一致性解码器的工具,确保生成的图像颜色和亮度与原始图像一致,避免了常见的视觉瑕疵。最后,Layton还可以根据文本描述生成图像,利用自回归模型来逐步预测图像中的每个标记。这种方法不仅提高了图像的质量,还大大减少了生成图像所需的计算资源。
2025-03-11|HKU,UEdinburgh,HuaweiNoah’sArkLab,ICL(Imperial)|⭐️🟡
http ://arxiv. org/abs/2503. 08685v1https ://visual-gen. github.io/semanticist/
本研究提出了一种新颖的视觉标记化框架,名为SEMANTICIST,该框架通过引入可证明的主成分分析(PCA)结构,优化了图像的标记化过程。传统的视觉标记器往往专注于提高重建精度,而忽视了潜在空间的结构特性,这对解释性和后续任务至关重要。SEMANTICIST通过生成一维因果标记序列,使得每个后续标记提供非重叠的信息,从而有效提取图像的显著特征。实验结果表明,该方法在图像重建和生成任务中表现出色,超越了现有的最先进方法,且对人类视觉系统的理解和解释能力有更好的对齐。
SEMANTICIST的核心在于其标记化过程和潜在空间的结构设计。具体方法包括:
一维因果标记序列生成:通过将图像编码为一系列因果标记,确保每个标记依次贡献信息,形成一个有序的标记序列。
动态嵌套无分类器引导(CFG)策略:在训练过程中,逐步引导标记的生成,确保早期标记捕获最重要的语义特征。
扩散解码器:使用扩散模型逐步重建图像,从低频到高频,避免语义和频谱信息的纠缠。
PCA-like结构的引入:通过引入PCA-like结构,确保标记的重要性逐渐降低,从而形成一种粗到细的标记层次结构,优化信息的捕获和重建过程。
在实验中,SEMANTICIST在ImageNet数据集上进行了评估,采用256×256的分辨率进行图像重建和生成。结果显示,该方法在FID(FréchetInceptionDistance)和IS(InceptionScore)等指标上均优于当前最先进的图像标记器。具体而言,SEMANTICIST在重建任务中相较于前一最优模型提升了近10%的FID分数。此外,通过使用仅32个标记进行训练和推理,SEMANTICIST仍能实现与最先进的生成模型相当的性能,显示出其在高效生成和重建方面的潜力。
在我们的研究中,我们提出了一种新的方法来处理图像,这种方法可以将图像转化为一系列简单的标记,就像把复杂的句子拆分成一个个单词一样。我们的系统会先提取出图像中最重要的部分,然后再逐步添加细节。这个过程就像是先画出图像的大致轮廓,然后再慢慢填充颜色和细节。我们使用了一种叫做扩散的技术,让计算机能够从简单的标记逐渐“恢复”出完整的图像。通过这种方式,我们不仅能更好地理解图像的内容,还能在生成新图像时保持高质量。总的来说,我们的方法让图像处理变得更高效、更智能。
2025-03-11|CMU,AdobeResearch,UMichigan,MBZUAI|⭐️
http ://arxiv. org/abs/2503. 08354v1https ://github. com/lxa9867/ImageFolder
本研究提出了一种名为RobustTok的图像生成新方法,旨在提升自回归(AR)生成模型在离散潜在空间中的生成质量。传统的图像生成方法依赖于预构建的潜在空间和固定的图像标记器,但现有评估指标未能准确反映标记器的表现与生成质量之间的关系。研究分析了重建与生成质量之间的差异,并提出了一种新的标记器训练方案,通过潜在扰动方法模拟采样噪声,从而增强标记器的鲁棒性。通过广泛的基准测试,验证了RobustTok在图像生成质量和收敛速度方面的显著提高。
研究提出的RobustTok方法包含以下几个关键步骤:
潜在扰动方法:通过引入潜在扰动,模拟自回归模型在推理过程中可能遇到的采样错误。这种方法旨在增强潜在空间的鲁棒性。
新的评估指标:引入了PerturbedFID(pFID),该指标专门用于评估离散潜在空间的鲁棒性,并能有效预测下游生成模型的表现。
标记器训练方案:采用插拔式的训练方案,结合潜在扰动和语义正则化,以确保标记器在生成过程中保持高质量的重建能力,同时提升生成模型的整体性能。
实验设置:在多个自回归生成模型上进行广泛的实验,以验证RobustTok在不同标记器和生成模型条件下的有效性。
实验部分使用256×256的ImageNet数据集,评估了11种流行的标记器在多种代码本大小下的性能。通过对比不同标记器的生成质量,发现RobustTok在生成任务中表现优异,显著降低了生成FID(gFID)值。此外,研究还进行了消融实验,以确定最佳的扰动超参数选择,结果显示适度的扰动比例能有效提升模型的重建能力和生成质量。通过对比rFID与pFID的相关性,发现pFID更能准确反映标记器的性能,提供了新的评估视角。最终,RobustTok在多个基准测试中表现出色,证明了其在图像生成领域的潜力。
在这项研究中,科学家们开发了一种新的图像生成工具,叫做RobustTok。这个工具的工作原理是通过模拟在生成图像时可能出现的错误,来帮助提高生成的图像质量。具体来说,研究者们引入了一种叫做“潜在扰动”的方法,这就像是在生成图像时故意让一些数据变得模糊,以确保模型能更好地处理这些变化。为了测量这种方法的效果,他们还创造了一种新的评估标准,称为pFID,这样可以更准确地判断生成的图像质量。通过在多个实验中测试,RobustTok显示出比传统方法更好的表现,证明了它在生成高质量图像方面的有效性。


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录