311-A1.1|基于ImageNet的文生图,图像生成与编辑(多模态指令驱动,手绘掩码引导),单图参考的ID保留面部图像编辑
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
AIGCResearch
主编|庄才林(CailinZhuang)技术支持|胡耀淇(YaoqiHu)|编辑支持|张奇佳(QijiaZhang)发布日期|2025年3月3日|周一
2025-02-28|LIX,LIGM,AMIAD|⭐️⭐️
http ://arxiv.org/abs/2502.21318v1
https ://lucasdegeorge.github.io/projects/t2i_imagenet/
在图像生成领域,文本到图像(T2I)生成模型通常依赖于大规模数据集以实现更好的性能。然而,本研究提出了一个不同的观点,认为通过战略性的数据增强,即使在相对较小的数据集(如ImageNet)上,也可以获得与大规模数据集相媲美的结果。研究表明,利用ImageNet及其经过精心设计的文本和图像增强方法,可以在GenEval和DPGBench基准测试中超越使用十倍参数和千倍图像的模型。此研究挑战了“越大越好”的传统观念,强调数据质量和效率的重要性,提出了一种更可持续的T2I生成路径。
本研究的方法主要包括两个方面的增强:文本空间增强和像素空间增强。具体步骤如下:
文本空间增强:使用LLaVA生成详细的描述性文本,将ImageNet的类标签转化为丰富的场景描述,克服了原始标签的简单性和局限性。
像素空间增强:引入CutMix技术,通过几何控制图像混合,创造出新的概念组合,同时保持图像的视觉一致性。具体实施包括四种混合模式,确保新生成的图像在视觉上具有连贯性。
训练过程:在训练过程中,结合正常图像和经过CutMix增强的图像,动态选择样本,以提高模型的学习效率和效果。
实验部分采用ImageNet数据集进行训练,评估模型的性能。使用两种模型架构(DiT-I和CAD-I)进行对比实验,并通过FID、P-R-D-C等多个指标评估生成图像的质量和多样性。实验结果显示,经过文本和图像增强的模型在GenEval和DPGBench上均取得了优异成绩,尤其在处理复杂的文本提示时表现突出。此外,模型在生成图像的准确性和多样性方面也显著提高,证明了数据增强策略的有效性。
在这项研究中,研究人员想要证明即使使用较小的数据集,也能训练出高质量的图像生成模型。为了做到这一点,他们采用了两种主要的增强方法。首先,他们使用一种叫做LLaVA的工具来生成更详细的图像描述,而不是简单的类名,这样模型能理解得更好。其次,他们使用了一种叫做CutMix的技术,将不同的图像部分结合在一起,创造出新的图像,同时保持其自然和连贯的外观。训练时,模型会随机选择正常图像和经过CutMix处理的图像,这样可以帮助模型学习得更快、更好。通过这些方法,研究人员的模型在多个测试上表现优异,证明了他们的想法是正确的。
2025-02-28|CAS,UCAS|⭐️🟡
http ://arxiv.org/abs/2502.21291v2
https ://github.com/Eureka-Maggie/MIGE
MIGE(MultimodalInstruction-basedImageGenerationandEditing)是一个统一的框架,旨在提升多模态指令驱动的图像生成与编辑能力。随着扩散模型的进步,尽管在图像生成领域取得了显著成就,但在特定任务如主题驱动生成和基于指令的编辑中仍然面临挑战。现有方法通常将这些任务分开处理,导致模型在高质量数据的获取和泛化能力上受限。MIGE通过引入共享的视觉和语义表示,利用联合训练的方式,旨在提升任务间的协同效应,从而实现更高的视觉一致性和指令遵循能力。通过标准化任务表示,MIGE为复杂的图像生成与编辑任务提供了一个统一的解决方案,尤其是在基于指令的主题驱动编辑任务中展示了其卓越的性能。
MIGE的核心在于其多模态编码器和条件输入设计。首先,多模态编码器将自由形式的多模态指令映射到一个统一的视觉-语言空间,整合了视觉和语义特征。具体方法包括:
特征融合机制:结合VAE(变分自编码器)和ViT(视觉变换器)提取的特征,以捕捉图像的细节与语义信息。
条件输入设计:通过将不同条件(如图像和文本)串联,使得模型能够在执行生成或编辑时保持清晰的任务区分。
联合训练策略:在多任务数据集上进行训练,以增强主题驱动生成和基于指令的编辑之间的协同作用,促进模型在处理复杂任务时的表现。
这些方法的结合使得MIGE能够在多种生成和编辑任务中实现更高的灵活性和准确性,尤其是在处理复杂的指令时。
MIGE在多项实验中表现出色,特别是在主题驱动生成和基于指令的编辑任务上。实验设计包括:
数据集构建:构建多模态指令数据集,涵盖主题驱动生成、基于指令的图像编辑及其组合任务。
性能评估:通过定量指标(如DINO和CLIP评分)评估模型在图像生成与编辑中的表现,MIGE在多个基准测试中均超越了现有的任务特定模型。
对比分析:与其他前沿模型进行对比,验证MIGE在主题保留和指令遵循能力上的优势。
结果显示,MIGE不仅在单一任务上表现优异,还在新兴的基于指令的主题驱动编辑任务中设立了新的性能标杆,展现出强大的综合能力。
MIGE是一个新型的图像处理工具,它可以根据用户的指示生成或编辑图片。简单来说,MIGE的工作原理可以分为几个步骤:
理解指令:当用户给出一条指令,比如“在这张图片上加一只猫”,MIGE会先把这条指令转化为机器能够理解的格式。
整合信息:它会同时提取图片中的视觉信息和指令中的语义信息,确保生成的结果既符合用户的要求,又保持图片的一致性。
生成或编辑:最后,MIGE会根据处理过的信息生成新的图片,或者对已有的图片进行修改,比如添加、替换或移除某个元素。
通过这种方式,MIGE能够灵活地处理各种复杂的图像生成和编辑任务,让用户可以轻松实现他们的创意想法。
2025-02-28|BUPT,THU,TeleAI,NWPU|⭐️🟡
http ://arxiv.org/abs/2502.20904v1
DiffBrush是一种新颖的图像生成与编辑框架,旨在通过用户的手绘草图实现对图像的精确控制。该方法与传统的文本驱动图像生成模型(T2I)相兼容,允许用户在没有额外训练的情况下,通过绘制粗略的实例掩码来引导生成过程。DiffBrush的核心在于它能够在图像生成过程中同时控制颜色、实例和语义信息,从而满足用户的特定需求。通过不断调整潜在和实例级的注意力图,在去噪过程中引导生成的图像趋向于用户的草图,DiffBrush有效地解决了文本描述与用户需求之间的差距。此外,DiffBrush的潜在再生机制进一步优化了随机采样的噪声分布,使得图像生成更加符合用户的期望。
DiffBrush的设计分为两个主要阶段:用户绘制阶段和图像生成阶段。在用户绘制阶段,用户输入文本描述并选择要绘制的实例及其属性,DiffBrush根据这些信息生成相应的草图。该阶段不要求用户绘制详细内容,只需确保颜色和形状大致正确。用户绘制的草图将被打包为三元组,包括绘图结果、掩码和相应的语义信息,供后续的图像生成阶段使用。在图像生成阶段,DiffBrush利用用户输入的三元组,通过三种能量函数(颜色引导、实例与语义引导、潜在再生)对生成过程进行指导。这些引导机制独立作用于每个实例,确保生成的图像在颜色、实例和语义上都能满足用户的要求。
为了验证DiffBrush的有效性,研究团队进行了多项实验,使用了ImageNet-R-TI2I数据集进行评估。实验设置确保公平性,DiffBrush的表现与现有的图像生成和编辑方法进行比较。研究者们采用了CLIP分数和LPIPS距离作为评估指标,前者用于衡量文本与图像之间的匹配程度,后者则用于计算两幅图像之间的结构和语义相似性。实验结果表明,DiffBrush在实例、语义和颜色控制方面的表现优于其他方法,特别是在用户绘制的情况下,DiffBrush能够更好地利用颜色和实例信息,生成符合用户需求的高质量图像。此外,研究还进行了消融研究,分析了不同引导机制对图像生成的影响,进一步验证了DiffBrush的有效性。
DiffBrush的工作原理很简单,可以分为两个步骤。首先,在用户绘制阶段,用户根据想要的图像输入一些文字描述,比如“一个红色的苹果和一个绿色的苹果”。然后,用户只需在画布上大致画出这些对象的轮廓,不需要画得很详细。DiffBrush会根据这些草图和文字描述生成相应的图像。接下来,在图像生成阶段,DiffBrush会根据用户的草图和文字描述来生成最终的图像。它会使用几种方法来确保生成的图像在颜色、形状和内容上都符合用户的要求。这种方法不仅省去了繁琐的训练过程,还能让普通用户轻松地创造出美丽的图像,真正实现了“用手绘画来创造艺术”。
2025-02-27|UTS(Sydney),SDUST|⭐️🟡
http ://arxiv.org/abs/2502.20577v2
InstaFace是一种新颖的基于扩散模型的框架,旨在实现面部图像的编辑,同时保持个体身份。传统的面部编辑方法通常需要多张图片,并且在处理时容易出现面部变形、身份偏移和不一致的发型等问题。针对这些挑战,InstaFace通过仅使用单张图像来生成高质量的面部图像,确保身份的保留。该方法的核心是一个高效的引导网络,结合3D形状模型(3DMM)条件,以实现对面部特征的精确控制。通过引入身份保护模块,InstaFace能够有效捕捉个体特征,确保生成图像在身份一致性和背景细节方面的自然性。实验结果显示,InstaFace在身份保留、图像真实感以及对姿态、表情和光照的有效控制方面优于多种现有技术。
InstaFace的实现分为两个主要阶段。第一阶段,模型从3D形状模型(3DMM)中学习条件属性和面部特征。通过DECA解码器,生成像素对齐的条件图,包括反照率图、表面法线图和朗伯特渲染图。这些条件图通过3D融合控制器转换为潜在空间表示,并与引导网络结合,以便在扩散过程中保留所需的面部特征。第二阶段,模型使用单一推理图像进行微调,确保身份的保留。在此阶段,结合CLIP和面部识别模型生成的特征嵌入,通过交叉注意机制与主扩散网络相结合,从而实现高保真度和细致的属性编辑。该方法的设计旨在高效地处理多种条件,而不需要额外的可训练模块,从而降低计算负担。
在实验部分,InstaFace与多种先进技术进行了比较,包括DiffusionRig和CapHuman等。实验使用FFHQ数据集进行训练,评估了身份保留和图像质量。通过定量指标,如LPIPS、SSIM和FID,评估生成图像的真实性和一致性。结果显示,InstaFace在各种条件下均表现出色,特别是在身份保留和细节保真度方面。实验还包括对微调阶段的分析,展示了如何通过单一图像实现精准控制。在特定的姿态、表情和光照条件下,InstaFace的生成图像展现了更高的自然性和一致性,验证了其优越的性能。
InstaFace是一种新技术,可以用一张照片来改变人脸的外观,同时保持这个人的身份不变。它的工作原理分为两个步骤。首先,它通过分析3D模型来了解面部的各种特征,比如皮肤颜色和面部形状,然后将这些特征转化为可以处理的数字格式。接着,它使用一个智能系统来确保在修改面部表情或姿势时,不会改变这个人的基本特征。第二步是微调,这意味着系统会根据一张特定的照片进行调整,以确保生成的图像看起来真实且与原始照片相似。通过这种方法,InstaFace能够在保持个人特征的同时,实现多种面部表情和姿势的变化,非常适合用于虚拟现实和个性化内容创作。