仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
AIGCResearch
主编|庄才林(CailinZhuang)技术支持|胡耀淇(YaoqiHu)|编辑支持|张奇佳(QijiaZhang)发布日期|2025年3月14日|周五
New!|为了更好的服务广大研究者与爱好者,未来,我们将陆续开源PaperDaily系列源文件至Github平台,欢迎大家持续关注!!!
2025-03-13|UIUC|⭐️🟡
http ://arxiv. org/abs/2503. 10638v1
本研究探讨了无分类器引导(classifier-freeguidance)在去噪扩散模型中的应用,提供了一个全新的分类器中心视角。尽管无分类器引导在文本到图像和文本到3D生成中广泛应用,当前对其机制的理解仍显不足。通过追溯到分类器引导的根源,研究者们发现分类器引导与无分类器引导在生成条件数据时的基本假设存在关键差异。具体而言,两者均通过推动去噪扩散轨迹远离决策边界来实现高质量的生成,但无分类器引导的实现方式存在一定的局限性。研究表明,分类器的准确性对生成质量具有显著影响,因此提出了一种基于流匹配的后处理框架,以缩小生成分布与真实数据分布之间的差距,从而提高生成结果的保真度。
研究的核心方法包括对分类器引导和无分类器引导的系统性分析,并提出了一种基于流匹配的后处理步骤。具体方法如下:
分类器引导的分析:通过对分类器引导的推导进行深入探讨,识别出其核心假设,并分析其对生成过程的影响。
无分类器引导的机制:探讨无分类器引导如何通过随机丢弃条件信息来模仿分类器引导的分解过程,并分析其在不同条件下的表现。
后处理框架:设计一种流匹配模型,以便在生成过程中调整样本分布,使其更贴近真实数据分布。该模型通过优化生成样本与真实样本之间的距离,提升生成质量,特别是在决策边界附近的低质量生成样本。
为验证提出的方法的有效性,研究者在多个数据集上进行了实验。实验设计包括:
数据集选择:选取合成的1D数据集和真实数据集(如MNIST),以评估不同引导策略的生成质量。
生成质量评估:通过比较生成样本与真实样本之间的距离,使用最近邻距离作为评估指标,验证后处理步骤的效果。
结果分析:实验结果显示,后处理步骤显著提高了生成样本的质量,尤其是在高引导规模下,生成样本的保真度得到了显著提升,生成结果更好地与条件信息对齐。最终,研究者总结了分类器引导和无分类器引导在生成过程中的表现差异,为后续研究提供了重要的理论基础。
在这项研究中,作者们想要理解无分类器引导的工作原理,并提出了一种新方法来提高生成图像的质量。首先,他们分析了如何使用分类器来帮助生成图像,并发现这在某种程度上是通过推动生成过程远离不确定的区域来实现的。接着,他们介绍了一种新的后处理方法,这种方法利用流匹配技术将生成的图像调整得更接近真实的图像。这就像是在画画时,先画出一个粗略的草图,然后再仔细调整,使得最终的画作更完美。通过在多个数据集上的测试,研究者们发现这种后处理方法确实能显著提高生成图像的质量,尤其是在那些容易出错的地方。总的来说,这项研究为如何更好地生成图像提供了新的视角和方法。
2025-03-12|SJTU|⭐️🟡
http ://arxiv. org/abs/2503. 09675v1https ://zhushangwen. github.io/LTC-accel. io/
在文本生成领域,扩散模型已显著提升了从文本描述生成高质量图像和视频的能力。然而,去噪过程的长时间采样依旧是实际应用中的主要瓶颈。现有方法多忽视相邻步骤之间的统计关系,或依赖特定网络结构的注意力机制和特征相似性。为了解决这一问题,研究人员发现了相邻步骤之间转移算子的统计关系,提出了一种新颖的加速方法——LTC-Accel。该方法基于相邻步骤的输出关系,能够在不依赖特定网络结构的情况下,广泛适用于几乎所有扩散模型,并与现有的加速技术兼容。实验结果表明,LTC-Accel在文本到图像和文本到视频的生成中显著加快了采样速度,同时保持了样本质量的竞争力。
LTC-Accel的核心在于利用局部转移一致性概念,该概念指出相邻步骤的转移算子之间存在强相关性。该方法的步骤包括:首先,通过定义转移算子来量化相邻步骤之间的关系;其次,确定加速区间,即在此区间内转移算子的角度变化较小;接着,利用相邻步骤的转移算子来近似当前步骤的转移算子,进而减少不必要的计算。在实现过程中,LTC-Accel不依赖于特定的网络架构,确保其广泛适用性。最后,算法采用动态调整的方式优化加速效果,通过根据预定义的偏差区间来提高生成图像的质量。整体而言,LTC-Accel在保持生成质量的前提下,显著提升了扩散模型的采样效率。
为验证LTC-Accel的有效性,研究团队进行了大量实验。首先,设定了标准的实验配置,包括基线模型和数据集,使用MS-COCO2017数据集的1000个随机提示进行评估。在文本到图像生成任务中,LTC-Accel在StableDiffusionv2和v3. 5模型上分别实现了1.67倍的加速,且生成质量保持在较高水平。此外,在文本到视频生成任务中,结合现有的加速方法,LTC-Accel显示出更高的兼容性,提升了视频生成的速度和质量。通过与其他加速方法的结合实验,结果表明,LTC-Accel能够在不牺牲生成质量的情况下,进一步提高采样效率,展示了其在实际应用中的广泛潜力。
LTC-Accel的方法可以简单理解为利用相邻步骤之间的相似性来加快图像和视频的生成过程。首先,研究人员发现,在生成过程中,每一步的输出与前一步的输出有很强的关联性。这意味着在某些步骤中,我们可以用前一步的结果来预测当前步骤的结果,从而减少计算量。具体来说,LTC-Accel会在每次生成时检查当前步骤与前一步的关系,如果这两者的变化很小,就可以直接使用前一步的结果来代替当前步骤的复杂计算。这样不仅节省了时间,还保持了生成结果的质量。通过这种方式,LTC-Accel让生成图像和视频的过程变得更快,更高效,适用于大多数现有的生成模型。
2025-03-12|BUPT|ICML2025|⭐️🟡
http ://arxiv. org/abs/2503. 09830v1
在高分辨率图像生成领域,文本到图像生成技术受到了广泛关注。然而,现有的去噪声技术在生成高分辨率图像时,往往会产生重复和混乱的图案。尽管一些研究尝试通过对齐去噪过程来提高生成质量,但根本原因仍未得到充分探讨。本文通过分析U-Net中的位置编码机制,发现高分辨率生成中的图像模式混乱源于位置编码的不一致性,主要因位置信息在卷积层中的传播不足所致。为了解决这一问题,研究人员提出了一种新的无训练方法——渐进边界补充(PBC)方法,该方法通过在特征图中创建动态虚拟图像边界,增强位置信息的传播,从而实现高质量和丰富内容的高分辨率图像合成。大量实验结果表明,该方法在生成高分辨率图像方面具有显著优势。
本研究提出的渐进边界补充(PBC)方法旨在改善U-Net中位置信息的传播,具体步骤如下:
引入虚拟边界:在特征图中增加虚拟边界,以增强边界区域与中心区域之间的位置编码传递。
单向零填充:在特征图的中心区域应用单向零填充,促进位置编码信息的有效传播,减少生成图像中的混乱。
分层虚拟边界:通过在特征图中分层放置多个虚拟边界,模拟位置编码信息的传播趋势,确保靠近边界的特征信息能够更好地影响生成结果。
随机扰动:在虚拟边界上施加随机扰动,以平滑过渡,减少因边界引入的视觉不连续性。通过这些方法,PBC能够有效扩展生成图像的边界,提升内容的丰富性和多样性。
为了验证所提方法的有效性,研究团队进行了大量实验,包括定量和定性分析。实验使用预训练的潜在扩散模型(LDM)进行高分辨率图像生成,评估生成图像的质量和内容丰富性。定量评估采用多个指标,如KID(内核图像距离)、IS(启发式评分)和HPS(人类偏好评分),结果显示PBC方法在这些指标上表现优异。此外,研究还通过消融实验探讨了虚拟边界数量对位置编码的影响,结果表明增加虚拟边界数量显著提高了生成图像的质量。定性结果展示了PBC生成的图像在细节和内容上相较于基线方法有显著提升,能够生成更复杂和丰富的视觉场景。
在这项研究中,科学家们想要解决一个问题:如何生成更清晰、更丰富的高分辨率图像。为了做到这一点,他们开发了一种新方法,叫做渐进边界补充(PBC)。这个方法的核心思路是通过在图像的特征图中添加一些“虚拟边界”,就像在画布上画出一些辅助线,帮助图像的各个部分更好地联系在一起。具体来说,研究人员在图像的中心区域使用了一种特殊的填充方式(单向零填充),让图像的边缘信息能够更有效地传递到中心区域。此外,他们还在虚拟边界上加入了一些随机变化,确保生成的图像看起来更自然,没有突兀的分界线。通过这些方法,PBC不仅能生成更高质量的图像,还能让图像中的细节更加丰富多彩。
2025-03-13|THU,CUHK|⭐️
http ://arxiv. org/abs/2503. 10103v1https ://github. com/weigerzan/LLE_inverse_problem
本文提出了一种改进的扩散模型逆算法,旨在解决在有限步数条件下的性能下降问题。扩散模型在处理复杂数据先验方面表现出色,但其迭代特性通常需要数百到数千次的推理步骤,这限制了其在实际应用中的有效性。研究中引入了一种统一的框架,将现有的扩散逆算法分解为三个关键模块:采样器、校正器和噪声添加器。通过这一框架,研究者们提出了“可学习线性外推(LLE)”方法,该方法能够有效提升任何符合该框架的扩散逆算法的性能。实验结果表明,LLE在多个算法和任务中均表现出一致的性能提升,展示了其在有限步骤下优化扩散逆算法的潜力。
为了解决扩散逆算法在有限步数下的性能问题,本文首先建立了一个统一的框架,将逆算法分为三个模块:采样器、校正器和噪声添加器。具体方法如下:
采样器:负责从预训练的扩散模型中生成干净样本。
校正器:利用观察值对样本进行修正,以确保与观察值的一致性。
噪声添加器:将修正后的样本映射回下一个噪声水平,为后续迭代做好准备。在此基础上,LLE方法通过学习线性组合系数,利用之前步骤的修正结果来优化当前步骤的估计。LLE的训练目标是最小化当前估计与真实样本之间的差异,并引入了分离的系数处理,以更好地捕捉观察矩阵的影响。这一方法不仅轻量且易于集成,适用于多种扩散逆算法。
本研究通过大量实验验证了LLE方法的有效性,涵盖了九种主流的扩散逆算法和五种不同的逆问题任务。实验使用了CelebA-HQ和FFHQ两个数据集,评估指标包括峰值信噪比(PSNR)、结构相似性指数(SSIM)和学习感知图像块相似性(LPIPS)。结果表明,LLE方法在不同步数下均显著提升了算法性能,尤其是在原算法表现不佳时,LLE能够带来更明显的改进。此外,实验还探讨了分离系数的优势,验证了在处理线性观察问题时,采用分离系数相较于单一系数的有效性,最终显示出LLE在多个任务中均具备优越的性能。
在这项研究中,研究者们希望解决一个常见的问题:当我们用扩散模型进行图像处理时,通常需要很多次的计算步骤,这让处理变得非常慢。为了让这个过程更快,他们提出了一种新的方法,叫做“可学习线性外推(LLE)”。这个方法首先将整个处理过程分成三个部分:生成图像的采样器、根据观察结果进行修正的校正器和添加噪声的噪声器。LLE的核心在于它会学习如何更好地结合之前的结果,以便在少量步骤内得到更好的图像。通过实验,研究者发现这个方法在许多不同的图像处理任务中都能显著提高效果,特别是在原本处理效果不好的情况下,LLE能够带来更明显的改善。
2025-03-13|UIUC|⭐️
http ://arxiv. org/abs/2503. 10636v1https ://hkchengrex. github.io/C2OT
本文探讨了条件流生成中的最优传输(OptimalTransport,OT)方法在处理条件生成时的性能下降问题。研究发现,OT在无条件生成中表现良好,但在引入条件后,生成效果显著恶化。原因在于OT未能有效考虑条件,导致训练和测试阶段之间的分布不一致,进而影响生成结果。为了解决这一问题,作者提出了条件最优传输流匹配方法(C2OT),该方法通过在成本矩阵中引入条件加权项,改善了条件生成的效果。通过一系列实验,C2OT在不同类型的条件生成任务中均表现出优越的性能,超越了传统的流匹配(FM)和最优传输(OT)方法。
C2OT方法的核心在于对条件的有效利用,具体步骤如下:
流匹配基础:采用流匹配(FM)作为生成模型的基础,流通过求解常微分方程(ODE)来生成样本。
条件引入:在训练过程中,结合输入条件c(如类别标签),调整流的生成路径,以确保生成样本与条件相符。
最优传输优化:通过最优传输技术,构建条件联合分布,确保在训练阶段生成的样本不受条件偏差影响。
条件加权项:在计算最优传输的成本矩阵时,引入条件加权项,以减轻条件引入后造成的训练和测试分布不一致问题。
自适应权重:针对超参数的选择,提出自适应权重寻找策略,简化了超参数调优过程,同时通过有效的OT批次过采样来提升生成效果。
实验部分通过对比C2OT与传统的FM和OT方法,验证了其在条件生成任务中的有效性。实验涵盖了二维合成数据集和高维图像数据集(如CIFAR-10和ImageNet)。在二维数据集的测试中,C2OT在生成样本的2-Wasserstein距离上表现出显著的优势,表明其生成流更为直线化,减少了生成误差。在高维图像生成中,C2OT同样展示了更好的生成质量,尤其是在少量采样步骤的情况下,显著提高了生成图像的条件一致性。实验结果表明,C2OT在不同条件类型(离散和连续)以及多种网络架构下均表现出色,验证了其广泛的适用性和优越的性能。
C2OT方法的核心思路是让生成模型在生成样本时更好地考虑输入条件。首先,模型会学习如何生成样本,并根据给定的条件(比如图像的类别或描述)来调整生成的路径。为了确保生成的样本与条件一致,C2OT在计算生成样本的过程中引入了一种新的方式,称为“条件加权项”。这就像在做一道菜时,根据不同的调料来调整味道,确保最终的菜肴符合预期的口味。此外,为了简化调节过程,C2OT还使用了一种自适应的方法来找到最合适的参数,从而提高生成效果。通过这些改进,C2OT在生成的样本质量和与条件的匹配度上都取得了显著的提升。
2025-03-13|CISPA|⭐️
http ://arxiv. org/abs/2503. 10549v1
随着人脸识别技术在政府和商业领域的广泛应用,隐私和公民权利的潜在滥用引发了严重关注。为了解决这些问题,研究人员提出了多种抗人脸识别(AFR)技术,旨在通过对人脸图像进行对抗性扰动来保护用户隐私。在众多方法中,基于生成化妆的对抗性方法尤为流行,但这些方法往往只能模仿特定目标身份,成功率较低,并可能引入明显的视觉伪影,从而影响生成图像的可用性。为了解决这些问题,本文提出了MASQUE,一个基于扩散模型的框架,它能够通过用户定义的文本提示生成局部的对抗性化妆效果。MASQUE通过精确的无文本反演、定制的交叉注意力融合以及使用相同个体图像的成对对抗指导机制,实现了在不需要外部身份的情况下,强大的隐私保护和视觉保真度。
MASQUE的设计旨在满足多个目标,包括高效的身份保护、局部修改和用户控制。具体方法包括以下几个方面:首先,用户通过文本提示定义化妆效果,系统使用无文本反演技术生成图像的潜在表示,确保图像结构和身份的准确重建。其次,MASQUE利用交叉注意力机制,将文本提示中的化妆属性嵌入到图像中,确保修改仅限于指定的面部区域,最大限度地减少对其他区域的影响。此外,成对对抗指导机制通过使用相同身份的引导图像,增强对抗性扰动的有效性,确保在不引入外部目标身份的情况下,成功迷惑人脸识别系统。最后,MASQUE在扩散过程的后期引入对抗扰动,以维持图像的整体质量和视觉一致性。
为验证MASQUE的有效性,研究团队进行了全面的实验,比较了其在隐私保护和视觉质量方面的表现。实验使用了CelebA-HQ和VGG-Face2-HQ两个数据集,评估了不同化妆风格下的对抗性化妆效果。主要评估指标为对抗成功率(DSR),实验结果显示,MASQUE在黑箱人脸识别模型中表现优异,达到了85. 50%的身份识别成功率和84. 92%的验证成功率。此外,MASQUE在视觉质量上也显著优于其他基准方法,表现在LPIPS、PSNR和SSIM等指标上均取得了较好成绩。通过对比实验,研究还探讨了不同超参数设置对模型性能的影响,进一步验证了MASQUE在局部化妆转移和用户控制方面的优势。
MASQUE方法的核心在于如何让用户通过简单的文本描述来创建个性化的化妆效果,而不需要任何参考图像。首先,用户输入想要的化妆风格,比如“红色口红”,系统会根据这个提示生成一个面部图像。接着,MASQUE会确保化妆效果只应用于面部特定区域,比如嘴唇,而不会影响到其他部分,比如眼睛或背景。这是通过一种叫做交叉注意力的技术实现的,它帮助系统识别哪些区域需要变化。为了确保生成的图像不仅看起来自然,而且能够有效地保护用户的身份,MASQUE还使用了一种成对对抗指导的方法,这意味着它会参考同一用户的其他图像来增强对抗性效果。最终,用户得到的图像既美观又能有效防止被人脸识别系统识别,保护了他们的隐私。
2025-03-13|UOulu,CUNY|⭐️
http ://arxiv. org/abs/2503. 10350v1https ://github. com/parham1998/Facial-Privacy-Protection
随着社交媒体的迅猛发展,个人肖像图片的广泛分享引发了严重的隐私风险,尤其是自动人脸识别(AFR)系统的应用日益普及,可能被未经授权的组织滥用。因此,保护人脸隐私变得尤为重要。近期的研究表明,扩散模型在生成对抗性人脸图像以保护隐私方面具有潜力,但现有方法受限于扩散净化效应,导致保护成功率(PSR)较低。本文提出了一种新方法,通过学习无条件嵌入来增强对抗性修改的学习能力,并引导对抗性潜在代码的修改,从而减弱扩散净化效应。我们的方法不仅保持了生成图像的结构一致性,还显著提高了保护效果,实验结果表明,该方法在两个公共数据集上的性能超越了现有的隐私保护技术。
本研究的方法包括几个关键步骤。首先,我们定义了目标,即生成一个能够隐匿原始身份的保护面孔图像。为此,我们采用了潜在扩散模型(LDM)进行对抗性潜在代码的优化。具体而言,方法分为两个主要阶段:第一阶段是学习无条件嵌入,目的是增强生成图像的质量和减弱扩散净化效应;第二阶段则是冻结第一阶段学习的嵌入,并对潜在代码进行修改,从而生成保护图像。我们通过最小化两个损失函数来实现这一目标:对抗损失确保身份隐匿,而结构保留损失则确保生成图像保留关键的结构特征。此外,利用自注意力机制来保持原始和生成图像之间的结构完整性,确保生成图像的高可视化质量。
为了验证所提方法的有效性,我们在CelebA-HQ和LADN数据集上进行了广泛的实验。实验中,我们使用了四种广泛应用的黑箱人脸识别模型进行评估。通过对比保护成功率(PSR)和图像质量指标(如FID、PSNR和SSIM),结果显示我们的方法在隐私保护方面表现优异,PSR较现有技术提高了约30%。此外,我们还对生成图像的视觉质量进行了定量和定性评估,结果表明,尽管在SSIM指标上略逊于某些方法,但在FID和PSNR上表现更佳,生成的图像更自然,且对抗性修改更加细致,避免了明显的噪声模式。
在这项研究中,我们开发了一种新方法来保护人们的面孔隐私。首先,我们的目标是生成一种新的人脸图像,这种图像看起来与原始图像相似,但可以有效地隐藏原始身份。我们使用了一种叫做潜在扩散模型的技术,分两个步骤进行:第一步,我们学习了一种特殊的嵌入方式,帮助我们生成更好的图像,并减少不必要的干扰;第二步,我们用这种嵌入来调整图像的细节,确保它既美观又能保护隐私。实验结果显示,我们的方法在保护隐私的同时,生成的图像质量也很高,给人一种自然的感觉,远比传统方法更有效。
2025-03-13|KAIST|ICLR2025|⭐️
http ://arxiv. org/abs/2503. 10081v1https ://github. com/JoonsungJeon/AdvPaint
随着扩散模型在生成高质量图像方面的卓越能力,恶意使用这些技术的风险也显著增加,尤其是在图像修复(inpainting)任务中。例如,攻击者可能会利用扩散模型将特定区域替换为名人的形象。尽管现有的防护措施主要针对图像到图像及文本到图像的任务,但针对未授权图像修复的保护研究却相对较少,导致保护效果不佳。为此,本文提出了一种新的防御框架——ADVPAINT,旨在通过生成对抗性扰动来有效干扰攻击者的修复任务。该框架专注于目标扩散修复模型中的自注意力和交叉注意力模块,以破坏模型的语义理解和交互过程。通过采用两阶段扰动策略,ADVPAINT能够增强在不同形状和大小遮罩下的鲁棒性,实验结果表明,其在干扰修复任务方面的表现优于现有方法。
ADVPAINT的核心在于生成对抗性扰动,以干扰扩散模型的注意力机制,从而保护图像不被恶意修复。具体而言,ADVPAINT的实施步骤如下:
对抗性攻击设计:针对交叉注意力模块,ADVPAINT通过最大化干扰查询向量与原始图像的差异,来破坏提示条件与图像特征之间的对齐。
自注意力模块干扰:同时,ADVPAINT还针对自注意力模块,最大化查询、键和值之间的差异,以破坏模型对图像语义和空间结构的理解。
分区扰动策略:该方法将图像分为前景和背景两个区域,并为每个区域应用不同的扰动。这一策略确保了即使在不同形状和大小的遮罩下,ADVPAINT也能有效保护图像。
优化过程:使用投影梯度下降(PGD)方法优化扰动,确保生成的扰动在视觉上不可察觉,从而实现有效的防护。
在实验中,作者使用了StableDiffusion的预训练修复模型来评估ADVPAINT的效果。通过收集100张公开图像并应用GroundedSAM生成不同形状和大小的遮罩,作者进行了一系列对比实验。实验使用了多种文本提示,验证了ADVPAINT在前景和背景修复任务中的有效性。结果表明,ADVPAINT在FID(FréchetInceptionDistance)、精确度和LPIPS(LearnedPerceptualImagePatchSimilarity)等指标上均优于现有方法,尤其是在处理复杂的遮罩时表现出更高的鲁棒性。此外,实验还探讨了ADVPAINT在实际应用中面对用户自定义遮罩时的有效性,显示出其在真实场景中的适用性。
ADVPAINT的工作原理可以简单理解为一种“保护伞”,它为图像生成过程中的修复任务提供了额外的防护。首先,ADVPAINT通过对图像的特定部分施加微小的“扰动”,来干扰生成模型的注意力机制,确保模型无法准确理解图像的内容。其次,它将图像分为前景和背景,分别施加不同的扰动,以增强保护效果。这样,即使攻击者试图替换图像中的某些部分,ADVPAINT也能有效阻止他们的操作。最终,经过一系列测试,ADVPAINT在保护图像方面的表现显著优于传统方法,显示出它在实际应用中的有效性。
2025-03-13|UPitt|⭐️
http ://arxiv. org/abs/2503. 10037v1
本研究探讨了文本到图像扩散模型在生成反刻板印象的动作关系时所面临的挑战。尽管这些模型在生成高质量的图像方面取得了显著进展,但它们往往倾向于生成常见的刻板印象,而不是准确反映用户的具体提示。研究表明,这一问题主要源于训练数据中的分布偏差,而非模型本身的固有限制。研究者提出了一种新颖的“角色桥接分解”框架,旨在通过逐步引导模型学习稀有关系,从而克服这一偏差。为验证这一假设,研究团队还开发了一个名为“ActionBench”的基准测试,专门用来评估模型在刻板印象和反刻板印象配置下的动作关系生成能力。实验结果显示,通过使用中间组成,模型在生成反刻板印象的动作关系上取得了显著的改善。
本研究的方法分为两个主要部分:角色桥接分解和基于组成损失的微调。首先,角色桥接分解将稀有组合重新构造成可学习的中间步骤,以帮助模型逐步掌握这些复杂的关系。具体来说,研究者设计了两种类型的中间组成:主动中间体(如“老鼠追逐男孩”)保留稀有主体的主动角色,而被动中间体(如“男孩追逐猫”)则保留稀有对象的被动角色。这些中间组成作为模型逐渐学习稀有组合的“垫脚石”。其次,基于组成损失的微调通过结构化的监督强化正确的角色绑定,确保模型在生成图像时能够准确反映提示中的动作关系。该方法不依赖复杂的外部模块或架构修改,而是通过选择有效的中间组成来引导模型学习,从而显著提升稀有组合的生成能力。
在实验部分,研究者使用“ActionBench”基准测试评估了多种文本到图像模型在生成反刻板印象动作关系时的表现。实验设计包括生成多达800幅图像,涵盖10种常见的动作关系,并对比了不同模型的表现。研究者采用自动化评估指标和人工评估相结合的方式,对模型在生成稀有组合时的准确性和质量进行了全面分析。实验结果表明,使用中间组成的微调方法在生成反刻板印象的动作关系方面表现优于现有的其他方法。不仅在自动化指标上取得了显著提升,人工评估的结果也显示出研究方法在生成质量和提示对齐度方面的优势。这些结果验证了通过结构化学习路径来解决文本到图像模型中的刻板印象偏差的有效性。
在这项研究中,研究者提出了一种新方法,帮助文本到图像的模型更好地生成不常见的画面,比如“老鼠追逐猫”。通常,这些模型更容易生成常见的画面,比如“猫追逐老鼠”,因为它们的训练数据中大多是这些常见的组合。为了帮助模型学习稀有的组合,研究者设计了一个分解过程,将复杂的关系分解成简单的中间步骤。比如,先生成“老鼠追逐男孩”,再慢慢让模型学习到“老鼠追逐猫”。这个过程就像是给模型铺了一条学习的道路,逐步引导它理解这些不常见的角色关系。此外,研究者还通过微调模型,使其在生成图像时更准确地反映出文本提示中的动作关系。这种方法不需要复杂的外部工具,只需利用模型本身的能力,便能显著提高生成的图像质量。
2025-03-12|TTI-Chicago,UBC,CMU,EmoryU,UPenn,IITH|⭐️
http ://arxiv. org/abs/2503. 09763v1
本文提出了一种名为BiasConnect的工具,旨在探讨文本到图像(Text-to-Image,TTI)模型中的偏差交互。尽管TTI模型在生成视觉内容方面表现出色,但它们往往继承并放大训练数据中的偏见。传统上,偏见被视为独立的维度,但实际上它们之间可能存在深刻的相互关系。例如,改善性别多样性可能会对年龄分布产生负面影响。为了理解这些交互作用并设计更公平的生成模型,BiasConnect利用反事实框架生成成对的因果图,揭示偏见交互的潜在结构。该工具不仅提供了量化偏见相互影响的能力,还能为偏见缓解策略的选择提供实证估计,进而帮助研究人员和开发者在不同TTI模型中有效识别和应对交叉偏见。
BiasConnect的核心方法包括以下几个步骤:首先,通过反事实提示生成模型的图像,以便分析偏见的影响。接着,使用视觉问答(VQA)模型提取生成图像中的偏见相关属性。基于这些属性,BiasConnect构建了一个交叉关系的因果图,表征不同偏见维度之间的相互依赖关系。随后,采用条件独立性测试来确认这些偏见之间的显著性联系,最终计算出交叉敏感性(IntersectionalSensitivity)指标,以量化干预一个偏见维度对其他维度的影响。该方法的优势在于它不仅能识别偏见之间的直接影响,还能揭示潜在的交互效应,从而为偏见缓解策略的制定提供科学依据。
在实验部分,研究团队使用了两个数据集进行BiasConnect的验证:职业提示数据集和TIBET数据集。通过对26个职业提示进行偏见评估,研究者们生成了48张图像,并分析了八个不同的偏见维度。实验结果显示,BiasConnect能够有效识别不同TTI模型中的偏见交互,并通过计算交叉敏感性来验证偏见缓解策略的有效性。此外,研究还展示了BiasConnect在多种开源TTI模型中的应用,识别出最佳的偏见缓解策略,并评估了模型生成的图像与现实世界数据之间的偏差。这些实验结果为BiasConnect的实用性和有效性提供了强有力的支持。
BiasConnect的工作原理可以简单理解为一个“偏见交互分析工具”。首先,它会根据输入的提示生成图像,然后通过提问的方式找出这些图像中存在的偏见,比如性别、年龄等。接下来,BiasConnect会查看这些偏见之间的关系,看看改变一个偏见(例如增加女性比例)是否会影响到另一个偏见(比如年龄分布)。通过这种方式,BiasConnect帮助我们理解不同偏见是如何相互影响的,进而帮助开发者选择最有效的偏见缓解策略。这就像是在做一个复杂的拼图,了解每一块如何影响整体,确保在改善某一方面时不会意外损害其他方面的公平性。
2025-03-12|KAIST,DeepAuto|CVPR2025|⭐️
http ://arxiv. org/abs/2503. 09669v1https ://silent-branding. github.io/
在文本到图像的扩散模型中,数据中毒攻击已成为一项重要的安全威胁。本文提出了一种新颖的“静默品牌攻击”方法,旨在通过对训练数据的微妙操控,使模型在生成图像时嵌入特定品牌标志,而无需任何文本触发。这种攻击利用了模型对重复视觉模式的学习能力,即使在没有明确提示的情况下,模型也能生成包含这些品牌标志的图像。我们的研究表明,经过这种数据中毒处理的模型在保持图像质量和文本一致性的同时,能够无缝嵌入目标品牌标志,从而在生成的内容中引发用户对品牌的偏好。这种方法不仅可能被用于商业目的,还可能带来伦理和安全方面的严重问题。
静默品牌攻击的实施依赖于一个全自动的数据中毒算法,该算法分为三个主要阶段:标志个性化、掩模生成和图像修复。首先,我们通过微调预训练的文本到图像扩散模型,使其能够生成目标品牌的标志。接着,使用一种掩模生成方法,识别出适合嵌入标志的位置。最后,通过图像修复技术,将标志无缝地嵌入到原始图像中。具体步骤包括:1)标志个性化阶段,使用小规模的标志图像集进行模型训练;2)掩模生成阶段,利用检测算法识别并生成标志的掩模;3)图像修复阶段,使用去噪过程将标志嵌入到图像中,并确保与原始图像的风格一致。该方法的创新之处在于,它不需要特定的文本触发即可实现目标标志的自然嵌入,从而提升了攻击的隐蔽性。
为验证静默品牌攻击的有效性,我们在两个现实场景下进行了广泛的实验:一个是大规模高质量图像数据集,另一个是风格个性化数据集。通过对8个未见标志和6个真实世界标志的测试,我们评估了攻击的成功率。实验结果显示,即使在没有特定文本触发的情况下,经过数据中毒处理的模型仍能高效生成包含目标品牌标志的图像。我们采用了人类评估和定量指标,包括标志检测算法,进一步验证了方法的隐蔽性和有效性。结果表明,经过攻击处理的模型生成的图像在质量和文本一致性上没有显著下降,且用户在生成的图像中频繁接触到品牌标志,这可能引发品牌偏好的“单纯暴露效应”。
在这项研究中,我们提出了一种新方法,可以在图像中悄悄嵌入品牌标志,而不需要任何特别的文字提示。首先,我们训练了一种模型,使其能够生成特定品牌的标志。接下来,我们使用一种技术来找到最合适的位置,将标志放入图像中。最后,我们通过一种修复方法,将标志自然地融入到图像中,确保它看起来就像是原本的一部分。这个过程分为三个步骤:首先是准备标志,然后是找到放置标志的位置,最后是将标志嵌入图像中。这个方法的关键是,它可以在没有任何文字提示的情况下,让模型自动生成带有品牌标志的图像,这使得这些品牌在用户生成的内容中显得非常自然。