318-A1.3|潜在CLIP,向量量化,改善图文对齐,视觉文本编辑,文本驱动低光图像增强;扩散模型系列;安全系列
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
AIGCResearch
主编|庄才林(CailinZhuang)技术支持|胡耀淇(YaoqiHu)|编辑支持|张奇佳(QijiaZhang)发布日期|2025年3月12日|周三
2025-03-11|NEU,LeonardoAI,KIT,EPFL|⭐️🟡
http ://arxiv. org/abs/2503. 08455v1https ://github. com/
本研究提出了一种新颖的模型——Latent-CLIP,它能够直接在潜在空间中进行图像处理,避免了传统方法中必须将潜在图像解码为像素空间的步骤。Latent-CLIP基于2. 7亿对潜在图像和描述性文本的训练数据,旨在高效地评估和生成图像,特别是在文本条件下的去噪过程。通过将CLIP模型调整为适应潜在空间,研究表明,Latent-CLIP在多个下游任务中表现出与其像素空间对应模型相当的性能,同时显著降低了计算成本。该方法不仅提升了生成图像的质量,还增强了生成过程的安全性,特别是在过滤不当内容方面。
Latent-CLIP的设计分为几个关键步骤。首先,模型在潜在空间中直接处理图像,而不是依赖于VAE解码。具体方法如下:
潜在空间嵌入:通过VAE将高分辨率图像压缩为低维潜在图像,Latent-CLIP能够在这一空间中进行操作。
模型训练:Latent-CLIP使用对比学习的方式,训练两个编码器,一个处理潜在图像,另一个处理文本描述,学习两者之间的相似性。
奖励函数:在基于奖励的噪声优化(ReNO)框架中,Latent-CLIP生成的奖励函数用于评估生成图像的质量,优化过程不再需要解码步骤。
安全性优化:通过引入负奖励,Latent-CLIP能够有效引导生成过程,避免生成不适当内容。
本研究通过三个实验评估Latent-CLIP的性能:零-shot分类、ReNO增强生成和安全性应用。在零-shot分类任务中,Latent-CLIP在ImageNet数据集上表现出色,准确率与像素空间模型相当。在ReNO评估中,Latent-CLIP显著减少了生成时间,达到21%的效率提升。安全性应用方面,Latent-CLIP通过直接在潜在空间中进行内容过滤,成功降低了不当内容生成的概率。实验结果表明,Latent-CLIP在多个维度上超越了传统模型,展示了其在图像生成和处理领域的潜力。
Latent-CLIP是一种新型的图像处理工具,它能够直接在图像的“潜在空间”中工作,而不是先将图像转换成我们常见的像素格式。这就像在一个更小、更简洁的空间中进行操作,节省了很多不必要的步骤。它首先通过一个压缩模型把高质量的图像变成一种简化的格式,然后通过学习,把图像和对应的文字描述联系起来。这样,当我们想生成图像时,Latent-CLIP可以快速评估生成的效果,甚至在生成过程中避免产生不适当的内容。通过这种方法,Latent-CLIP不仅提高了生成图像的速度,还保持了图像的质量,确保生成的内容是安全的。
2025-03-11|ZJU,VIVO|⭐️
http ://arxiv. org/abs/2503. 08668v1
随着深度神经网络(DNN)在各类计算机视觉任务中的广泛应用,模型参数的快速增长带来了对内存和计算资源的巨大挑战。为了解决这一问题,向量量化(VectorQuantization,VQ)作为一种有效的权重压缩技术,能够在极端压缩场景中显著降低量化误差。然而,传统的VQ在微调阶段的有效性受到压缩格式的限制,使得许多量化权重无法沿着其局部梯度信息的方向进行更新。为此,本文提出了一种新颖的向量量化范式——符号分离向量量化(Sign-SplittingVQ,SSVQ),通过将权重的符号位与码本解耦合,旨在提升量化模型在微调过程中的准确性与压缩率。通过对未压缩权重的符号位进行提取,并对所有正值权重进行聚类与压缩,SSVQ在多个现代模型和任务上展示了优越的压缩效果。
SSVQ方法的核心在于对权重符号的处理与码本的优化。具体步骤如下:
符号提取:从未压缩权重中提取符号位,形成一个1位的符号掩码(signmask)。
聚类与压缩:对权重的绝对值进行k-means聚类,以减少所需的码字数量,从而实现更高效的压缩。
学习符号位:引入可学习的符号位参数,通过联合优化符号位与码本,提升模型在微调过程中的灵活性。
迭代冻结策略:为了解决符号位在训练过程中的振荡问题,提出了一种增强的迭代冻结策略,确保训练的稳定性。该策略通过记录符号位的变化频率,决定何时冻结符号位,以维持模型的学习能力。
为验证SSVQ的有效性,本文进行了广泛的实验,包括图像分类、目标检测、语义分割和图像生成等任务。实验结果表明,SSVQ在多个现代模型上均显著优于传统的VQ和均匀量化(UniformQuantization,UQ)方法。例如,在ImageNet分类任务中,SSVQ在21倍压缩率下,相比于基线VQ实现了12%的准确率提升。此外,在COCO2017数据集上的目标检测和实例分割任务中,SSVQ也展现了4-5%的mAP提升。通过硬件模拟,SSVQ还实现了3倍的推理加速,证明了其在实际应用中的可行性和高效性。
SSVQ的工作原理可以简单理解为对神经网络权重的“聪明压缩”。首先,它把每个权重的“符号”分开处理,这样就可以灵活地调整权重的方向,而不是强迫它们以相同的方式更新。接着,SSVQ会把所有正值权重进行聚类,减少需要存储的码字数量,这样就能更高效地压缩数据。为了让模型在训练时更稳定,SSVQ还引入了一种“冻结”机制,允许某些符号在训练过程中保持不变,以避免不必要的波动。这种方法不仅提高了压缩的效果,还能在保持模型性能的同时,加速推理过程,适合在资源有限的边缘设备上运行。
2025-03-11|KAIST|⭐️
http ://arxiv. org/abs/2503. 08250v1https ://softrepa. github.io/
在这项研究中,提出了一种名为SoftREPA的新方法,旨在改善文本与图像之间的对齐,尤其是在生成模型中。尽管现有的扩散模型在文本与图像对齐方面取得了显著进展,但仍存在一定的误差。传统的方法通常依赖于固定的文本和图像配对,而SoftREPA通过引入轻量级的对比学习策略,利用可学习的软文本标记,显著提高了对齐效果。该方法仅需少量的可训练参数,且有效地提升了文本与图像表示之间的互信息,从而增强了多模态表示的语义一致性。研究的结果表明,SoftREPA在文本到图像生成和基于文本的图像编辑任务中均表现出色,展示了其在多个预训练生成模型中的灵活性和有效性。
SoftREPA的方法论主要包括以下几个关键步骤:首先,采用对比学习框架,利用正负样本对来优化文本与图像的对齐。具体而言,SoftREPA引入了一种轻量级的微调策略,称为软文本标记。这些标记在模型的不同层中动态调整文本表示,使其与生成的图像更好地匹配。其次,模型通过对比损失函数来训练软文本标记,该损失函数旨在最大化语义相关的文本-图像对之间的相似性,同时最小化不相关对之间的相似性。最后,通过对比文本和图像的条件流匹配,进一步优化生成过程,使得生成的图像能够更准确地反映文本描述。该方法的设计确保了在保持生成质量的同时,显著提高了文本与图像之间的对齐效果。
在实验部分,研究者使用了多个开源的文本到图像扩散模型,包括StableDiffusion1. 5、XL和3,以验证SoftREPA的有效性。实验设定包括使用COCO数据集进行文本到图像生成,并通过人类偏好评分、文本-图像对齐指标以及图像质量评估等多种方式评估生成结果。结果显示,应用SoftREPA后,生成的图像在文本对齐和图像质量方面均显著优于基线模型。此外,在基于文本的图像编辑任务中,SoftREPA同样表现出色,能够更有效地捕捉文本和图像之间的联合分布。通过对比不同参数设置和模型架构的实验,研究者进一步探讨了软文本标记的层数和长度对生成质量的影响,结果表明适当的标记长度和层数能够有效提升文本-图像对齐性能。
SoftREPA的方法可以简单理解为一种智能“翻译工具”,帮助计算机更好地理解文本和图像之间的关系。首先,它通过引入一种叫做“软文本标记”的新概念,允许模型在生成图像时灵活地调整文本的表示。这就像在写作时,作者可以根据读者的理解来调整语言风格。其次,SoftREPA使用对比学习的方法,像是在进行一个比赛,让相关的文本和图像更接近,而让不相关的文本和图像远离。这样,模型就能更好地“学习”如何将文本描述转化为图像。最后,实验结果表明,这种方法不仅提高了生成图像的质量,还让生成的图像与文本描述之间的关系更加紧密,确保了计算机在理解和生成内容时更加准确。
2025-03-11|HIT,Tencent,Baidu|CVPR2025|⭐️
http ://arxiv. org/abs/2503. 08387v1https ://github. com/ZhengyaoFang/RS-STE
场景文本编辑(STE)旨在修改场景图像中的文本内容,同时保持风格的一致性。传统方法通常通过显式地分离图像的内容和风格,接着将目标内容与源风格融合,从而实现文本编辑。然而,这些方法的复杂管道往往导致在复杂场景下的性能不佳。为了解决这些问题,本文提出了一种新颖的方法——识别协同场景文本编辑(RS-STE)。该方法将文本识别与文本编辑无缝集成在一个统一框架中,利用识别模型的能力隐式分离风格和内容,同时确保内容的一致性。通过多模态并行解码器和循环自监督微调策略,RS-STE能够有效地在无配对真实数据上进行训练,显著提升了在真实场景中的表现。
RS-STE的核心在于其多模态并行解码器(MMPD)和循环自监督微调策略。具体方法包括以下几个步骤:
输入标记器:将目标文本和参考风格图像分别编码为文本嵌入和图像嵌入,输出一个级联的嵌入序列。
多模态并行解码器:该解码器在特征空间中同时进行文本识别和文本编辑,预测目标文本和编辑图像的特征。
图像去标记器:从解码的图像特征中生成目标图像,确保生成的图像在文本内容上与源图像一致。
训练策略:模型首先在配对合成数据上进行完全监督的预训练,随后在无配对真实数据上进行循环自监督微调,增强其在真实世界中的通用性和鲁棒性。
实验部分主要评估RS-STE在合成和真实场景文本编辑基准上的表现。我们使用了多个数据集进行训练和评估,包括合成数据集Tamper-train和真实数据集MLT-2017。通过比较RS-STE与其他现有方法的性能,结果表明RS-STE在多个评价指标上均表现出色,例如在MSE、PSNR和SSIM等指标上均取得了显著的提升。此外,RS-STE在文本识别任务中的表现也得到了验证,通过生成的图像促进下游识别任务的性能提升。最终,实验结果显示,RS-STE在复杂场景中的编辑效果优于传统方法。
RS-STE的工作原理可以简单理解为一个高效的文本编辑器,它能在图片中更改文字而不影响原有的风格。首先,输入的目标文本和参考图片会被转化成一种机器能理解的格式。接下来,RS-STE的核心部分会同时进行两个任务:一边识别出原图片中的文本,另一边根据目标文本生成新的图像。这样一来,系统就能在处理图片时,确保生成的新文本与原有的风格相匹配。为了使这个过程更有效,RS-STE还会在没有配对数据的情况下进行自我学习,通过不断调整和优化来提高其在真实场景中的表现。这样,RS-STE不仅能够快速生成符合要求的编辑结果,还能在不同的场合中展现出良好的适应能力。
2025-03-11|THUSIGS,JHU|⭐️
http ://arxiv. org/abs/2503. 08168v1https ://miaorain. github.io/lowlight09. github.io/
本研究提出了一种新的低光照图像增强框架TSCnet,该框架通过文本驱动的语义级控制,实现个性化的低光照图像增强。传统的深度学习图像增强方法通常采用一对一映射,缺乏灵活性,无法满足个体在低光照条件下的不同照明偏好。为了解决这一问题,TSCnet引入了一个大型语言模型(LLM)来理解自然语言提示,从而识别需要调整亮度的目标对象。该框架结合了Retinex理论生成的反射图像,利用RRS模块精确定位目标,并通过TBC模块基于生成的照明图调整亮度,最后通过ACC模块整合多模态输入,控制条件扩散模型进行无缝的图像增强。实验结果表明,该框架在提高可见度、保持自然色彩平衡及细节放大方面表现优异,且具有良好的泛化能力,能够在多种开放世界环境中进行复杂的语义级照明调整。
TSCnet框架的设计包含多个模块,旨在实现个性化和精确的低光照图像增强。首先,LLM模块处理用户的自然语言输入,识别目标对象及其所需的亮度调整。例如,用户可以输入“稍微亮化MajinBuu”,系统将解析出目标对象及调整幅度。接下来,RRS模块利用Retinex理论生成反射图,创建目标区域的精确定位掩膜,以实现语义级的目标定位。随后,TBC模块根据生成的照明图进行亮度调整,确保局部区域的一致性。最后,ACC模块整合来自不同来源的信息,优化特征映射,通过自适应加权融合,确保图像增强过程的连贯性和一致性。整个框架通过条件扩散模型进行图像重建,最终生成高质量的低光照图像。
在实验部分,研究者在多个基准数据集上验证了TSCnet的有效性,包括LOL和MIT-AdobeFiveK数据集。实验设计分为两个阶段:首先,在RRS模块阶段,优化了预训练的U-Net,使用AdamW优化器,学习率设定为0. 0003。其次,在控制网络阶段,采用Adam优化器,初始学习率为1×10^-4,经过1000个周期的训练。通过SSIM、PSNR等指标评估模型性能。实验结果显示,TSCnet在各项指标上均优于现有的主流方法,尤其是在PSNR和SSIM方面,展现出卓越的图像质量和结构保持能力。此外,通过消融实验验证了各模块对整体性能的贡献,结果表明,RRS、TBC和ACC模块的结合显著提升了图像增强的效果。
TSCnet的工作原理可以简单理解为三个主要步骤。首先,系统接收用户的语言指令,比如“把这个角色亮一些”,然后通过一个聪明的语言模型来理解这条指令,识别出需要亮化的对象和亮度的具体要求。接下来,系统会用一种叫做RRS的技术来找到这个对象在图像中的确切位置,确保增强效果是针对正确的区域。然后,TBC模块会根据找到的位置和用户的要求来调整亮度,确保亮化效果自然且一致。最后,ACC模块会把所有的信息整合在一起,确保图像的各个部分协调一致,最终生成一张清晰、亮丽的图像。这样,用户只需通过简单的语言指令,就能实现个性化的图像亮度调整。
2025-03-11|Unknown|⭐️🟡
http ://arxiv. org/abs/2503. 08643v1https ://github. com/blairstar/NaturalDiffusion
在高维数据生成领域,扩散模型展现出了强大的竞争力,尤其是在图像生成任务中。尽管高维稀疏性被认为是统计概率模型的“维度诅咒”,扩散模型似乎能够有效克服这一挑战。本文深入探讨了扩散模型的目标函数和推理方法,提出了几个重要结论。首先,在高维稀疏场景下,目标函数的拟合目标从多个样本的加权和降级为单个样本。其次,主流推理方法可以在一个简单的统一框架内进行表示,而无需依赖于马尔可夫链和随机微分方程等复杂统计概念。最后,基于这一框架,作者设计了一种新的推理方法,并通过实验验证其效率超越了现有的主流方法。
本文提出了一种新的推理框架,称为自然推理,旨在简化扩散模型的推理过程。该框架包含以下几个关键步骤:首先,利用自指导机制(SelfGuidance)来改善模型输出的质量。自指导机制基于两个输出的线性组合,其中一个是较早的低质量输出,另一个是较晚的高质量输出。其次,推理过程中的每一步都将图像信号输入和噪声信号输入结合,保持与训练阶段相同的混合比例。这种方法允许模型在每一步中利用之前的输出,从而实现自回归的推理形式。最后,框架中还引入了信号和噪声的等效系数,帮助更好地理解模型在不同步骤的表现。通过这种方式,本文展示了如何将现有的推理方法统一到一个简单而有效的框架中。
为了验证所提出方法的有效性,本文进行了多组实验,比较了不同推理方法的性能。实验结果表明,基于自然推理框架的推理方法在生成图像的质量和效率上均优于传统的扩散模型推理方法。特别是在低采样步骤下,较高阶的采样算法如DEIS和DPMSolver表现出更快的采样速度和更高的图像质量。此外,实验还分析了数据稀疏性对目标函数的影响,发现当数据稀疏时,模型的学习效果显著下降,导致“加权和退化”现象的出现。通过对不同数据集(如ImageNet-256和ImageNet-512)的统计分析,本文揭示了高维数据中加权和退化的普遍性及其对模型学习的影响。
在本文的方法部分,我们提出了一种新的推理方式,称为自然推理。简单来说,这种方法就像是一种“自我指导”的学习过程。首先,模型会生成多个图像输出,其中一些质量较低,另一些则较高。我们通过将这两种输出结合起来,来提升整体图像的清晰度和质量。接下来,模型在每一步的推理中,会使用前一步的结果作为输入,这样可以帮助它更好地理解和处理图像。这个过程就像是一个画家在绘画时,不断参考之前的草图,逐渐完善作品。最后,我们还引入了一些数学概念,帮助我们更好地理解图像中的信号和噪声是如何影响最终结果的。通过这种简单而有效的方式,我们能够更好地生成高质量的图像。
2025-03-10|ByteDance|CVPR2025|⭐️🟡
http ://arxiv. org/abs/2503. 07699v1
RayFlow是一种新颖的扩散加速框架,旨在解决传统扩散模型在生成速度上的不足。尽管现有的加速方法试图通过减少采样步骤来提高效率,但往往会牺牲样本质量和可控性,甚至增加训练的复杂性。RayFlow通过为每个样本设计独特的扩散路径,使其能够朝着实例特定的目标分布进行采样,从而在保持生成多样性和稳定性的同时,减少所需的采样步骤。此外,RayFlow引入了一种名为TimeSampler的重要性采样技术,旨在通过关注关键时间步来提高训练效率。大量实验结果表明,RayFlow在生成高质量图像、提高速度、可控性和训练效率方面优于现有的加速技术。
RayFlow的核心方法包括三个主要部分:一致期望和路径设计、个体路径设计以及理论保证。首先,通过利用预训练模型,RayFlow确保在所有时间步上计算统一的噪声期望,从而实现高效的步骤压缩,而不损失质量。其次,与传统方法不同,RayFlow为每个样本设计独特的扩散路径,避免了路径重叠和采样随机性,提高了生成结果的稳定性。最后,RayFlow通过理论分析证明了其最大化路径概率的能力,确保样本在从起始点到目标均值的过程中具有最优的采样稳定性。此外,TimeSampler通过结合StochasticSteinDiscrepancies和神经网络,识别关键时间步,进一步提升训练效率。
在实验部分,研究者对RayFlow进行了全面的性能评估,涵盖了生成质量、可扩展性和鲁棒性等多个方面。实验使用了多个数据集,包括COCO-5k、ImageNet和Cifar系列,采用多种评估指标来综合评估模型性能。结果表明,RayFlow在各个模型架构上均表现出色,尤其是在图像生成质量和生成速度方面,均优于传统的扩散加速方法。通过敏感性分析,研究者探讨了方差系数对模型性能的影响,发现适中的方差值能够有效平衡生成多样性和采样稳定性。此外,RayFlow在图像质量保持方面表现优异,尤其是在细节和视觉一致性上,显示了其在实际应用中的潜力。
RayFlow的工作原理可以简单理解为为每个生成的图像设计一条独特的“旅行路线”。在传统的扩散模型中,所有图像都是朝着同一个目标方向移动,这样容易导致路径重叠和生成质量下降。而RayFlow则为每个图像定制了一条专属的路径,让它们以更高效的方式到达目标。同时,RayFlow还引入了一种叫做TimeSampler的技术,它可以智能地选择在生成过程中最重要的时刻进行采样,从而节省时间和计算资源。通过这些创新,RayFlow不仅能更快地生成高质量图像,还能在训练过程中提高效率,确保生成结果的稳定性。
2025-03-11|FDU,UAdelaide|⭐️
http ://arxiv. org/abs/2503. 08253v1
现代扩散模型在训练效率和生成质量之间存在根本性的权衡。尽管现有的表示对齐方法(如REPA)通过局部对齐加速收敛,但它们往往无法捕捉视觉表示中的结构关系,并且未能确保预训练编码器和去噪网络之间的全局分布一致性。为了解决这些问题,本文提出了SARA(结构与对抗表示对齐),这是一个分层对齐框架,强制执行多层次的表示约束。具体而言,SARA包括三个主要组成部分:1)局部对齐以保持语义细节;2)自相关矩阵对齐以维持表示间的结构一致性;3)对抗分布对齐以减轻全局表示间的差异。通过显式建模内部表示的相关性和跨分布的一致性,SARA实现了局部和全局尺度的全面对齐。实验结果表明,SARA在ImageNet-256上达到了1. 36的FID值,并且收敛速度是REPA的两倍,超越了最近的图像生成方法,建立了优化扩散训练的新范式。
SARA的设计基于对REPA局部对齐策略局限性的深入分析,提出了一个统一的框架,集成了局部对齐、结构自相关对齐和对抗分布对齐三种策略。具体实现如下:1)局部对齐策略通过最大化预训练表示与去噪网络生成表示间的相似度,确保每个空间位置的语义一致性。2)结构对齐通过计算表示的自相关矩阵,并最小化预训练编码器和去噪网络之间的自相关矩阵差异,保持内部结构一致性。3)对抗对齐通过引入一个轻量级的对抗判别器,优化生成表示与真实表示之间的分布一致性。整个训练过程整合了这些对齐损失与去噪损失,以实现更高效的表示学习和更优质的图像生成。
为了评估SARA的性能,研究者们进行了广泛的实验,重点关注不同对齐策略的贡献。实验使用了ImageNet数据集,评估指标包括FID、sFID、InceptionScore等。实验结果显示,与REPA相比,SARA在所有模型变体上均表现出更优的生成质量和训练效率。例如,在400K次迭代后,SARA在SiT-XL/2配置下的FID值为10. 3,而REPA为12. 3,显示出SARA的有效性。此外,SARA在不同的超参数设置下进行了消融研究,确认了局部、结构和对抗对齐策略的综合应用显著提升了生成质量。最终,SARA在无分类器自由引导的情况下,达到了1. 36的最佳FID值,表明其在图像生成领域的先进性。
SARA的方法可以简单理解为通过三个步骤来提高图像生成的质量和效率。首先,局部对齐确保生成的图像在每个小块上都能与真实图像相似,也就是确保每个部分的细节都对得上。其次,结构对齐则是确保整个图像的内部关系和结构不被打乱,像是保持一幅画中物体之间的合理关系。最后,对抗对齐通过一个“评审者”来判断生成的图像是否与真实图像相似,从而帮助生成网络不断改进。这三个步骤结合在一起,使得生成的图像不仅细节丰富,而且整体看起来更自然、更真实。
2025-03-11|NWPU,HKU,ChinaTelecom|⭐️
http ://arxiv. org/abs/2503. 08269v1
本文提出了一种名为Adv-CPG的定制肖像生成框架,结合了面部对抗攻击技术,以保护用户的面部隐私。当前的定制肖像生成(CPG)方法虽然能够生成高保真度的肖像,但在防止恶意人脸识别系统跟踪和滥用生成的肖像方面存在不足。Adv-CPG通过引入面部对抗攻击,首次实现了在保证肖像个性化的同时,增强了面部隐私保护。该框架使用轻量级的身份加密器和加密增强器,通过逐步双层加密保护用户的面部特征,确保生成的肖像在视觉上与原始面部一致,同时欺骗面部识别系统,降低被识别的风险。实验结果表明,Adv-CPG在对抗攻击成功率方面显著优于现有的噪声攻击和无约束攻击方法,展现了其在肖像生成和隐私保护方面的潜力。
Adv-CPG框架由三个关键模块组成:多模态图像定制器(MMIC)、身份加密器(En1)和加密增强器(En2)。具体方法步骤如下:
身份加密器(En1):直接将目标身份特征注入到生成模型中,以实现身份保护。该模块确保生成的肖像在视觉和身份特征上与原始图像保持一致。
加密增强器(En2):通过引入额外的身份指导,进一步增强生成图像的隐私保护。该模块在生成过程中添加额外的身份特征,以提升攻击成功率。
多模态图像定制器(MMIC):实现细粒度的肖像生成,通过结合文本提示和原始面部特征,生成个性化的肖像。该模块在生成过程中分为两个阶段:首先进行面部隐私保护,然后生成细粒度肖像。
为了验证Adv-CPG的有效性,研究团队进行了多项实验,包括与现有最先进技术的比较。实验使用了多个公开数据集,如CelebA-HQ和FFHQ,评估了Adv-CPG在面部识别任务中的攻击成功率(ASR)。结果显示,Adv-CPG在黑盒攻击设置下的平均ASR显著高于其他方法,表明其对不同人脸识别模型的强大攻击能力。此外,研究还评估了生成图像的质量,包括FID、PSNR和SSIM等指标,结果表明Adv-CPG生成的图像在视觉上更自然,且能够保持高保真度。通过与商业API(如Face++和Aliyun)的交互,进一步验证了Adv-CPG在实际应用中的有效性和稳定性。
Adv-CPG是一种新型的肖像生成工具,它能在生成个性化肖像的同时,保护用户的面部隐私。这个工具的工作原理可以分为三个部分:首先,它通过一个身份加密器,把用户的身份信息直接融入到生成的肖像中,这样生成的肖像在外观上与原始照片非常相似;其次,加密增强器则在此基础上增加了额外的保护层,确保更难被识别;最后,多模态图像定制器负责根据用户提供的文本描述,生成更详细和个性化的肖像。通过这样的设计,Adv-CPG不仅能生成高质量的肖像,还能有效地防止恶意人脸识别系统的攻击,保护用户的隐私。
2025-03-11|USTC,SEU,BUPT,Huawei|⭐️
http ://arxiv. org/abs/2503. 08116v1https ://github. com/littlelittlenine/ACE-zero. git
在这项研究中,作者提出了一种名为ACE的新方法,用于在扩散模型中进行概念编辑,以有效去除不安全内容,同时保持模型的生成能力。扩散模型在生成逼真图像方面表现出色,但也引发了社会和伦理问题,例如生成不当内容。传统的概念编辑方法在去除不安全概念时,往往会影响模型的整体生成效果。ACE通过引入一种新型的交叉零空间投影方法,能够在消除不安全概念的同时,保持生成图像的高质量和语义一致性。实验结果显示,ACE在多个指标上显著优于现有方法,为更广泛的应用奠定了基础。
ACE的编辑方法遵循一个三步框架,旨在高效地处理不安全概念的去除。具体步骤如下:
概念去除:ACE首先计算出用于去除不安全文本表示的最优扰动,确保不安全概念被有效消除。
零空间投影:在应用扰动之前,ACE将其投影到正常文本表示的零空间中,以保护正常概念的完整性,避免在去除不安全概念时影响正常内容。
交叉零空间投影:最后,ACE将不安全文本表示投影到正常表示的零空间中,确保残留的不安全表示不会影响最终输出。通过这种方法,ACE能够精确地去除不安全概念,同时保持模型的生成能力。
在实验部分,研究者对ACE的有效性进行了全面评估,主要关注以下几个研究问题:ACE能否在去除不安全概念的同时保持模型的生成能力?ACE能否减轻社会偏见?ACE能否处理更广泛的概念?以及ACE的运行时间与基线方法相比如何?实验使用了多个数据集,并与现有的多种基线方法进行了比较。结果表明,ACE在保持生成质量的同时,显著提高了不安全概念的去除效果,且在运行时间上仅需基线方法的1%。这些结果展示了ACE在概念编辑方面的强大能力。
ACE方法可以简单理解为一个三步走的流程,帮助我们在生成图像时去掉那些不合适的内容,比如暴力或色情的图像。第一步是找出那些需要去掉的内容,然后计算出一个“干预”措施,确保这些内容被删除。第二步是把这个干预措施放到一个“安全区域”中,这样就不会影响到其他正常的内容。最后一步是确保即使有些不安全的内容残留,也不会影响到最终生成的图像。通过这种方式,ACE不仅能有效去除不当内容,还能保证生成的图像依然美观、符合要求。这种方法的效率也很高,执行速度比传统方法快很多,适合实际应用。
2025-03-11|BUAA,HUT|⭐️
http ://arxiv. org/abs/2503. 08484v1
近年来,随着AI图像生成技术的快速发展,生成对抗网络(GANs)和扩散模型等多种生成模型相继出现。这些模型能够根据文本描述或其他参考图像生成高度逼真的图像。然而,针对AI生成图像的检测仍然面临着显著挑战,尤其是在处理未见过的生成器所生成的图像时,现有的方法准确率明显下降。为了解决这一问题,本文提出了一种基于分形自相似特征的新型检测方法。该方法利用AI生成图像谱中的分形自相似性,针对不同生成器的图像提取共同特征,以提高检测的泛化性能。通过对AI生成图像谱的深入分析,本文揭示了谱伪影的形成机制,并提出了一种新的分形结构卷积神经网络(Fractal-CNN)来捕捉多层次的自相似特征,从而有效识别生成图像。
本文的方法主要分为三个部分:首先,分析AI生成图像的分形谱特征。我们发现,不同生成器生成的图像在谱中展现出类似的分形结构,尽管具体特征因生成器参数而异。其次,提出了一种分形自相似性特征模型,该模型通过分析谱伪影的自相似性来提高检测的泛化能力。具体而言,采用了分形结构的卷积神经网络(Fractal-CNN),该网络通过递归方式提取多层次的自相似特征,增强了对AI生成图像的识别能力。最后,利用高通滤波器强化谱伪影,以提高特征提取的准确性。通过这种方式,我们的模型能够更有效地识别来自未见过生成器的图像。
在实验部分,我们在公共基准数据集AIGCDetect上评估了所提方法的检测性能。该数据集包含来自16种不同生成模型的图像,包括GANs和扩散模型。我们采用了数据增强技术,并将生成的图像与真实图像进行对比,训练检测模型。实验结果表明,所提出的分形自相似性特征模型在检测未见过生成器的图像时,显著超越了现有的最先进方法,表现出更高的准确性和鲁棒性。尤其是在面对现实世界的图像失真(如JPEG压缩和高斯模糊)时,我们的方法依然保持了较高的检测准确率,证明了其在实际应用中的潜力。
在本文中,我们提出了一种新方法来检测AI生成的图像。首先,我们发现这些图像在其谱中有一种独特的分形结构,虽然不同的生成器会产生不同的特征,但它们的共同点在于谱的自相似性。我们设计了一种新的神经网络架构,叫做Fractal-CNN,它能够通过多层次分析这些分形特征,从而更好地识别生成的图像。这个过程就像是在寻找图像内部的规律,帮助我们分辨哪些是AI生成的,哪些是真实的。通过这种方法,我们的检测系统在面对没有见过的生成器时,依然能够保持高准确率,甚至在图像经过压缩或模糊处理后,仍能有效识别。
2025-03-11|UWA,UMelbourne,ANU,Google|ICLR2025|⭐️
http ://arxiv. org/abs/2503. 08012v1
本研究旨在探讨文本生成图像模型中的偏见趋势,特别关注这些模型如何随着时间的推移而发展。随着像HuggingFace这样开放平台上模型的日益增多,虽然人工智能的民主化得以实现,但也加剧了固有偏见模型的传播,这些模型常常受到特定任务微调的影响。为确保伦理和透明的人工智能部署,研究者们提出了强有力的评估框架和可量化的偏见指标。我们从三个关键维度评估偏见:分布偏见、生成幻觉和生成缺失率。通过分析超过100个模型,我们揭示了偏见模式如何随时间和生成任务的变化而演变。研究发现,艺术风格转换模型表现出显著偏见,而基础模型由于更广泛的训练分布,偏见逐渐减轻。通过识别这些系统性趋势,我们为偏见研究和缓解策略提供了重要的评估数据,推动更负责任的人工智能发展。
本研究采用了一种全面的偏见评估方法,分析了从2022年8月至2024年12月发布的103个独特文本生成图像模型。为了识别一般偏见特征,我们使用随机生成的100个物体的图像(每个提示生成3张图像,共300张)来推断每个模型的基本偏见特征。具体的评估指标包括:
分布偏见(B):通过计算生成图像中物体的出现频率来评估。
生成幻觉(H):通过比较生成图像与输入提示之间的对象匹配程度来量化。
生成缺失率(M):通过分析生成图像与输入标签之间的对齐程度来确定。此外,我们引入了一个基于对数的偏见评分(B_log),将这些指标整合为一个可解释的单一值,以便在黑箱条件下进行评估。整体方法确保了对模型偏见的全面理解,并为不同模型的比较提供了统一的框架。
在实验中,我们通过生成300张图像来评估每个模型的偏见特征,涉及103个模型的评估。我们使用“TryBeforeYouBias”(TBYB)工具,该工具兼容HuggingFace上的模型,进行黑箱评估。通过生成的图像集,我们量化了模型的偏见,分析了分布偏见、生成幻觉和生成缺失率。实验结果显示,艺术和动画模型通常表现出更高的偏见,而基础和照片真实感模型的偏见相对较低。我们还探讨了模型的流行程度与偏见之间的关系,发现流行的基础模型和照片真实感模型通常具有更低的偏见评分。通过对不同类型模型的偏见特征进行分类和分析,实验为理解生成模型的偏见行为提供了重要见解。
在这项研究中,我们的目标是了解文本生成图像模型中的偏见是如何变化的。我们分析了103个不同的模型,看看它们在生成图像时是否存在偏见。为了做到这一点,我们给每个模型提供了100个不同的物体的提示,并让它们生成图像。我们使用三种主要的方法来评估偏见:首先,查看生成的图像中物体的出现频率;其次,检查生成的图像与我们提供的提示之间的匹配程度;最后,分析生成的图像是否遗漏了我们要求的对象。通过这些方法,我们能够得出一个总的偏见评分,帮助我们理解不同模型的表现。我们的发现表明,某些类型的模型(如艺术风格转换模型)偏见较重,而基础模型的偏见则较少。这些结果有助于我们更好地理解如何改进这些模型,以减少偏见的影响。