311-A1.2｜图像美学评估，扩散模型后门攻击，防止不安全内容生成，水印去除攻击

发布日期: 2025-03-11

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

AIGCResearch
主编｜庄才林（CailinZhuang）技术支持｜胡耀淇（YaoqiHu）｜编辑支持｜张奇佳（QijiaZhang）发布日期｜2025年3月3日｜周一
2025-02-27｜KULeuven｜⭐️
http ://arxiv.org/abs/2502.20518v1
本研究探讨了个体差异在计算图像美学评估中的重要性，特别是在当前的图像美学评估（IAA）方法中。图像美学评估面临着图像多样性和用户主观性的挑战。现有方法分为两种：通用美学评估模型（GIAA）和个人美学评估模型（PIAA）。GIAA模型旨在估计广泛图像的平均美学评分，而PIAA模型则通过迁移学习调整GIAA，以考虑用户的个体差异。然而，关于GIAA与PIAA之间迁移学习的理论理解尚不完善。本文提出了一种统一模型，旨在通过分布式方式编码个体特征，以便进行个体和群体评估，强调了教育背景、摄影和艺术经验在美学差异中的重要性，并指出这些因素在美学评估中的影响。
本研究提出了一种新颖的IAA方法，通过编码个人特征的分布来同时推断GIAA和PIAA。具体方法包括以下几个步骤：1）输入特征分布：将个人特征（如年龄、性别、教育背景）作为输入，形成特征凸包；2）输出评分分布：根据输入特征映射至美学评分的输出凸包；3）迁移学习机制：将GIAA模型的知识迁移到PIAA模型中，其中GIAA通过对特征分布的平均化来处理个体差异，而PIAA则通过映射特征凸包的每个顶点到对应的评分来进行个性化调整；4）评估模型的泛化能力：通过对训练用户和测试用户进行分组，分析不同人群在美学评分上的表现差异，尤其关注教育水平和艺术经验等因素的影响。
为验证所提IAA模型的有效性，研究者对GIAA和PIAA基线模型进行了扩展，采用分布式特征编码进行训练。实验包括多个步骤：1）数据集准备：使用包含个人美学评分的PARA和LAPIS数据集，确保数据的多样性；2）模型训练：在不同的用户群体中训练GIAA和PIAA模型，确保模型能够在未见用户上进行零-shot推断；3）性能评估：使用斯皮尔曼等级相关系数（SROCC）作为评估指标，比较不同模型在相同图像和用户上的表现；4）分析结果：通过Gini指数和地球移动者距离（EMD）分析不同人群在美学评分上的差异，重点关注教育和艺术经验对评分的影响。
在这项研究中，研究人员提出了一种新方法来评估图像的美感，考虑到每个人的看法可能不同。首先，他们将每个人的特征（比如年龄和性别）作为输入，形成一个特征集合；然后，他们根据这些特征给出美感评分。接着，研究人员将一种模型（GIAA）所学到的知识应用到另一种模型（PIAA）上，使得PIAA能够更好地考虑个体差异。为了验证这个方法的有效性，他们使用了包含许多图像和用户评分的数据集，并比较了不同模型的表现。最后，他们发现教育背景和艺术经验等因素会显著影响人们对图像美感的评分，这表明在评估图像美感时，了解个人差异是非常重要的。
2025-02-28｜ShanghaiPolyU｜⭐️
http ://arxiv.org/abs/2502.20650v1
https ://github.com/paoche11/Gungnir
近年来，扩散模型（DiffusionModels,DMs）在图像生成领域取得了显著进展。然而，研究表明，DMs容易受到后门攻击，这种攻击允许攻击者通过输入带有隐蔽触发器的数据来控制模型输出。传统的防御策略主要依赖于后门检测和触发器反转，但现有攻击方法受到输入空间和低维特征定义触发器的限制。为了解决这一问题，本文提出了一种新方法Gungnir，首次利用图像中的风格特征作为触发器，在图像到图像任务中成功实施后门攻击。实验结果显示，Gungnir能够轻松绕过现有防御机制，实现0%的后门检测率（BDR），显示出其在安全性方面的潜在威胁。
Gungnir方法的核心在于利用输入图像的风格特征作为触发器，以激活DMs中的后门。具体方法包括以下几个步骤：
攻击者知识模型：攻击者可以操控训练过程并注入一定比例的有毒数据，利用任何输入数据作为模型输入。
输入空间定义：扩展输入空间，考虑噪声和额外信息（如提示、图像等），并将其视为攻击目标。

损失函数设计：通过重构残差与模型预测之间的损失，优化后门注入过程，确保模型在处理噪声时不丧失对风格特征的感知。
在实验中，研究团队使用CoCo-Caption2017作为基准数据集，Diffusion-SDXL作为基准模型进行风格转移任务，生成5,000张带有不同风格的图像。选择了三个不同的DM作为后门目标：StableDiffusionv1.5、StableDiffusionv2.1和RealisticVisionv4.0。实验结果表明，Gungnir在不同模型上的攻击成功率（ASR）表现出色，且在后门检测中成功绕过了现有防御机制。具体来说，Gungnir在多个模型中实现了高ASR，同时保持了模型的原始性能，证明了其有效性和隐蔽性。
Gungnir的方法可以简单理解为利用图像的独特风格作为“秘密信号”，来控制图像生成模型的输出。首先，攻击者可以在训练过程中偷偷加入一些特殊的图像，这些图像包含了特定的风格，比如某种艺术风格。接着，Gungnir通过比较模型生成的图像和这些特殊图像，来调整模型的行为。为了确保模型在处理这些图像时不失去原有的生成能力，研究团队还设计了一种新方法，叫做短期时间步保持，这样可以在注入后门的同时，保持生成的图像质量。总的来说，这个方法让攻击者能够在不被发现的情况下，操控图像生成模型，产生他们想要的结果。
2025-02-28｜DukeU｜⭐️
http ://arxiv.org/abs/2502.20623v1
随着文本到图像生成模型的广泛应用，其潜在的安全隐患也日益凸显，尤其是在处理不安全提示时。这些模型可能生成有害图像，给社会带来显著的风险。现有的对齐方法主要集中在修改图像生成的扩散模块上，然而，这种方法往往导致安全提示生成的图像质量下降。为此，本文提出了一种新的对齐方法——SafeText，旨在通过微调文本编码器而非扩散模块来防止有害图像的生成。SafeText通过显著改变不安全提示的嵌入向量，同时对安全提示的影响最小化，从而实现了在处理不安全提示时生成无害图像的目标，同时保持安全提示生成图像的高质量。
SafeText的核心在于同时实现有效性和实用性两个目标。具体方法包括以下几个步骤：
文本编码器微调：通过微调文本编码器，使得不安全提示的嵌入向量发生显著变化，以减少生成有害图像的可能性。
损失函数设计：提出两个损失项，分别用于量化有效性和实用性目标。有效性目标确保不安全提示的嵌入与原始嵌入之间的距离较大，而实用性目标则要求安全提示的嵌入变化最小。
优化问题的构建：将微调过程视为一个优化问题，目标是最小化两个损失项的加权和，通过标准的梯度优化方法（如Adam优化器）进行求解。
数据集准备：使用安全提示和不安全提示的多样化数据集进行微调和测试，以确保模型在不同情况下的有效性和实用性。
在实验部分，SafeText在多个数据集上进行了评估，包括安全和不安全提示的手动生成数据集以及通过对抗攻击生成的数据集。实验结果显示，SafeText在防止有害图像生成方面表现出色，尤其在处理不安全提示时，其有效性指标（如NRR）超过98%。同时，SafeText在安全提示生成的图像质量上也保持了较高的标准，LPIPS和FID指标均显示出优越的表现。此外，SafeText与六种现有对齐方法进行了比较，结果表明其在有效性和实用性上均优于这些方法，确保了在生成无害图像的同时，安全提示的质量不受影响。
SafeText方法的主要目标是让文本到图像生成模型在处理不安全的提示时，能够生成无害的图像，而不影响处理安全提示时的图像质量。具体来说，SafeText通过对模型中的文本编码器进行微调，改变不安全提示的表示方式，使得生成的图像不再有害。同时，它还确保对于安全提示，模型生成的图像保持原有的高质量。这一过程就像是给模型加了一层保护，让它在面对危险内容时能够“听懂”并拒绝生成，而在处理正常内容时依然可以创作出美丽的图像。通过这种方式，SafeText不仅提升了模型的安全性，也保证了其在艺术创作等领域的应用效果。
2025-02-28｜CUHK,SIT,UESTC｜CVPR2025｜⭐️
http ://arxiv.org/abs/2502.20924v1
在深度学习模型中，知识产权保护已成为一个重要问题，尤其是在图像生成领域。传统的水印技术依赖于白盒或黑盒方法来嵌入和提取水印，但这些方法存在一定的脆弱性。本文提出了一种名为“解码器梯度保护”（DGS）的新方案，旨在通过对水印解码器的保护来防止梯度基础的水印去除攻击。研究表明，现有的水印解码器在未加保护的情况下，容易被攻击者利用，从而训练出水印去除网络。DGS通过对解码器的输出进行梯度重定向和重新缩放，确保水印的完整性，同时保持输出图像的质量。通过实验验证了DGS的有效性，显示出其在防止水印去除方面的高效性和可靠性。
DGS的核心思想是通过对解码器的梯度进行重定向和重新缩放来增强水印的安全性。具体方法如下：
梯度重定向：DGS在解码器的输出上应用特定的扰动，改变梯度的方向，从而使得攻击者无法有效地训练水印去除网络。
梯度缩放：通过引入一个正定矩阵P，对梯度进行缩放，使得即使攻击者尝试反转梯度方向，其学习速率也会显著降低。
闭式解法：DGS提供了一种简单的闭式解法，使得在黑盒环境中仍能有效保护水印。这种方法确保了在水印被提取时，输出图像的质量不会受到显著影响。
DGS的设计不仅考虑了防御效果，还兼顾了实际应用中的图像处理需求，确保了其灵活性和有效性。
在实验部分，研究者对DGS进行了广泛的测试，以验证其在不同图像处理任务中的有效性。实验选取了两个典型的图像到图像的任务：图像去雨和风格迁移。使用PASCALVOC数据集进行训练和测试，评估指标包括峰值信噪比（PSNR）和多尺度结构相似性指数（MS-SSIM）。实验结果显示，在没有DGS的情况下，水印去除网络能够成功消除水印，导致输出图像接近全白。而在应用DGS后，去除网络的损失函数未能收敛，水印得以保留，且输出图像的质量保持在高水平。通过对比不同的攻击策略和参数设置，DGS显示出对各种攻击的强大鲁棒性，确保水印的安全性和图像的质量。
在这项研究中，研究人员提出了一种新的保护技术，叫做“解码器梯度保护”（DGS），用来防止恶意用户去掉深度学习模型中的水印。简单来说，DGS就像给水印加了一道防护锁。它通过改变水印解码器的工作方式，使得攻击者即使尝试去掉水印，也很难成功。具体来说，DGS会在解码器的输出上施加一些巧妙的扰动，改变输出的梯度方向，这样攻击者就无法准确地训练他们的去除网络了。同时，DGS还通过缩放梯度来降低攻击者的学习效率。经过大量实验，研究表明，这种方法不仅能有效保护水印，还能保持图像的清晰度和质量，就像在保护隐私的同时依然能享受美丽的风景。