CVPR2025|突破数据瓶颈!Stable Diffusion 助力视觉异常检测,无需训练即可生成真实多样异常样本
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
作者丨华中科技大学曹云康
编辑丨极市平台
导读
本文介绍了一种名为AnomalyAny的创新框架,它利用StableDiffusion的强大生成能力,仅需单个正常样本和文本描述,即可生成逼真且多样化的异常样本,有效解决了视觉异常检测中异常样本稀缺的难题,为工业质检、医疗影像等领域提供了新的解决方案。
在工业质检、医疗影像等领域,视觉异常检测(VisualAnomalyDetection,AD)是保障质量与安全的关键技术。然而,异常样本稀缺一直是制约其发展的核心难题——现实中,异常现象往往罕见且难以收集,传统方法要么依赖大量正常数据“脑补”异常,要么生成的伪异常缺乏真实感,导致检测模型性能受限。
近日,瑞士洛桑联邦理工学院(EPFL)与华中科技大学的研究团队联合提出AnomalyAny框架已被CVPR2025录用,利用开源文本生成图像模型StableDiffusion(SD)的强大生成能力,仅需单个正常样本和文本描述,即可生成逼真、多样且从未见过的异常样本,为数据稀缺场景下的异常检测提供了全新解决方案。
论文链接:
https ://arxiv. org/abs/2406. 01078v3
代码与Demo地址:
https ://hansunhayden. github.io/AnomalyAny. github.io/
现有异常生成方法主要面临两大痛点:
如图1(a)所示,早期方法通过“裁剪-粘贴”随机图案(如自然纹理)生成异常,虽无需训练,但生成的异常与真实场景差异显著,难以被检测模型有效识别。
如图1(b)所示,基于生成模型(如GAN、扩散模型)的方法虽能生成更真实的样本,但需要大量正常和异常数据进行训练,这在异常罕见的场景中(如精密零件缺陷)几乎不可行。
AnomalyAny的突破点在于:无需任何训练数据,直接利用预训练的StableDiffusion模型,通过巧妙的引导机制,让模型“理解”正常样本的特征,并根据文本描述生成符合逻辑的异常。
如图2所示,AnomalyAny框架包含三大核心模块,环环相扣实现精准异常生成:
传统SD模型生成的图像可能偏离目标数据集的“正常分布”(如图3(b))。AnomalyAny通过在推理阶段引入单个正常样本的潜在特征,从噪声生成过程的中间步骤(而非完全随机起点)开始,确保生成的异常样本与正常样本共享相同的背景、光照等全局特征,避免“画风突变”。
举个例子:若输入一张正常的“瓶子”图片,模型会以该瓶子的形状、材质为基础,在其基础上“改造”出破损、裂痕等异常,而非生成一个完全不同的物体。
由于SD的训练数据中异常样本较少,模型容易忽略文本描述中的异常关键词(如“破损”)。AnomalyAny通过最大化异常关键词的注意力权重,迫使模型聚焦于生成目标异常区域。具体而言,通过分析SD的交叉注意力图(Cross-AttentionMaps),找到与“破损”“裂痕”等关键词对应的图像区域,并通过反向传播优化潜变量,确保异常特征被显著表达。
可视化结果:如图3(d)-(f)所示,移除注意力引导后,生成的异常区域模糊不清;而启用该机制后,异常特征(如瓶盖的裂痕)清晰可辨。
为进一步提升生成质量,AnomalyAny利用GPT-4自动生成详细异常描述(如将“破损”细化为“带有粗糙不平纹理的破损区域”),并通过CLIP模型计算生成图像与文本的语义相似度,强制两者对齐。这一过程不仅增加了异常的多样性(如不同类型的划痕),还能生成符合工业标准的复杂缺陷(如“锯齿状裂缝”)。
在工业异常检测基准数据集MVTecAD和VisA上,AnomalyAny展现出显著优势:
• InceptionScore(IS)衡量生成图像的真实性,AnomalyAny在多数类别中得分最高(如bottle类别IS=1. 73,远超基线方法),表明其生成的异常样本更接近真实图像。
图4展示了在MVTecAD以及Web图片中生成的异常效果。
AnomalyAny的创新之处在于将预训练多模态模型(SD+GPT-4)与领域知识结合,无需任何训练即可生成定制化异常样本。这一特性使其在以下场景具有广阔应用前景:
工业质检:快速生成各类零件的虚拟缺陷,减少人工标注成本;
医疗影像:模拟罕见病变,辅助训练肿瘤检测模型;
自动驾驶:生成极端天气、道路异常等边缘场景,提升模型鲁棒性。
当然,当前方法仍依赖文本提示的准确性,未来若结合单样本异常图像输入,有望进一步提升复杂异常的生成精度。随着大模型技术的发展,类似AnomalyAny的“提示式”解决方案或将成为解决数据稀缺问题的通用范式。