【CVPR 2025亮点】SCSA:即插即用的语义连续-稀疏注意力新范式
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
点击上方“小白学视觉”,选择加\“星标\“或“置顶”
重磅干货,第一时间送达
在计算机视觉领域,风格迁移技术一直是研究热点。从梵高的《星夜》到现代抽象艺术,如何让算法精准捕捉风格精髓并迁移到任意内容图像上,始终是学术界与工业界追求的目标。传统基于注意力的任意风格迁移(Attn-AST)方法虽能生成高质量风格化图像,但在处理相同语义内容与风格图像时,常出现语义区域风格不一致的问题。
传统Attn-AST方法凭借注意力机制的全局建模能力,在风格迁移任务中取得了显著进展。然而,当面对具有相同语义的内容与风格图像时,这些方法往往表现不佳。如下图所示,生成的风格化图像中,相应语义区域的风格与风格图像存在明显不一致,具体表现为:
跨语义区域的结构干扰:注意力机制过度强调不同语义区域中结构相似的点,导致伪影产生。
语义区域内的风格断裂:相邻区域因结构细节差异,出现风格不连续现象。
纹理生动性缺失:对风格点的加权处理难以保留原始纹理特征,生成结果显得呆板。
作者深入分析发现,这些问题的根本原因在于传统方法未能充分考虑局部区域与语义区域之间的关系,在注意力计算过程中忽略了语义类别的约束。这一发现为后续的技术创新奠定了理论基础。
为解决上述挑战,作者提出了一种即插即用的语义连续-稀疏注意力机制(SCSA)。该机制巧妙融合了语义连续注意力(SCA)和语义稀疏注意力(SSA),通过双轨并行的方式,实现了对语义区域整体风格与局部纹理的精准把控。
SCA的核心目标是确保同一语义区域内的风格连续性。其工作原理如下图2(a)和图3所示:
语义特征导向:以内容语义图特征和风格语义图特征分别作为查询(Q1)和键(K1),风格图像特征作为值(V1)。
语义掩码调制:通过操作G1,将不同语义类别的注意力权重置为负无穷,仅保留同类别内的权重。
全局风格聚合:softmax函数确保同一语义区域内所有风格点的权重相等,使每个查询点能匹配该区域的所有连续关键点,从而捕捉整体风格特征(如颜色分布)。
这一设计有效解决了因结构差异导致的风格不一致问题,使生成图像在语义区域内呈现出连贯的整体风格。
SSA专注于保留风格图像中原始生动的纹理特征,其工作流程如下图2(b)和图3所示:
结构特征导向:以变换后的内容特征作为查询(Q2),风格图像特征作为键(K2)和值(V2)。
最大权重筛选:通过操作G2,仅保留同一语义类别中内容查询点与风格关键点的最大注意力权重,其余置为负无穷。
稀疏纹理提取:softmax函数使每个内容点仅与最相似的风格点匹配,精准捕捉特定纹理细节。
这种设计避免了对风格点的加权平均,从而保留了原始纹理的生动性。
为实现整体风格与局部纹理的完美融合,SCSA采用线性加权的方式整合SCA和SSA的输出:
其中,α1和α2分别控制整体风格和生动纹理的迁移程度。
此外,作者引入S-AdaIN对内容和风格特征进行预处理,通过K-Means聚类生成语义掩码,对每个语义区域进行实例归一化,减少原始颜色风格的干扰,为后续注意力计算提供更纯净的结构特征。
SCSA的一大亮点在于其出色的兼容性。如下图4所示,它可以无缝集成到基于CNN、Transformer和扩散模型的各类Attn-AST框架中,无需重新训练即可提升模型的语义风格迁移能力。这一特性极大地拓展了其应用范围,为现有模型的升级提供了便捷高效的解决方案。
为验证SCSA的有效性和泛化性,作者进行了广泛的实验,结果令人瞩目。
与传统Attn-AST方法相比,集成SCSA的模型生成的风格化图像质量显著提高:
语义区域风格一致性更强,如下图5第二行的背景区域,颜色过渡更加自然。
纹理细节更加丰富,如下图5第三行的天空和地面,呈现出更生动的质感。
与现有SOTA语义风格转移方法相比,SCSA在语义准确性和内容保留方面表现更优,如下图5第四行的河流和第五行的马,细节还原更加精准。
语义风格损失(SSL):如下表1所示,使用SCSA的Attn-AST方法实现了最低的SSL值。其中,SANet结合SCSA后,在所有语义风格转移方法中性能最佳,证明了SCSA在语义风格迁移中的有效性。
弗雷歇初始距离(FID):集成SCSA的模型在FID指标上表现优异,尤其是结合SCSA的StyTR2,在所有方法中获得了最优值,表明其生成图像的整体风格保真度更高。
内容特征结构距离(CFSD):在基于CNN和Transformer的方法上,SCSA实现了最低的CFSD值,证明其在内容保留方面的优势。尽管在基于扩散的方法上CFSD略高,但风格化质量的提升远超这一微小代价。
用户研究:调查结果显示,结合SCSA生成的风格化图像更受公众青睐,受欢迎程度超过现有SOTA方法,进一步验证了其实际应用价值。
SCA与SSA的互补作用:如下图6所示,单独使用SCA可实现整体颜色转移,但纹理损失严重;单独使用SSA能有效转移特定纹理,但颜色一致性不足。两者结合则实现了优势互补,证明了双轨设计的必要性。
S-AdaIN的有效性:去除S-AdaIN后,语义区域的全局风格转移准确性下降,纹理细节减少,尤其在StyleID方法中表现明显。这表明S-AdaIN对于提升语义风格迁移质量不可或缺。
SCSA的提出为语义风格迁移领域开辟了新的研究方向。其即插即用的特性使其能够轻松集成到现有各种Attn-AST框架中,为实际应用提供了强大的工具。未来,作者计划在以下几个方面进一步拓展:
跨模态语义风格迁移:将SCSA的思想拓展到视频、3D模型等其他模态,实现更广泛的应用。
实时语义风格迁移:针对移动设备和边缘计算场景,优化SCSA的计算效率,实现实时的语义风格迁移。
无监督语义风格迁移:探索无需显式语义标注的迁移方法,降低应用门槛。
对于研究者而言,SCSA提供了一个全新的思路:在注意力机制中引入语义约束,能够显著提升模型对语义信息的处理能力。这一思想不仅适用于风格迁移,也可为其他计算机视觉任务(如图像分割、目标检测)的语义建模提供借鉴。
SCSA的诞生标志着语义风格迁移技术进入了一个新的发展阶段。它通过巧妙的双轨注意力设计,成功解决了传统方法在语义区域风格一致性和纹理生动性方面的不足,实现了性能的显著提升。正如论文作者所言:“我们不仅追求风格迁移的视觉效果,更追求语义层面的精准控制。”SCSA用实验结果证明,通过精心的机制设计,计算机视觉模型能够更好地理解和迁移图像的语义风格,为创造更具艺术性和语义准确性的视觉内容铺平了道路。
源码已开源:https ://github. com/scn-00/SCSA
下载1:OpenCV-Contrib扩展模块中文版教程
在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。
下载2:Python视觉实战项目52讲
在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。
下载3:OpenCV实战项目20讲
在「小白学视觉」公众号后台回复:OpenCV实战项目20讲,即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。
交流群
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三+上海交大+视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~