CVPR 2025全网首发即插即用模块-TAB!


CVPR 2025全网首发即插即用模块-TAB!

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

论文题目:LSNet:SeeLarge,FocusSmall
论文地址:https ://arxiv.org/pdf/2503.06896
代码地址:https ://github.com/EquationWalker/CATANet
与以往基于聚类的方法不同,CATA模块通过计算令牌与令牌中心之间的相似度来聚合内容相似的令牌,形成内容感知区域,而不是依赖于传统的聚类算法(如k-means)或哈希值。这种基于内容的聚合方式能够更准确地捕捉图像中的长距离相似性,从而更好地利用全局信息进行超分辨率重建。
IASA模块负责在内容感知区域内进行细粒度的长距离信息交互。通过允许每个子组的查询(Q)与相邻子组的键(K)和值(V)进行自注意力操作,IASA能够更精细地捕捉令牌之间的长距离依赖关系,从而提高超分辨率重建的质量。
TAB模块结合了CATA、IASA和IRCA,能够高效地实现细粒度的长距离信息交互。与基于局部区域的方法相比,TAB在保持较低计算复杂度的同时,能够更有效地利用全局信息。
本文提出了一种轻量级图像超分辨率网络CATANet(Content-AwareTokenAggregationNetwork),其主要研究方法围绕着如何高效地聚合长距离内容相似的令牌(tokens),以实现高质量的图像超分辨率重建。具体而言,研究方法的核心在于设计了一种新颖的Token-AggregationBlock(TAB),该模块通过内容感知的令牌聚合、组内自注意力(IASA)和组间交叉注意力(IRCA)来实现高效的长距离信息交互。
本图展示了CATANet在Urban100数据集上,放大倍数为×2时的性能和模型复杂度对比。通过与其他方法的对比,可以看出CATANet在保持较低模型复杂度的同时,实现了较高的性能,证明了其在轻量级图像超分辨率领域的优势。
本图展示了CATANet的整体网络架构,包括浅层特征提取、深层特征提取和图像重建三个部分,以及TokenAggregationBlock(TAB)和Local-RegionSelf-Attention(LRSA)的结构。通过图2可以清晰地了解CATANet的核心组件及其相互关系,以及如何通过TAB模块实现高效的长距离信息交互。
本图中(a)展示了通过平均池化获取初始令牌中心的过程,(b)展示了子分组的可视化结果,说明了如何将令牌组进一步划分为大小固定的子组,以提高并行效率。通过子分组,CATANet能够更高效地进行信息交互,同时允许相邻子组之间的交互,进一步提升了模型的性能。
本表格展示了CATANet与其他轻量级图像超分辨率模型在不同放大倍数(×2、×3、×4)下的性能对比。评估指标包括PSNR(峰值信噪比)和SSIM(结构相似性指数),这些指标用于衡量超分辨率图像的质量。本图还展示了CATANet与其他方法的详细对比,证明了CATANet在轻量级图像超分辨率任务中的有效性和效率。例如,CATANet在保持较低模型复杂度的同时,实现了较高的性能,这在模型参数和计算量(Multi-Adds)的对比中尤为明显。可以看出CATANet在轻量级图像超分辨率领域具有显著的优势,不仅在图像质量上优于现有方法,而且在模型复杂度和推理速度上也表现出色。
–END–
关注“学姐带你玩AI”公众号,回复“2025即插即用”
领取全部150个即插即用模块(论文+源码)
往期精彩阅读
👉kaggle比赛baseline合集
👉经典论文推荐合集
👉人工智能必读书籍
👉本专科硕博学习经验
评论区留言参与讨论嗷


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录