IEEE TCSVT’24 | ICCT-UNet:卷积与 Transformer 双流交互,刷新小样本图像分割 SOTA
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
点击上方“小白学视觉”,选择加\“星标\“或“置顶”
重磅干货,第一时间送达
在计算机视觉的浩瀚星空中,小样本图像分割始终是一颗璀璨却又充满挑战的明星。医学图像分割、缺陷检测等领域对它的需求迫切,然而相关研究却相对匮乏。今天,就让我们一同走进一篇在该领域取得重大突破的论文——《SmallSampleImageSegmentationbyCouplingConvolutionsandTransformers》。
与自然图像分割相比,小样本图像分割任务,如医学图像分割和缺陷检测,相关研究较少。近期研究尝试将卷积神经网络(CNNs)和Transformer以串行或交错架构结合,以便将长距离依赖关系融入到使用CNN提取的特征中。在本研究中,作者认为这些架构限制了CNN和Transformer结合的能力。为此,受U-Net在小样本图像分割场景中取得成功的启发,作者提出了一种双流小样本图像分割网络,即基于卷积与Transformer交互式耦合的U-Net(ICCT-UNet,代码和模型可在https ://indtlab. github.io/projects/ICCTUNet获取)。在该网络中,CNN流与Transformer流并行,同时通过提出的基于窗口的多头交叉注意力(W-MHCA)机制在每个模块内保持特征交换。为得到整体分割结果,使用残差融合模块(RFM)进一步融合两个流学习到的特征。实验结果表明,ICCT-UNet在八组医学和缺陷图像上的表现优于或至少与其他对比方法相当。这些有前景的结果应归功于所提出的交互式耦合方法有效结合了局部和全局特征。
自然图像分割领域已经取得了丰硕的成果,但小样本图像分割却面临着诸多难题。在医学领域,通过X射线、CT、MRI等获取的医学图像对于临床诊断至关重要,器官或病变分割能助力医生做出更精准的决策;在工业领域,缺陷检测在无损检测中起着关键作用,可有效降低生产成本。
然而,现有的卷积神经网络(CNNs)虽然能从较小数据集中学习有效表示,但有限的感受野使其难以捕捉长距离依赖关系;Transformer虽然能提取上下文信息,但在小数据集上难以充分发挥优势。而且,小样本图像的特殊模态和视觉内容导致语义边界区分度低,对网络提出了更高要求。
论文提出了一种新颖的双流小样本图像分割网络ICCT-UNet,将CNN流与Transformer流并行设置。这种独特的设计就像两位实力互补的伙伴,CNN流擅长提取精细的局部特征,而Transformer流则能捕捉全局的上下文信息。
在编码器中,通过茎模块Enc_0将输入图像转换为特征图,分别送入CNN流和Transformer流。后续的模块中,CNN子模块和Transformer子模块通过基于窗口的多头交叉注意力(W-MHCA)机制进行特征交换,就像两人在交流彼此的长处,共同提升能力。
为了进一步融合两个流提取的特征,论文设计了残差融合模块(RFM)。它就像一个智慧的整合者,通过残差学习对两个流的特征进行融合,生成更精细的对数概率图,提高了分割的准确性。
传统的交叉注意力在密集预测任务中存在局限性,而W-MHCA机制则克服了这些问题。它将特征分割成非重叠的窗口,在窗口内计算多头交叉注意力,有效减少了冗余计算,以合理的成本实现了特征的高效交换。
论文还将ICCT-UNet和RFM进行简单修改,构建了适用于3D图像分割任务的网络变体,拓宽了方法的应用范围。
论文在八个数据集上进行了实验,包括五个医学数据集和三个缺陷数据集。使用了Dice分数(DSC)、95%豪斯多夫距离(HD95)、IoU和F1分数等多种指标来评估模型性能。
在Synapse、ACDC、MSD、BUSI和ISIC等医学数据集上,ICCT-UNet的三个预测结果均优于或至少与不同的基线方法相当。例如,在Synapse数据集上,3D模型产生了最佳结果,Transformer流优于最先进的方法nnFormer;在ACDC数据集上,ICCT-UNet可以在目标数据集上从头开始训练,而一些对比方法需要预训练权重。
在CFD、MT和KSDD三个缺陷数据集上,ICCT-UNet产生的结果同样优于或至少与基线方法相当,展现了其在缺陷检测领域的强大能力。
通过可视化六个网络在八个数据集的一张图像上的分割结果,可以明显看出ICCT-UNet能够以更高的精度定位各种尺度的器官和缺陷。UNet由于有效感受野有限,难以处理复杂的器官边界;SwinUNet虽然能捕捉长距离依赖关系,但提取局部结构的能力较弱;而ICCT-UNet则综合了两者的优势,取得了更好的效果。
论文还进行了广泛的消融实验,研究了不同因素对模型性能的影响。实验表明,双流结构和W-MHCA单元、残差融合模块RFM都对模型性能有着重要的提升作用;模型的优越性主要归因于CNN和Transformer的有效耦合,而不是模型大小;并且在小数据集上,ICCT-UNet也展现出了良好的泛化性和有效性。
这篇论文提出的ICCT-UNet和RFM为小样本图像分割提供了一种新颖而有效的解决方案。通过并行的双流架构和创新的W-MHCA机制,实现了局部特征和全局上下文的有效整合。实验结果充分证明了该方法的优越性和有效性,为小样本图像分割领域的发展注入了新的活力。相信在未来,这种方法将在更多领域得到广泛应用,推动计算机视觉技术的不断进步。
下载1:OpenCV-Contrib扩展模块中文版教程
在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。
下载2:Python视觉实战项目52讲
在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。
下载3:OpenCV实战项目20讲
在「小白学视觉」公众号后台回复:OpenCV实战项目20讲,即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。
交流群
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三+上海交大+视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~