Nature Communications|新加坡国立大学发布基于视觉-语言模型的眼底疾病诊断方法
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
点击上方“小白学视觉”,选择加\“星标\“或“置顶”
重磅干货,第一时间送达
01
工作速览
以往的眼底图像基础模型仅针对有限的疾病类别和知识库进行预训练。
RetiZero在各种下游任务中表现出色,包括零样本疾病识别、图像到图像检索、临床诊断辅助、少样本微调和跨领域疾病识别。在零样本场景中,RetiZero对于15种疾病和52种疾病的Top-5准确率分别达到0. 843和0.756,而在图像到图像检索中,其得分分别为0. 950和0.886。值得注意的是,RetiZero的Top-3零样本性能超过了来自新加坡、中国和美国的19名眼科医生的平均诊断准确率。该模型尤其增强了临床医生诊断罕见眼底疾病的能力,突显了其在临床环境中整合应用的潜在价值,尤其是在需要应对多种眼病的场景中。
02
匠心独运
由于促炎巨噬细胞向抗炎巨噬细胞的复极化受损,传统的骨组织工程材料难以在糖尿病期间恢复生理性骨重塑。
全球眼病负担与人工智能筛查的挑战
失明和视力受损是全球范围内的重大疾病负担,影响着各个群体中的数以百万计的人。对于视网膜和视神经疾病等眼部疾病的检测和及时治疗,对于减少严重且永久性的损害至关重要。然而,眼科医疗资源的不足严重限制了眼底疾病在许多地区的及时筛查和管理。
近年来,基于人工智能(AI)的眼底疾病筛查系统被提出,并在眼底疾病检测和患者转诊方面取得了有希望的性能。然而,以往的大多数基于AI的方法都是针对特定疾病定制的,如糖尿病视网膜病变(DR)、青光眼和早产儿视网膜病变(ROP)。尽管有几种方法被提出用于同时筛查多种眼底疾病,并取得了有希望的性能,但大多数当前的眼科疾病筛查AI模型都是在特定任务的数据集上训练的,这导致了在有新数据(例如,由不同相机获取的图像)或任务变化(例如,引入新的或罕见的类别)时检测中不可避免的错误。此外,由于医疗资源有限和眼底疾病的流行率不同,收集涵盖所有种类眼底异常的全面数据集既耗时又具有挑战性。因此,大多数AI模型都是在有限的数据和疾病类别上进行训练的,限制了它们的特征表示。将这些模型应用于不同的现实世界环境或任务需要使用大型数据集进行广泛的重新训练。此外,数据质量和标记问题进一步限制了AI模型在眼科临床环境中的广泛采用,特别是在全球范围内。
大型基础模型在眼科领域的应用
在大数据和强大计算硬件的推动下,大型基础模型(LFMs)在计算机视觉任务中表现出色。在大型数据集上进行预训练的LFMs为下游任务(如目标检测、少样本识别和零样本学习等)提供了丰富的特征支持。2023年引入的第一个眼科LFM,RETFound,使用掩码自编码器(MAE)框架在大型、未标注的视网膜图像上进行训练。它提供了丰富的特征支持,并提高了下游任务的性能。然而,这种方法可能会阻碍模型在下游任务中对特征信息与标签的对齐能力。相比之下,基于对比语言-图像预训练(CLIP)的LFMs通过将文本描述与图像特征对齐来增强特征表示,改善了特征-标签对齐,但在处理医学成像中的复杂语义特征时存在困难。MAE基础的预训练方法通过利用掩码自编码技术专注于重建图像的遮蔽区域,在医学成像中捕捉复杂语义特征方面表现出色,从而促进了对局部结构和细微病理细节的深入理解,这对于准确诊断至关重要。这种方法通过强调图像内的上下文和结构信息,鼓励模型学习丰富、细致的特征表示。相比之下,CLIP基础的预训练主要优化全局图像-文本对齐,将整个图像与其相应的文本描述进行对齐,而不深入研究复杂的内部特征。尽管CLIP模型对于需要广泛语义理解和跨模态关联的任务非常有效,但它们对图像级对齐的强调限制了它们在医学环境中识别和解释细微和复杂语义模式的能力。因此,CLIP基础的方法在处理精确医学图像分析所需的详细和复杂特征方面存在困难,表明其在医疗保健诊断中的使用存在显著限制。此外,当前的眼科成像LFMs是在广泛但类别有限的数据集上进行预训练的。因此,开发具有全面眼科疾病知识的LFMs对于表示复杂的视网膜特征以增强下游任务性能至关重要。然而,收集涵盖广泛眼底疾病的大量多样化眼科数据以进行预训练仍然是一个重大挑战。
为了解决这些问题和挑战,作者从29个公开数据集(包含303,124张带有标签的眼底图像)、180篇眼科文献(23,328张带有疾病相关关键词的眼底图像)和在线资源(15,544对眼底图像-文本)中收集了341,896对眼底图像-文本,涵盖了来自多个国家、地区和种族的400多种视网膜和视神经疾病。LFM,RetiZero,基于对比视觉-语言预训练框架,整合了基于掩码自编码器(MAE)的预训练知识和低秩训练方法。此外,引入了一种使用狄利克雷重参数化的不确定性视觉-语言特征校准方法,在对比视觉-语言预训练框架内进一步对齐视觉和语言特征在高维嵌入空间中的对齐。因此,RetiZero在各种下游任务中实现了卓越的性能,包括零样本眼底疾病识别、图像到图像的眼底疾病检索、AI辅助临床诊断、内部领域眼底疾病识别、少样本微调和跨领域眼底疾病识别。
1:RetiZero框架概述a. RetiZero预训练数据集:RetiZero模型的预训练数据来自三个主要来源:公开数据集、眼科文献和在线资源。组建了一个由12名眼科医生组成的团队,负责手动收集和清理数据。这包括从公开数据集下载图像及其对应的标签,从眼科文献中提取图像及其对应的疾病相关关键词,以及从在线资源下载与视网膜疾病相关的图像-文本对。
b. RetiZero结合了基于掩码自编码器(MAE)架构的自监督学习和基于CLIP架构的对比学习的优势。此外,引入了一种基于狄利克雷重参数化的不确定性视觉-语言特征校准方法,进一步在高维嵌入空间中校准视觉和语言特征。
c. 任务I:零样本眼底疾病识别。RetiZero在没有直接针对特定疾病进行训练的情况下,能够识别眼底疾病。
d. 任务II:通过图像到图像检索识别眼底疾病。RetiZero能够根据输入图像检索出与之相似的眼底疾病图像。
e. 任务III:AI辅助临床诊断。RetiZero能够辅助医生进行临床诊断,提供诊断建议。
f. 任务IV:内部领域视网膜疾病识别。在内部领域任务中,RetiZero使用具有相似特征分布的数据进行微调和测试。
g. 任务V:少样本微调。RetiZero在只有非常有限的训练数据的情况下,评估其识别眼底疾病的能力。
h. 任务VI:跨领域眼底疾病识别。在跨领域任务中,RetiZero使用具有不同特征分布的数据进行微调和测试。
03
卓越性能
图2:零样本眼底疾病识别和基于图像到图像检索的眼底疾病识别的Top-1、Top-3和Top-5得分
a. EYE-15数据集的零样本性能:EYE-15数据集包含30,089张眼底图像,涵盖14种常见眼底疾病和正常状态。RetiZero在该数据集上的零样本识别性能表现出色,Top-1、Top-3和Top-5的准确率分别为0. 443、0. 702和0.843。与FLAIR模型相比,Top-1准确率提高了25. 5%。
b. EYE-52数据集的零样本性能:EYE-52数据集包含7007张眼底图像,涵盖51种眼底疾病和正常状态。RetiZero在该数据集上的零样本识别性能同样出色,Top-1、Top-3和Top-5的准确率分别为0. 360、0. 626和0.756。与FLAIR模型相比,Top-1准确率提高了18. 0%。
c. 零样本眼底疾病识别示例:展示了RetiZero在零样本场景下识别眼底疾病的具体示例,包括正确识别和错误识别的案例,帮助理解模型的表现。
d. EYE-15数据集的图像到图像检索性能:RetiZero在EYE-15数据集上的图像到图像检索性能表现出色,Top-1、Top-3和Top-5的准确率分别为0. 950、0. 980和0.990。与FLAIR模型相比,Top-1准确率提高了10. 0%。
e. EYE-52数据集的图像到图像检索性能:RetiZero在EYE-52数据集上的图像到图像检索性能同样出色,Top-1、Top-3和Top-5的准确率分别为0. 886、0. 920和0.940。与FLAIR模型相比,Top-1准确率提高了8. 6%。
f. 图像到图像检索示例:展示了RetiZero在图像到图像检索任务中的具体示例,包括检索到的相似图像及其对应的疾病标签,帮助理解模型的表现。
统计分析:所有P值均通过双侧t检验计算,置信区间为95%。源数据以源数据文件的形式提供。
图3:AI辅助临床诊断结果
a. 没有RetiZero辅助的在线眼底图像阅读系统:展示了传统的眼底图像阅读系统,医生需要手动分析眼底图像并做出诊断。这种系统依赖于医生的专业知识和经验,但可能存在人为错误和诊断不一致的情况。
b. 有RetiZero辅助的在线眼底图像阅读系统:展示了RetiZero辅助的眼底图像阅读系统,RetiZero能够自动分析眼底图像并提供诊断建议,帮助医生更快更准确地做出诊断。这种系统结合了AI的高效性和医生的专业判断,提高了诊断的准确性和效率。
c. 眼科医生诊断结果:展示了眼科医生在RetiZero辅助下的诊断结果,包括零样本识别和图像到图像检索的Top-1、Top-3和Top-5性能。RetiZero的辅助显著提高了医生的诊断准确率,尤其是在识别罕见眼底疾病方面。
图4:内部领域视网膜疾病识别的接收者操作特征(ROC)曲线
本图展示了RetiZero在内部领域视网膜疾病识别任务中的性能,通过ROC曲线来评估模型对不同视网膜疾病的识别能力。ROC曲线是一种常用的评估分类模型性能的工具,它通过绘制真正例率(TruePositiveRate,TPR)与假正例率(FalsePositiveRate,FPR)的关系来展示模型在不同阈值下的表现。
图5:少样本学习的接收者操作特征(ROC)曲线
本图展示了RetiZero在少样本学习任务中的性能,通过ROC曲线来评估模型在只有少量训练数据的情况下对不同视网膜疾病的识别能力。少样本学习是机器学习中的一个重要领域,特别是在医学图像分析中,因为获取大量标注数据往往既耗时又昂贵。
图6:不同基础模型在眼底疾病筛查中的跨领域性能(AUC)
本图展示了不同基础模型在眼底疾病筛查任务中的跨领域性能,通过AUC(AreaUndertheCurve)值来评估模型在不同数据集上的表现。跨领域性能评估了模型在不同特征分布的数据集上的适应性和泛化能力。
下载1:OpenCV-Contrib扩展模块中文版教程
在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。
下载2:Python视觉实战项目52讲
在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。
下载3:人工智能0基础学习攻略手册
在「小白学视觉」公众号后台回复:攻略手册,即可获取《从0入门人工智能学习攻略手册》文档,包含视频课件、习题、电子书、代码、数据等人工智能学习相关资源,可以下载离线学习。
交流群
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三+上海交大+视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~