仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
心脏移植(HT)是心力衰竭晚期患者的生命救治手段,不仅能够提供生存的最后机会,还能改善生活质量。然而,心脏移植面临诸多挑战:
“心脏移植(HT)是心力衰竭晚期患者的生命救治手段,提供生存的最后机会同时改善生活质量。然而,由于合适供体心脏的极其有限、供体与受体之间的匹配复杂性,以及移植后的重大风险(包括移植排斥和感染),它仍然是医学中最具挑战性的手术之一。”(出处:第1页)
传统上,医学界开发了多种基于回归的风险评分模型来预测心脏移植后的死亡率,包括供体风险指数(DRI)、风险分层评分(RSS)和心脏移植后死亡率预测指数(IMPACT)。这些模型虽然有所帮助,但在特异性和泛化能力方面存在固有局限性。
近年来,人工智能(AI)和机器学习(ML)作为传统风险评分模型的强大替代方案出现,提供更高的预测准确性和个性化能力。与传统模型依赖预先指定的变量和线性关系不同,AI和ML算法能够分析大量多样化和复杂的数据,识别传统方法无法检测到的模式和交互作用。
本系统综述和元分析旨在评估机器学习模型在心脏移植领域的表现,重点关注ROC曲线下面积(AUC)作为预测准确性的指标,并探讨AI模型在预测移植结果方面的临床潜力。https ://r2blog.zhanglearning.com/2025/04/dd1473510ee2ecfad65dc4576d2d5d34
“一项全面的系统综述于2024年5月12日进行,利用四个文献数据库:PubMed、Embase、Scopus和WebofScience。搜索使用MeSH术语及其同义词,包括’心脏移植’、’人工智能’和’死亡率’。搜索术语针对每个特定数据库进行了适当调整。未指定出版年份的限制。”(出处:第2页)
为确保选择过程的彻底和无偏,两位作者独立评估检索到的文章以确定其纳入情况。第三位审稿人解决了两位初始审稿人之间可能出现的分歧。
纳入标准包括以下方面:仅限于使用完善研究设计的研究,包括前瞻性和回顾性队列研究、病例对照和实验研究以及随机对照试验(RCT)。叙述性综述、元分析、病例报告、动物研究、会议摘要、社论和评论被排除在外。此外,非英语撰写的研究也被排除。
研究基于以下人群、干预、比较和结果(PICO)标准纳入:
人群:接受心脏移植的患者
干预:使用人工智能的预测模型
比较:与标准临床护理实践或非AI预测模型的比较
结果:死亡率预测的ROC曲线下面积(AUC)
两位作者独立进行数据提取,第三位作者在出现任何可能的差异时做出最终决定。数据被提取到预先构建的Excel表格中,包括第一作者、出版年份、国家、人群类型和规模、人群年龄和性别、移植后死亡率时间框架、使用的算法、表现最佳的算法、AUC和标准误差或95%置信区间、验证模式以及验证类型。
使用QUADAS-2工具评估纳入研究的偏倚风险。每项研究在四个领域进行评估:患者选择、指标测试、参考标准以及流程和时间。研究被分类为高风险、低风险和不明确风险偏倚。
“纳入研究的AUC元分析使用Stata版本18进行。由于机器学习算法的异质性,采用随机效应模型。内部和外部验证的模型在主要元分析中分开。使用I²统计量评估异质性,值大于50%表示存在实质性异质性。”(出处:第3页)
为了调查异质性,按算法类型、机器学习或深度学习算法进行了亚组分析,并按预测死亡率的时间(即12个月、3个月和120个月)进行了元回归。敏感性分析使用留一法进行,并通过排除高偏倚风险的研究进行。如果元分析包括至少10项研究,则使用Egger回归检验评估发表偏倚。
图1.PRISMA流程图
在初始搜索过程中确定的317篇文章中,去除重复后剩余204篇;标题-摘要筛选后选择66篇进行全文检索和评估,其中17篇记录符合预定义的纳入标准,被纳入当前系统综述。其中,12篇出版物包含足够的数据被纳入元分析。
纳入的研究发表于2015年至2023年间,其中11篇自2020年以来发表。大多数研究(n=13)使用成人人群,三项研究使用儿科人群,一项研究在其样本人群中汇集了成人和儿童。
“人群主要来自美国器官共享联合网络(UNOS)注册表(n=14),而国际心肺移植学会(ISHLT)注册表被两项研究使用,移植受者科学注册表(SRTR)被一项研究使用,北欧胸部移植数据库被一项研究使用,本地医疗记录被一项研究使用。人群规模从381名(Zhou等,2021)到67,939名(Miller等,2022)参与者不等。”(出处:第3页)
关于移植后死亡率,大多数研究调查了1年死亡率(n=15),但时间点范围从3个月到10年不等。
最常用的算法是随机森林(RF)、人工神经网络(ANN)、支持向量机(SVM)、决策树(DT)、自适应提升(AdaBoost)、极端梯度提升(XGB)和梯度提升机(GBM),按降序排列。
表1展示了纳入研究的详细特征信息。
将12项研究的数据合并进行元分析后,所有AI算法的总体AUC为0.65(95%CI:0.64,0.67),外部验证模型的AUC为0.64(95%CI:0.62,0.65),内部验证模型的AUC为0.65(95%CI:0.64,0.67),亚组差异无统计学意义(p值=0.10)。
图2.按算法类型和机器学习vs.深度学习算法的亚组分析
存在显著的异质性(I²=100.00%),通过预测死亡率时间的元回归和所使用算法类型的亚组分析进行了调查。元回归显示,移植后时间越长,模型表现越好(系数=0.0005436,p值=0.008,R²=6.9%)。亚组分析也显示算法类型之间存在显著的组间差异(p值<0.01),但机器学习和深度学习算法之间没有差异(p值=0.67)。
“在算法中,K近邻具有最低的AUC(0.53,95%CI:0.50,0.55),而CatBoost具有最高的AUC(0.80,95%CI:0.74,0.86)。”(出处:第4页)
当仅汇总每项研究中表现最佳的算法时,获得了0.73的汇总AUC(95%CI:0.68,0.78),存在显著的异质性(I²=99.9%)。
图4.每项纳入研究中表现最佳模型的ROC曲线下面积的元分析
使用QUADAS-2工具评估了所有17项研究的偏倚风险。在这些研究中,八项研究被发现具有高偏倚风险,四项具有不明确的偏倚风险,主要是由于分析方法不明确。其余五项研究均被评估为低偏倚风险。⚠️uploadfailed,checkdevconsole
图5.使用QUADAS-2工具的偏倚风险
在纳入元分析的研究中,四项具有低偏倚风险,七项具有高偏倚风险,一项研究具有不明确的偏倚风险。最常见的偏倚原因是流程和时间领域。
本研究发现,机器学习模型在预测心脏移植后死亡率方面的总体预测能力为0.65,而每项研究中表现最佳算法的元分析产生了0.73的汇总AUC。平均而言,CatBoost表现最佳,AUC为0.80,而KNN表现最差,AUC为0.53。传统机器学习和深度学习算法表现相似,并且当心脏移植后经过的时间越长,模型表现越好。
“尽管我们的汇总分析显示ML模型的区分能力相对较低,但必须通过与文献中其他已建立的预测模型进行比较来将其性能置于背景中。供体风险指数(DRI)、风险分层评分(RSS)和心脏移植后死亡率预测指数(IMPACT)是使用逻辑回归开发的三个最突出的模型。”(出处:第6页)
Nilsson等人比较了国际心脏移植生存算法(IHTSA)模型与DRI、RSS和IMPACT,发现IHTSA在预测1年死亡率方面优于所有三个模型。同样,Medved等人也发现IHTSA在预测心脏移植后1年死亡率和长期生存方面显示出比IMPACT更优的区分能力。
在纳入的研究中,确定了一系列对死亡率有显著贡献的变量,可分为受体因素、供体因素以及与移植相关和术后因素。
受体特征,包括功能状态、年龄、特定诊断和儿科考虑因素,成为死亡率的关键预测因素:
“Ashfaq等人将受体在列表时的功能状态确定为1年死亡率最重要的预测因素之一。同样,Shou等人报告受体功能状态、年龄和肺毛细血管楔压是其GBM模型中最具预测性的变量。Nilsson等人强调受体年龄和肌酐水平是国际心脏移植生存算法(IHTSA)中的关键预测因素。”(出处:第7页)
供体特征被证明显著影响结果:
“Lisboa等人的部分响应网络-Lasso模型确定供体年龄和缺血时间对1年死亡率具有高度预测性。Nilsson等人同样发现供体年龄是其分析中的重要因素。”(出处:第7页)
与移植过程相关的变量,如呼吸机使用、缺血时间和移植物状态,在几个模型中很突出:
“Ashfaq等人强调移植时呼吸机使用是1年死亡率的重要预测因素。Lisboa等人和Agasthi等人都将缺血时间确定为1年和5年死亡率的重要因素。”(出处:第7页)
本研究存在几个局限性:
计算的累积AUC(AUC=0.65)意味着当前AI模型仅提供有限程度的临床适用性,因为在诊断价值研究中,AUC值高于0.90表示出色的性能,而AUC值低于0.80,即使在统计上显著,也意味着非常有限的临床效用。
汇总模型性能时观察到高度异质性。我们的分析成功地将这种异质性归因于模型类型和心脏移植后经过的时间。其他因素,如人群特征和疾病类型,也可能导致这种异质性。
特征选择、超参数设置和数据预处理方法可能导致异质性,因为构建所包含模型时使用了广泛的方法。
根据QUADAS-2工具,大多数纳入的研究被判断为低质量。
“总之,这项系统综述和元分析评估了用于预测心脏移植(HT)后死亡率的ML模型,产生了0.73的汇总AUC,其中CatBoost表现最佳(AUC为0.80)。ML模型展示了超越传统基于回归的评分(如DRI、RSS和IMPACT)的潜力,能够捕捉复杂的非线性交互作用。然而,高异质性和可变的研究质量限制了汇总结果的可靠性。死亡率的关键预测因素包括受体诊断和功能状态、年龄和供体特征。未来的研究应该专注于改善方法一致性,并直接比较ML方法与传统模型,以优化HT中的临床决策。”(出处:第8页)