仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
将ScienceAI设为星标
第一时间掌握
新鲜的AIforScience资讯
编辑丨%
在癌症的复杂基因组中,结构变异(SVs)和拷贝数变异(SCNAs)是驱动肿瘤演化的核心力量。传统的短读测序技术(如Illumina平台)受限于读长,难以解析重复序列或复杂重排区域的变异,导致大量关键信息被遗漏。
长读测序技术虽能读取长达兆碱基的DNA片段,但其早期高成本、低通量和高误差率的问题,限制了在癌症研究中的应用。
为突破这一困局,欧洲分子生物学实验室(EMBL)的研究团队开发了SAVANA算法,目标是利用长读测序数据,实现体细胞变异的高灵敏度与高特异性检测,同时推断肿瘤纯度和倍性。
论文链接:https ://www. nature.com/articles/s41592-025-02708-0
SAVANA始于对测序数据的深度「理解」,算法通过70余个特征(如断点位置、支持读长、覆盖深度等)刻画每个候选变异,借助随机森林(RF)机器学习模型,SAVANA能有效区分真实变异与测序噪音。
在训练数据中,模型通过对比99对肿瘤-正常样本的长读与短读数据,其受试者操作特征曲线下平均面积高达0. 98,展现出惊人的判别能力。
图1:SAVANA概述。
针对癌细胞常存在的复杂单倍型特异性变异,SAVANA支持对phased测序数据的分析,这意味着算法不仅能识别变异的存在,还能追踪其在染色体拷贝中的传递路径,在胶质母细胞瘤样本中,SAVANA成功区分了同一基因在不同单倍型上的扩增事件。
除了变异检测,SAVANA还能整合读深度和B等位基因频率(BAF)数据,推断肿瘤纯度(肿瘤细胞占比)和倍性(染色体拷贝数异常)。
通过分析杂合SNP在纯合缺失区域的偏移,算法可精准计算正常细胞污染程度,其结果与短读测序分析高度吻合(皮尔逊相关系数0. 97)。
在99例临床样本(涵盖软组织肉瘤、骨肉瘤、胶质母细胞瘤)的分析中,SAVANA展现了强大的临床转化潜力。检测到的变异中,86%与长读长数据结果一致。
图2:用于SV和SCNA分析的短读长数据比较。
在骨肉瘤这一好发于青少年的恶性肿瘤中,SAVANA成功解析了传统技术难以识别的复杂重排。
当研究团队将SAVANA的长读数据结果与Illumina短读测序对比时,两者在变异检测上高度一致。这意味着SAVANA不仅看得更深,还能与现有临床标准兼容。
在黑色素瘤细胞系COLO829的验证中,SAVANA对68个体细胞SV的真值集进行检测,经由PCR验证变异的召回率显著高于其他算法。
在正常样本对比实验中,SAVANA仅产生5个假阳性SV,而Sniffles2和cuteSV分别高达1940和2737个,特异性分别为后者的388倍和547倍。
随着英国等国家将SAVANA纳入临床基因组学战略,长读测序的「临床化」进程正在加速。尽管仍需优化计算成本和通量,但其在复杂变异解析、肿瘤异质性追踪和跨族群医疗公平性中的潜力已毋庸置疑。
SAVANA的诞生也暗示着长读测序在癌症研究中的成熟,其临床应用不仅是技术的突破,更是医疗理念的进一步发展。在遵循数据隐私法规的同时,SAVANA将会为精准医疗带来更加明确的治疗方向。
人工智能×[生物神经科学数学物理化学材料]
「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。
欢迎关注标星,并点击右下角点赞和在看。
点击阅读原文,加入专业从业者社区,以获得更多交流合作机会及服务。