8小时处理300万细胞数据,复旦研发双分支架构模型,登Nature子刊


8小时处理300万细胞数据,复旦研发双分支架构模型,登Nature子刊

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

将ScienceAI设为星标
第一时间掌握
新鲜的AIforScience资讯
编辑丨%
在组织切片的微观世界里,基因表达的空间分布藏着解开生物奥秘的钥匙——胚胎如何发育出肝脏、癌细胞为何侵袭转移,答案往往藏在基因「在哪里表达」的动态变化中。
但传统空间组学方法只能捕捉单一切片的基因表达量,却无法识别不同条件下基因空间位置变化的关键信号。(如Sepal算法对差异空间表达模式基因的F1分数仅41%)
针对这些问题,复旦大学团队提出了River框架,通过双分支预测架构和事后归因策略,根据基因(或者其他特征)对条件差异的贡献进行排名。

论文链接:https ://www. nature.com/articles/s41467-025-61476-9
为何基因的「位置变化」难以捕捉
在了解River框架相较于现在的模型的提升之前,我们首先要知道,对于传统组学,它们所面临的实验困境都有哪些。
随着实验技术的发展,诸如空间分辨转录组学这类技术使得实验数据得到了爆炸性的增长,而面对这种等级的数据量,急切需要一种大规模基因复杂空间表达模式的计算方法。
现有方法,例如空间可变基因(SVG)方法和非空间方法,都无法识别差异空间表达模式(DSEP)基因。于是团队开发了River,希望它能克服这些限制。
River是一种基于深度学习的可解释方法,基于以下假设:只有跨切片具有显著DSEP的基因才能有助于切片或条件标签的预测。
通俗点来说,River的过程可以归纳为以下步骤:
1. 设计预测模型以充分利用多切片和多条件数据集中的空间感知基因表达特征;
2. 量化每个基因对预测模型的贡献;
3. 集成不同的深度学习归因方法,确定基因模式的优先级。
图1:River的工作流程。
前文中所提到的「双分支预测架构」,包括一个位置编码器(用于从空间信息中提取特征)和一个基因表达编码器(用于从基因表达中提取特征),分别独立提取特征并将其融合到潜在空间中。
在训练阶段之后,River采用多种深度学习归因策略来获得细胞水平基因贡献分数,然后将这些分数汇总以得出最终的全局分数。
团队强调:SVG、差异表达基因(DEG)和DSEP方法之间的主要区别对于理解River的独特贡献至关重要,因DSEP更侧重于空间分布模式在不同条件下发生显著变化的基因,而这恰恰是空间组学中的生物学重要性所在。
让基因「位置变化」显形
当然,一个模型的具体性能如何,还是需要与现有的其他模型进行比对。在模拟的数据集中,已知被扰动的基因被标记为阳性(DSEP基因),其余基因则标记为阴性(背景或非DSEP基因),方便研究者对各类方法进行评估。
图2:模拟基准测试。
River和16种竞争方法(这些方法为了能识别不同切片之间的DSEP基因已经过修改)在六个数据集上的性能对比显示,River在F1分数上显著优于所有其他方法(p值<0. 05),中位F1分数约为0. 59,位居第一。
排名第二和第三的方法Sepal和SpatialDE的中位分数分别为约0. 41和0.32,其余接近零。
River的归因模块可以为每个基因输出有意义的分数,优先考虑那些具有差异空间表达模式的基因。在对此模块的评分能力的验证中,River始终为DSEP基因分配了更高的分数,且真正的DSEP基因与背景基因的分数差异显著。
寻找基因的「时间变化」
现有研究通常关注同一切片内的基因空间模式,而忽视了随时间变化的空间基因表达模式的变化。
研究团队应用River分析了跨越八个发育阶段的小鼠胚胎的Stereo-seq数据集。在这种情况下,River识别出的差异基因可能既包括由发育引起的空间变化,也包括非空间变化。
图3:8个发育阶段小鼠胚胎Stereo-seq数据集的分析。
可视化结果证实,River识别出的优先基因在其发育轴上的时空变化中得到了确认。
团队在实验中发现,嵌入空间有效地将不同阶段的细胞区分开来,其区分效果优于使用2000个高变基因。相比之下,使用River选择的低优先级基因完全无法区分阶段。
在River优先基因集中,时间点越接近的基因表现出更相似的成对轮廓得分模式,并且聚类效果更好。
上述的分析展示了River捕捉发育过程中非空间差异的能力。此外,该模型在实战中也有不错的表现。
实战演示
在真实生物场景的演示中,River也同样展示出自己的强大性能。
图4:在slide-seq数据集上的应用。
River可以识别糖尿病引起的生精过程中的DSEP基因,也同样能识别出此前被证明与糖尿病睾丸中,胚胎干细胞或精子丢失有关的Prm1和Prm2基因。
River在除空间转录组学之外的其他平台上也具备相当的泛化能力。其在MERSCOPE测量的脑空间转录组学数据集进行了演示,在约7分钟之内处理了包含超过70,000个细胞的切片,并以此表现完成了三次重复。
River能够在5小时内成功处理300万细胞,运行时间与输入细胞数量几乎呈线性关系。随着图谱级数据集的规模和复杂性不断增加,River的大规模处理性能,将会成为研究人员的强大计算工具。
向上一层的进步
团队的测试结果表明,River不仅是一种简单的差异基因表达或SVG识别方法,而是专门设计用于在不局限于单切片和细胞独立假设的情况下识别DSEPs。
River框架的诞生,带来了差异空间表达模式识别问题的新解决观点。它能带领空间组学分析从「静态差异表达识别」迈向「动态空间模式解析」。
River的结果可能会受到外部对齐算法的影响,但幸运的是,大多数应用情况下并不会出现此类问题。并且River可以无缝地与高级对齐方法结合使用,通过更好的方法提高性能。
后续的研究里,可以引入对比模块来强化框架。团队强调,批次效应仍是一个躲不开的困难。
人工智能×[生物神经科学数学物理化学材料]
「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。
欢迎关注标星,并点击右下角点赞和在看。
点击阅读原文,加入专业从业者社区,以获得更多交流合作机会及服务。


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录