登Nature子刊,阿里云&海洋三所用蛋白质语言模型探索深海微生物磷循环
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
将ScienceAI设为星标
第一时间掌握
新鲜的AIforScience资讯
编辑|萝卜皮
磷是生命所必需的元素,对海洋生产力来说至关重要。
尽管有地球化学证据表明深海冷泉中存在活跃的磷循环,但其中涉及的微生物过程仍知之甚少。传统的基于序列的搜索通常无法检测到同源性较远的蛋白质。
为了解决这一问题,自然资源部第三海洋研究所董西洋团队、阿里云李兆融团队联合开发了一个深度学习模型LucaPCycle,它基于蛋白质语言模型ESM2-3B,整合了原始序列和上下文嵌入。
LucaPCycle从全球冷泉基因和基因组目录中鉴定出了5241个磷循环蛋白家族,极大地增强了科学家对这些蛋白的多样性、生态学和功能的理解。它能够访问之前「隐藏」的微生物磷循环序列空间,并可应用于各种生态系统。
冷泉通常位于大陆边缘,是富含碳氢化合物的流体从地下储层泄漏到海底的区域。
这些独特的环境以其化学合成微生物为特征,这些微生物利用甲烷和其他碳氢化合物(例如非甲烷烷烃和芳香烃)作为碳和能量来源来维持生命。这些生境中的一个关键过程是甲烷的厌氧氧化(AOM),它与硫酸盐还原同时发生,由厌氧甲烷营养古菌(ANME)和硫酸盐还原菌(SRB)介导。
除了碳和硫之外,这些微生物群落还需要磷来维持其基本生物功能,例如构建细胞膜、合成核酸、产生能量载体和各种磷酸化代谢中间体。
尽管磷循环非常重要,但学界对深海冷泉沉积物中磷循环的研究相对较少,还有许多未知领域等待探索。
LucaPCycle
在最新的研究中,海洋三所与阿里云的研究团队开发了一个名为LucaPCycle的深度学习预测器,专门针对磷循环蛋白进行设计。
具体而言,LucaPCycle是一个双通道深度学习模型:第一个通道利用蛋白质语言模型ESM2从残基级别提取序列特征,并利用其自监督学习能力理解序列上下文。第二个通道包含一个Transformer-Encoder,用于捕获原始序列的特征。
研究人员利用LucaPCycle构建了两个模型:一个用于二分类,另一个用于三分类。二分类模型预测某个蛋白质序列是否具有磷循环功能。如果具有,三分类模型则将其归类为31种特定类型的磷循环基因之一。
LucaPCycle是基于31种磷循环蛋白的214,193个阳性样本和853,615个阴性样本建立的,涵盖了细胞内磷代谢、氮循环、硫循环和其他不相关的功能。
LucaPCycle优于基于同源性的方法
图示:LucaPCycle对磷循环蛋白注释的概述。(来源:论文)
LucaPCycle中的二分类和31分类模型在准确度、精确度、召回率、F1分数(精确度和召回率的调和平均值)、AUC(ROC曲线下面积)和PR-AUC(精确度-召回率曲线下面积)等指标上均表现良好,在验证和测试数据集上评估时均取得0. 96以上的分数。
为了进一步证明LucaPCycle的敏感性和特异性,研究人员将其与两个基于同源性的功能注释工具(DiamondBlastp和KofamScan)进行了对比,使用了1,521,958个真实阳性序列的数据集。
值得注意的是,LucaPCycle的表现优于其他两种方法,其准确率最高(86. 13%,衡量模型阳性预测的准确性),召回率也相当(85. 63%,衡量模型识别所有阳性样本的能力)。
相比之下,KofamScan的召回率较高(98. 96%),但精确度较低(58. 24%),而DiamondBlastp的精确度(51. 98%)和召回率(35. 01%)均最低。
图示:LucaPCycle鉴定出三种具有远源同源性的碱性磷酸酶(ALP)。(来源:论文)
在实际应用时,该团队从未注释的序列中发现了三个碱性磷酸酶家族,它们具有独特的结构域组织和保留的酶活性。这些结果表明了冷泉中磷循环此前被忽视的生态重要性,并得到了孔隙水地球化学、宏转录组学和代谢组学数据的证实。
LucaPCycle还揭示了此前未被认识的古菌多样性,包括Asgardarchaeota、厌氧甲烷氧化古菌和Thermoproteoota,它们通过各种机制促进有机磷矿化和无机磷溶解。
基于PLM方法对冷泉磷循环的影响
传统的基于同源性的注释只能捕捉到一定程度保守的序列空间,导致大量基因未被注释,因此「隐藏」在我们的视线之外。
LucaPCycle模型能够表征此前未被识别的碱性磷酸酶家族,这些家族具有精简的核心结构域和独特的C端β折叠结构域。
这些酶家族的发现表明了磷循环微生物群落隐藏的多样性及其被忽视的生态功能。
多样化的磷酸酯和膦酸酯及其中间代谢物的存在,以及磷循环基因的高丰度和高表达,都表明磷循环在冷泉环境中的生物地球化学循环中发挥着重要但常常被低估的作用。
该研究还扩展了磷循环基因在古菌域中的分类分布;表明了古菌在多磷酸盐代谢、矿物磷溶解以及膦酸盐底物特异性和广谱特异性分解代谢中的意外作用。
使用LucaPCycle,研究人员还发现ANME甲烷营养菌拥有通过完整的C-P裂解酶操纵子进行甲基膦酸酯驱动甲烷生产的遗传机制;冷泉病毒拥有主要通过PhoR-PhoB调控系统和PhnCDE转运蛋白来调控微生物磷循环过程的遗传能力。
图示:古菌在深海磷循环中被忽视的作用。(来源:论文)
这项研究阐述了基于PLM方法揭示这些基因隐藏的生物学功能的迫切需要,从而增强我们对微生物介导的磷循环及其在不同生态系统中的生态意义的理解。
此外,深海沉积生态系统,尤其是海水以外的深海沉积生态系统,是全球磷循环中一个重要但常常被忽视的组成部分。
LucaPCycle的出现无疑使研究人员拥有了研究深海沉积生态系统的新工具与新思路。
论文链接:https ://www. nature.com/articles/s41467-025-60142-4
人工智能×[生物神经科学数学物理化学材料]
「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。
欢迎关注标星,并点击右下角点赞和在看。
点击阅读原文,加入专业从业者社区,以获得更多交流合作机会及服务。