结合ESM-2,杜克大学开发高效PTM感知蛋白质语言模型,实现新SOTA
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
将ScienceAI设为星标
第一时间掌握
新鲜的AIforScience资讯
编辑|萝卜皮
当前的蛋白质语言模型(LM)可以准确地编码蛋白质特性,但尚未代表翻译后修饰(PTM),而翻译后修饰对于蛋白质组多样性至关重要,并影响蛋白质的结构、功能和相互作用。
为了解决这一差距,杜克大学、西湖大学的研究人员开发了PTM-Mamba,这是一种PTM感知蛋白质LM,它通过新开发的门控机制使用与ESM-2蛋白质LM嵌入融合的双向Mamba块来集成PTM标记。
PTM-Mamba能够独特地同时建模野生型和PTM序列,从而支持下游任务,例如疾病关联和药物可药性预测、PTM对蛋白质相互作用的影响预测以及零样本PTM发现。
总而言之,这项研究将PTM-Mamba确立为PTM感知蛋白质建模和设计的基础工具。
研究人员假设,将ESM-2嵌入与专门处理PTM标记的框架相结合,可以实现对野生型残基和PTM的精确建模。
为了验证这一点,杜克大学的研究人员整理了一个包含79,707个修饰序列的训练数据集,该数据集由Swiss-Prot数据库中311,350条经实验验证的PTM记录构建而成。
他们专门将PTM注释映射到各自的蛋白质序列,确保PTM类型和序列长度的多样化表示。
他们提出的翻译后修饰(PTM)蛋白质语言模型(LM)基于Mamba,这是一个结构化的状态空间模型,通过选择性状态空间架构提供计算效率和灵活性,该架构在序列长度方面实现了亚二次时间和内存复杂度。此外,Mamba使用硬件感知原语(例如并行化状态转换和卷积投影)来加速计算,而不会影响扩展。
图示:TM-Mamba的架构和嵌入可视化。(来源:论文)
虽然Mamba最初的自回归文本生成设计限制了其捕捉完整序列语义的能力,但研究人员通过引入前向和后向处理层,将其调整为双向建模。由此产生的双向Mamba模块以两个方向处理序列:前向传递(从左到右)和后向传递(从右到左)。
每一遍都通过各自的状态空间层独立生成隐藏状态,并将输出连接起来,然后由全连接层融合,生成组合表征。残差连接应用于前向层和后向层,并对其贡献进行平均以保留两个方向的上下文,从而确保对氨基酸和翻译后修饰(PTM)的序列依赖关系进行全面建模。
为了保持对常规氨基酸的理解,研究团队将新的PTM-Mamba模型作为最先进的ESM-2-650M模型的头部进行训练,其中野生型氨基酸标记被传递到ESM-2-650M中以检索其输出嵌入,并且PTM标记被转换为ESM-2-650M输入的标记。
序列最终被输入到PTM-Mamba的嵌入层,该层能够自然地处理野生型和PTM标记。为了合并ESM-2-650M和PTM-Mamba嵌入,该团队提出了一种新的门控机制,将两个嵌入连接起来,并通过S型激活线性门进行过滤,以生成最终的输出表示。
性能评估
研究人员将PTM-Mamba与基线PTM-Transformer模型进行了比较,观察到训练准确度的收敛速度更快,这说明双向Mamba块和门控机制的会更高效。
除了效率之外,PTM-Mamba的主要目标是清晰而又相关地表示未修饰和翻译后修饰的序列,捕捉PTM引起的关键生物学功能和结构变化。
为了评估这一能力,他们使用t分布随机邻域嵌入(t-SNE)对PTM-Mamba嵌入进行了可视化。这些嵌入揭示了野生型蛋白质序列与其PTM修饰对应序列之间的细微区别,并且每对野生型蛋白质序列的嵌入都非常接近。
这表明PTM-Mamba能够捕捉PTM细微而显著的影响,同时保持蛋白质序列的上下文完整性。并且,PTM残基的token嵌入表现出类别特异性的组织结构,例如磷酸化和乙酰化的token之间存在空间接近性。PTM残基标记也表现出比野生型标记更大的空间多样性,反映了该模型对编码PTM特定信息的关注。
为了确认PTM-Mamba嵌入在标准PTM预测任务上保持强劲的性能,研究人员在磷酸化位点预测和非组蛋白乙酰化位点预测上对其进行了评估。
使用针对这两项任务精心挑选的数据集,他们进行了每个残基的二元分类,并将PTM-Mamba嵌入与基线进行了比较,包括ESM-2-650M、ESM-2-3B、PTM-Transformer和基线独热嵌入。PTM-Mamba在所有指标上均保持了相当的性能,这证实了其嵌入对PTM相关任务具有普遍的适用性。
需要注意的是,这些任务并不明确表示PTM标记,这与PTM-Mamba主要针对涉及修改序列的用例(而非仅限野生型的基准)进行优化的观察结果相符。
三个基准测试任务
该团队在三个明确利用PTM标记化的基准测试任务上对PTM-Mamba进行了评估:疾病关联预测、成药性预测以及PTM对蛋白质-蛋白质相互作用(PPI)的影响。
对于疾病关联预测,他们使用了从dbPTM数据库中整理的数据集,该数据集将PTM与癌症、神经退行性疾病和糖尿病等疾病联系起来,注释来自PhosphoSitePlus、ActiveDriverDB和全基因组关联研究(GWAS)等数据库以及手动整理。
结果显示,PTM-Mamba的表现优于基线模型(包括ESM-2-650M和PTM-Transformer),证明了其能够捕捉对于识别疾病相关蛋白质至关重要的PTM特定效应。
图示:PTM-Mamba在各种PTM相关任务中的性能评估。(来源:论文)
成药性预测评估了影响治疗靶向性的PTM序列,重点关注修饰如何改变蛋白质结构和结合位点的可及性。结果表明,PTM-Mamba实现了稳健的性能,通常在F1分数和马修斯相关系数(MCC)等关键指标上超过基线,突出了其与治疗设计的相关性。
为了评估PTM对PPI的影响,他们使用了PTMint数据集,该数据集注释了经实验验证的PTM介导的调控作用,特别是PTM是诱导还是抑制PPI。
评估表明,PTM-Mamba在所有模型中取得了最高指标,包括PTM-Transformer和PTM-SaProt,后者是一种新颖的基线模型,用最先进的、结构感知的SaProt蛋白质LM嵌入取代了ESM-2,这表明以序列为中心的模型可以更优地捕捉PTM效应。
该基准展示了PTM-Mamba模拟由PTM介导的复杂调控动态的能力,进一步突出了其在生物相关下游应用中的实用性。
实用性
研究人员还探索了PTM-Mamba在零样本PTM发现中的实用性,这是一项与生物学高度相关的任务。
通过分析野生型序列中掩蔽位置的模型对数回归(logits),PTM-Mamba准确地预测了特定残基的合理PTM,例如UniProt序列Q02261中丝氨酸的预测,以及UniProt序列Q4L7X2中半胱氨酸的预测。
这些功能为PTM-Mamba提供了一种工具,使生物学家无需额外的培训即可对PTM生物学产生新的见解。
结语
总的来说,PTM-Mamba为建模和设计PTM特定蛋白质序列提供了新的机会,特别是通过其明确标记PTM修饰蛋白质形式的能力,可用于从疾病机制研究到具有增强靶向特异性的治疗设计等应用。
对于未来的工作,该团队计划通过使用基于质谱的PTM数据库扩充训练数据集来解决经过实验验证的PTM注释的有限可用性问题。
他们还希望将探索PTM修饰序列的结构预测作为一项新任务,该任务可以利用PTM-Mamba的嵌入,同时扩展这些嵌入以设计选择性针对修饰蛋白质状态的PTM特定结合剂。
总之,通过实现PTM感知建模,PTM-Mamba有可能重塑蛋白质组分析并推动精准治疗的创新。
论文链接:https ://www.nature.com/articles/s41592-025-02656-9
注:头图来自网络。
人工智能×[生物神经科学数学物理化学材料]
「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。
欢迎关注标星,并点击右下角点赞和在看。
点击阅读原文,加入专业从业者社区,以获得更多交流合作机会及服务。