精度高,速度快!西湖大学团队开发端到端电子显微镜图像分析深度学习模型
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
将ScienceAI设为星标
第一时间掌握
新鲜的AIforScience资讯
编辑|萝卜皮
冷冻电镜拍图虽然很高清,但是AI解结构却像新手拼乐高——步骤繁琐易跑偏,算力烧钱还挑数据。
为了应对这些挑战,西湖大学与新加坡国立大学的研究人员提出了end-to-endandefficientCryoFold(E3-CryoFold),这是一种支持端到端训练和一次性推理的深度学习方法。
E3-CryoFold使用三维和序列Transformer从密度图和序列中提取特征,并使用交叉注意力模块整合这两种模态。它使用SE(3)图神经网络基于提取的特征构建原子结构。
E3-CryoFold模型在源自蛋白质数据库结构的模拟密度图上进行了预训练。与Cryo2Struct相比,E3-CryoFold将生成结构的平均模板建模得分提高了400%,并且明显优于ModelAngelo,而这一巨大进步仅使用了这些方法所需推理时间的千分之一。
自显微镜发明以来,科学家们一直致力于更清晰地观察蛋白质复合物,以阐明其结构和功能以及它们如何影响生物过程。
在结构生物学领域数百年的技术进步中,低温电子显微镜(cryo-EM)已成为一项关键技术,并于2017年荣获诺贝尔奖。
冷冻电镜能够生成接近原子分辨率的密度图,揭示大分子的形状和相互作用,而无需结晶,也不会损坏样品。对于研究大分子行为的研究人员来说,将这些三维(3D)密度图解读为原子结构模型是关键的一步,然而,这一过程本身就极具挑战性。
它需要高水平的专业知识来指导解释,并且由于密度图的高维性,计算机图形程序会产生大量的计算成本。此外,缺乏准确的模板会严重影响结构测定的准确性和效率。
人工智能带来了新的可能性,但是现有方法通常需要多阶段训练和推理,导致效率低下和结果不一致;在将预测的原子坐标与序列比对时经常出现偏差,且计算成本巨大;深度学习等AI方法往往需要大量训练数据,而可用数据集有限。
迄今为止,电子显微镜数据库中分辨率优于4Å的低温电镜结构仅不到13,000个,并且其中许多是冗余的。因此,现有低温电镜密度图的规模有限,限制了深度学习方法有效推广到更广泛的真实样本的能力。
E3-CryoFold
为了有效应对这些挑战,西湖大学的研究团队提出了E3-CryoFold,它是一个端到端训练和一次性推理模型。
图示:E3-CryoFold的架构和管线。(来源:论文)
具体来说,研究人员对密度图和序列进行预处理,以对齐数据并加快训练过程。然后,密度图和序列分别输入到3D和序列Transformer中,同时使用交叉注意力模块整合来自两种模态的空间和序列信息。随后,他们构建一个等变图神经网络(GNN),基于组合的空间序列特征生成3D原子结构。这种方法通过将空间特征直接注入序列表征中,避免了结构与序列之间的对齐损失。
与以往的方法不同,E3-CryoFold促进了端到端训练,允许用户输入完整的低温电子显微镜密度图和序列(或使用不包含序列信息的模型),通过单个模型直接获取原子结构。这便消除了冗余的多阶段流程,从而显著提升了效率和准确率。
值得注意的是,该团队建立了一个包含163,284个蛋白质数据库(PDB)结构模拟的低温电子显微镜密度图的训练数据集,该数据集通过预训练增强了模型的泛化能力。
研究人员在两个包含不同分辨率和长度的测试数据集上验证了E3-CryoFold的泛化能力,并将其性能与其他稳健的基准方法进行了比较。结果表明,其准确率和效率显著提升,与ModelAngelo、Cryo2Struct和Phenix等已有方法相比,E3-CryoFold推理时间仅为这些方法的千分之一。
局限性与未来
尽管如此,E3-CryoFold仍面临一些挑战。
首先,密度图的形状不规则,需要将其调整为统一的形状,这可能会引入偏差并导致空间信息丢失,尤其是在较大的图谱中。
其次,由于E3-CryoFold生成的原子坐标不受约束,预测结构与目标结构之间的均方根标准差可能相对不稳定。研究人员表示,将E3-CryoFold预测与基于密度图的原子坐标相结合,可以有效缓解这些问题。
最后,E3-CryoFold目前仅支持残基骨架的建模,而同样关键的侧链尚未被考虑。侧链建模代表了E3-CryoFold的重大扩展,也是未来发展的重要领域。
论文链接:https ://www. nature.com/articles/s42256-025-01056-0
人工智能×[生物神经科学数学物理化学材料]
「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。
欢迎关注标星,并点击右下角点赞和在看。
点击阅读原文,加入专业从业者社区,以获得更多交流合作机会及服务。