登《Cell》,中科院高彩霞等开发AiCE:一种AI蛋白质工程通用策略
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
将ScienceAI设为星标
第一时间掌握
新鲜的AIforScience资讯
编辑丨&
蛋白质工程长期受限于低成功率与高成本,理想的蛋白质工程策略需要以最少的工作量实现最佳性能。
当前基于AI的蛋白质工程技术通常计算量大,因此迫切需要更易于使用且用户友好的替代方案,这些方案需要保持预测的准确性并在研究社区推广使用。
中国科学院高彩霞团队开发的AiCE(AI-informedconstraintsforproteinengineering)框架通过将结构和进化约束整合到通用反向折叠模型中,实现了快速高效的蛋白质进化,无需专门训练。
论文链接:https ://www. cell.com/cell/abstract/S0092-8674(25)00680-4
反向折叠模型
传统的蛋白质模型面临多重困境:成功率低下,迭代成本高、通用性缺失。虽然近几年来,使用深度学习模型的蛋白质工程方法取得了出色的成果,但它们通常需要大量计算资源,泛化性也相当有限。
团队注意到,广义蛋白质反向折叠模型,如ESM-IF1和ProteinMPNN,是在天然蛋白质结构和序列上训练的,所以它们可以捕捉由进化动力学塑造的蛋白质序列的复杂分布模式。
鉴于此功能,可以将其直接应用反向折叠模型,而无需额外的AI模型训练。事实上,最近就有成果表明,简单地从反向折叠模型输出中采样就足以识别高适应度(HF)突变并实现抗体进化,但这样是否适用于更复杂的大型蛋白质,亦或者是对单一和组合突变设计的成功率仍然存疑。
团队所提出的AiCE模块旨在预测高适应性(HF)单个氨基酸替换,通过广泛采样逆折叠模型并结合结构约束,可大幅提高预测准确性。
图示:AiCE作为AI驱动的蛋白质工程方法。(图源:论文)
AiCE与模型架构无关,可以优化简单的蛋白质结构和复杂的功能酶。团队在八种不同的蛋白质工程任务中评估了AiCE,实现了11%到88%的HF突变预测成功率。
基于这些结果,该团队又开发了一系列精确高效的碱基编辑器,包括编辑窗口更小的enABE8e、保真度显著提高的enSdd6-CBE和将线粒体编辑效率提高14. 3倍的enDdd1-DdCBE。
成果简介
与其他方法相比,AiCE在60个深度突变扫描(DMS)数据集中表现出色,其性能提高了36%至90%。其在复杂蛋白质和蛋白质-核酸复合物中的有效性也得到了验证,仅结合结构约束就提高了37%的准确性。
在31个DMS数据集上,团队需要评估该模块是否可以仅通过反向折叠模型输出的直接采样来识别HF突变,而无需额外过滤。
图示:AiCE预测各种蛋白高适应度突变的性能分析。(图源:论文)
从结果而言,预测的突变具有很高比例的积极适应度结果。在所有模型中,没有额外结构约束的HF突变预测的准确性为12%,单个精度为12%、9%和12%。这些结果表明,反向折叠模型可以有效地识别HF突变,尽管需要进一步验证。
而倘若将分析扩展到29个额外的DMS文库,最终结果证实,柔性区域的预测精度明显高于非柔性区域(<0. 0001)。Logistic回归分析进一步支持了这一趋势,表明与非灵活区域的预测相比,对灵活区域的预测被归类为HF的可能性高18%(p<0. 001)。
除开基础研究之外,AiCE还在复杂蛋白质工程等领域有非常优异的发挥。
第一个实验的目标是优化TadA8e,它的编辑窗口相对较宽,会导致非预期的旁观者编辑(bystanderediting)。并且,它在某些靶位点的编辑效率有限,已被证明很难使用传统技术进行补救。
图示:评估AiCE在生成HF多突变的可解释预测方面的性能。(图源:论文)
借由AiCE的协助,生成了122个单突变,并将这些突变引入ABE,在细胞的三个内源性靶位点对其进行了测试。HF突变为与野生型TadA8e酶相比,编辑效率至少提高10%的突变。
实验中确定了13个这样的突变。其中11个由AiCE提出,顶级变体的编辑效率提高了约47%。AiCE-ProteinMPNN的预测准确率最高(35%),优于其他AI模型。
除此之外,团队使用AiCE框架,成功进化出了八种具有不同结构和功能的蛋白质,包括脱氨酶、核定位序列、核酸酶和逆转录酶。这些工程化蛋白质使研究者能够创建几种下一代碱基编辑器,适用于精准医疗和分子育种。
这些包括:enABE8e,一种胞嘧啶碱基编辑器,其编辑窗口宽度减少了约50%;enSdd6-CBE,一种腺嘌呤碱基编辑器,其准确性提高了1. 3倍;以及enDdd1-DdCBE,一种线粒体碱基编辑器,其活性提高了13倍。
精准设计的时代
AiCE将蛋白质工程从「经验驱动」转向「数据与约束双驱动」——通过反向折叠模型挖掘序列-结构关联,最终实现从单突变到多突变的高效设计。
AiCE代表了一种简单、高效且广泛适用的蛋白质工程策略。通过解锁现有AI模型的潜力,它为该领域提供了有前景的新方向,并增强了AI驱动的蛋白质重设计的可解释性。
研究团队开发的碱基编辑器已展现临床转化潜力,而对核酸酶、逆转录酶的改造则证明了其跨场景适用性。
未来的工作中,涉及分子动力学模拟或冷冻电镜结构分析的研究可能会带来更深入的机理见解,并有助于完善AiCE框架。
人工智能×[生物神经科学数学物理化学材料]
「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。
欢迎关注标星,并点击右下角点赞和在看。
点击阅读原文,加入专业从业者社区,以获得更多交流合作机会及服务。