定制化CRISPR来啦!高通量工程+机器学习解锁精准基因编辑,登Nature


定制化CRISPR来啦!高通量工程+机器学习解锁精准基因编辑,登Nature

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

将ScienceAI设为星标
第一时间掌握
新鲜的AIforScience资讯
编辑|白菜叶
蛋白质的工程改造和表征可能既耗时又繁琐,这促使人们开发通用型CRISPR-Cas酶,以实现多样化的基因组编辑应用。然而,这类酶也存在一些缺陷,例如脱靶编辑的风险较高。
为了实现Cas9酶的可扩展重编程,哈佛医学院(HarvardMedicalSchool)、麻省总医院(MassachusettsGeneralHospital)等机构的研究人员将高通量蛋白质工程与机器学习(ML)相结合,以获得更适合特定目标的定制编辑器。
通过基于结构/功能的饱和诱变和细菌筛选,研究人员获得了近1000个工程化的SpCas9酶,并鉴定了它们的原型间隔区相邻基序(PAM)要求,从而训练了一个将氨基酸序列与PAM特异性关联起来的神经网络。
通过利用训练产生的PAM机器学习算法(PAMmla)预测6400万个SpCas9酶的PAM,研究人员鉴定出了一些高效且特异的酶,它们在人类细胞中作为核酸酶和碱基编辑器的性能优于基于进化和工程化的SpCas9酶,同时降低了脱靶率。
一种计算机定向进化方法支持用户自主设计Cas9酶,包括针对人类细胞和小鼠中RHOP23H等位基因的等位基因选择性靶向。
PAMmla将机器学习(ML)与蛋白质工程相结合,整理出一系列满足不同PAM需求的SpCas9酶,可以使研究人员在各种应用中使用高效安全的定制Cas9酶,而非通用酶。
该研究以「CustomCRISPR—Cas9PAMvariantsviascalableengineeringandmachinelearning」为题,于2025年4月22日发布在《Nature》。
机器学习模型PAMmla能够仅根据氨基酸序列预测数百万种SpCas9酶的PAM需求。PAMmla能够发现在人类细胞和小鼠中有效的新型Cas9酶,其优势在于比通用的PAM宽松酶更高水平的定点编辑和更低的全基因组脱靶率。
为了加快SpCas9酶的定制化用于研究或转化用途,研究人员开发了一个网页工具,用于基于PAMmla模型生成预测,并通过ISDE对具有用户自定义属性的酶进行优先排序。
相关链接:https ://pammla.streamlit.app/
机器学习(ML)与可扩展的实验分析相结合,使研究人员能够探索庞大而多样的蛋白质序列空间,从而识别有用的酶。PAMmla为Cas9如何指定核酸靶标的可塑性提供了新的见解。
在PAMmla之前,与更常见的PAM-relaxed酶相比,PAM-altered酶的例子很少。这种差异表明,PAM-relaxed可能是赋予Cas酶新的靶向能力最简单的进化轨迹,这或许是因为PAM-altered酶可能需要几个特定的同时突变,这些突变上位性地发挥作用来指定新的PAM。
因此,在不包含反选择步骤以保持PAM选择性的实验工程方法(例如定向进化)中,PAM-altered酶不太可能被发现。
最近,基于进化序列数据训练的模型已经可以预测变异效应,其性能与实验测定相当。然而,该团队发现一些基于进化序列的模型无法预测他们酶组在非规范PAM上的活性。之前基于机器学习的方法试图预测序列多样化的Cas9酶或改进的SaCas9-KKH酶。虽然这些研究支持使用机器学习来改造Cas酶,但建模主要局限于在规范PAM上的活性。
这些数据表明,仅凭自然序列信息可能不足以训练出能够准确预测PAM要求与自然界不同的酶的模型。
综上所述,PAMmla能够实现用户定制SpCas9PAM变体酶的设计,并推动从通用的PAM-relaxed酶向提高各种应用的基因组编辑效率和安全性方面转变。
更广泛地说,PAMmla的开发突显了实验工程与机器学习(ML)之间的协同作用,以实现快速且可扩展的蛋白质检测和优化。
论文链接:https ://www.nature.com/articles/s41586-025-09021-y
人工智能×[生物神经科学数学物理化学材料]
「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。
欢迎关注标星,并点击右下角点赞和在看。
点击阅读原文,加入专业从业者社区,以获得更多交流合作机会及服务。


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录