模拟3D分子编辑,北大高毅勤团队开发整合物理信息和偏好对齐的MolEdit,登Nature子刊


模拟3D分子编辑,北大高毅勤团队开发整合物理信息和偏好对齐的MolEdit,登Nature子刊

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

将ScienceAI设为星标
第一时间掌握
新鲜的AIforScience资讯
编辑|萝卜皮
在计算机辅助药物和材料设计中,生成具有所需特性的分子结构是一项关键任务。
作为特殊的三维实体,分子具有非平凡的物理复杂性,许多固有特性可能无法通过纯数据驱动的方法来学习,这阻碍了强大的生成式人工智能(GenAI)在该领域的应用。
为了避免现有分子GenAI对特定领域模型和先验知识的过度依赖,北京大学高毅勤团队提出了理论指导,用于弥合图像GenAI和分子GenAI之间的方法论差距,从而实现对3D分子生成基础模型的预训练。
通过一个简单且与模型无关的训练协议,该团队克服了对称性、稳定性和熵(这些因素对分子至关重要)带来的挑战。
此外,研究人员应用基于物理的策略,使预训练的多模态分子GenAI——MolEdit遵循物理定律并与上下文偏好保持一致,从而抑制不必要的模型错觉。
MolEdit可以生成具有全面对称性的有效分子,在构型稳定性和构象多样性之间取得更好的平衡,并支持其他方法难以实现的复杂三维结构。同时,它还适用于零样本先导化合物优化和连接子设计,并遵循上下文和几何规范。

功能分子(例如与材料和药物相关的分子)的计算机辅助设计已引起科学界和工业界日益增长的兴趣。功能分子设计的核心概念是分子编辑,它涵盖了分子的生成、修饰和演化,使其具有特定结构特征,从而获得所需的特性。
以功能为导向的分子编辑是药物设计过程中的常见需求,但由于其在广阔的化学空间中呈现非线性约束优化问题而极具挑战性。传统计算机模拟通常需要耗费大量资源,并依赖于反复试验,以及特定的专家知识。
虽然生成式人工智能(GenAI)取得了重大进展,但不幸的是,这些强大的GenAI不能直接应用于分子生成,因为与图像不同,3D分子实体受到内在物理和化学原理的严格限制。
特别是,除了已知会导致与现代基础模型架构不兼容的反式旋转等变性之外,分子还表现出嵌入在各种点群中的普遍存在的、决定性质的对称性。
MolEdit
为了应对提到的这些问题,科学家们已经提出了许多新方法。北京大学的研究团队将各种方法整合在一起,提出了MolEdit,一个多模态分子GenAI,它结合了物理信息学习和数据驱动学习,能够有效地模拟三维分子结构的分布。MolEdit与主流GenAI兼容,继承了基础模型的可扩展性,并基于大量分子数据进行了预训练,用于三维分子重建。
图示:解决对称性问题并扩大3D空间中的分子扩散模型。(来源:论文)
与现有的分子GenAI不同,MolEdit在训练和推理过程中会仔细处理幻觉问题。具体而言,研究人员通过实验证明,在训练或微调过程中,通过对廉价易用的AIAgent进行偏好调整,可以有效抑制分子GenAI的幻觉问题,例如无效性、不稳定性和违反条件等。
此外,研究人员还为MolEdit注入了自我优化功能,从而在推理过程中获得更高质量的样本。使MolEdit能够生成具有全面对称性的有效分子,在构型稳定性和构象多样性之间取得更好的平衡,甚至支持其他方法难以处理的复杂三维骨架。
MolEdit可以通过零样本方法应用于各种下游任务。除了功能性分子的从头设计之外,MolEdit还能生成多样化、高质量的文本分子表征结构。它还可以促进分子支架的修饰,包括功能基团、连接基团和药效团的重新设计,以及结构编辑,例如图像修复、图像去除和图像合成。
图示:MolEdit支持多种上下文分子编辑。(来源:论文)
为了验证MolEdit在药物设计等实际应用场景中是否有效,研究人员根据一组成分,按照指定的化学条件生成了具有不同脂肪环尺寸的分子。结果如上图所示,MolEdit成功地将扩散过程折叠到与指定化学条件一致的化学子空间中。
挑战与未来
虽然MolEdit功能多样,但也存在一些局限性。
首先,预训练模型无法生成明确的氢原子坐标,这限制了依赖于精确质子化状态或氢原子敏感特性(尤其是量子化学描述)的应用。
其次,键级是根据三维坐标和成分推断的(补充方法1. 10);对于互变异构体和其他边缘情况,这种推断可能存在歧义。
第三,MolEdit缺乏直接的口袋条件,而是依赖于形状引导的推断(“先导印迹”)。该策略取决于合适的先导分子的可用性,并限制了MolEdit在需要直接口袋特定相互作用或严格的目标引导设计的场景中的适用性。
MolEdit代码库已公开,该团队希望未来的工作能够解决这些限制。潜在的方向包括氢感知训练、改进图拓扑预测,以及引入ControlNet等插件用于特定任务的微调。研究人员期望进一步的改进和发展将在未来带来更多创新的应用,并使分子编辑变得像图像编辑一样简单。
鉴于这里提出的方法是可扩展的和与模型无关的,将MolEdit推广到生物聚合物等大分子,或应用这些技术来增强现有的3D扩散模型(如AlphaFold3)也是一个有潜力的方向。
开源代码:https ://github. com/issacAzazel/MolEdit
论文链接:https ://www. nature.com/articles/s41467-025-61323-x
人工智能×[生物神经科学数学物理化学材料]
「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。
欢迎关注标星,并点击右下角点赞和在看。
点击阅读原文,加入专业从业者社区,以获得更多交流合作机会及服务。


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录