北大团队提出MTPNet:首个靶标感知的「活性悬崖」通用预测框架


北大团队提出MTPNet:首个靶标感知的「活性悬崖」通用预测框架

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

将ScienceAI设为星标
第一时间掌握
新鲜的AIforScience资讯
编辑|ScienceAI
「两个几乎一模一样的分子,一个药效惊人,一个却毫无活性。」这是药物发现中最让AI「抓狂」的谜团——ActivityCliffs(活性悬崖),它是结构-活性映射中最难缠的一类现象:微小的结构修改,带来巨大而难以预测的活性差异。
为了解决这一问题,北大团队提出了首个靶标蛋白感知的「活性悬崖」通用预测框架MTPNet(Multi-GrainedTargetPerceptionNetwork),首次引入「多粒度靶标语义感知机制」将靶标蛋白的宏观特征与结合位点的微观特征相结合,统一建模各类「受体-配体」相互作用网络,在30个活性悬崖数据集上取得了显著性能提升,展现出理想的泛化能力与可解释性。
相关论文以「MTPNet:Multi-GrainedTargetPerceptionforUnifiedActivityCliffPrediction」为题发布,已被IJCAI2025录用。
论文地址:https ://arxiv. org/pdf/2506. 05427
开源地址:https ://github. com/ZishanShu/MTPNet
1、为什么需要引入靶标蛋白作为条件信息?
以往的预测模型大多仅仅聚焦于分子自身的结构或化学特征,试图通过比较诸如分子指纹或图结构的差异来解释和预测活性变化。然而,这类方法往往忽视了导致活性突变的深层「根源」——即蛋白受体与其配体分子在结合过程中的关键作用。实际上,配体与受体之间的复杂相互作用网络,才是活性显著变化乃至活性悬崖产生的本质驱动力之一。
图1:MTPNet的动机和方法论
为此,研究团队提出了MTPNet,其核心理念在于:并非所有分子之间的结构或理化差异都会直接导致活性悬崖的发生,而是只有当这些差异恰好集中于受体(靶标蛋白)的敏感识别区域,干扰关键结合模式或诱导显著构象变化时,才可能引发「断崖式」的活性波动。因此,MTPNet通过将分子表征与受体特征深度融合,并在多粒度层面建模分子差异对特定受体结合位点的影响,能够更准确地识别和解释那些由微小结构修饰引起的大幅度活性突变。
2、MTPNet:多粒度靶标感知通用预测架构

宏观靶标条件网络MTS使用预训练蛋白模型提取靶标蛋白序列嵌入,生成动态归一化参数调制分子的特征分布,借助条件层归一化和自注意力机制引导分子特征与靶标蛋白语义对齐;微观口袋条件网络MPS从靶标蛋白结构中提取结合口袋区域(Pocket)并通过交叉注意力机制捕捉局部交互关系。
最终,MTPNet通过层层迭代融合「整体靶标蛋白」和「局部口袋」引导信息,实现精细化「崖变感知」建模。
图2:MTPNet的架构设计
3、预测性能的全面提升
为了全面评估MTPNet在活性悬崖任务中的性能,团队在公开基准MoleculeACE上进行了系统性测试。
该测评基准由VanTilborg等人提出,专为评估分子结构微变所导致的活性巨变而设计,覆盖了对应不同蛋白靶标的30个高质量活性悬崖子集,涵盖超过35,000个分子样本,且多数子集样本量不足1000,极具挑战性,尤其适合评估模型在小样本、强扰动场景下的泛化能力。
在该基准下,MTPNet展现出卓越的预测性能:平均RMSE降低18. 95%,PCC提升11. 6%,R2提升17. 8%。
图3:MTPNet的预测性能
除了在回归任务中取得显著优势,MTPNet在活性悬崖分类任务中的表现也同样出色。团队在CYP3A4数据集(来源于Veithetal.,2009)上进行了评估。该数据集包含3,626个已知活性分子(inhibitors/substrates)和5,496个无活性分子(inactivecompounds)。
结果显示,MTPNet在分类任务中取得了高达0. 924的AUC指标,超越当前多个SOTA模型(如Mole-BERT:0. 902,MolCLR:0. 896),进一步证明了MTPNet在各类任务场景中的预测能力和泛化能力。
4、MTP模块即插即用实验
团队进一步测试了将MTP模块作为插件的即插即用效果,在GCN、GAT、GIN、MolCLR、Mole-BERT等基线模型上进行了广泛测试。
结果表明将MTP模块插入后基线模型的预测性能大幅提升,所有模型的RMSE指标均实现超过15%的改善,并且显著超越参数规模scale-up后的基线模型的性能,展现出MTP模块的普适性和兼容性。
图4:MTP模块的即插即用效果
5、MTPNet框架的可解释性
团队进一步观察了MTPNet框架对于相互作用机制的捕获和理解,发现模型对氨基(–NH₂)、羰基(C=O)、磺酰基(O=S=O)、羧基(–COOH)、卤素基团等关键官能团,以及双键、三键等特定化学键赋予了显著的注意力权重。并且,模型倾向于将更多注意力分配给官能团而非化学键,这与化学领域「官能团对分子性质和反应性起主导作用」的基本原理一致,体现了较强的可解释性。总的来说,MTPNet不仅能准确识别影响分子活性的重要区域,还能反映官能团和化学键对溶解性、疏水性、亲和力等分子行为的影响。
图5:MTPNet的可解释性
6、总结与展望
MTPNet将受体蛋白作为条件信息显式引入建模流程,实现了通用的分子活性悬崖预测,未来可广泛应用于药物研发、分子优化和化学机制研究等领域。它能够帮助研究人员识别微小结构修饰对分子活性产生巨大影响的关键官能团和化学键,提升先导化合物和命中化合物的筛选、优化效率,减少试错成本。
同时,MTPNet的高可解释性有助于揭示蛋白–配体结合的分子机制,指导理性药物设计,探索活性悬崖的成因,未来可扩展用于毒性预测、构效关系建模以及复杂受体–配体相互作用规律的深入研究。
人工智能×[生物神经科学数学物理化学材料]
「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。
欢迎关注标星,并点击右下角点赞和在看。
点击阅读原文,加入专业从业者社区,以获得更多交流合作机会及服务。


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录