Nature子刊 | 预测完全未知的化合物-蛋白质相互作用:药物研发突破性新工具GraphBAN
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
将ScienceAI设为星标
第一时间掌握
新鲜的AIforScience资讯
编辑丨coisini
药物研发往往是一个筛选、修饰化学分子并将其开发为治疗制剂的过程。发现靶向疾病潜在候选药物的关键在于:识别出能与疾病相关靶蛋白相互作用并结合的化合物,从而理解其治疗效应。因此理解化合物-蛋白质相互作用对于早期药物研发至关重要。
通过实验鉴定化合物-蛋白质相互作用(CPI)通常成本高昂且耗时,因此学界开发了计算机模拟预测方法来优化发现流程,包括分子对接和分子动力学模拟。分子对接通过估算化合物与靶蛋白的结合亲和力来研究CPI;分子动力学模拟则通过模拟分子随时间运动来解析动态相互作用。
但这些方法存在固有局限:从大型化合物库中筛选候选药物时计算资源消耗巨大,且依赖高质量分子结构作为输入——这对于缺乏实验验证结构的分子构成显著挑战,从而限制了这些计算机方法在大规模分子库中筛选目标CPI及鉴定候选药物的实用性。
论文地址:https ://www.nature.com/articles/s41467-025-57536-9
GraphBAN简介
如图1a所示,GraphBAN接收SMILES格式的化合物与氨基酸序列的蛋白质,构建以化合物/蛋白质为节点、活性相互作用为边的二分网络(含节点特征)。
图1:GraphBAN架构(来源:论文)
如图1b所示,化合物与蛋白质的特征是通过融合四种不同方法(两种针对化合物,两种针对蛋白质)生成的:化合物特征采用结构图卷积网络(GCN)与预训练LLM——ChemBERTa;蛋白质特征通过CNN层与ESM进行提取,随后提取教师模块中的网络结构特征,并将这些知识蒸馏到学生模块中。
学生模块通过双线性注意力网络(BAN)学习节点特征的联合表征及编码后的局部相互作用,最终引入条件域对抗网络(CDAN)模块(图1c),增强模型处理跨域化合物-蛋白质对的能力。
GraphBAN通过二元分类(活性/非活性)判定相互作用,这种模式对生物医药应用至关重要。正如论文第一作者HamidHadipour所说:「药物研发中一个行之有效的方法是锁定在疾病中起关键作用或帮助有害微生物存活的蛋白质。若能通过合适的小分子靶向这些蛋白质,我们就能阻断疾病发展进程。」
实验验证
为了验证GraphBAN在药物发现实际场景中的实用性,该研究聚焦于一种参与细胞周期调控、发育及信号通路等多种关键细胞进程的必需酶——肽基脯氨酰顺反式异构酶NIMA相互作用蛋白1(Pin1)。鉴于Pin1在细胞周期中的核心作用,它已成为各类癌症治疗的重要靶点。
为预测与Pin1相互作用的化合物,该研究使用ZINC-250K数据集中的约25万种化合物,通过GraphBAN模型筛选潜在结合化合物。由于ZINC-Pin1数据集缺乏CPI标注值,因此模型采用归纳推理方式预测相互作用。
GraphBAN通过无监督域适应模块,在ZINC-Pin1数据集无CPI标注的条件下实现了CPI预测。具体来说,该研究选用三个高质量训练数据集(BioSNAP、BindingDB和KIBA),同时排除小规模数据集以规避欠拟合风险。
如图2所示,经过训练并部署Pin1与ZINC化合物配对预测后,GraphBAN识别出134种与Pin1相互作用概率高于0.5的化合物。
图2:过滤和可视化Pin1结合位点(来源:论文)
总的来说,GraphBAN能有效处理未知节点的归纳式链接预测,为完全未知的化合物与蛋白质之间相互作用的预测提供了稳健解决方案,从而突破了传统方法仅适用于已知场景的局限。
相关报道:https ://phys.org/news/2025-04-graphban-drug-discovery-faster-artificial.html
人工智能×[生物神经科学数学物理化学材料]
「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。
欢迎关注标星,并点击右下角点赞和在看。
点击阅读原文,加入专业从业者社区,以获得更多交流合作机会及服务。