微软研究院BioEmu登上Science,用生成式AI重塑蛋白质功能研究


微软研究院BioEmu登上Science,用生成式AI重塑蛋白质功能研究

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

论文:https ://www. science.org/doi/10. 1126/science. adv9817
代码:github. com/microsoft/bioemu
模型:https ://huggingface. co/microsoft/bioemu
评估基准:github. com/microsoft/bioemu-benchmarks
ColabFold:https ://colab. research.google. com/github/sokrypton/ColabFold/blob/main/BioEmu. ipynb
AIFoundry:https ://ai. azure.com/catalog/models/BioEmu
该研究提出了一种名为BioEmu的生成式深度学习模型,能够以前所未有的效率和精度模拟蛋白质的构象变化,为理解蛋白质功能机制和加速药物发现打开了新路径。
近年来,AlphaFold等模型在蛋白质结构预测方面取得了突破性进展,但这些方法通常只能预测单一静态结构,难以捕捉蛋白质在功能过程中所经历的动态变化。蛋白质并非静止不动的分子,而是处于不断变化的构象系综(conformationalensemble)中,其功能往往依赖于这些结构之间的转换。
BioEmu正是为了解决这一挑战而生。它通过结合AlphaFold数据库中的静态结构、超过200毫秒的分子动力学(MD)模拟数据,以及50万条蛋白稳定性实验数据,训练出一个能够在单张GPU上每小时生成上千个独立蛋白质结构的生成模型。
视频:BioEmu生成的蛋白质动态构象展示
BioEmu承接自微软研究院的前期工作DiG(DistributionalGraphormer),基于扩散模型架构,结合AlphaFold的evoformer编码器和二阶积分采样技术,能够高效地从蛋白质构象分布中采样。其核心创新在于:
能够模拟蛋白质在功能过程中出现的关键结构变化,如隐性口袋、局部解折叠和结构域重排;
在自由能预测方面达到1kcal/mol的误差水平,与毫秒级MD模拟和实验数据高度一致,相比分子动力学模拟实现了若干个数量级的加速;
对突变体的稳定性变化(ΔΔG)预测表现出色,平均绝对误差低于1kcal/mol,Spearman相关系数超过0. 6。
研究团队已在GitHub和HuggingFace上开源了模型参数和代码,还发布了超过100毫秒的MD模拟数据,涵盖数千个蛋白系统和数万个突变体,为后续研究提供了丰富资源。BioEmu也部署在了AzureAIFoundry和ColabFold等平台,使得用户可以便捷地运行模型。
BioEmu的开源发布也标志着微软在推动开放科学方面迈出的重要一步。目前,BioEmu的建模对象主要是单体蛋白质。研究团队正在探索将其扩展到蛋白质复合物、蛋白-配体相互作用等更复杂的生物体系,并结合实验数据进一步提升模型的泛化能力和可解释性。在蛋白质科学、药物设计和合成生物学等领域,BioEmu有望成为连接结构与功能、理论与实验的桥梁。
©THEEND
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin. com


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录