含2.01亿张MS/MS光谱,AI质谱新工具帮助科学家发现未知分子
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
将ScienceAI设为星标
第一时间掌握
新鲜的AIforScience资讯
编辑|白菜叶
自然界中充满了尚未被人类发现的化学物质。探索这些化学物质可以加速新药研发、更深入理解生物过程、开发更环保的农药等等。
每种物质具有一种独特的模式,类似于人类的指纹,可以被质谱(MS)方法所捕获。
虽然质谱方法可以生成大量数据,但解读这些数据并揭示精确的分子结构却极其困难。由此产生的质谱数据集,有时候看起来像是一堆毫无意义的庞大数字表格。
为了探寻未知分子的奥秘,捷克科学院(ASCR)和捷克技术大学(CTU)的研究团队开发了一个基于Transformer的神经网络DreaMS,该网络以自监督的方式预训练了数百万张未注释的串联质谱(MS/MS)图,这些质谱图均来自MassIVEGNPS库中的GNPS实验质谱(GeMS)数据集。
通过进一步微调神经网络,该团队发布了在各项任务中均达到最佳性能的DreaMSAtlas——一个基于DreaMS注释构建的包含2. 01亿张MS/MS光谱的分子网络。
就像ChatGPT等大型语言模型能够在不预先知道单词含义的情况下学习理解语言一样,DreaMS也可以尝试在不预先了解其化学结构的情况下解读质谱图。
DreaMS无需依赖现有方法或人类领域专业知识,即可适用于各种光谱注释任务,并可作为MS/MS的基础模型。
「ChatGPT可以从大量文本中推断单词的含义及其之间的联系,而DreaMS神经网络则利用自监督机器学习,学习识别光谱中隐藏的分子结构。它利用了数百万个示例的数据。」论文的通讯作者之一,来自CTU的JosefŠivic博士解释道。
图示:DreaMS神经网络克服了质谱数据库的局限性。(来源:论文)
为了搭建DreaMS,研究人员首先构建了一个高质量的数据集——GNPS实验质谱(GeMS),其中包含从全球天然产物社会分子网络(GNPS)库中挖掘出的多达7亿条MS/MS光谱。
之后,该团队设计了一个Transformer神经网络,并使用GeMS数据对其进行了预训练,以预测掩蔽谱峰和色谱保留顺序。结果表明,通过在未注释的质谱上针对这些自监督目标进行优化,该模型能够发现丰富的分子结构表征。
具体来说,DreaMS表示(1,024维实值向量)是根据分子之间的结构相似性组织的,并且对质谱条件表现出稳健性。
「DreaMS模型基于来自不同生物体和环境(植物、微生物、食物、组织和土壤样本)的数千万张光谱进行训练。得益于此,它可以发现乍看起来毫无关联的光谱之间隐藏的相似之处。」论文的通讯作者之一、Neuron奖获得者、捷克科学院的TomášPluskal解释道。
针对各种质谱注释任务,研究人员对DreaMS进行了微调,包括预测光谱相似性、分子指纹、化学性质和氟的存在,其性能超越了传统算法和质谱领域的机器学习模型。
「我们特别惊讶的是,该模型学会了检测氟。」Pluskal说,「氟存在于大约三分之一的药物和农用化学品中,但我们之前无法从质谱中可靠地检测到它。在对数百万张光谱进行预训练后,我们用几千个含氟分子样本对其进行了微调——突然间,它就成功了。」
然后,研究人员用微调模型构建了DreaMSAtlas——一个使用DreaMS注释组装的2. 01亿个MS/MS光谱的分子网络。
图示:DreaMSAtlas是一个包含2. 01亿个MS/MS光谱的分子网络,它为整个MassIVEGNPS存储库提供了全面的系统化。(来源:论文)
DreaMSAtlas是一个综合资源,利用DreaMS预测和MassIVEGNPS元数据来解释质谱图。将DreaMSAtlas视为化学上可信的分子结构空间的近似值,为计算化学面临的各种挑战提供了新的视角。
例如,可以通过在DreaMSAtlas中的已知药物之间进行插值来解决基于片段的药物设计问题,并且可以通过识别DreaMSAtlas图形结构中稀疏连接的区域来促进具有潜在原始作用模式的结构独特化合物的检测。
换句话说,在DreaMSAtlas上,用户可以搜索、探索已发现的联系并提出新的问题——例如:杀虫剂、食物和人体皮肤有什么共同点?
目前,该团队正进行下一步的研究:如何预测整个分子结构。如果成功,它将从根本上改变我们对化学多样性的理解——无论是在地球上还是宇宙中的任何地方。
论文链接:https ://www. nature.com/articles/s41587-025-02663-3
相关内容:https ://phys. org/news/2025-05-unknown-molecules-ai. html
人工智能×[生物神经科学数学物理化学材料]
「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。
欢迎关注标星,并点击右下角点赞和在看。
点击阅读原文,加入专业从业者社区,以获得更多交流合作机会及服务。