解决200种复杂材料,10Å尺度模拟纳米晶体,哥大团队用4万个原子结构训练AI,登Nature子刊
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
将ScienceAI设为星标
第一时间掌握
新鲜的AIforScience资讯
编辑|萝卜皮
一种基于扩散模型的生成式ML框架PXRDnet解决材料难题。
在材料领域有一个长期存在的问题,它致使救命药物的研发被迫搁置,新一代电池的发展受到阻碍,考古学家无法确定古代文物的来源。
百年来,科学家们一直使用晶体学方法来确定材料的原子结构,它的工作原理是将X射线束照射到材料样品上,并观察其产生的衍射图案。
从衍射图案中,理论上可以计算出样品中原子的精确排列。然而,挑战在于,这种技术只有在研究人员拥有大量且纯净的晶体时才能有效。
当他们不得不面对一种被称为纳米晶体的微小粉末时,这种方法只能提供一些线索,无法完全揭示那些看不见的结构。
「人工智能可以从结构数据库中学习各类知识,来解决这个问题。正如ChatGPT学习语言模式一样,人工智能模型能够学习自然界中物理允许的原子排列模式。」哥伦比亚大学(ColumbiaUniversity)工程学院材料科学、应用物理和应用数学教授SimonBillinge表示。
Billinge领导的研究团队提出了一种基于扩散模型的生成式机器学习框架PXRDnet,它在45,229个已知结构上进行训练。
仅基于化学式和信息稀缺的有限尺寸展宽粉末衍射图,PXRDnet成功解决了200种不同对称性和复杂程度的材料中小至10 Å的纳米晶体,包括所有七种晶体系统的结构。
过去一百年持续不断的材料革命,建立在科学界对原子排列(即材料结构)及其特性对这一底层结构的内在依赖性的深入理解之上。用解析衍射图谱确定材料结构,必要条件是单晶结构解。
图示:纳米材料PXRD(powderX-raydiffraction)图谱。(来源:论文)
不过,在许多现实情况下,获取纯单晶样品并不可行,尤其是纳米级原子团簇(即所谓的纳米结构问题)。在这些情况下,衍射图谱的信息含量会显著降低。必须从粉末衍射图谱中重叠的峰中提取峰强度,而这个问题在纳米材料(定义为尺寸小于1,000Å的晶体)中被大大放大,因为有限尺寸效应会导致布拉格峰显著增宽。
总而言之,这项任务困难重重!
PXRDnet来解决困难
Billinge团队的目标是看看是否可以使用已有结构形式的先验知识,来训练生成人工智能(AI)模型,从而克服从「信息退化的衍射图案」中解决结构问题的挑战。
于是,他们利用4万个已知原子结构训练了一个生成式人工智能模型PXRDnet。
「从之前的研究来看,我们知道纳米晶体的衍射数据所包含的信息不足以得出最终结果。该算法利用了数千个不相关结构的知识来增强衍射数据。」Billinge解释道。
图示:PXRDnet结构预测。(来源:论文)
在信息量非常低的情况下,例如10Å纳米晶体尺寸,PXRDnet的预测表现得非常出色。
PXRDnet能够在五次测试中有四次成功,且生成了可验证地确定结构候选,这些候选结构的平均误差仅为7%。此外,PXRDnet能够从实际实验中收集的噪声衍射图谱中解析结构。
与任何结构求解方法一样,该团队并不期望100%的成功,而是寻求一种能够提供结构候选物并可进一步评估其有效性的方法。在这方面,PXRDnet展现出了卓越的性能,这得益于朗之万动力学(LangevinDynamics)固有的随机性,从而产生了多个结构候选物。
早期,科学家使用Liga算法通过原子对分布函数求解纳米结构的研究,仅在对称性足够高的结构中成功,这限制了该方法的影响力。
PXRDnet通过利用其训练数据中的信息,在这种低输入信息环境下取得了更大的成功,而这是Liga无法做到的。PXRDnet的成功,表明扩散模型或许可以为更广泛的科学问题提供一种强有力的方法。
这说明对人类来说超级难的问题,对数据驱动的机器学习方法来说并不一定很难。
图示:五次测试的实验数据。(来源:论文)
还有很大的提升空间
虽然如此,这项研究依然存在一些局限性。
PXRDnet的局限性在于需要预先知道化学式,未来将探索在未知或部分已知化学成分情况下的结构解析能力。此外,当前研究仅适用于晶胞原子数不超过20的材料,未来需扩展至更多原子的材料。
数据质量方面,这里使用的低质量图谱(Q<8.2Å^−1)限制了模型性能,而更高质量的数据有望提升预测准确性。机器学习层面,模型基于现成的CDVAE主干,其贡献在于解决了纳米材料结构测定难题而非算法创新。
研究人员还表示,未来另一个优化方向是增强对背景信号的稳健性,例如通过消除容器信号干扰来提升模型表现。
结语
图示:晶体衍射示意。(来源:论文)
「粉末晶体学问题是著名的蛋白质折叠问题的姊妹问题,在蛋白质折叠问题中,分子的形状是通过线性数据特征间接推导出来的。」哥伦比亚工程学院机械工程系主任、论文作者之一HodLipson教授说道,「现在,尤其让我兴奋的是,人工智能在物理或几何背景知识相对匮乏的情况下,竟然能够学会解决困扰人类研究人员一个世纪的难题。」
这个百年粉末晶体学之谜对于Lipson来说意义非凡。Lipson是计算晶体学方法先驱HenryLipson(CBE,FRS,1910-1991)的孙子。20世纪30年代,HenryLipson与Bragg等人合作,开发了早期的晶体学计算技术,这些技术被广泛应用于解决早期的复杂分子,例如青霉素。
「我上中学的时候,这个领域还在苦苦挣扎,那时候构建能够区分猫、狗的算法都超级困难。」论文的第一作者、斯坦福大学的博士生GabeGuo表示:「现在,像我们这样的研究领域,正在展示人工智能的巨大威力。它确实能够增强人类科学家的能力,并将创新推向新的高度。」
总而言之,这项研究为未来的计算晶体学和材料科学研究带来了乐观的展望。
论文链接:https ://www.nature.com/articles/s41563-025-02220-y
相关报道:https ://www.eurekalert.org/news-releases/1081847
人工智能×[生物神经科学数学物理化学材料]
「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。
欢迎关注标星,并点击右下角点赞和在看。
点击阅读原文,加入专业从业者社区,以获得更多交流合作机会及服务。