有效性达95.5%,Deep dreaming方法可逆向设计MOF,探索材料化学空间
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
将ScienceAI设为星标
第一时间掌握
新鲜的AIforScience资讯
编辑丨%
探索金属有机框架(MOFs)这一庞大且尚未充分利用的化学空间,有望在材料科学领域拓展出一片更广阔的学术空间。
其中,MOFs以模块化著称,以前所未有的灵活性根据特殊需要定制功能。但在面临如此庞大的空间,如何进行有效地「分子导航」成为了一个问题。
英国曼彻斯特大学(UniversityofManchester)采用了一种名为「deepdreaming」的方法,在虚拟空间优化MOFs,试图从一开始就生成系统性地接近目标功能的结构。
论文链接:https ://www. nature.com/articles/s41467-025-59952-3
Deepdreaming
具体来讲,Deepdreaming是一个可解释的框架,整合了性质预测与结构优化,采用专门的化学语言模型,聚焦于发掘在碳捕获和能源存储等应用中至关重要的MOF性质。
时至今日,实验中合成的MOFs数量已经超过了十万种,但有机连接体的广阔化学空间暗示了几乎无限的MOF组合可能。
高通量计算筛选(HTCS)常用于寻找特定应用的有前途的MOF候选物。这种方法从一系列结构中选取具有特定关键指标的材料,但也会落入已知材料的性质会与目标有偏差的困境。
因此,在HTCS中提供一个显著扩大的潜在结构选择至关重要,这有助于研究人员能在合成材料时考虑到最佳的组合。
Deepdreaming方法先仅使用标记数据来训练机器学习模型,预测分子属性从字符串表示。然后,通过「inceptionism」技术将机器学习架构反转,从而修改输入以达到目标属性值,进而在过程中创建新的分子。
这种技术提供了一种扩展给定应用可能候选材料池的方法,还提供了对模型理解的可解释洞察。在逆向训练过程中,模型的预训练权重和偏置被冻结,输入通过梯度下降逐步修改为新的、最优的特征向量。
团队扩展了用于逆向设计MOFs的方法,以恢复优化过程。考虑到任务中元素的独特作用,团队参考了Bucior等人提出的MOF识别方案,将他们的MOF字符串分为三类表示:
(1)边缘SBU表示,使用GroupSELFIES字符串来描述重要的化学亚结构,如功能基团和芳香环;
(2)节点SBU表示,使用SELFIES字符串描述;
(3)拓扑表示,使用RCSR代码描述。
这些元素共同捕捉了MOFs的化学和部分拓扑特征,但不包含任何结构细节。虽然这种方法在表达能力上可能不如基于结构的模型强大,但它可以通过简单的字符串操作在逆向过程中高效地探索性质空间。
图1:Deepdreaming模型和金属有机框架(MOF)字符串表示。(图源:论文)
接着,团队使用PyTorch(v. 2.2. 1)开发了一种适用于复杂序列到回归任务的机器学习架构,结合了长短期记忆(LSTM)网络和注意力机制。
通过引入自注意力机制,模型可以专注于输入序列中与当前回归任务关联性最高的部分。如此操作能提高模型的物理可解释性,在推理过程中应用注意力权重可以揭示MOF字符串中不同标记的重要性及其对模型预测的贡献。
最后,从两个LSTM分支获得的向量被连接起来,并通过MLP得到最终的性质预测。虽然每一种组合由于算法原因在化学上都是可行的,但并非每个样例都代表有效预测。
图2:使用Deepdreaming方法逆向设计工程金属有机框架(MOFs)。(图源:论文)
优化MOF结构
在这个部分,团队使用直观的优化轨迹(如比表面积VF)对单个MOF进行实验。实验的出发点是基于VF(以及其他结构特征)与MOF功能的密切相关性。团队期望在增加MOF的VF的模型训练中发现类似的优化策略。
为进一步探索这一想法,研究人员决定让模型最大化MOF的VF,从一个基点MOF结构开始,模型将在数百个训练周期中对边SBU编码进行微小调整,对应deepdreaming过程。
后续进程里,有效的转变路径被定义为一系列成功的连接分子修改,而转变路径则指模型建议的所有修改,无论是否有效。通过检查有效的转变路径,可以清楚地看到从初始种子结构到最终解码结构的连接点之间的延伸,一些无效的连接分子将会被剔除出考虑范围。
图3:优化单个金属有机框架(MOF)结构。(图源:论文)
在每次迭代中,基点MOF都会被转换成具有扩展孔隙空间的结构。因此,尽管轨迹在多次重复试验中可能会有所不同,但设计策略保持一致。这里可以将这些结果解释为一系列局部优化,再从局部中择取最优的结构选项即可获得全局最优结果。
值得强调的优势
Deepdreaming的过程实际上赋予了它较高的物理可解释性。对于VF的具体情况进行直接预测可以得到「连接体越长,VF越高」的一般结论,但这个解读过程对于机器学习的洞察过程来说往往比较复杂。
通过使用直接对应于化学结构的MOF字符串,团队可以确保特征不仅具有物理意义,而且可复制:经验丰富的化学家,配备适当的实验工具,可以复刻出模型建议的连接体修饰。
与Sm-VAE等模型相比,尽管限制了设计范围,但deepdreaming方法使用相对较少的训练数据实现了高有效性(95. 5%)和唯一性(99. 4%)。
原则上,设计团队可以通过模仿模型的自动化优化策略,对有价值的设计规则加以推导。
借助这种能力,deepdreaming可以同时在科学发现和理解方面实现双重目标,从而照亮人工智能的「黑箱」,并朝着更具解释性的人工智能迈进。
人工智能×[生物神经科学数学物理化学材料]
「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。
欢迎关注标星,并点击右下角点赞和在看。
点击阅读原文,加入专业从业者社区,以获得更多交流合作机会及服务。