ACL 2025 | 大模型教你做实验！上海交大提出化学实验指令生成模型ChemActor

发布日期: 2025-07-04

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

将ScienceAI设为星标
第一时间掌握
新鲜的AIforScience资讯
编辑|ScienceAI
随着有机合成、材料开发、药物筛选等领域走向高度自动化，实验流程的标准化与可执行性正成为限制智能合成平台进一步发展的关键因素。其中，实验步骤在文献中以自然语言撰写、风格多样、语义模糊，构成了通向自动化的“最后一道语言壁垒”。
大语言模型（LLMs）的迅速发展，为化学实验流程的智能理解与自动生成带来了全新机遇。借助其强大的跨语言建模能力，未来的模型有望打通实验文本与可执行指令之间的语义鸿沟，让AI真正“读懂实验”“指导操作”，推动化学研究范式从“手工理解”迈向“语言驱动”。
近日，上海交通大学人工智能研究院AIforScience团队在许岩岩、金耀辉等人提出ChemActor——首个可实现非结构化实验描述与结构化实验操作指令“双向翻译”的大语言模型。ChemActor基于70亿参数模型进行微调训练，构建了首个融合链式数据生成和分布差异筛选的实验指令生成框架，在不依赖人工标注的前提下，自动完成从单分子输入到完整实验流程生成的全过程。
ChemActor并非只“能生成”，更能“写得真”。在两个公开化学实验数据集上，ChemActor相较现有方法在实验指令生成任务中性能提升平均超过10%，在语义对齐、逻辑合理性与结构还原等方面全面领先，彰显大模型“读懂实验语言、写出操作指令”的闭环能力。

论文链接：https ://arxiv. org/abs/2506. 23520
近年来，随着有机合成、自动化实验与新分子发现的深度融合，如何让机器“读懂”化学文献、理解实验步骤，成为推动智能合成平台与无人实验室建设的关键突破口。结构化实验指令不仅是实现自动化合成的“底层语言”，更是催化剂筛选、反应条件优化、反应路线预测等关键任务的数据基础。精准还原这些操作的语义结构，是实现实验自动化、流程智能化的前提。
尽管近年来自然语言处理（NLP）技术在化学文本解析上初见成效，已有部分模型可从文献中抽取实验步骤，但整个领域仍面临两大核心挑战：
一是实验语言本身的复杂性，不同研究者的表述风格差异显著，常包含模糊措辞、省略信息甚至逻辑跳跃；
二是高质量结构化数据的严重短缺，依赖人工标注的传统方法不仅耗时耗力，还难以覆盖实验条件的多样性和变化范围。
因此，如何在不依赖大规模人工标注的前提下，让AI真正“读懂实验语言”，并将其准确地转化为可供机器人执行的标准化操作指令，成为当前化学智能化发展的关键瓶颈。
ChemActor——基于生成数据增强的化学实验指令生成框架
在最新的研究中，上海交大AI4S团队基于大语言模型数据合成技术，提出了化学实验自动理解与指令生成大语言模型ChemActor，实现非结构化实验描述文本与结构化实验指令序列的互译。
图1ChemActor框架图
其核心创新点包括：
微调大语言模型：高效生成结构化实验指令
近年来，大语言模型（LLMs）被证实具有解决化学相关问题的能力。相较于其他现有实验指令生成的方法，ChemActor是第一个以LLaMA-2-7B大语言模型为基座模型，构建了具备化学实验语言理解能力的专用大语言模型。
链式数据生成框架：缓解标注数据稀缺难题
现有化学实验标注数据稀缺，难以提升模型的泛化能力。如图1B所示，ChemActor首次提出链式大语言模型合成数据框架，集成了逆合成（Retrosynthesis）、反应-描述（R2D）、和描述-指令（D2A）三个子模块，仅基于一个可合成的分子自动构建“反应-描述文本-操作指令”三元组数据。为提升生成质量，ChemActor引入数据选择框架，通过计算合成数据和原始数据的KL散度挑选有效合成数据，有助于显著拓展化学反应空间。
多轮语言模型循环评测机制：量化评估实验指令语义合理性
传统的文本生成任务评估指标（如BLEU等）难以反映实验步骤的语义合理性。为此，ChemActor设计了多轮LLM语言模型循环评测指标。如图1C所示，多个大语言模型组成“化学专家委员会”，围绕生成实验指令和标注实验指令的一致性、合理性进行多轮打分与交互评议，有效提升了评估结果的可信度和语义精度。
性能验证：突破化学实验指令抽取的理解与生成瓶颈
为全面验证ChemActor在化学实验语言理解与结构化生成任务中的性能，本研究围绕三项核心任务进行了系统评估，涵盖描述-操作（D2A）、操作-描述（A2D）以及反应-操作（R2A）。实验基于两个公开的化学实验流程数据集ChemTrans与OpenExp展开，采用多维度评估指标，包括BLEU、ROUGE等传统文本生成指标，BERTScore与多轮语言模型循环评测（LLMsCircleReview）等语义一致性指标，以及专家人工评分等主观质量评价手段。主要结果如图2、图3所示，ChemActor在多个任务、多个指标上均显著优于现有主流方法，展现出卓越的化学语言解析能力与生成稳定性。
图2主要实验结果（ChemTrans和OpenExp数据集）
实验理解“读得懂”，更读得准！
在D2A任务中，ChemActor在ChemTrans数据集上取得BLEU-4得分76. 93、EM得分36. 4，相较T5-ChemTrans与Paragraph2Actions等代表性方法平均提升超过10%。在更大规模、更复杂的OpenExp数据集上，模型同样保持领先表现，BLEU-4达到91. 0%，100%LEV指标提升至40. 1%，充分验证了其对复杂实验语言的语义解析与泛化能力。
图3语义一致性评估结果（ChemTrans数据集）
语言生成“写得出”，更写得真！
ChemActor在BERTScore、多轮语言模型循环评测（LLMsCircleReview）及专家评审三项核心语义指标上全部登顶第一，超过GPT-3. 5、Mistral等通用大语言模型。无论是语言表达的自然度，还是化学逻辑的合理性，ChemActor都展现出强大的领域适应力与“化学语感”，真正做到了“机器能读懂，也能讲明白”。
结语：让大模型成为化学实验的“第二大脑”
ChemActor的推出，不仅是一次实验语言建模的技术跃迁，更是在回应一个正在被重新定义的问题：化学实验，是否可以被机器真正“理解”与“执行”？这一答案，正在从科学幻想，走向工程现实。
随着大语言模型成为“科学操作的接口”，化学家的工作模式正悄然转变：从手动解析文献、构建实验流程，逐步迈向自然语言驱动的合成指令生成。ChemActor作为这一转型的早期范例，展示了大模型不仅能“说出”实验，更能“说清楚、做准确”，为构建面向未来的无人化实验室与智能合成平台提供了可能。
这只是一个开始。我们相信，随着大语言模型能力的持续演进、多模态数据的注入，以及实验任务标准体系的逐步完善，ChemActor及其底层技术框架将加速落地于化学实验设计、反应路径规划、复杂体系自动执行等关键场景，推动化学科学迈入AI驱动的新范式。
作者信息
上海交通大学人工智能研究院博士生张雨、硕士生余睿婕为论文共同第一作者，许岩岩副教授、金耀辉教授为论文共同通讯作者，杨小康教授、变革性分子前沿科学中心朱峰副教授及汇像智能科技（上海）有限公司刘家朋博士为该研究提供了指导与帮助。
团队介绍
上海交通大学人工智能研究院AIforScience团队在杨小康教授、金耀辉教授、许岩岩副教授带领下，包括十余位博士后与硕博研究生，重点研究生成式人工智能，特别是科学大模型赋能化学研究，针对有机化学合成、自动化实验等重大问题提出了一系列创新解决方案。
团队发布了首个化学合成大语言模型——白玉兰科学大模型，是首个具备反应生成与“人在环路”反馈优化能力、能够指导实验探索的化学大模型，具有分子设计、逆合成线路规划、反应条件生成、反应产率预测、实验条件优化迭代等化学合成全功能。
团队研究成果已发表于NatureEnergy,NatureComputationalScience(封面),NatureMachineIntelligence,ScienceAdvances,以及CCFA类会议。团队所属的上海交通大学人工智能研究院、人工智能教育部重点实验室计算资源丰富，积累大量数据和基础模型，并与化学与化工学院、变革性分子前沿科学中心团队紧密合作，形成交叉学科研究体系。
人工智能×[生物神经科学数学物理化学材料]
「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。
欢迎关注标星，并点击右下角点赞和在看。
点击阅读原文，加入专业从业者社区，以获得更多交流合作机会及服务。