让大模型真正「懂」实验,从理解协议开始!北大团队发布 BioProBench


让大模型真正「懂」实验,从理解协议开始!北大团队发布 BioProBench

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

将ScienceAI设为星标
第一时间掌握
新鲜的AIforScience资讯
作者|刘宇阳
编辑|ScienceAI
✨如果说大语言模型正在改变人类与知识的交互方式,那么它是否也能改变科学实验的执行流程?
在生命科学研究中,实验协议(biologicalprotocol)是最基本也是最关键的部分——每一条步骤、每一项参数都可能决定实验的成败。
然而,大多数大型语言模型(LLMs)虽能「生成文本」,却难以真正理解实验流程。从「生成合理的步骤」到「识别协议中的潜在错误」,它们常常陷入「看似懂了,其实没懂」的尴尬境地。
为此,北京大学的研究团队推出了BioProBench:首个面向生物实验协议的大规模、多任务基准评测平台,旨在系统评估并推动大模型在实验协议理解、推理与生成方面的能力。
🔍背后的挑战:为什么需要BioProBench?
生物实验协议看起来只是文字说明,实则蕴含丰富的隐性知识:
而目前主流大模型大多缺乏在真实实验协议上的训练与评估,没有标准数据集,无法衡量能力上限,更难发现关键瓶颈。
BioProBench正是为了解决这些问题而生,它构建了一个覆盖真实协议、设计科学任务、配套专业评测的完整平台。
📊数据集规模:BioProBench有多大?
来自Bio‑protocol、JOVE、Protocols. io、NatureProtocols等权威来源
包括问答、排序、错误修正、协议生成与推理等多样任务
我们基于这些协议构建了五大核心任务:
🧠模型测得如何?现实远比想象更严峻!
为了系统验证BioProBench的评测价值,我们对多个主流大语言模型进行了全面测试,涵盖12个开源模型,闭源API和生物领域模型:
对于实验协议生成任务(GEN)上,更多考验的是LLMs对于生物领域性知识的理解和推理能力,以及指令遵循的文本生成能力。该任务的挑战性较高,如表格所示,通用的N-gram指标普遍较低:BLEU最高得分为10. 23(Qwen2. 5-72b-instruct),METEOR最高得分为24. 78(Claude-3-7-sonnet),而ROUGE-L仅为20. 70(GPT-4-turbo)。为此,我们提出了域特定的度量指标:基于关键词的内容度量和基于嵌入的结构化度量。其中基于嵌入的结构化度量包含:
1)步骤召回率(SR):该指标旨在确保完整性。它使用相似度阈值delta=0. 7来量化生成协议中语义上捕获的必要参考步骤的比例。
2)步骤准确度(SP):该指标与SR互补,旨在衡量简洁性和相关性。它使用相似度阈值delta=0. 7来量化生成步骤中与参考步骤在语义上对应的比例。SP越高,质量越好(生成过程中虚假或不相关的步骤越少)。
SR仍然低于0. 43,这意味着超过一半的必要步骤被省略或错误呈现。SP得分介于0. 20和0.32之间,表明生成步骤中经常包含不相关或无关的步骤,凸显了生成步骤的低精度。
值得注意的是,在GEN任务中,使用CoT会导致大多数模型和指标的性能持续下降。Claude-3-7-sonnet的SR从0. 4280下降到0.3918,其METEOR略有下降,而大多数模型在CoT下N-gram和关键词得分下降幅度更大。这表明,未调优的推理框架可能会干扰连贯、结构化的协议文本的生成。为了解决这个问题,BioProBench提供了结构化的CoT样本,这些样本可作为微调模型的基础,从而生成更流畅、逻辑更一致的程序。
这些结果表明:当前LLMs并不具备稳定可靠的实验协议处理能力,在真正用于实验室自动化前,还有很长的路要走。
🧰团队还提供了什么?
BioProBench不仅仅是一个数据集,它是一个完整的评测工具包和研究框架:
🚀应用前景广阔:不止科研,还有更多可能
BioProBench的推出,希望推动AI与科研实验场景的深度融合。
未来,它可广泛应用于:
📢欢迎访问与参与!
BioProBench已全面开源,欢迎每一位对「AI+实验」感兴趣的研究者、工程师、同学加入我们!
项目链接:
Arxiv:https ://arxiv. org/pdf/2505. 07889
GitHub:https ://github. com/YuyangSunshine/bioprotocolbench
HuggingFace:https ://huggingface. co/datasets/BioProBench/BioProBench
人工智能×[生物神经科学数学物理化学材料]
「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。
欢迎关注标星,并点击右下角点赞和在看。
点击阅读原文,加入专业从业者社区,以获得更多交流合作机会及服务。


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录