ACL 2025 | 让大模型听懂育种的语言,科学家提出首个种子科学多任务评测基准SeedBench


ACL 2025 | 让大模型听懂育种的语言,科学家提出首个种子科学多任务评测基准SeedBench

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

将ScienceAI设为星标
第一时间掌握
新鲜的AIforScience资讯
编辑|ScienceAI
种子,堪称农业的「芯片」。当前我国种业与国际顶尖水平仍有差距,部分高端种源仍然依赖进口。种业创新,任重道远——研发周期漫长、专业数据分散、多种学科复合、专业人才缺乏。
大语言模型(LLMs)的出现,似乎为育种科研带来了新可能!大语言模型通过学习海量数据,可以打通学科壁垒,未来还能推动育种向数智化转型,助力种业「弯道超车」。不过,大语言模型在育种领域的应用仍面临专业数据稀缺和缺乏标准化评估体系等瓶颈,制约了大模型驱动的智能育种的发展。
为此,上海人工智能实验室联合崖州湾国家实验室、上海创智学院推出首个专注于种子科学的多任务评测基准SeedBench,可全面评估大模型在育种科研中的效用。SeedBench涵盖基因信息获取与分析、基因功能与调控机制分析、品种选育与农艺特性优化三大育种阶段,为人工智能赋能生物育种提供客观能力参考。
论文标题:SeedBench:AMulti-taskBenchmarkforEvaluatingLargeLanguageModelsinSeedScience
论文链接:https ://arxiv. org/pdf/2505. 13220
数据开源:https ://github. com/open-sciencelab/SeedBench
研究背景
当前全球种业正经历从「经验育种」向「智能育种」的跨越式发展。
据联合国粮农组织统计,近二十年全球作物增产超50%,技术进步是核心驱动力。同时,基因组测序技术飞速进步,单个作物性状可能受数百个基因位点调控,传统人工分析方法已难以应对,将数据驱动的人工智能算法融入育种成为必由之路。特别是大语言模型,能够处理大量的遗传、环境和农学数据,从而提高育种效率。
尽管大模型已在医疗、法律、金融等领域取得显著成效,但在育种领域的应用仍面临诸多挑战:
•数据之困:育种相关数据(如基因功能、农艺性状)在互联网中的占比较低,限制模型训练效果。部分田间记录仍存在纸面,大量隐性经验难以数字化传承。
•评估之缺:对比医疗、法律、金融等领域已有成熟评测基准(如FinBench、LawBench),育种领域缺乏覆盖全流程的评估基准,导致大语言模型优化缺乏方向。
•跨学科复杂性:育种涉及遗传学、分子生物学、环境科学等多领域知识,大语言模型需理解基因-性状间复杂关联并生成田间适用的建议。
总之,智能育种这条路并不平坦。让大模型能听懂育种的语言,SeedBench,只是迈出的一小步。
构造方法
SeedBench研究团队首先提取了308,727篇与育种相关的中英文文献,统一转换为Markdown格式。经过数据清洗得到一个包含1. 1-billion-token的育种语料库。
在此基础上,育种专家从中精选出279个高质量文本块,涵盖基因信息获取与分析、基因功能与调控机制分析、品种选育与农艺特性优化三大育种阶段,并提供了包含单项选择题、多项选择题、填空题和生成题的示例问题交由LLM进行扩充和变化。验证环节包括自动化审查与专家评审,剔除了低质量内容,并确保题目有价值且与育种高度相关。
最终,SeedBench提供了覆盖多任务类型的2,264道高质量题目,实现对LLM在3个育种阶段、10个育种能力的细粒度评估。
评测任务设计
SeedBench模拟育种专家工作流,覆盖以下三个育种阶段:
数据集题目展示
以下为SeedBench中的题目示例:
基因基本信息查询
基因功能实验观察
品种选育过程查询
评测结果与发现
通过对27个主流LLM(包括GPT-4、Gemini、Claude及开源模型)的测试,SeedBench揭示关键结论:
1. 领域模型表现不佳:领域微调模型(如PLLaMa)表现不佳,得分低于通用模型,可能的原因是:微调后通用能力下降;针对过窄的任务微调、在过窄的数据上后训练;使用了未经专家验证的数据等等。
2. 参数规模与性能:7B~14B参数模型在性能与计算成本间达到最佳平衡(如Qwen2. 5-14B)。
3. 推理模式失效:Reasoning模式(如Gemini-2. 0-Flash,OpenAIo1-mini)反而降低育种任务中的答案精确性。
总结与展望
SeedBench作为首个针对种子科学的大语言模型评测基准,其专家级数据质量由育种专家设计并验证,确保问题具有高度专业性和广泛覆盖度。SeedBench研究团队通过与领域专家合作,模拟真实育种场景,并实施严格的两阶段验证流程,确保评测的科学性与可靠性。
这一工作流不仅为种子科学提供了精准的评估工具,还为科学智能的基准设计提供了可借鉴的参考框架。SeedBench的推出对未来科研工作具有重要指导意义:它通过覆盖基因信息分析、功能调控与品种优化三大育种阶段,为大模型在农业中的优化提供了清晰方向,推动AI技术从通用领域向农业垂直场景的落地。
实际应用中,基于SeedBench评测的首个种业大模型「丰登」(SeedLLM)[1]已于近日开放申请使用(https ://seedllm. org.cn/),助力生物育种效率提升。
未来,研究团队计划进一步拓展SeedBench对育种大模型的评估能力,持续优化数据的多样性,融合多组学、表型图片、传感等更多数据模态,扩展更多作物,贴近真实育种环境,推动大模型在育种场景的实际应用。
联系团队
欢迎对「大模型+生物育种」感兴趣的有志之士联系丰登联合研发团队。除学术合作外,团队常年开放研究员、工程师、博士后、联培博士生、实习生等岗位。
联系人:杨博士
邮箱:yangfan@yzwlab. cn
工作地点:三亚、北京、深圳、上海
参考文献

人工智能×[生物神经科学数学物理化学材料]
「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。
欢迎关注标星,并点击右下角点赞和在看。
点击阅读原文,加入专业从业者社区,以获得更多交流合作机会及服务。


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录