通过对话即可执行DNA、RNA和蛋白质任务,InstaDeep提出多模态智能体ChatNT


通过对话即可执行DNA、RNA和蛋白质任务,InstaDeep提出多模态智能体ChatNT

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

将ScienceAI设为星标
第一时间掌握
新鲜的AIforScience资讯
编辑|萝卜皮
在AI飞速发展的今天,从事传统生物学研究的老师和同学们,在使用最新的AI生物学工具时,是否常苦于要学习各种编程语言?
今天学「R语言」,明天学「python」,后天学「大模型部署」……单单去学习新技术、新工具的使用,便耗费了同学们大量的时间与精力。
有没有一种方法仅通过对话的形式,就组合调用各类生物学大模型来执行任务呢?以前没有,现在有了!
英国伦敦InstaDeep公司的研究人员提出了ChatNucleotideTransformer(ChatNT),一个对生物序列具有高级理解能力的多模态对话智能体。
仅通过一次性英文对话,ChatNT就能够处理DNA、RNA和蛋白质序列,并解决多项生物学相关的下游任务。

语言模型蓬勃发展,赋能对话智能体,帮助人类解决各种任务。这些模型支持视觉、音频和视频等多模态,在医疗保健等多个领域大放异彩。然而,对话智能体在生物学领域的应用仍然受到限制,因为它们尚无法完全理解生物序列。
与此同时,高性能的生物序列基础模型已经通过对测序数据的自监督构建,但这些模型需要针对每个具体应用进行微调,从而阻碍了任务之间的泛化。此外,这些模型不具备对话功能,只有具备编程能力的用户才能使用它们。
因此,InstaDeep的研究团队提出ChatNT来弥合生物学基础模型与对话智能体之间的差距。
具体来说,用户可以向ChatNT输入一个或多个DNA序列,并附上一段英语提示词,ChatNT便可以解决相关的任务。
图示:ChatNT概述。(来源:论文)
该方案使研究人员能够用相同的词汇来表达所有任务,并学习通过最小化统一目标来解决这些任务,类似于GPT类模型,从而实现无缝集成新任务并实现泛化。
为了实现这一目的,研究人员创建了基因组学指令任务数据集,其中包含精心挑选的英文问题和指令集,用于不同物种和基因组学过程的各种分类和回归任务。
研究人员表示,用英语制定任务也是向模型提供额外元数据信息的一种简单方法,例如物种、染色体或细胞类型,这些信息在大多数当前的DNA基础模型中是缺失的。
图示:基因组学、转录组学和蛋白质组学任务子集的预测性能和对话的示例。(来源:论文)
他们还纳入了与转录组学和蛋白质组学过程相关的任务,并展示了该方法在各个领域的多功能性和通用性。
图示:NucleotideTransformer基准测试中的表现。(来源:论文)
ChatNT在NucleotideTransformer基准测试中取得了SOTA的成绩,并在27项英文基因组学任务中展现出与专用模型相当的性能。
重要的是,与传统方法需要为每个任务专门设计一个模型不同,ChatNT不仅提供了一个简洁自然的聊天机器人界面供用户使用,还能在一个统一的模型中解决所有任务。
图示:基于困惑度的方法来校准ChatNT答案的置信度,同时保持性能。(来源:论文)
该团队还引入了一种技术来探测二分类任务中语言模型的置信度,并在需要时用它来校准模型。模型解释分析表明,ChatNT在回答不同基因组学任务时学会了关联生物学相关的序列特征。
图示:ChatNT学会了提取DNA序列特征。(来源:论文)
总而言之,ChatNT证明了自然语言LLM可以扩展到处理生物序列模态,不仅展现出对话能力,还能准确回答多个生物学相关问题。
论文链接:https ://www. nature.com/articles/s42256-025-01047-1
人工智能×[生物神经科学数学物理化学材料]
「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。
欢迎关注标星,并点击右下角点赞和在看。
点击阅读原文,加入专业从业者社区,以获得更多交流合作机会及服务。


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录