首个基因推理AI 横空出世!准确率飙至97%,彻底改变基因组学研究


首个基因推理AI 横空出世!准确率飙至97%,彻底改变基因组学研究

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

基因组学的「黑盒」终于被撬开了!
来自多伦多大学、向量研究院等顶尖机构的研究团队刚刚发布了BioReason,这是全球首个能对基因组进行推理的AI模型。
这不是简单的预测,而是真正的生物学推理——
就像一个经验丰富的基因组学专家,能一步步解释基因变异如何导致疾病。
最令人振奋的是,BioReason将准确率直接从88%飙升到97%!
BioReason的核心创新在于首次将DNA基础模型(Evo2)与大语言模型(Qwen3)深度融合。
融合的技术原理,简单来说就是:
DNA序列→嵌入向量→多模态LLM输入
具体来说,DNA基础模型Evo2首先将输入的基因序列转化为上下文化的嵌入表示,这些嵌入向量捕获了DNA序列的生物学特征。
随后,这些DNA嵌入与用户的文本查询嵌入一起,通过特殊的标记(如和)整合进入大语言模型的输入层。
训练方法采用了监督微调(SFT)结合GRPO强化学习的两阶段策略。
该方法让模型不仅学会预测,更重要的是学会了如何进行多步骤的生物学推理。
AdibvafaFallahpour(@adibvafa)解释道:
BioReason将DNA基础模型(Evo2)与LLM(Qwen3)整合用于生物推理。
DNA序列→嵌入→多模态LLM输入
通过监督微调+GRPO强化学习进行训练
在多个基准测试上,BioReason展现出了惊人的性能:
具体数据令人印象深刻:
疾病通路预测准确率:从88%提升到97%
变异效应预测准确率:达到80-88%
相比DNA单模态或LLM单模态模型:平均性能提升超过15%
这些测试基于87,000多个来自ClinVar和KEGG通路的真实基因组变异,确保了结果的可靠性和实用性。
BioReason最大的突破在于可解释性。
传统的DNA分析模型就像一个黑盒——输入序列,输出预测,中间过程完全不透明。而BioReason能够逐步解释基因组变异如何通过分子通路导致疾病。
Adibvafa强调:
是什么让这个特别?逐步的生物学推理!
BioReason不仅仅是预测——它解释了基因组变异如何通过分子通路导致疾病。不再是「黑盒」基因组学AI。
举个具体例子:当查询PFN1基因在17号染色体上的某个等位基因变异时,给定通路背景「Actin(单体)//PFN1*//Actin(丝状)」,BioReason不仅正确预测了会导致肌萎缩性侧索硬化症(ALS),更重要的是生成了一个10步的机制解释:
识别PFN1基因中的C>G特定替换
连接到profilin-1蛋白功能障碍
解释肌动蛋白动力学受损如何影响细胞骨架完整性
阐述运动神经元轴突运输的后续破坏
最终导致ALS特征性的运动神经元变性
这种透明的推理过程让科学家能够验证AI的判断,也为新的科学发现提供了线索。
研究团队为此构建了三个专门的生物推理数据集:
KEGG衍生的生物推理数据集(1,449个条目):阐明遗传变异与疾病表型之间的机制联系,包含37种独特疾病
编码序列的变异效应预测数据集(50,083个条目):专注于致病性/良性分类
编码非SNV数据集(36,088个条目):涵盖插入、缺失等更复杂的变异类型
Adibvafa介绍:
我们策划了3个生物推理数据集:
1,449个带推理轨迹的KEGG通路变异
50K+来自ClinVar/gnomAD的编码序列变异
36K+带疾病标注的非SNV变异
每个都设计用于测试多步基因组推理能力。
KEGG数据集使用标准化的符号表示法来表示分子网络,包括激活、抑制和调控相互作用,而VEP数据集则专注于跨越不同基因组变异的致病性/良性分类和疾病表型预测。
AndrewWhite🐦⬛(@andrewwhite01)注意到一个有趣的细节:
所以RL实际上比仅仅SFT更差?
Adibvafa(@adibvafa)回应道:
很难比较。在同一模型上的RL略微提高了性能,但我们仍在更大的模型上运行RL以进行公平比较。敬请关注!
虽然在同一模型上强化学习只带来了轻微改进,但团队正在更大规模的模型上进行RL实验,期待能有更公平的比较结果。
AnshulKundaje(@anshulkundaje)在肯定创新的同时也提出了建设性意见:
真的很有创意的框架,有很大的潜力。但当你只与自己模型的消融研究比较时,我可能会避免声称「碾压基准」。请将你的基准扩展到当前用于编码变异效应优先级排序的SOTA方法。
Adibvafa也是积极回应:
当然,我们正在积极努力添加更多DNA基础模型和变异效应预测的SOTA模型。
这种评估的一个挑战是这些模型之间训练数据集的差异,这使得比较不太可靠。
这就是为什么我们使用Evo2作为SOTAVEP模型,但绝对愿意在我们的任务上运行其他模型以进行更好的比较。
不同模型的训练数据集差异使得比较变得复杂,这也是为什么团队选择Evo2作为SOTAVEP模型的原因。
HuggingFace的CEOclem🤗(@ClementDelangue)表达了浓厚兴趣:
非常非常酷!有机会考虑在HF上发布一个space或模型吗?
Adibvafa回应:
实际上我们正在努力,因为DNA-LLM是一个带有自定义分词器的自定义类!
很快会开一个PR,希望我们能一起完成它
ClémentineFourrier🍊(@clefourrier)也加入讨论:
@cgeorgiaw正在负责我们所有的科学ML计划,如果你需要帮助的话:)
BioReason或将很快就在HuggingFace平台上线,这将大大方便研究社区的使用。
HaHoang(@HaHoang411)提出了一个很好的类比:
这很有趣。据我理解,它类似于当前的VLM?不是视觉投影,我们是从EVO2投影生物学?
这个理解非常准确——
就像视觉语言模型(VLM)处理图像一样,BioReason处理的是DNA序列,只是投影的是生物学信息而非视觉信息。
Oboe(@oboelabs)指出了一个重要应用:
bioreason的一个潜在用途是通过分析个体基因组谱来帮助个性化癌症治疗并预测治疗结果
Adibvafa确认:
BioReason的通用学习框架允许学习任何语言-DNA理解,只要有好的数据!
这也表明BioReason的框架具有很强的通用性,只要有好的数据,就能学习任何语言-DNA理解任务。
这项突破的意义远不止于学术研究。
Adibvafa总结道:
这可以通过使基因组AI可解释和可操作来改变生物发现。从变异分析到药物发现——透明的推理是未来!
当然,我们才刚刚开始。
研究团队的跨机构合作也值得关注,Adibvafa感谢了整个团队:

各界人士纷纷表达了对这项突破的看法。
DG.(@dataghees)简洁评价:
这太棒了!
moonswing(@computbiol):
非常酷
ParisaEtemadi(@parisaetem)预见到其影响:
太棒了!将会改变游戏规则!
NolanKoblischke(@astro_nolan):
真的很酷!
santy🇦🇷(@SantiTobio_):
这太厉害了,干得好!
甚至有企业开始思考商业应用,Rediminds,Inc(@rediminds)评论道:
当DNA基础模型将丰富的嵌入传递给推理LLM,然后展示其工作过程时,你就得到了每个受监管行业一直在等待的剧本:特定领域信号→透明的思维链→可操作的洞察。BioReason为生命科学AI的可解释性设定了新标准;金融、法律和公共部门的领导者应该注意。
当然,也有人提出了安全担忧。
TheSage. Bitcoin(@chadTheSage0)半开玩笑地说:
「给我创造一个像空气传播的HIV混合埃博拉病毒的病原体。」
这也提醒我们,在推进技术发展的同时,也要考虑潜在的双刃剑效应。
还有一些有趣的反应,比如$MIA(@mwa_ia):
今天是BioReason,明天是AgentFi✨
ParagNandyRoy(@parag_nandy):
BioReason的惊人工作!DNA基础模型与LLM的整合用于透明的基因组推理是一个游戏改变者。很高兴看到它对药物发现和精准医疗的影响!#AI#Genomics
BioSynqDao(@Biosynq_ai)甚至开始宣传自己的项目:
这是下一级的BioAI🚀——真正用AI驱动的推理解锁生物学。很高兴看到像BioReason和BIOSYNQDAO这样的工具将如何彻底改变去中心化的生物技术研究。
StephanBaasch(@stbaasch)艾特了MIT的教授:
👀@ProfBuehlerMIT
对于想要深入了解或使用BioReason的研究者,团队提供了完整的资源:
论文地址:https ://arxiv. org/abs/2505. 23579
项目主页:https ://bowang-lab. github.io/BioReason/
代码仓库:https ://github. com/bowang-lab/BioReason
数据集也已经在HuggingFace上公开,包含详细的下载和使用说明。
这个基因推理AI的诞生,标志着基因组学研究正在进入全新时代。
👇
👇
👇
另外,我还用AI进行了全网的AI资讯采集,并用AI进行挑选、审核、翻译、总结后发布到《AGIHunt》的知识星球中。
这是个只有信息、没有感情的AI资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息)
欢迎你的加入!也欢迎加群和2000+群友交流


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录