90%成功响应率,整合约9000个样本,统合癌症蛋白质组学的LLM驱动平台


90%成功响应率,整合约9000个样本,统合癌症蛋白质组学的LLM驱动平台

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

将ScienceAI设为星标
第一时间掌握
新鲜的AIforScience资讯
编辑丨&
功能蛋白质组学为癌症机制提供了关键见解,有助于发现新的生物标志物和治疗靶点。为了充分利用他们整合的将近500份高质量抗体的精选组合,美国德克萨斯大学决定采用LLM驱动来使资源更高效。
他们推出了DrBioRight2.0,这是一个由最先进的大型语言模型提供支持的直观生物信息学平台。使研究人员能够探索以蛋白质为中心的癌症组学数据,进行高级分析,可视化结果,并使用自然语言参与交互式讨论。
通过简化复杂的蛋白质基因组学分析,该工具可加速将大规模功能蛋白质组学数据转化为有意义的生物医学见解。

DrBioRight2.0
在过去的十年中,癌症组学数据的生成取得了显著进展,特别是在患者肿瘤的DNA和RNA水平上,都产生了具有里程碑意义的举措。
然而,两个显著的挑战限制了TCPA的直接效用。首先,以前的RPPA数据对蛋白质标志物的覆盖范围有限。其次,数据门户仅提供几个预定义的分析模块,对于用户定义的分析几乎没有灵活性。
团队将RPPA蛋白检测组合扩展到大约500种高质量抗体,为全面、高质量的泛癌功能蛋白质组学纲要整合了来自TCGA和CCLE样本的数据。
他们推出的DrBioRight2.0,旨在降低技术门槛,实现复杂组学数据的无缝分析。具有不同背景的用户可以通过直观的自然语言查询轻松无缝地访问、分析和可视化数据。
图1:DrBioRight2.0中的数据集成工作流程和关键创新概述。(图源:论文)
RPPA500蛋白检测组合全面涵盖了所有50个标志性基因集,与之前的蛋白质组合相比,这些基因集中的总蛋白质数量显着增加了115%,PTM蛋白的数量增加了67%,突出了在蛋白质水平上理解癌症生物学的能力显着提高。
在这个平台中,团队首先生成了一个统一的多组学数据集,基于DNA、RNA和RPPA500的蛋白质水平的分子分析数据,以及细胞系表型数据集,超过10亿个数据值采用HDF5格式在I/O高效的基于云的服务器上托管的No-SQL数据库中进行整理和重组。
平台的功能性
DrBioRight具有传统分析平台所不具备的多项功能,包括自然语言理解、透明度和可重复性以及用户友好性。与TCPA之前的分析模块相比,DrBioRight通过提供多功能分析而与众不同。
DrBioRight的另一个值得注意的特点是它在分析驱动问题和一般问题之间无缝过渡。它还允许用户以Rmarkdown文件的形式下载相应的项目报告,并在RStudio中本地运行以重现分析。
这些功能共同将DrBioRight定位为一种非常方便的分析工具,为数据分析提供无与伦比的灵活性和定制性。
图2:DrBioRight2.0平台概述。(图源:论文)
为了最大限度地提高DrBioRight2.0的性能,团队实施了尖端技术来增强LLM。他们整合了一个多代理工作流程,以使用图架构构建分层代理团队。
每个团队由一个或多个代理程序或工具组成。相关性分析工具执行特征之间的关联分析,包括蛋白质表达、突变和临床变量。主管将特定于团队的问题路由到适当的工具,以执行任务和分析结果。
为了微调LLM,他们还请专家审查策划和标准化了数千个用户查询,创建了训练和测试数据集。基于微调模型,开发了一款评估系统允许领域AI专家相应进行排名。
当使用LangGraph在基于图的工作流程下对同一组问题采用微调模型时,该平台取得了令人印象深刻的90%的成功率。
图3:微调过程和模型评估概述。(图源:论文)
高效高质的智能平台
DrBioRight2.0代表了研究人员在癌症蛋白质组学数据方面的重大进步,实现了三个关键里程碑。它拓宽了最常用的癌症患者和细胞系队列的蛋白质空间,为生物医学研究人员提供了独特而有价值的资源。
由LLM提供支持的聊天机器人DrBioRight提供了一个直观、多功能且高度可定制的平台,有效降低了进入门槛,使来自不同背景的研究人员能够在没有广泛领域知识的情况下有效地分析数据。
数据资源和LLM之间的深度集成显着放大了此类资源的效用。这种集成不仅提高了数据的可访问性,加快了用户——开发人员的反馈循环。
与在开发和迭代过程中通常需要大量集成和协调工作的传统工具相比,DrBioRight通过其全面的数据资源和高级LLM的独特组合巧妙地解决了这些挑战。
原文链接:https ://www.nature.com/articles/s41467-025-57430-4
数据链接:https ://drbioright.org/resources/
相关代码:https ://drbioright.org
人工智能×[生物神经科学数学物理化学材料]
「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。
欢迎关注标星,并点击右下角点赞和在看。
点击阅读原文,加入专业从业者社区,以获得更多交流合作机会及服务。


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录