两篇Nature Medicine,DeepSeek、GPT-4o等LLM在医学推理、临床决策中的应用评估


两篇Nature Medicine,DeepSeek、GPT-4o等LLM在医学推理、临床决策中的应用评估

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

将ScienceAI设为星标
第一时间掌握
新鲜的AIforScience资讯
编辑|白菜叶
大型语言模型(LLM)正在日益改变医疗应用。
然而,像GPT-4o这样的专有模型在临床应用方面面临巨大障碍,因为它们无法在医疗机构内部部署,同时也不符合严格的隐私法规。
DeepSeek等开源LLM展示的强悍性能,为科学家提供了一种有前景的替代方案。因为它们可以被部署在本地,医院的工作人员可以用本地数据对它们进行高效的微调。
DeepSeek在临床决策中的能力

论文链接:https ://www.nature.com/articles/s41591-025-03727-2
研究人员使用125例具有足够统计功效的患者病例,涵盖了广泛的常见病和罕见病,发现DeepSeek模型的表现与医学专用LLM相当,在某些情况下甚至更佳。
这项研究表明,开源LLM可以为安全的模型训练提供可扩展的途径,从而在符合数据隐私和医疗保健法规的情况下,实现现实世界的医疗应用。
图示:考虑诊断和治疗的LLM(GPT-4o、DeepSeek-R1、DeepSeek-V1和Gemini-2.0)在Gem2FTE实验中的Likert评分。(来源:论文)
DeepSeek在医学领域的推理能力
虽然如此,但是在医学领域DeepSeek的能力推理能力尚未得评估。

论文链接:https ://www.nature.com/articles/s41591-025-03726-3
本研究评估了DeepSeek-R1、ChatGPT-o1和Llama3.1-405B这三个LLM执行四项不同医学任务的能力:回答美国医师执照考试(USMLE)的问题、基于文本的诊断和治疗案例进行解释和推理、根据RECIST1.1标准进行肿瘤分类以及提供跨多种模式的诊断影像报告摘要。
图示:概述了三种大型语言模型在执行四项指定医学任务方面的表现。缩写:pt:分值,PD:疾病进展,PR:部分缓解,N:数量。(来源:论文)
在USMLE测试中,DeepSeek-R1(准确率=0.92)的表现略逊于ChatGPT-o1(准确率=0.95;p=0.04),但优于Llama3.1-405B(准确率=0.83;p<10^-3)。

图示:比较三款LLM在各种医学任务中的表现。对三款LLM(ChatGPT-o1、DeepSeek-R1和Llama3.1-405B)在以下医学任务中的表现进行了评估:美国医师执照考试(USMLE)试题、诊断问题(NEJM和Medicilline数据库中)、推理(BMJ和NEJM数据库中)、放射学报告中的RECIST1.1分类以及报告摘要(MIMIC-III和私有数据集)。(来源:论文)

然而,DeepSeek-R1提供的汇总成像报告的整体质量低于ChatGPT-o1提供的报告(5分制Likert分数:4.5vs4.8;p < 10^−3)。
这项研究展示了DeepSeek-R1LLM在医疗应用方面的潜力,但也强调了需要进一步提升的方向。
图示:AI与医疗。(来源:AI生成)
总而言之,科学家们在不断探索AI在医疗决策、医学诊断中的应用,已有的评估结果表明,AI在这些领域的使用正变得越来越可靠、越来越安全。相信在不久的将来,AI将成为医疗体系中不可或缺的强大助力,为全球的患者造福!
人工智能×[生物神经科学数学物理化学材料]
「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。
欢迎关注标星,并点击右下角点赞和在看。
点击阅读原文,加入专业从业者社区,以获得更多交流合作机会及服务。


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录