5个AI Agent“辩论”诊断,准确率超人类专家4倍 | 微软AI CEO详解微软医疗AI新突破
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
7月5日,MicrosoftAI首席执行官MustafaSuleyman接受BigTechnology播客的访谈,详细介绍了微软在医疗AI领域的最新突破——多智能体“诊断协调器”。阐述了其设计理念、性能数据,系统性地解答了关于该系统技术架构、相较人类的性能优势、内在的透明度机制,以及对未来医生角色带来何种改变等一系列问题。
对话从一个核心数据展开:目前通过AI产品提出的健康相关查询已达到怎样的规模?这与传统搜索有何不同?
Suleyman指出,目前MicrosoftCopilot及其他AI应用每日处理的健康相关查询高达5000万次。他认为这是一个积极的信号,因为AI正在让信息获取变得更具对话性。他解释道:“搜索引擎已经让信息的获取变得极其廉价和便捷。而现在有了Copilot,我们得到的答案更具对话性,你可以根据自己特定的知识背景和专业水平,调整回答的风格和深度。这常常会鼓励用户提出第二个、第三个问题,从而将一次简单的查询,转变为一场类似于你和医生之间的深度对话或咨询。”这些查询覆盖了从癌症到心理健康,再到皮肤疹等极为广泛的健康问题。
这项由MicrosoftAI宣布的新进展——多智能体“诊断协调器”,其具体工作原理是怎样的?
Suleyman表示,这套系统的核心是模拟AI扮演诊断医生的角色,其工作流程覆盖了从问询到诊断的全过程。为了验证和训练这套系统,研究团队使用了《新英格兰医学杂志》发布的数百个真实历史病历。“这些病例每周都会发布一个,对医生来说就像一个终极填字游戏。他们显然要到下周才能看到答案,这是一个巨大的猜谜游戏,需要回顾五到七页非常详细的病史,然后试图弄清楚诊断结果究竟是什么。”
在具体实现上,系统在概念上由两个核心AI角色构成:一个“信息看门人”负责管理和调取患者所有的医疗信息;另一个“诊断医生”则通过与“看门人”对话,主动、有序地探寻病史、分析数据,并最终给出诊断。
为何需要采用一套由多个机器人对话组成的复杂系统,而非依赖单一的生成式AI模型一步到位?
Suleyman指出,AI领域近期的重大突破在于具备推理能力的模型,它们能在推理时主动查询其他AIAgent或信息源,以提升回答质量,而不是直接给出第一个想到的答案。他认为,真正的价值高地正在向上层转移。“随着AI模型本身逐渐商品化,真正的价值将体现在顶层的协调、编排与产品集成上。”
这个被称为“协调器”的系统,其底层调用了来自几家主流供应商的四种不同模型。通过这种智能编排,系统的综合准确率能在每个独立模型的基础上再获得约10%的显著提升。
该系统的实际表现如何?与人类专家的能力相比处于何种水平?
Suleyman提供了直接的基准测试数据。在一项使用了《新英格兰医学杂志》病例的模拟诊断测试中,一批顶尖人类医生的平均诊断正确率约为20%。相比之下,协调器系统的准确率达到了85%。
他对此评价道:“它的准确率是人类专家的四倍以上。在我的职业生涯中,从未见过人类水平的表现与AI系统的表现之间存在如此巨大的差距。很多年前,我曾从事大量关于放射学、头颈癌和乳腺X光检查的诊断工作,目标只是拿一个单一的放射学检查来预测是或否有癌症。而那是我们能做的极限。而现在,它不仅仅是产生一个二元分类输出,而是实际上产生一个非常详细的诊断,并通过这种交互式对话机制顺序地完成。所以这极大地提高了准确性。”
这套系统是否能摆脱对训练数据的依赖,进行真正的推理?
Suleyman强调,该系统具备真正的推理能力,而非记忆。他解释说:“我们与《新英格兰医学杂志》合作的部分原因,是因为他们每周都会发布一个全新的病例,这个病例甚至从未被数字化过。所以毫无疑问它不在训练数据中。例如,上周的这个病例,绝对不可能在训练数据中,因为它实际上是刚刚发表的。所以我不认为有任何那样的可能性。这真的是在做一种抽象的判断,它不是在复现训练数据,而是在根据它已有的知识进行某种推理或思考。”
对于AI系统普遍存在的“黑箱”问题,以及医生可能因依赖AI而导致“技能退化”的担忧,该系统如何应对?
Suleyman认为,该系统的设计恰恰解决了这些问题。其核心在于过程的透明化。他详细描述道:“这不仅仅是给出一个黑箱答案。这就是为什么顺序诊断部分如此重要的原因,因为你可以实时观看AI向病历提问,得到一个答案,形成一个新问题,得到一个答案,提出一个新问题,然后要求一种不同类型的测试,得到那些结果,解释它,然后给出一个答案。所以对话性质意味着人类医生可以跟随,并以一种非常透明的方式实际学习。”
为了实现这种透明的、高质量的决策,系统内部拥有一套独特的协作机制。“我们实际上创造了五种不同类型的AIAgent,它们都会进行辩论,我们称之为‘辩论链’。它们相互协商,它们试图优先考虑某些不同的方面,比如成本或效率。正是这些不同技能在医生Agent之间的协调,实际上使这个系统如此有效。”
如果医生能够观察AI的全过程,这是否意味着他们的角色会变得被动?这种工具的真正效用在哪里?
Suleyman承认让医生亲身思考的价值,但他认为新工具带来的益处远超风险。“我仍然认为这将是一个了不起的教育工具,让医生实际学习他们从未遇到过的广泛病例。例如,我们上周实际上在《新英格兰医学杂志》的最新病例研究上运行了DXO协调器,它正确地诊断了一个在所有医学文献中只出现过1500次的病例。那是一种非常晦涩的罕见病。所以很少有医生能有机会看到那个。因此,在真实的临床应用环境中准确和可预防地检测这类疾病的能力,我认为将大大超过医生无法以你描述的方式进行锻炼的风险。”
这项技术将如何重塑医生的未来角色?
Suleyman认为,医生的角色远不止是做出诊断,AI的介入将使其工作重心向更高价值的领域转移。他表示,人类专家医生仍然需要运用大量的判断力,尤其是在诊断之后。“判断什么对患者有效,并帮助患者决定,‘鉴于我现在知道我得到了这个诊断,我想采取什么治疗以及何时采取?以及那里的权衡是什么?’所以那将需要大量的判断力。”
因此,医生的角色不仅仅是提供人际连接和亲身陪伴,更是“以一种深度共情的方式与一个收到了诊断的患者一起思考,来规划他们的治疗过程。”
这套“协调器”方法论是否具有更广泛的应用前景?以及Microsoft对这项技术的最终目标是什么?
Suleyman确认,这种方法论具有广泛的适用性。“这些协调器的基本方法是它们调整不同的AI来扮演非常具体的角色,然后让这些AI相互协商、辩论和讨论。这种设置显然适用于很多不同的环境,无论是在商业中,甚至未来在政府中。”
对于这项技术的未来,他怀有极高的期望。尽管目前尚处早期研究阶段,但他认为其展现的潜力是迈向“真正的医疗超级智能”的步伐。最终的目标是:“我们希望尝试尽快地、尽可能广泛地提供它,包括为我们每天5000万的健康查询服务。所以这将是我们的雄心壮志,就是以最安全的方式,尽快地把它带到消费者面前。”
【AI技术与应用交流群|仅限受邀加入】
AI算力领域TOP级从业者专属圈层
√与头部算力企业深度对话
√与AI上下游企业深度对话
√获取一手全球AI与算力产业信息
√获取AI热点及前沿产业独家信息
√随时了解全球AI领域高管最新观点及实录全文
√有机会参与AI主题产业交流活动
扫码验证身份(需备注姓名/公司/职务)
不止有DeepSeek,更有AI产业的未来!
|文章来源:数字开物
•END•
【专栏】精品再读
大模型最大的落地场景出现了|2024数字开物大会成功举办
AI与数据中心出海东南亚面临两大挑战|万字圆桌实录
2万字完整演讲实录:最强TPU芯片、全新AIAgent来了|谷歌云Next大会
黄仁勋3万字完整精校实录:\“思考型token\“爆发,AIinfra即将巨变
何宝宏:大语言模型上半场已进入“垃圾时间”
深度|“唤醒”特斯拉,进击的中国Robotaxi