AMIE(Articulate Medical Intelligence Explorer):基于大模型,用于医学“鉴别诊断(differential diagnosis, DDx)”的新系统

全面的鉴别诊断(differential diagnosis, DDx)是医疗护理的基石,通常是通过结合病史、体格检查、检验和操作等反复推理过程得出的。由大语言模型驱动的交互式界面为辅助或自动化这一过程的若干方面提供了新机遇。论文Towards accurate differential diagnosis with large language models介绍了Articulate Medical Intelligence Explorer(AMIE),一个专为诊断推理优化的大语言模型,并评估其在独立生成鉴别诊断以及辅助临床医生方面的能力。

20位临床医生评估了302个源自真实世界、具有挑战性的医学病例(取材自已发表的病例报告)。每份病例由两位医生阅读,随机分配到两个辅助条件之一:使用搜索引擎与标准医学资源辅助,或在此基础上再额外使用AMIE辅助。所有医生在使用辅助工具前,首先都需提供一次无辅助的初始鉴别诊断列表。

AMIE在独立状态下的表现优于无辅助的临床医生(top-10准确率为59.1%对比33.6%,P = 0.04)。在两种辅助条件对比中,使用AMIE辅助的医生获得更高的鉴别诊断质量评分(top-10准确率为51.7%),优于未使用AMIE辅助的医生(36.1%,McNemar检验:45.7,P < 0.01)和仅使用搜索工具的医生(44.4%,McNemar检验:4.75,P = 0.03)。此外,使用AMIE辅助的医生生成的鉴别诊断列表也更为全面。

论文作者为Daniel McDuff, Mike Schaekermann, Tao Tu, Anil Palepu, Amy Wang, Jake Garrison, Karan Singhal, Yash Sharma, Shekoofeh Azizi, Kavita Kulkarni, Le Hou, Yong Cheng, Yun Liu, S. Sara Mahdavi, Sushant Prakash, Anupam Pathak, Christopher Semturs, Shwetak Patel, Dale R. Webster, Ewa Dominowska, Juraj Gottweis, Joelle Barral, Katherine Chou, Greg S. Corrado, Yossi Matias, Jake Sunshine, Alan Karthikesalingam & Vivek atarajan,来自Google。

一、研究背景与目的

本文针对医学诊断中至关重要的“鉴别诊断(differential diagnosis, DDx)”过程,提出并验证了一种基于大语言模型(Large Language Model, LLM)开发的新系统 AMIE(Articulate Medical Intelligence Explorer)。传统的医学诊断依赖于临床病史、体格检查、实验室检测及图像等综合推理,而大语言模型的出现提供了构建自然语言交互诊断工具的新机会。本文不仅评估了AMIE在独立生成DDx方面的表现,还探索其作为医生辅助工具的潜力,目标是提高临床推理质量,提升诊断准确性,并扩大非专家医生获得专家级支持的可能性。

二、AMIE系统介绍

AMIE构建于Google的PaLM 2大模型之上,针对医疗场景进行了优化微调,包括以下关键能力:

  1. 具备长上下文理解能力(处理文本长度超过6,000字符);
  2. 使用的数据集包括多个医学问答数据集(如MedQA, MedMCQA, MedicationQA等)、真实的医患对话数据以及MIMIC-III中经过人工精细标注的EHR摘要;
  3. 微调任务涵盖多选题答题、长文本问答、对话生成和病历总结;
  4. 未使用NEJM病例报告作为训练数据,防止数据泄漏,验证模型泛化能力。
三、实验设计与研究方法

实验共包括两个阶段,涵盖302个NEJM CPC(临床病理会议)中的复杂真实病例,由20位美国内科认证医生和19位专家参与:

第一阶段:临床医生的辅助实验设计

  • 每位医生在未辅助和辅助(分AMIE或传统搜索引擎)条件下均需完成DDx列表;
  • 搜索组可使用UpToDate、PubMed、Google Search;
  • AMIE组可使用AMIE界面与其交互,同时也可选择其他工具;
  • 每组医生为匹配经验进行了配对并随机分配任务,避免经验差异造成偏差。

第二阶段:专家评估

  • 专家查看完整病例并对五个DDx列表打分(包括AMIE生成、医生在无辅助、有搜索、有AMIE三种条件下生成的DDx);
  • 评估指标包括:
    • 质量分(是否包含正确诊断)
    • 适当性分(DDx是否合理)
    • 全面性分(DDx是否涵盖所有合理候选)
四、主要结果与数据分析
  1. AMIE独立表现优异
    • top-10准确率达 59.1%,显著优于无辅助医生的 33.6%(P=0.04);
    • top-1准确率为 29.2%,同样优于人类医生;
    • 在内部评估中,AMIE在质量、适当性、全面性三维度得分均为最高。
  2. AMIE有效增强医生诊断能力
    • 使用AMIE辅助后,医生的top-10准确率提升至 51.8%
    • 相比仅使用搜索工具(44.5%)或无辅助(33.6%),表现显著提高;
    • AMIE组有73个病例在辅助后首次涵盖正确诊断(搜索组仅为37个);
    • DDx列表长度也更长更全面(平均由6.41项提高至7.58项,P<0.001)。
  3. 与GPT-4比较
    • AMIE在top-n准确率(n>2)上明显优于GPT-4;
    • GPT-4在top-1略优但无统计显著差异;
    • 表明AMIE不仅生成更准确的列表,也能提供更具医学判断力的推理。
五、AMIE界面交互与人因分析
  • AMIE界面设计为自然语言交互式,提供建议提问,允许医生追加多轮提问;
  • 平均每位医生提问约2.92次,平均每次AMIE回复含237词;
  • 使用AMIE所需时间(平均7.29分钟)与搜索组无显著差异,说明系统上手快;
  • 医生表示AMIE更易于启动推理,尤其在搜索初始难以确定关键词时更有优势;
  • 定性反馈中,医生认可AMIE在教育、提示思路方面的辅助作用,亦指出其在复杂推理中仍有待提升。
六、局限性与未来方向
  1. 实验环境与现实诊疗流程不同
    • NEJM CPC为“拼图式”完整案例,与临床初诊时信息不对称不同;
    • 实验并未评估模型在面对不完整病史或主观推理时的表现;
  2. AMIE尚未支持图像与结构化数据输入
    • 医生参考的图像和表格未提供给AMIE,说明其结果可能仍有提升空间;
    • 多模态模型的进一步发展将成为提升诊断能力的关键方向;
  3. 辅助有效性仍需长期真实场景验证
    • 当前实验在有限样本和人工控制下进行,真实场景下存在变量较多;
    • 医患沟通、时间压力、法律责任等尚未在实验中体现。
  4. 风险警示与责任归属
    • AMIE可能存在“幻觉”现象,若使用者无专业训练则可能造成误导;
    • 作者明确强调:AI工具应作为医生辅助,而非取代临床判断。
七、结论与展望

本文首次在大规模、高质量医学案例中系统评估了专为诊断推理优化的LLM工具AMIE的独立诊断能力与辅助医生能力。研究结果显示:

  • AMIE不仅能在top-10准确率上超过专业内科医生;
  • 更能在时间不变的情况下帮助医生生成更全面、合理的DDx;
  • 为未来构建“专家级AI辅助工具”奠定了实践基础。

然而,作者亦指出临床诊断不仅是知识检索任务,还包含不确定性管理、患者沟通、伦理考量等复杂维度。因此未来的研究应继续拓展模型的多模态输入、临床情境泛化能力,以及人机共诊中的信任建模与风险控制策略。


相关阅读:AMIE(Articulate Medical Intelligence Explorer):基于大语言模型(LLM)的心血管领域医疗人工智能系统

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注