论文An agentic system for rare disease diagnosis with traceable reasoning(Weike Zhao, Chaoyi Wu, Yanjie Fan, Pengcheng Qiu, Xiaoman Zhang, Yuze Sun, Xiao Zhou, Shuju Zhang, Yu Peng, Yanfeng Wang, Xin Sun, Ya Zhang, Yongguo Yu, Kun Sun & Weidi Xie)想解决一个很现实的痛点:罕见病虽然“单个很少见”,但加起来影响超过3亿人,而且因为症状复杂、医生经验有限、知识更新快,很多患者会经历平均5年以上的“诊断漂泊”:反复转诊、误诊、做了不必要的检查或治疗,既耽误病情也耗费巨大成本。作者提出的系统叫 DeepRare,目标不是“替代医生”,而是做一个能帮医生更快缩小范围的鉴别诊断决策支持工具。
DeepRare 的核心思路可以用一句话概括:把大模型当“总指挥”,再配上一群各司其职的“专科助手”和很多医学工具/知识库,让系统像临床团队会诊一样工作,并且把每一步为什么这么想、证据来自哪里都写清楚,方便医生核对。
该论文研究由上海交通大学人工智能学院张娅(Ya Zhang)教授、谢伟迪(Weidi Xie)副教授与医学院附属新华医院孙锟(Kun Sun)教授、余永国(Yongguo Yu)教授领衔,协同多方科研力量共同攻关完成。
1)它怎么工作:三层结构 + 多智能体协作
DeepRare 的结构受 MCP(Model Context Protocol)启发,做成三层:
- 中央主控(host):由一个大模型驱动(论文里默认本地部署 DeepSeek-V3),带“记忆库”,负责拆解任务、协调各个助手、汇总证据、生成最终候选诊断。
- 专门的智能体服务器(agent servers):每个服务器管一类能力/工具,例如:
- 把病历自由文本抽取成标准化表型(如 HPO 术语)
- 分析表型(症状组合更像哪些病)
- 规范化疾病名称/ID(对齐 OMIM、Orphanet 等)
- 分析基因数据(WES/VCF)
- 检索相似病例、检索文献/指南/权威网站证据
- 外部知识与工具层:接入论文、临床指南、病例库、遗传变异数据库等“可验证来源”。
它还加了一个很关键的机制:自我反思循环(self-reflective loop)。系统先给出初步猜测,再主动去搜证据“反驳/验证”自己;如果证据不足或自检不过关,就回到前面继续补信息、再推理,尽量减少大模型常见的“瞎编/过度自信”。
2)输入输出:能吃“杂粮”,吐出“带证据的Top-K”
临床里信息往往是混杂的,DeepRare支持多种输入组合:
- 医生/患者描述的自由文本(主诉、病史、体征)
- 结构化的 HPO 表型术语
- 遗传检测结果(WES 的 VCF 文件等)
输出是一个Top-K 疾病候选列表(论文里常用 Top-5),并且每个候选都附带一条“推理链”:
“哪些症状支持这个病 → 哪些基因/变异支持 → 引用的文献/指南/数据库链接是什么”。这样医生能快速核对证据,而不是只得到一个“黑盒答案”。
3)怎么评测:跨地区、跨中心、跨专科的大规模对比
作者用 9个数据集、6,401个真实/公开病例来测,覆盖亚洲、北美、欧洲多个临床中心与来源,涉及 14个医学专科,总共覆盖 2,919种疾病。评估指标主要是 Recall@K:正确诊断是否出现在前K个推荐里(比如 Recall@1 就是“第一名就猜对”的比例)。
对比对象很全面:
- 传统罕见病工具(如基于HPO的检索/匹配工具)
- 通用大模型、推理增强大模型、医学微调模型
- 其他“智能体式”系统
4)主要结果:准确率高,且在“表型+基因”场景特别强
论文报告的亮点可以抓三条:
- 纯HPO/表型任务上整体领先:平均 Recall@1 达到 57.18%,比第二名方法高出约 23.79%(这是很大的差距)。
- 多模态(表型+基因)更强:在带WES数据的子集上,DeepRare Recall@1 达到 69.1%,明显高于经典工具 Exomiser(55.9%)。
- 跟专家对比也不弱:在一组真实门诊病例测试里,DeepRare 的 Recall@1(64.4%)和 Recall@5(78.5%)都超过了多位资深罕见病医生的平均水平(医生允许用搜索引擎,但不能用AI)。
5)可追溯推理:医生审核“证据链”基本靠谱
作者请了多位罕见病专科医生人工检查系统输出的“引用与推理链”,整体一致认为证据链可靠的比例约 95.4%。也就是说,这套系统不仅“猜得准”,而且多数时候能把“为什么”说清楚,并把证据指到可核验的来源。
当然也不是零错误:医生指出的错误主要两类:
- 幻觉引用:系统在找不到合适论文链接时,可能生成看似真实但实际不存在的URL。
- 引用不相关:如果最终诊断方向本身错了,引用也会跟着偏。
6)失败在哪里:更多是“权重拿捏”,不是胡说八道
作者还专门分析了失败案例的类型。最常见的不是“逻辑断裂”,而是更像临床里常见的误判:
- 症状权重分配不当(约41%):把不太特异的表现看得太重,反而忽略更“指向性强”的关键体征/化验。
- 表型高度相似的“拟态病”混淆(约38.5%):两种不同分子机制的病,外在症状很像,仅靠HPO很难区分。
- 其余还有“病因相关但不是同一病”的偏差等;真正的“推理事实错误”或“证据连接错误”比例很低(各约2.5%),说明框架本身相对稳。
7)消融实验告诉我们:多智能体框架本身带来大提升
论文做了消融:换不同大模型当“中央主控”,整体差异不算特别大,说明框架不强依赖某一个模型;但把原始LLM升级为DeepRare这种智能体流程,提升非常明显(例如在多个公开数据集上的平均 Recall@1 能从二十多个点跃升到五十多个点)。贡献最大的模块包括:相似病例检索、Web/知识库检索、自我反思验证,三者组合起来效果最好。
8)它的意义:更像“罕见病诊断副驾驶”
DeepRare展示了一种可落地的方向:在罕见病这种“数据稀缺、知识爆炸、必须可解释”的领域,与其只训练一个黑盒模型,不如用大模型+工具+多智能体协作,把检索、标准化、基因分析、证据核验都系统化,并把推理过程透明化。最终它更像一个诊断副驾驶:帮医生更快地提出高质量候选、补齐证据、减少漏诊误诊,同时把可疑点暴露出来让医生复核,而不是直接给一个不可追责的结论。