DeepRare发布全球首个可循证智能体诊断系统,直击医学Last Exam难题(deepracer)

DeepRare发布全球首个可循证智能体诊断系统,直击医学Last Exam难题(deepracer)

在医学面前,罕见病是一道最难的题。全球已有超过 3.5 亿人受到罕见病影响,病种超过 7000 种,约 80% 为遗传性疾病。但大多数患者在确诊前需经历 5 年以上的延迟、7 次以上就诊、3 次以上误诊,平均误诊率高达 40%-50%,给患者和家庭带来沉重负担。

罕见病症状异质性高、诊断路径长、知识分布极度稀疏,是典型的「小样本、大空间」问题。医生如同在浩如烟海的资料中「大海捞针」,面对碎片化信息与复杂交互线索,传统 AI 模型难以胜任,临床专家的经验更难被规模化复制。

https://mp.weixin.qq.com/s/_3Y-j0oBU8SYzNkN3VZ2DA

破解之道:重塑诊断路径

为破解这一世界级难题,上海交通大学人工智能学院牵头,联合新华医院、上海人工智能实验室、哈佛医学院共同发布了全球首个罕见病推理型智能体诊断系统——DeepRare。

  • 论文标题:An Agentic System for Rare Disease Diagnosis with Traceable Reasoning
  • 论文地址:https://arxiv.org/abs/2506.20430

DeepRare 结合大语言模型和多智能体架构,通过模拟临床医生 「提问 — 分析 — 查证 — 推理 — 决策」 的诊断思维路径,将罕见病诊断任务拆解为多个专业环节,由智能体协作完成整合与推理,真正实现可解释的主动诊断。

系统由中央控制单元(Central Host)统筹全局,以大模型为引擎,通过精心设计的任务规划和工作流程,调用多个功能智能体(Agent)分工协作,综合各类信息构建结构化诊断建议与可溯源因果链条,构成端到端的智能诊断解决方案:

  • 表型建模智能体:结构化提取主诉信息与 HPO 术语
  • 基因分析智能体:解析 VCF 文件,关联表型识别潜在致病突变
  • 搜索与知识匹配智能体:调用数据库与在线搜索引擎,检索相关疾病、文献
  • 病例匹配智能体:通过小模型匹配相似症状的病例
  • 疾病抽取智能体:从自由文本推理结果中抽取疾病结论,进行搜索
  • 表型分析智能体:调用表型分析的生信工具,提供参考的疾病列表

整个系统支持多模态输入(包括自由文本、结构化表型数据、基因组数据等),具备自适应能力,能够动态适配不同输入场景和数据质量,实现 「人 - 机 - 知识」 三位一体的协同诊断。

DeepRare 系统的输入和架构图

DeepRare 的诊断流程主要分为两个阶段:

  • 信息收集阶段:系统对输入数据进行多轮分析,智能体协作抽取关键症状、变异信息、病例背景,并调用 40 余类医学工具和数据库,进行综合推理,生成初步诊断及相关线索;
  • 自我反思与验证阶段:中央控制器对诊断结果进行多轮自我反思与论证,构建因果链、匹配先验知识,并实时整合最新临床指南、研究文献和相似病例,输出可信、可溯源的诊断建议。

DeepRare 系统工作流

四大核心:

  • 主动提问机制:系统能识别出诊断过程中关键信息的缺口,主动发起问询,引导医生或用户补全症状信息,确保数据完整性;
  • 实时整合 40+ 医学知识源与工具:全面调用 OMIM、OrphaNet、PubMed、ClinVar、ExAC、HGMD 等专业数据库与搜索引擎,获取最新、最全面的医学证据;
  • 自我反思能力:系统具备 「提出假设 — 验证假设 — 修正假设」 的闭环推理能力。面对不确定或弱匹配的情况时,能主动返回上一步补充证据、重新评估,有效降低误诊率、减少模型幻觉;
  • 生成可溯源推理链条:每条诊断建议都附带明确的因果路径和证据出处,从症状到病因全链条可解释,帮助医生建立信任、提升临床可用性。

真实案例:改写患儿命运

2021 年,上海新华医院接诊了一名来自广西的 20 个月大的患儿。他自出生起便问题重重:发育迟缓、面部特征异常、生殖器发育异常、肺发育不良。家人带着他四处求医,做了全外显子组测序、内分泌评估等多轮检查,却始终查不出病因。诊断陷入僵局,家人焦急万分,医生团队感到无力。

时间来到 2025 年 6 月,DeepRare 正在系统测试期间。医生团队决定抱着尝试的心态,重新翻出这个悬而未解的病例,用 DeepRare 进行分析。系统启动推理引擎,分析症状、基因和病例,敏锐提示出此前未被怀疑的 Prader-Willi 综合征(PWS)。随着目标锁定,团队安排了针对该病的甲基化检测,终于明确了诊断。

PWS 是一种罕见复杂遗传病,发病率约为 1/10,000 至 1/30,000,婴儿期表现为喂养困难、发育迟缓,长大后可能出现暴食、肥胖、智力障碍等。由于其致病机制超出常规检测范围,且患儿年幼、症状不典型,极易被漏诊。这一次,凭借 DeepRare 的精准提示,患儿得以在疾病早期接受干预治疗,赢得了扭转命运的机会。

对医生团队而言,这是人工智能与临床实践携手的突破性一刻;对家庭而言,这不仅是一纸诊断,更是走出迷雾、拥抱希望的新起点。

性能实证:挑战诊断极限

DeepRare 在来自 亚洲、北美、欧洲的 8 个真实临床数据集上进行了全面评估,涵盖 6401 例罕见病患者、2919 种疾病、14 个疾病类别。评估结果:

  • 平均 Recall@1 达 57.18%,相比现有最优方法 Claude-3.7-Sonnet-thinking 提升 23.79 个百分点
  • Recall@5 超过 80%,大幅提升诊断覆盖范围
  • 在新华医院真实病例中,基于全外显子基因测序(WES)数据测试,Recall@1 达 70.6%,显著优于 Exomiser(53.2%)

更值得一提的是,DeepRare 在测试的 2919 种疾病中,有 1013 种(占比 34.7%)实现了 100% 召回率。这一出色表现不仅彰显了系统对复杂疾病谱的广泛适应能力,也有力证明了其在罕见病诊断中的鲁棒性与可推广性。

HPO 表型输入场景上 15 种方法在所有数据集的平均性能

HPO(表型数据)输入场景评估

如下图所示,7 个公共罕见病数据集的评估中,DeepRare 在 Top-1 诊断准确率上全面领先现有基线方法。以下为不同数据集下表现最优的模型对比结果(完整数据详见原论文):

  • 在 RareBench-MME 数据集上,Top-1 准确率达到 70%,提升幅度达 50%;
  • 在 RareBench-RAMEDIS 上,Top-1 准确率为 73%,提升 31%;
  • 在 MyGene2 数据集上,Top-1 准确率为 76%,同样提升 31%。

此外,在新华医院私有临床队列上,系统在真实病例中实现了 58% 的 Top-1 准确率,较次优方法提升 16 个百分点,进一步验证其在临床实际场景中的稳定性与通用性。

各方法在 HPO 表型输入场景上的比较

专科特异性分析:覆盖多学科,优势明显

DeepRare 在多器官系统的罕见病诊断中展现出稳定而有层次的性能表现。分析结果表明,系统在多个关键医学领域显著优于现有方法:

  • 肾脏与泌尿系统(Kidneys and Urinary System):诊断准确率达 66%,为所有专科中表现最优;
  • 内分泌系统(Endocrine System):准确率为 60%,远高于次优方法的 32%;
  • 消化系统(Digestive System):在 729 例病例中达到 49% 的准确率,对照方法为 34%;
  • 呼吸系统(Lungs and Breathing System):表现相对较弱,准确率为 31%。

这一结果揭示了系统在不同专科场景中的适配能力与未来针对性优化的方向,也证明其作为通用诊断平台的潜力。

HPO 表型输入场景上 各个专科层面的比较

多模态输入(表型 + 基因)场景

在罕见病诊断中,基因组数据的整合是提升诊断准确率的关键环节。在 DeepRare 系统中,融合表型信息与基因变异数据后,性能显著提升:

  • 在新华医院真实临床队列中,Recall@1 从 46.8% 提升至 70.6%;
  • 同一数据集上,DeepRare 的表现显著优于主流生物信息学工具 Exomiser(70.6% vs 53.2%)。

值得强调的是,即便在缺乏基因数据的单一表型输入场景下,DeepRare 依然达到与专业生信工具相当的性能水平,展现出卓越的表型建模与语义推理能力。

多模态(表型 + 基因)输入的性能

可溯源性验证:让推理过程看得见

为评估 DeepRare 推理链条的可溯源性与临床可采纳性,研究团队对系统自动生成的 180 个病例诊断过程进行专家验证。系统对每项诊断建议均自动生成结构化的证据链条,明确标注引用来源及对应位置,覆盖 Nature、OMIM、OrphaNet、PubMed 等国际权威知识库与期刊。

经过十位罕见病专家的独立验证,推理证据的参考性与准确性平均达到 95.4%。这种证据呈现机制,显著提升了医生在临床中的知识调取效率,有助于加速诊断决策、提升模型可信度与解释性,为智能诊断系统在真实场景落地提供关键保障。

可溯源性的专家评测

在线平台:让智能诊断触手可及

为推动成果落地,团队已上线 DeepRare 在线推理平台(http://raredx.cn),面向临床医生提供结构化输入、主动问询、诊断建议与可导出报告的完整闭环流程。系统支持中英文切换,界面简洁、操作便捷,已在多家医院开展试用,助力罕见病早诊、准诊与规范化管理。

网页首页

总结与未来展望

DeepRare 所代表的 Agentic AI 诊断系统,正在重塑罕见病诊断的范式。通过主动推理、动态知识更新与证据可追溯机制,系统不仅提升了效率,也为人工智能在精准医学中的应用提供了落地样本。

展望未来,DeepRare 有望扩展至科研场景,加速意义未明变异的解读,拓展可治疗罕见病的谱系,推动疾病知识的积累与诊断进程的前移。

与 DeepRare 一起,为全球罕见病患者照亮前路,让每一份努力都离答案更近、离希望更近。

特别声明:[DeepRare发布全球首个可循证智能体诊断系统,直击医学Last Exam难题(deepracer)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

装卸车专用传送机 大型皮带运输机 移动式升降输送机(装卸货传送设备)

适度拉紧调偏,当输送带跑偏忽左忽右,方向不定时,说明输送带过松,可适当调整拉紧装置以消除跑偏。 调整滚筒调偏,输送带在滚筒处跑偏,检查滚筒是否异常或窜动,调整滚筒至水平位置正常转动,消除跑偏。主要由机架、输…

装卸车专用传送机 大型皮带运输机 移动式升降输送机(装卸货传送设备)

API 网关如何协助上下游系统排查 API 技术问题(网关和api网关)

API 网关通过统计调用峰值、平均响应时间、错误率等指标,生成 API 调用需求分析报告,提供按照业务场景对 API 性能的参数要求,如大促期间需要 2000 次秒的速率限制, 或者当频繁触发限流报警,…

API 网关如何协助上下游系统排查 API 技术问题(网关和api网关)

菲董、NIGO 合影!这两双鞋你认识吗?(菲董妻子)

最近 NIGO与好兄弟菲董再次同框,分别为 Nike 和阿迪新鞋带节奏。 菲董上脚的 Pharrell x adidas AdistarJellyfish(水母鞋)不是第一次出现了,去年冬天 NIGO、菲…

菲董、NIGO 合影!这两双鞋你认识吗?(菲董妻子)

骨质增生能服用楮实子吗_骨质增生,痹证,牛奶,楮实子(骨质增生能服用氨糖吗)

骨质增生可以考虑服用楮实子进行调理。楮实子是一种中药材,味甘、微辛,性平,归肝经以及大肠经,具有益肾固精、清肝明目的功效,主治肝肾阴虚、目昏流泪、筋骨痿弱、遗尿不禁等病症。而骨质增生则是因为随着年龄增长,关节周围韧带松弛,关节失去了稳定性,

骨质增生能服用楮实子吗_骨质增生,痹证,牛奶,楮实子(骨质增生能服用氨糖吗)

这是啥网络科技取得可对折叠手机多折叠屏起到保护作用的折叠手机壳专利,可对折叠手机的多折叠屏起到保护作用(网络科技什么意思)

金融界2025年7月26日消息,国家知识产权局信息显示,深圳市这是啥网络科技有限公司取得一项名为“一种折叠手机壳”的专利,授权公告号CN223157133U,申请日期为2024年10月。 专利摘要显示,本实用…

这是啥网络科技取得可对折叠手机多折叠屏起到保护作用的折叠手机壳专利,可对折叠手机的多折叠屏起到保护作用(网络科技什么意思)