Project Imaging-X发布：1000+开放医学影像数据集全景式综述(projectxt) #科技 #Project #数据 #全景式 #数量级 #模型

作者丨项目团队

编辑丨ScienceAI

过去几年，通用领域的基础模型（Foundation Models）在大规模、异质、高质量数据的推动下快速演进。在医学影像场景中，基础模型同样被寄予厚望：期望以一次预训练，支持多模态（CT/MR/PET/内镜等）、多任务（分割/检测/配准/追踪等）与多解剖部位的统一处理，成为从研究到临床的“通用底座”。

然而，医学影像数据的获取与标注高度依赖医学专业知识，并受伦理与隐私的严格约束，现有公开数据长期呈现“小而散、偏科严重”的格局：与通用视觉领域的数十亿图像相比，目前公开的医学影像数据集的规模普遍较小，通常只有数千张图像，与通用视觉领域的数据集相差数个数量级。

此外，数据分布也严重不均：从类型上看，2D 数据占主导，病理、X 射线和 CT 数据较为常见，而 PET 和内镜数据则相对稀缺；从任务上看，主要集中在分类和分割任务，检测、配准和追踪等任务的数据供给不足；从部位上看，数据大多覆盖脑、肺、肝和乳腺等，心血管和肌骨等部位的相关资源则比较薄弱。由于缺乏对现有数据的全面系统性梳理和一套行之有效的数据融合方法，医学基础模型的发展正面临着关键瓶颈。

Project Imaging-X 由上海人工智能实验室、上海创智学院、剑桥大学、中国科学院大学、上海交通大学、蒙纳士大学、上海科学智能研究院、复旦大学等多家国内外顶尖高校与研究机构联合发起。项目汇聚了人工智能、医学影像、数据科学与临床医学等领域的专家学者，构建跨地域、跨学科的协作网络。

为填补相关方法的空白，通过产学研一体化的深度合作，Project Imaging-X 系统性梳理了过去二十余年（2000–2025）间的 1000+ 开放医学影像数据集，并提出了“元数据驱动融合范式（MDFP）”，给出从元数据统一→语义对齐→融合蓝图→索引共享的可执行流程，并配套交互式数据发现与自动化融合门户，为社区提供可搜索、可复用、可扩展的公共资源与路线图，助力医学基础模型更大规模、更高质量、更加合规地发展。

论文标题：Project Imaging-X: A Survey of 1000+ Open-Access Medical Imaging Datasets for Foundation Model Development
论文链接：https://github.com/uni-medical/Project-Imaging-X/blob/main/project-imaging-x_dataset-survey.pdf
Github 链接：https://github.com/uni-medical/Project-Imaging-X

医学基础模型的“数据缺口时刻”：规模与增速的错位

过去几年，AI 在通用领域迎来“曲线陡升”的爆炸时刻：GPT-4 训练使用了约 13 万亿 tokens，CLIP 在 4 亿图像-文本对上预训练，SAM 在 11 亿掩码上训练。然而放到医学影像，这条曲线却明显“掉速”——数据采集依赖专业设备与临床流程，标注需要专家投入，还必须兼顾伦理与隐私合规，导致可公开、可训练的大规模统一语料长期稀缺。

项目研究团队对 2000-2025 年医学影像数据的全景分析显示，虽然数据集数量持续增长，但与通用 AI 领域存在巨大差距。最大的医学数据集如 AbdomenAtlas 仅有 150 万张图像，而通用视觉模型动辄训练于数十亿图像，差距达数个数量级。

图 1：医学基础模型与通用领域基础模型的演进。

这种错位直接体现在模型侧：训练语料“吃不饱、吃不均”，常被迫集中在少数模态（CT/MR/X-ray）、任务（分割/分类）与解剖部位（脑、胸腹等热点）上，难以形成"多模态×多任务×多解剖”的一体化能力版图。

因此，团队提出将“规模差距”界定为通才型医学基础模型的第一约束：不是单一数据集的不足，而是结构性的数据生态失衡——增长在发生，但增得不均、增得不对齐。

图 2：2000 年至 2025 年发布的医学影像数据集中病例数的概览。(a) 总影像数；以及按不同 (b) 维度、(c) 模态、(d) 任务和 (e) 前五大器官划分的影像数。

数据分布图谱：长尾效应与碎片化特征

图 3：医学影像数据集概览：按解剖区域划分的代表性模态（左图），数据集在不同模态、器官和任务上的分布（右上），以及数据集数量的时间趋势（右下）。

团队对 2000–2025 年间超过 1000 个公开医学影像数据集进行了全景式分析，采用了一个包含数据维度、成像模态、分析任务和解剖部位的“四维框架”进行系统性量化。分析结果揭示，这些数据集在规模、增长趋势及分布上呈现出显著的不均衡性和长尾效应。

数据维度：2D 图像在绝对数量上占据压倒性优势，尤其在 2023 年后增速迅猛。这主要得益于其存储共享的便捷性、通过病理全切片图像（WSI）切片技术能极大扩充样本规模，以及现有主流基准测试多聚焦于 2D 任务。相比之下，3D 与视频数据因采集成本高昂、存储和标注复杂，规模和增速均显滞后。
成像模态：病理数据集的图像数量远超其他类型，这源于千兆像素级的 WSI 可被分割成海量图块（Patch）进行分析，且其固有的多尺度特性也促进了数据扩增。其后是临床普及度高、通量大的 X 射线和 CT。然而，尽管 MRI 在软组织成像中效果显著，其数据量占比仅约 10.4%，而 PET、乳腺 X 线摄影和内镜等模态的数据则相对匮乏。
任务类型：分类与分割任务历来占据主导，因其与临床诊断流程紧密相关。2023 年后，生成式任务的关注度与数据量激增。相比之下，面向配准、检测和追踪等任务的数据集则供给不足。
解剖部位：数据分布同样高度集中。脑、肺、乳腺和肝脏的影像数量遥遥领先，这反映出学术界与临床对脑部疾病（如阿尔茨海默病）以及乳腺癌、肺癌等重大疾病的高度关注。而心脏、肠道、四肢等其他部位的代表性则严重不足。

图 4：(a) 数据维度、(b) 模态、(c) 任务以及 (d) 器官/身体部位的分布情况。

2D 数据：规模优势与“任务/器官偏科”

2D 数据量级与可获取性远超 3D 与视频，已成为医学基础模型预训练的主要基础。在模态上，病理与 X-ray 占据主导，其次是 CT、MR 与眼底彩照；解剖聚焦于“有成熟筛查流程”的部位（如视网膜、乳腺、脑），而子结构与不常见部位明显稀缺；任务侧以分类/分割为主，配准、跟踪、重建等供给不足，整体呈现显著长尾与不均衡格局。

2D 数据的丰富性也带来了显著的碎片化与异质性问题。首先，数据来源多样（例如来自不同的数据库、机构和竞赛），导致其成像协议、分辨率和元数据标准不一，带来了严重的域偏移问题。其次，数据标注的质量也参差不齐，从粗略的弱标签到精确的像素级真值差异巨大，且缺乏统一的标注体系（本体）。

此外，数据在模态、解剖部位和任务类型上的分布严重失衡，这会加剧预训练模型中的偏见。最后，二维图像天生缺少三维空间上下文，这也限制了模型对复杂形态结构的理解与分析能力。

图 5：二维数据集中不同 (a) 模态、(b) 解剖结构和 (c) 任务的分布。

3D 数据：信息密度高，标准化是胜负手

3D 医学影像（如CT、MR、PET）为临床决策提供了关键的三维空间信息。然而，由于采集、存储、标注及算力成本高昂，其整体数据规模和增长速度均落后于 2D 影像。

同时，3D 数据也存在着严重的分布不均衡问题：在模态上，CT 和 MRI 占据主导地位，而 PET、超声等数据相对不足；在解剖部位上，数据高度集中于脑部与腹部，心血管、肌骨等领域的资源则相对薄弱；在任务类型上，研究长期由分割任务主导，配准、重建等任务的数据集明显短缺。

3D 影像的“高信息密度”也伴随着“高成本”与“高异质性”的挑战。一方面，高成本与高难度体现在：单张影像体积大、信噪比较低，使得微小病灶的检测变得困难；昂贵的硬件、较长的扫描时间以及对患者配合度的高要求，共同限制了数据采集的规模；体素级的精细标注需要专家进行逐个切片的精细描画，耗时耗力。

另一方面，高异质性源于：不同设备和扫描协议会导致体素间距、图像方向、强度标定及序列参数存在差异。如果没有经过高保真的预处理和元数据对齐，直接进行跨库联合训练很容易导致模型性能下降或结果失真。

图 6：三维数据集中不同 (a) 模态、(b) 解剖结构和 (c) 任务的分布。

视频数据：通往“流程级智能”的钥匙

医学视频数据因其承载了丰富的时序信息和操作语义，是实现手术、内镜分析等“流程级智能”的关键。然而，目前公开的数据集以内镜视频为主，且高度集中于腹部（特别是胆囊、结肠）和眼科等领域，而超声心动图（cine）、显微手术视频以及用于医学教育的 RGB 视频等则相对稀缺。尽管 EndoVis 等学术社区的基准数据集在一定程度上推动了该领域的标准化和技术发展，但目前仍普遍缺乏跨模态的覆盖范围和统一的评测标准。

当前，医学视频数据的发展主要受限于三大瓶颈：昂贵的标注成本、严格的隐私安全限制以及设备的技术异质性。首先，无论是像素级还是帧级的精细标注，都需要投入巨大的专家资源，并且对操作步骤的定义和标注一致性有着极高的要求。

其次，医疗视频天然包含患者的敏感信息。特别是在内镜和手术场景中，独特的解蒙结构本身就可能被用于患者的“反向识别”，这极大地限制了数据集的开放规模与共享范围。最后，来源于不同记录系统和摄像镜头的视频，在光照条件、画面抖动和拍摄视角上存在显著差异，导致模型难以在不同来源的数据集之间进行有效的泛化。

图 7：视频数据集中不同 (a) 模态、(b) 解剖结构和 (c) 任务的分布。

元数据驱动融合范式（MDFP）：从碎片化到统一化

通过上述分析，可以清楚地看到医学影像数据在 2D、3D 和视频三个维度上都存在显著的碎片化和不均衡问题。为解决这些挑战，团队提出了元数据驱动融合范式（MDFP），提供了一种高效、可扩展、以元数据为中心的策略，用于系统化发现、审计和组合多个数据集。

MDFP 的核心创新主要在于在元数据而非原始像素上操作，这带来了多重优势：减少处理开销和隐私风险，提高可重现性和可审计性，并支持快速的目标导向数据集组装。通过这种元数据驱动的方法，团队能够在不直接处理敏感医学图像的情况下，实现大规模数据集的智能整合。

图 8：数据集收集、处理、融合和总结系统的流程图。

MDFP四阶段系统化流程：

阶段 1：元数据统一化 - 通过强制执行严格定义的元数据模式解决语义异质性，基于权威医学术语（如 UMLS 和 MeSH）进行半自动化处理。具体包括：标准化主要模态（映射到 CT、MR、PET、US、X-ray 等枚举集）、规范化数据维度（解析为 2D、3D 或视频）、建立基于标准医学本体的多级分类系统、分配质量等级（基于机构来源、文献计量影响、成像分辨率和注释粒度）、量化数据集影响（基于引用频率、基准采用和下游重用）。

阶段 2：语义对齐 - 通过将抽象机器学习任务映射到其具体临床意义来缓解不一致性，系统审查数据集文档、源出版物和官方指南。这包括定义下游任务（将 ML 任务标准化并明确映射到临床应用）、指定次要成像模态（捕获每个主要模态下的细粒度协议级区别）、指示标签可用性（标注是否提供真实注释）、记录特殊考虑事项（捕获数据集特定的细微差别、假设或已知限制）。

阶段 3：融合蓝图 - 利用统一元数据设计战略性数据集集成计划，基于主要和次要成像模态、临床任务和解剖覆盖进行聚类。定量评估包括数据量（评估可用图像总数，以及明确的训练、验证和测试分割）、有效图像计数（确定有多少图像具有可靠和验证的注释）、存储估计（评估实际存储需求）、解剖和任务多样性（量化每个融合集群内的解剖广度和任务多样性）。

阶段 4：数据集索引和社区共享 - 将统一元数据转换为结构化、公开可访问的数据集索引，支持社区规模的发现和重用。这包括数据集名称（用于标准化引用的规范名称）、发布日期（官方发布或发布时间戳）、主页 URL（直接访问数据集文档或托管平台的链接）、许可证（明确定义的使用权限）。

图 9：团队所提出的元数据驱动融合范式（MDFP）的详细流程。

交互式发现门户与案例研究：

团队构建了轻量级交互式发现门户“医学数据集浏览器”，部署为 GitHub Pages 上的单页静态应用程序，完全在客户端执行，并在运行时消费标准化 JSON 工件。门户提供两种互补的数据集过滤模式：基于规则的过滤（实现MDFP）和直接分面搜索，支持实时可视化摘要和统计导出。

作为 MDFP 有效性的证明，团队展示了一个具体案例：构建一个针对模态{CT, MR, Fundus}和任务{分类、分割、检测、回归}的 2D 模型。通过 MDFP 组合，研究获得了 57 个数据集和 2,135,301 张可用图像，跨三个模态，标签可用性接近完整。CT 和 MR 在体积上占主导地位（合计约 185 万张图像），提供了来自多个组织的实质性解剖和采集多样性，而 Fundus 贡献了最多的数据集数量。

MDFP 的成功实施为医学基础模型的发展奠定了坚实基础。然而，要真正实现医学 AI 的变革性突破，还需要深入思考当前数据生态的根本性挑战和未来发展方向。

讨论：从数据碎片化到智能体生态的演进路径

任务定义局限性与数据工程范式的演进

当前开放访问医学影像数据集在任务定义方面普遍存在局限性，这与早期深度学习实践的任务导向性质密切相关。随着 LLM 和基础模型的进步，数据收集原则正逐渐从单一任务导向转向更全面的科学数据工程范式。现有数据集大多针对单一目标（如分割、分类或检测），对多任务或跨任务学习场景考虑甚少，这种单一性限制了 AI 模型开发和泛化。这种范式转变需要数据工程的根本性变革。传统任务特定的注释协议必须演变为灵活的框架，能够适应新兴用例和新型 AI 架构。从任务导向到基础导向的数据工程转变需要重新思考注释策略、元数据结构以及质量保证流程。

多模态医学数据集稀缺性与发展约束

多模态医学数据结合成像模态（如 CT、MRI、2D 和 3D 图像）与临床报告、病理学甚至视频，在临床诊断中具有特殊价值，但在公共领域极其罕见。大多数开放访问医学数据集仅限于单模态结构，往往缺乏多模态数据收集和注释的标准化框架。这种稀缺性严重限制了高级研究方向的探索，如跨模态推理和联合表示学习。挑战不仅限于数据可用性，还涵盖模态对齐和语义一致性的基本问题。不同模态通常在不同的时间和空间尺度上运行——病理切片提供微观细胞细节，而放射学捕获器官级结构，临床记录记录时间疾病进展。协调这些异构数据流需要复杂的对齐协议和跨模态验证标准，而当前数据集很少提供这些。

医学基础模型的挑战与机遇

医学基础模型需要前所未有的训练数据规模和多样性，但当前资源仍不足以开发真正可泛化的系统。基础模型需要跨成像模态、临床专业和患者人群的全面覆盖，以在医学环境中实现稳健性能。三个相互关联的挑战从根本上制约了医学基础模型的发展：

1.规模挑战：扩展不仅涉及数量，还涵盖表示多样性。基础模型必须遇到疾病表现、成像协议和人群特征的足够变化，以开发强大的内部表示。当前医学数据集通常捕获临床现实的狭窄切片，错过了罕见疾病和非典型表现的长尾分布。

2.许可限制和隐私法规：与通用领域 AI 不同，医学数据面临患者隐私要求和机构知识产权政策的双重约束。即使基础模型能够生成高质量合成数据用于训练增强，限制性许可也阻止这些增强的医学数据集惠及更广泛的医学研究社区。

3.上下文智能需求：有效的医学 AI 必须理解紧急协议与常规筛查的区别，资源约束如何影响诊断路径，以及患者历史如何影响治疗选择。这些能力超越了模式识别，涵盖工作流集成、临床推理和自适应决策支持。

迈向科学智能体的未来愿景

正如科学『大语言模型』（Sci-LLMs）正从单纯的“知识模型”向“推理引擎”和“科研伙伴”演进，医学基础模型也正朝着科学智能体的方向发展。未来的医学 AI 系统将不再仅仅是被动回答问题的模型，而是能够被赋予高级目标（如“为某疾病寻找候选药物”或“制定个性化治疗方案”）后，自主进行任务分解、规划、工具调用、虚拟实验和结果分析的自治系统。实现这一目标的核心在于构建一个闭环的“智能体-数据”生态系统。在这个系统中，智能体通过与外部工具（数据库、模拟器、甚至自动化实验室）交互来主动获取和生成新的实验数据；这些“AI-ready”的数据再反哺数据生态，用于迭代和优化智能体自身，形成一个能够自我进化的良性循环。

总结

Project Imaging-X 作为迄今为止最全面的医学影像开源数据集调研，系统梳理了 2000-2025 年间 1000+ 数据集，覆盖 2D、3D、视频等不同维度，涉及 CT、MRI、X-ray、病理、超声等多模态影像，全面分析了分类、分割、检测、生成等任务类型与解剖部位分布。调研揭示了医学影像数据生态的关键特征：数据规模与通用领域存在数量级差距，模态和任务分布严重失衡，碎片化程度高。

针对这一现状，研究提出了元数据驱动融合范式（MDFP），通过四阶段系统化流程实现数据集的有效整合，并构建了交互式数据发现门户。通过具体案例验证，MDFP 能够将 57 个数据集整合为包含 213 万张图像的统一训练资源，为医学基础模型的大规模预训练提供了可行路径。

正如科学『大语言模型』正从“知识模型”向“推理引擎”和“科研伙伴”演进，医学基础模型也将朝着能够自主进行临床推理、实验设计和治疗规划的科学智能体方向发展。通过 MDFP 的战略数据集整合，结合隐私保护技术与智能体生态的构建，医学 AI 将迎来从数据驱动到智能体驱动的范式跃迁，最终实现 AI 与临床实践的深度融合。