MedGemma 1.5 model card 的要点概述(面向开发者视角):
1) 它是什么、适合做什么
- MedGemma 是一组基于 Gemma 3 的变体,针对医疗文本理解与医疗影像理解做了额外训练,用来加速构建医疗健康类 AI 应用。
- 官方强调:MedGemma 更偏向需要“生成文本”的医疗应用;如果你的任务是纯影像侧(检索/分类/零样本分类等、不需要生成长文本),更推荐用同源的 MedSigLIP 图像编码器。
2) 版本/可用性(1.5 的范围)
- 该页面说明:MedGemma 1.5 当前仅提供 4B 多模态、指令微调(instruction-tuned)版本;MedGemma 1 的其他变体请看另一个 model card。
- 模型资源包括 Google Cloud Model Garden、Hugging Face、以及配套 GitHub(教程 notebooks、以及用于服务端大图处理的自定义容器/镜像等)。
3) MedGemma 1.5 4B 相对 1.0 的重点增强
- 3D 影像理解:支持对 CT/MRI 的三维体数据表示进行解读。
- 全切片病理(WSI):支持一次输入多块 patch,进行联合解读。
- 纵向影像:例如胸片结合既往影像做对比理解。
- 解剖定位:在胸片上做基于 bounding box 的解剖结构/发现定位。
- 医疗文档理解:从非结构化检验报告中抽取结构化字段(值、单位等)。
- EHR 理解:对文本型 EHR 数据进行理解。
并且整体上在医学文本推理、以及标准 2D 影像理解上有改进。
4) 架构与关键技术规格
- 架构:与 Gemma 3 一样是 decoder-only Transformer;多模态部分使用 SigLIP 图像编码器,并且该图像编码器在多种去标识化医疗数据上预训练过(如胸片、皮肤科、眼底、病理等)。
- 注意力机制:GQA;上下文长度:至少 128K tokens。
- 输入输出:输入为文本 + 图像;输出为文本。图像会被归一化到 896×896,并编码为每张 256 tokens;最大输出长度 8192 tokens。
- 训练框架:使用 JAX。
- 关键技术报告与引用:Sellergren 等,MedGemma Technical Report(arXiv:2507.05201)。
- 创建时间:Jan 13, 2026(4B 多模态,版本 1.5.0)。
5) 评测覆盖面(它测了哪些类型的任务)
Model card 给出了跨多模态与文本的基准评测概览,覆盖:
- 影像侧:2D/纵向 2D/3D 放射影像、皮肤科、眼底、病理、文档理解、多模态临床推理等(表格中也对比了 Gemma 3 4B、MedGemma 1 4B/27B 等)。
- 文本侧:医学知识与推理(如 MedQA、MedMCQA、PubMedQA、MMLU Med、MedXpertQA、AfriMed-QA 等对比结果)。
- 病历/EHR:合成纵向 EHR 与去标识化出院小结等 QA 评测(例如 EHRQA、EHRNoteQA)。
- 检验报告文档结构化:把实验室报告 PDF/图片转换成结构化 JSON(Macro/Micro F1 等)。
官方同时提示:这些评测用于展示baseline,开发者通常需要针对具体场景做微调/适配。
6) 数据卡(训练数据来源与隐私)
- 数据来源:组合了公共数据集与私有/授权的去标识化数据;并列出一长串公共数据集与归属(例如 MIMIC-CXR、Chest ImaGenome、SLAKE、TCGA、CAMELYON、PMC-OA 等),以及若干内部/授权数据(如不同来源的 CT/MRI、皮肤科、眼底等)。
- 去标识化:明确说明 Google 及合作方使用经过严格匿名化/去标识化的数据以保护参与者与患者隐私。
7) 伦理与安全评估
- 评估方法:包括结构化评测 + 内部 red-teaming,覆盖儿童安全、内容安全(骚扰/暴力/仇恨等)、表征性伤害(偏见/刻板印象等)、以及“通用医疗伤害”(信息质量与潜在有害不准确信息)等类别。
- 结果口径:在这些类别上表现为“安全水平”,在无安全过滤器条件下也仅出现少量策略违规;同时承认一个限制是评测提示语主要为英文。
8) 使用边界与限制(非常关键)
- 官方明确:不能把输出直接用于临床诊断、患者管理决策、治疗建议或其它直接临床实践用途;输出应视为初步结果,必须独立验证与临床关联。
- 评测/能力边界:多模态能力主要在单图任务上评估;未评估多图理解;也未优化多轮对话应用;并提示它可能比 Gemma 3 更“吃提示词”。
- 开发建议:下游应用要用具有代表性的验证数据(人群/设备/条件等),并警惕医疗语境下的大模型数据污染导致泛化能力被高估,建议用非公开数据做更严格验证。
9) Release notes(里程碑)
- 4B IT:2025-05-20 初始发布;2025-07-09 修复多模态性能问题(与缺失 end-of-image token 相关);2026-01-13 更新为 1.5,强化医学推理、病历解读与医学影像解读。
10) 许可/条款
- 使用受 Health AI Developer Foundations terms of use 约束(不是“随意开源可商用”的那种简单许可口径)。