MedGemma 1.5 系统说明（MedGemma 1.5 model card）

Tech | AI 医疗/生物医药谷歌 | 作者： NullThought | 2026-01-15 | 发表评论

MedGemma 1.5 model card 的要点概述（面向开发者视角）：

1) 它是什么、适合做什么

MedGemma 是一组基于 Gemma 3 的变体，针对医疗文本理解与医疗影像理解做了额外训练，用来加速构建医疗健康类 AI 应用。
官方强调：MedGemma 更偏向需要“生成文本”的医疗应用；如果你的任务是纯影像侧（检索/分类/零样本分类等、不需要生成长文本），更推荐用同源的 MedSigLIP 图像编码器。

2) 版本/可用性（1.5 的范围）

该页面说明：MedGemma 1.5 当前仅提供 4B 多模态、指令微调（instruction-tuned）版本；MedGemma 1 的其他变体请看另一个 model card。
模型资源包括 Google Cloud Model Garden、Hugging Face、以及配套 GitHub（教程 notebooks、以及用于服务端大图处理的自定义容器/镜像等）。

3) MedGemma 1.5 4B 相对 1.0 的重点增强

3D 影像理解：支持对 CT/MRI 的三维体数据表示进行解读。
全切片病理（WSI）：支持一次输入多块 patch，进行联合解读。
纵向影像：例如胸片结合既往影像做对比理解。
解剖定位：在胸片上做基于 bounding box 的解剖结构/发现定位。
医疗文档理解：从非结构化检验报告中抽取结构化字段（值、单位等）。
EHR 理解：对文本型 EHR 数据进行理解。
并且整体上在医学文本推理、以及标准 2D 影像理解上有改进。

4) 架构与关键技术规格

架构：与 Gemma 3 一样是 decoder-only Transformer；多模态部分使用 SigLIP 图像编码器，并且该图像编码器在多种去标识化医疗数据上预训练过（如胸片、皮肤科、眼底、病理等）。
注意力机制：GQA；上下文长度：至少 128K tokens。
输入输出：输入为文本 + 图像；输出为文本。图像会被归一化到 896×896，并编码为每张 256 tokens；最大输出长度 8192 tokens。
训练框架：使用 JAX。
关键技术报告与引用：Sellergren 等，MedGemma Technical Report（arXiv:2507.05201）。
创建时间：Jan 13, 2026（4B 多模态，版本 1.5.0）。

5) 评测覆盖面（它测了哪些类型的任务）

Model card 给出了跨多模态与文本的基准评测概览，覆盖：

影像侧：2D/纵向 2D/3D 放射影像、皮肤科、眼底、病理、文档理解、多模态临床推理等（表格中也对比了 Gemma 3 4B、MedGemma 1 4B/27B 等）。
文本侧：医学知识与推理（如 MedQA、MedMCQA、PubMedQA、MMLU Med、MedXpertQA、AfriMed-QA 等对比结果）。
病历/EHR：合成纵向 EHR 与去标识化出院小结等 QA 评测（例如 EHRQA、EHRNoteQA）。
检验报告文档结构化：把实验室报告 PDF/图片转换成结构化 JSON（Macro/Micro F1 等）。
官方同时提示：这些评测用于展示baseline，开发者通常需要针对具体场景做微调/适配。

6) 数据卡（训练数据来源与隐私）

数据来源：组合了公共数据集与私有/授权的去标识化数据；并列出一长串公共数据集与归属（例如 MIMIC-CXR、Chest ImaGenome、SLAKE、TCGA、CAMELYON、PMC-OA 等），以及若干内部/授权数据（如不同来源的 CT/MRI、皮肤科、眼底等）。
去标识化：明确说明 Google 及合作方使用经过严格匿名化/去标识化的数据以保护参与者与患者隐私。

7) 伦理与安全评估

评估方法：包括结构化评测 + 内部 red-teaming，覆盖儿童安全、内容安全（骚扰/暴力/仇恨等）、表征性伤害（偏见/刻板印象等）、以及“通用医疗伤害”（信息质量与潜在有害不准确信息）等类别。
结果口径：在这些类别上表现为“安全水平”，在无安全过滤器条件下也仅出现少量策略违规；同时承认一个限制是评测提示语主要为英文。

8) 使用边界与限制（非常关键）

官方明确：不能把输出直接用于临床诊断、患者管理决策、治疗建议或其它直接临床实践用途；输出应视为初步结果，必须独立验证与临床关联。
评测/能力边界：多模态能力主要在单图任务上评估；未评估多图理解；也未优化多轮对话应用；并提示它可能比 Gemma 3 更“吃提示词”。
开发建议：下游应用要用具有代表性的验证数据（人群/设备/条件等），并警惕医疗语境下的大模型数据污染导致泛化能力被高估，建议用非公开数据做更严格验证。

9) Release notes（里程碑）

4B IT：2025-05-20 初始发布；2025-07-09 修复多模态性能问题（与缺失 end-of-image token 相关）；2026-01-13 更新为 1.5，强化医学推理、病历解读与医学影像解读。

10) 许可/条款

使用受 Health AI Developer Foundations terms of use 约束（不是“随意开源可商用”的那种简单许可口径）。

发表评论取消回复