Med-Gemini,基于 Gemini 架构的先进多模态医学模型

来自Google和DeepMind的团队前几天发表了论文《Capabilities of Gemini Models in Medicine》。这篇论文介绍了 Med-Gemini,这是一系列基于 Gemini 架构的先进多模态医学模型。Med-Gemini 通过自我训练、网络搜索集成和专门针对医疗数据的编码器增强了医学人工智能应用。在 14 个医学基准测试中,Med-Gemini 展示了卓越的性能,超越了所有可比较测试中的 GPT-4 模型。特别是在 MedQA(USMLE)上,通过使用不确定性引导的搜索策略,Med-Gemini 达到了 91.1% 的准确率,显示出在复杂诊断任务上的优越性。

Med-Gemini 的关键能力包括高级文本推理、多模态理解和长文本处理,这些能力通过应用展示,如医学文本总结、转诊信生成和医学视频问答。此外,Med-Gemini 在多项任务中超越了人类专家,显示出在实际医学应用中的潜力。

Med-Gemini 的设计包括了与网络搜索结合的自我训练,通过动态整合外部信息来提高临床推理和准确性。它还具有针对处理专业医学数据的多模态微调功能。尽管 Med-Gemini 在医学人工智能领域取得了重大进展,但文章强调,在将这些模型部署到实际医疗环境中之前,需要进一步进行严格评估,因为它们属于安全关键性质。

Dialogue example of Med-Gemini

另一篇论文《Advancing Multimodal Medical Capabilities of Gemini》进一步介绍了Med-Gemini在医疗方面的能力:

一、介绍

论文讨论了在多模态医学数据处理中使用Gemini模型及其衍生版本Med-Gemini的应用。这些模型经过针对2D和3D放射学、组织病理学、眼科、皮肤病学和基因组数据的微调,表现出色,特别是在胸部X光报告生成、视觉问答(VQA)以及疾病风险预测方面 。

二、方法

  1. 模型架构
    • 使用了Gemini 1.5的变种,支持大规模训练和高效推理,具备多模态理解和推理能力 。
    • 采用了专门的视觉编码器分别处理2D、3D和基因组数据 。
  2. 数据集
    • 使用了包括MIMIC-CXR、IND1和PathVQA等22个数据集,涵盖多种医学图像模式和任务 。
    • 数据集的样本量超过4万,用于评估模型在图像分类、报告生成、VQA和风险预测等任务中的表现 。

三、结果

  1. 报告生成
    • Med-Gemini-2D在胸部X光报告生成上表现优异,在MIMIC-CXR数据集上实现了RadGraph F1分数的显著提升(24.4%),专家评价中有57%的报告在正常病例中被认为优于或等同于原始报告 。
    • Med-Gemini-3D首次实现了基于LMM的3D CT报告生成 。
  2. 视觉问答(VQA)
    • 在胸部X光和CT的VQA任务中,Med-Gemini表现优异,超过了多项基准任务的最先进水平 。
  3. 分类任务
    • 在皮肤病学、组织病理学和眼科图像分类任务中,Med-Gemini-2D超越了基线模型,并在大部分任务中接近特定任务模型的表现 。
  4. 基因组风险预测
    • Med-Gemini-Polygenic在疾病风险预测方面表现出色,优于传统的线性多基因风险评分方法,并能够推广到从未训练过的相关疾病 。

四、讨论

论文强调了在医学领域使用LMMs的潜力,特别是在处理复杂的多模态数据和实现多任务能力方面。然而,模型在实际临床环境中的应用还需要更多严格的研究和评估 。

五、结论

Med-Gemini系列模型展示了在多个医学任务中的卓越性能,但要实现其在临床中的广泛应用,还需进一步研究以确保其安全性和有效性。未来的发展方向包括整合多种能力,构建能够执行复杂跨学科任务的综合系统,以最大化临床效用和改善患者结果 。

——《Advancing Multimodal Medical Capabilities of Gemini》,Google Research, Google DeepMind, Google Health

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注