论文《Health AI Developer Foundations》详细描述了由Google研究团队和DeepMind联合开发的健康AI开发基础模型集HAI-DEF(Health AI Developer Foundations)。HAI-DEF旨在通过提供预训练的基础模型、工具及配套的开发“食谱”,加速AI在健康领域的应用,降低进入门槛,尤其在数据稀缺、计算资源有限以及专业技术要求较高的情况下更为显著。
论文作者为Atilla P. Kiraly, Sebastien Baur, Kenneth Philbrick, Fereshteh Mahvar, Liron Yatziv, Tiffany Chen, Bram Sterling, Nick George, Fayaz Jamil, Jing Tang, Kai Bailey, Faruk Ahmed, Akshay Goel, Abbi Ward, Lin Yang, Andrew Sellergren, Yossi Matias, Avinatan Hassidim, Shravya Shetty, Daniel Golden, Shekoofeh Azizi, David F. Steiner, Yun Liu, Tim Thelin, Rory Pilgrim, Can Kirmizibayrak,均来自Google。
1. 引言
健康AI开发基础模型集(HAI-DEF)是Google Research和DeepMind团队合作开发的用于加速医疗健康AI开发的一个综合性工具和模型套件。该工具集的目标是通过预训练的大型模型和配套的开发工具,使得医疗领域的AI开发变得更加便捷,从而降低计算资源和数据标注的需求。
机器学习模型在健康领域有着广泛的应用潜力,如加速药物开发、个性化诊断、自动化医疗流程等。然而,由于医疗数据具有隐私性、稀缺性和复杂性的特征,这些模型的开发面临许多挑战。例如:
- 数据获取困难:大规模标注数据的获取非常昂贵且耗时,尤其是在涉及罕见病和未被充分代表的人群时更是如此。
- 计算资源需求大:训练用于医学影像或病理学分析的大型模型往往需要大量的计算资源。
- 专业知识需求高:不同模态的数据(如DICOM格式的医学影像)需要特定的领域知识进行处理和准备。
HAI-DEF的开发正是为了解决这些问题,目标是为开发者和研究人员提供一套预训练的、可复用的基础模型和工具,使得他们能够更快速地在医疗应用场景中进行研究和开发。
2. 模型详细描述
HAI-DEF包含多个经过特定训练的模型,覆盖了多种模态的数据,如X射线(CXR)、CT扫描、组织病理学、皮肤病图像以及健康声学数据。以下是每个模型的详细描述:
2.1 CXR基础模型
CXR(Chest X-ray,胸部X射线)基础模型主要包括三个变体:
- 原始CXR Foundation模型:基于EfficientNet-L2作为编码器,采用监督对比学习(SupCon)来训练模型,以提取胸部X射线中的有效特征。此模型主要用于对比和遗留支持。
- ELIXR-C模型:基于CLIP方法进行训练,结合了图像和对应的放射报告文本信息进行学习。该模型擅长于“零样本”任务(即无需进一步训练数据即可直接应用于新任务)。
- ELIXR-B模型:基于BLIP-2方法,使用来自5家印度医院和4家美国医院的超过100万张胸部X射线进行训练。该模型在需要进行下游分类任务时表现更好。
2.2 Path Foundation(组织病理学基础模型)
Path Foundation使用Vision Transformer(ViT)作为编码器,专为组织病理学图像块的分析设计,采用了自监督学习技术(Masked Siamese Networks)。它包括:
- 染色不敏感特性:通过优化模型的染色一致性,使得它能在不同染色方法下(如H&E染色)泛化。
- 多重放大倍数的适应性:模型能够在不同的放大比例下学习特征,以适应病理图像的多样性。
模型使用了来自癌症基因组图谱(TCGA)的H&E染色的全片图像数据进行训练。
2.3 Derm Foundation(皮肤病基础模型)
Derm Foundation采用BiT ResNet-101×3编码器,使用了两阶段训练方法:
- 对比学习阶段:从互联网上的大量图像-文本对中学习基础特征。
- 微调阶段:在皮肤病数据(包括远程皮肤病学和皮肤癌数据集)上进行微调,以识别包括皮肤癌在内的多种皮肤病症。
2.4 HeAR(健康声学基础模型)
HeAR模型是一个基于ViT的音频编码器,使用MAE(Masked Autoencoder)方法训练,数据包括313百万未标注的非医疗音频片段。该模型通过重建被掩盖的声谱图片段,捕捉健康相关的声学特征,如咳嗽和呼吸声。
2.5 CT Foundation(CT基础模型)
CT Foundation使用VideoCoCa模型,通过对CT体积图像和对应的放射报告进行训练,模型适用于多个解剖部位的分类任务,包括头部、胸部和腹盆部的异常检测。
3. 模型评估与实验
论文对各基础模型的性能进行了详尽的评估,包括数据效率、泛化能力以及与通用模型的对比。以下是每个模型的评估细节:
3.1 数据效率与泛化能力
- CXR Foundation模型:在多个公开数据集(如ChestX-ray14和CheXpert)上进行了数据效率评估。结果显示,基于CXR Foundation模型的线性和非线性分类器,在训练数据量较少时,仍能达到与放射科医生近似的表现,尤其是在检测结核病和严重COVID-19结果方面。
- Path Foundation模型:在11个组织病理学任务上进行线性探测,几乎所有任务的ROC AUC评分均在0.8以上,展示了其在组织类型和癌症类型的多样任务中的强大性能。
- Derm Foundation模型:在419种皮肤病的分类任务中,Derm Foundation模型在不同皮肤类型(Fitzpatrick皮肤类型)间未表现出显著性能差异,证明了它的泛化性。
- HeAR模型:在健康声学任务中,HeAR对比多个强基线模型(如CLAP、TRILL、FRILL)表现出了更强的数据效率,尤其是在设备和数据采集方式不同的情况下更为鲁棒。
- CT Foundation模型:CT Foundation在七个不同的分类任务上(包括颅内出血、钙化、肺癌预测等)表现出色,ROC AUC评分大多数在0.8以上,证明了它在不同解剖区域的适应性。
3.2 实验结果展示
- 各模型通过不同数据量下的训练,验证了其在少量数据情况下的优越性能。例如,CXR模型仅使用45幅图像的嵌入,就可以训练出在外部验证数据集上表现与放射科医生无差别的结核病检测模型。
- 对于不同基础模型在数据效率下的性能比较,例如在胸部X射线、皮肤病分类和健康声学任务上的ROC AUC曲线比较,均显示HAI-DEF基础模型在相同数据量下具有更高的准确性和泛化性。
4. 讨论
4.1 HAI-DEF的实际应用与部署
HAI-DEF通过开放权重模型和容器化的解决方案,使得这些基础模型可以作为研究端点在用户管理的环境中部署。研究者和开发者可以利用这些模型嵌入器,快速开发出适用于不同应用场景的AI模型。
- 应用案例:Path Foundation被用于伦敦大学学院的研究中,以帮助区分不同类型的肉瘤;CXR Foundation则被用于在新生儿影像中识别坏死性小肠结肠炎。
4.2 权重模型与研究端点的对比
- 开放权重模型:这种方式最灵活,开发者可以将模型嵌入到现有的机器学习基础设施中,或者作为集成模型的一部分用于实时使用。但这要求开发者对数据进行预处理,以适应不同模型的需求。
- 研究端点:提供额外的数据预处理逻辑,使得获取和处理推理数据更为便捷,且云端的部署方式(如Google Cloud Vertex AI端点)还提供了扩展性。
4.3 模型偏差与公平性
论文强调,在使用基础模型进行下游任务时,必须对具体问题和人群的数据进行验证和微调,尤其是对于在开发过程中没有覆盖到的罕见样本。为确保公平性,降低偏差,特别是在低资源环境中使用时,基础模型的嵌入可以降低AI使用的技术门槛,从而“民主化”AI的应用。
5. 未来工作
HAI-DEF团队计划在未来扩展模型集,支持更多的应用场景,例如在健康指南中的开放语言模型应用。同时,团队还计划发布“健康指南工具包”,帮助开发者将模型集成到如培训和教育等应用中。团队也期待从社区中获得反馈,以持续改进和扩展模型的适用范围。
Health AI Developer Foundations (HAI-DEF) : https://developers.google.com/health-ai-developer-foundations/
HAI-DEF models on Huggingface: https://huggingface.co/collections/google/health-ai-developer-foundations-hai-def-6744dc060bc19b6cf631bb0f