CT Foundation:通过生成嵌入向量(embedding vector),助力研究人员能够在较少数据和计算资源条件下,快速开发基于CT影像的AI模型

Google Research团队近期发布了CT Foundation工具,该工具的开发是为了使研究人员能够在更少的数据和计算资源的条件下,快速开发基于CT影像的AI模型。

Taking medical imaging embeddings 3D

CT扫描(计算机断层扫描)是现代医学诊断中不可或缺的工具。它通过获取人体不同角度的二维切片图像,重建成三维影像,帮助医生更好地进行诊断和治疗决策。CT扫描广泛应用于各种重要的临床任务,如肺癌筛查、神经系统疾病评估、创伤诊断和胸部X光异常的后续检查。每年在美国进行的CT扫描多达7000万次,但由于其三维数据量大、解读复杂,CT影像的处理不仅对放射科医生来说耗时费力,对AI模型的训练来说也具有很大的计算和存储挑战。

CT Foundation的诞生正是为了应对这些挑战。CT Foundation是一个全新的研究工具,旨在简化3D CT影像的处理流程。该工具通过接受标准医学影像DICOM格式的CT扫描作为输入,生成一个包含1408个数值的嵌入向量(embedding vector)。这个嵌入向量浓缩了CT扫描中的关键信息,包括器官、组织以及异常情况,从而为下游的分类任务提供了高效的输入。这种嵌入方法能够在数据量较少的情况下,快速训练出性能良好的AI模型。

CT Foundation的核心技术是基于VideoCoCa模型(视频-文本联合编码器),它是由2D的CoCa(Contrastive Captioners)模型发展而来的。CoCa模型最初用于处理图像和文本,通过编码图像和文本输入,将它们转换为一个共享的嵌入空间。它通过两个主要的损失函数进行训练:

  • Captioning Loss(描述损失):衡量模型生成的描述与实际描述的相似度,确保模型能准确生成与图像匹配的文本描述。
  • Contrastive Loss(对比损失):通过最小化图像-文本对之间的编码距离,提升模型对图像内容的语义理解能力。

VideoCoCa模型在此基础上进行扩展,它处理一系列CT切片图像(类似视频帧序列)并生成一个紧凑的嵌入向量。这种设计可以更高效地处理3D体积影像数据,从而实现跨多个切片图像的信息融合。论文指出,CT Foundation的训练使用了超过50万去身份化的CT影像数据,涵盖了从头部到四肢的多个身体部位。这些影像与对应的放射学报告进行了配对,从而为模型提供了足够的监督信息,使其能够学习到影像与医学诊断之间的复杂关系。

CT影像通常存储为一系列2D DICOM格式的切片图像,CT Foundation通过将这些切片图像组合成一个三维体积,再进行模型推理,生成信息丰富的嵌入向量。用户可以通过API调用,将CT扫描输入系统,CT Foundation自动处理这些数据,生成嵌入向量,省去了研究人员预处理影像的复杂步骤。

CT Foundation工具生成的嵌入向量非常小,只有1408个数值,且包含了关于CT体积中的器官、组织以及可能的异常情况的详细信息。这种嵌入可以作为下游分类任务的输入,比如使用逻辑回归或多层感知器(MLP)等简单的分类器进行训练。因为最终用户只需训练这些较小的分类器,而不需要微调整个3D模型,因此计算资源的需求大幅减少。

为了评估CT Foundation的性能,研究团队设计了七个分类任务,涵盖了多个临床相关的领域,包括颅内出血、心脏钙化、肺癌预测、腹部病变、肾结石等。这些任务的标签大部分来自临床放射报告,肺癌预测任务的阳性标签则来自2年内通过病理确认的癌症结果。模型的性能通过AUC(受试者工作特征曲线下面积)进行衡量,AUC值范围在0.0到1.0之间,1.0表示完美模型,0.5表示随机猜测。

实验结果显示,即便是在有限的训练数据下,使用CT Foundation生成的嵌入向量,模型在大多数任务中的AUC值都超过了0.8,展示了其在医学影像分类任务中的高效性和数据利用能力。

CT Foundation的设计极大地提高了数据利用效率,并降低了对计算资源的需求。研究人员只需要使用普通的CPU就可以训练这些模型,无需昂贵的GPU资源,这对于资源有限的研究团队来说尤其重要。此外,CT Foundation自动处理复杂的DICOM格式数据,无需研究人员自己预处理影像数据。这种设计使得无论是新手研究人员还是有经验的开发人员,都能够快速上手,并且可以在有限的数据和计算资源下进行高效的AI模型训练。

CT Foundation不仅仅可应用在CT影像分类,还有其他潜在的应用场景。CT Foundation可以用于快速原型开发,特别是在需要快速迭代和实验的研究环境中。此外,CT Foundation还可以应用于其他多模态医学AI任务中,比如将其与文本报告或其他医学数据结合,生成更复杂的诊断或预测模型。

CT Foundation的发布标志着3D医学影像处理领域的一个重要进展。它通过高效的数据利用和嵌入生成,大大降低了开发3D影像AI模型的门槛,使得更多的研究人员能够在有限资源下从事复杂的医学影像任务。研究团队期待社区的反馈,并希望看到CT Foundation在医学AI领域的广泛应用。


CT Foundation tool on GitHub: https://github.com/Google-Health/imaging-research/tree/master/ct-foundation

发表评论

您的电子邮箱地址不会被公开。 必填项已用 * 标注