PaliGemma:一种可有效进行任务迁移的视觉语言模型(VLM)

PaliGemma 是一个开放的视觉语言模型(VLM),它结合了 SigLIP-So400m 视觉编码器和 Gemma-2B 语言模型。其目标是提供一个多功能的基础模型,能够有效迁移到各种任务,在近40个不同的任务中表现出色,包括标准的 VLM 基准测试以及更专业的任务如遥感和分割。

PaliGemma是来自Google Deepmind团队的近期研究成果,研究内容发表在论文PaliGemma: A versatile 3B VLM for transfer中。

论文内容简介如下:

一、PaliGemma主要组成部分

  1. 视觉编码器(SigLIP-So400m):一个优化形状的视觉编码器,使用对比损失方法进行预训练。它展示了最先进的性能,尤其是考虑到其相对较小的尺寸。
  2. 语言模型(Gemma-2B):来自 Gemma 系列的自回归解码器,仅用于语言模型,在性能和大小之间取得了良好的平衡。PaliGemma 使用了 2B 变体。
  3. 线性投影层:将 SigLIP 的输出标记投影到与 Gemma-2B 的词汇标记相同的维度,以便进行拼接。

二、训练阶段

  1. 单模态预训练(Stage0):使用现有的预训练检查点,分别用于视觉和语言组件。
  2. 多模态预训练(Stage1):结合视觉和语言模型,并在多模态任务混合上进行训练,确保不冻结图像编码器。使用线性缓慢的预热来调整图像编码器的学习率。
  3. 分辨率提升(Stage2):在更高分辨率(448px 和 896px)下训练模型,以提高需要高分辨率输入的任务(如检测和分割)的性能。
  4. 迁移(Stage3):针对特定任务微调基础模型,调整超参数如分辨率、学习率、训练周期和其他任务特定设置。

三、架构细节

  • 图像+文本输入,文本输出:模型接受一张或多张图像和一个文本描述作为输入,并生成一个文本字符串作为输出。
  • 注意力机制:对图像和前缀标记使用全注意力,对后缀标记使用自回归注意力。

四、预训练目标

  1. 图像描述:使用 WebLI 和 CC3M-35L 数据集进行多语言图像描述。
  2. 光学字符识别(OCR):连接图像中转录的所有文本。
  3. 视觉问答(VQA):生成多语言问题并给出英文答案。
  4. 检测和分割:使用伪标签数据进行多目标检测和分割。
  5. 定位描述:生成图像中特定区域的描述。

五、评估和结果

PaliGemma 在通过微调的30多个学术基准上进行了评估。关键性能指标涵盖了图像描述、视觉问答和图像分割等任务。结果显示,在迁移过程中增加图像分辨率能显著提高性能,尤其是对于需要高细节的任务。

六、消融研究和发现

  1. 预训练时长:较长的预训练通常能带来更好的性能,但100M示例的预训练时长对于实验来说是一个不错的折衷。
  2. 掩码和学习目标:前缀-LM 掩码仅对后缀标记进行监督最为有效。
  3. 标记初始化:使用小高斯噪声初始化新标记比平均预训练嵌入效果更好。
  4. 组件冻结:在预训练过程中不冻结任何部分的模型效果更佳。
  5. 连接器设计:视觉和语言模型之间的线性连接器的性能与更复杂的替代方案如 MLP 相当。
  6. 分辨率:更高的图像分辨率有利于需要详细视觉信息的任务。建议为不同分辨率提供单独的检查点。

七、结论

PaliGemma 是一个多功能且高性能的 VLM,在广泛的任务中特别有效。其架构、预训练策略和微调方法使其成为一个强大的工具,适用于学术基准测试和实际应用。


Page for the paper on Hugging Face: PaliGemma: A versatile 3B VLM for transfer

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注