PaliGemma：一种可有效进行任务迁移的视觉语言模型(VLM)

PaliGemma 是一个开放的视觉语言模型（VLM），它结合了 SigLIP-So400m 视觉编码器和 Gemma-2B 语言模型。其目标是提供一个多功能的基础模型，能够有效迁移到各种任务，在近40个不同的任务中表现出色，包括标准的 VLM 基准测试以及更专业的任务如遥感和分割。

PaliGemma是来自Google Deepmind团队的近期研究成果，研究内容发表在论文PaliGemma: A versatile 3B VLM for transfer中。

论文内容简介如下：

一、PaliGemma主要组成部分

视觉编码器（SigLIP-So400m）：一个优化形状的视觉编码器，使用对比损失方法进行预训练。它展示了最先进的性能，尤其是考虑到其相对较小的尺寸。
语言模型（Gemma-2B）：来自 Gemma 系列的自回归解码器，仅用于语言模型，在性能和大小之间取得了良好的平衡。PaliGemma 使用了 2B 变体。
线性投影层：将 SigLIP 的输出标记投影到与 Gemma-2B 的词汇标记相同的维度，以便进行拼接。

二、训练阶段

单模态预训练（Stage0）：使用现有的预训练检查点，分别用于视觉和语言组件。
多模态预训练（Stage1）：结合视觉和语言模型，并在多模态任务混合上进行训练，确保不冻结图像编码器。使用线性缓慢的预热来调整图像编码器的学习率。
分辨率提升（Stage2）：在更高分辨率（448px 和 896px）下训练模型，以提高需要高分辨率输入的任务（如检测和分割）的性能。
迁移（Stage3）：针对特定任务微调基础模型，调整超参数如分辨率、学习率、训练周期和其他任务特定设置。

三、架构细节

图像+文本输入，文本输出：模型接受一张或多张图像和一个文本描述作为输入，并生成一个文本字符串作为输出。
注意力机制：对图像和前缀标记使用全注意力，对后缀标记使用自回归注意力。

四、预训练目标

图像描述：使用 WebLI 和 CC3M-35L 数据集进行多语言图像描述。
光学字符识别（OCR）：连接图像中转录的所有文本。
视觉问答（VQA）：生成多语言问题并给出英文答案。
检测和分割：使用伪标签数据进行多目标检测和分割。
定位描述：生成图像中特定区域的描述。

五、评估和结果

PaliGemma 在通过微调的30多个学术基准上进行了评估。关键性能指标涵盖了图像描述、视觉问答和图像分割等任务。结果显示，在迁移过程中增加图像分辨率能显著提高性能，尤其是对于需要高细节的任务。

六、消融研究和发现

预训练时长：较长的预训练通常能带来更好的性能，但100M示例的预训练时长对于实验来说是一个不错的折衷。
掩码和学习目标：前缀-LM 掩码仅对后缀标记进行监督最为有效。
标记初始化：使用小高斯噪声初始化新标记比平均预训练嵌入效果更好。
组件冻结：在预训练过程中不冻结任何部分的模型效果更佳。
连接器设计：视觉和语言模型之间的线性连接器的性能与更复杂的替代方案如 MLP 相当。
分辨率：更高的图像分辨率有利于需要详细视觉信息的任务。建议为不同分辨率提供单独的检查点。

七、结论

PaliGemma 是一个多功能且高性能的 VLM，在广泛的任务中特别有效。其架构、预训练策略和微调方法使其成为一个强大的工具，适用于学术基准测试和实际应用。

Page for the paper on Hugging Face: PaliGemma: A versatile 3B VLM for transfer