PaliGemma 2: 用于迁移学习的多功能视觉-语言模型(VLM)家族

论文PaliGemma 2: A Family of Versatile VLMs for Transfer(《PaliGemma 2: 用于迁移学习的多功能视觉-语言模型家族》)详细介绍了PaliGemma模型的升级过程。PaliGemma 2基于Gemma 2系列语言模型,是一种多功能的视觉-语言模型(Vision-Language Model, VLM),专为广泛的迁移任务而设计,目标是通过模型规模、分辨率以及训练策略的创新,进一步推动视觉和语言任务的进展。

PaliGemma 2作为一个开源的模型家族,其提供的广泛基础模型可以作为现有PaliGemma模型的直接替代,具备更强的迁移能力和更广泛的应用场景,预计将在多个领域的视觉-语言任务中推动新的进展。

论文作者为Andreas Steiner, André Susano Pinto, Michael Tschannen, Daniel Keysers, Xiao Wang, Yonatan Bitton, Alexey Gritsenko, Matthias Minderer, Anthony Sherbondy, Shangbang Long, Siyang Qin, Reeve Ingle, Emanuele Bugliarello, Sahar Kazemzadeh, Thomas Mesnard, Ibrahim Alabdulmohsin, Lucas Beyer, Xiaohua Zhai,来自Google DeepMind。

PaliGemma 2: A Family of Versatile VLMs for Transfer

PaliGemma最初是一个基于SigLIP视觉编码器和Gemma语言模型的3B规模的视觉-语言模型,通过对视觉和语言的结合实现了比以往更强的迁移能力。然而,PaliGemma的语言模型仍有升级空间。因此,研究团队将其更新为Gemma 2语言模型,生成了新的PaliGemma 2基础VLM系列,涵盖3B、10B、28B三种不同模型规模,并在224px²、448px²、896px²三个分辨率下训练。这些模型不仅在分辨率和模型规模上做了升级,而且在迁移任务的种类和覆盖范围上也有了大幅度增加,涵盖表结构识别、分子结构识别、音乐乐谱识别、长篇细粒度图像描述生成、空间推理、以及放射学报告生成等任务。

PaliGemma 2的训练采用了三阶段训练策略:

  1. 阶段1:基础多模态任务训练
    • 在第一阶段中,PaliGemma 2将预训练的SigLIP-So400m视觉编码器与Gemma 2语言模型结合,对包含10亿例的多模态任务数据集进行训练,以促进模型在广泛任务中的迁移能力。这一阶段的训练分辨率为224px²,所有模型参数均未被冻结。
  2. 阶段2:逐步提高分辨率的训练
    • 在阶段2中,模型首先使用448px²的分辨率训练5000万例,然后再以896px²的分辨率训练1000万例。为了适应较高分辨率的任务,任务混合集中增加了对高分辨率有益的任务的权重,并延长了输出序列的长度,以便更好地进行复杂OCR任务的学习。
  3. 阶段3:微调到具体任务
    • 阶段3对阶段1或阶段2生成的检查点进行微调,以适应特定的目标任务。这一阶段采用了多种学术基准测试,包括多个涉及多张图像和短视频的任务,如常见的图片标注、视觉问答(VQA)任务等。此外,PaliGemma 2还尝试了新的应用,包括文档相关任务、长篇描述生成和医学图像理解。

PaliGemma 2在多个迁移任务上进行了广泛的实验,以下是各方面的详细实验结果及其分析:

  1. 模型规模和分辨率对性能的影响
    • 实验结果表明,增加模型的规模和图像分辨率通常可以显著提高模型在迁移任务中的表现。特别是对一些依赖视觉细节的任务,如文本识别、表结构识别等,分辨率的提升尤其重要。例如,图表问答任务(ChartQA)和文档视觉问答(DocVQA)等涉及文档和图表理解的任务,显著受益于分辨率的增加,而涉及多语言数据的任务则更受益于模型规模的增加。
  2. 迁移学习速率和模型规模的关系
    • 研究发现,随着模型规模的增加,最优迁移学习速率逐渐降低。因此,在迁移到较大的模型时,推荐使用较小的学习速率进行微调。此外,相比于早期的PaliGemma模型,PaliGemma 2的3B模型通常需要更低的学习速率才能达到最优效果。
  3. 不同任务的性能表现
    • 表结构识别:PaliGemma 2在表结构识别任务上表现优异,使用了FinTabNet和PubTabNet数据集,评估指标包括Tree Edit Distance Similarity (TEDS)和Grid Table Similarity (GriTS)。PaliGemma 2在大多数这些指标上设置了新的最先进记录,这表明它在处理表格结构的复杂性和精度方面取得了显著进展。
    • 分子结构识别:在分子结构识别任务中,PaliGemma 2被用于识别分子图结构(以SMILES字符串表示),使用了从PubChem数据集中获取的100万分子图像数据进行训练,并对ChemDraw库中的评估集进行了评估。PaliGemma 2在该任务上超越了之前的最佳模型MolScribe。
    • 光学音乐识别:PaliGemma 2在光学音乐识别任务中,通过对GrandStaff数据集的训练,将钢琴乐谱图像翻译为数字音乐表示格式。使用的评估指标包括字符错误率(CER)、符号错误率(SER)和行错误率(LER),PaliGemma 2在所有这些指标上均有显著降低,表明它在音乐识别任务中的强大能力。
    • 放射学报告生成:为了测试PaliGemma 2在医疗领域的应用,模型被用于自动生成胸部X射线报告,数据集为MIMIC-CXR。通过微调模型,PaliGemma 2在RadGraph评估指标上达到了当前最先进的性能。这显示出其在生成医学报告方面的潜力,尤其是在描述复杂医学图像内容时的细节表达能力。

PaliGemma 2的研究意义在于它成功地证明了通过结合高质量视觉编码器与强大的语言模型,可以在多种视觉-语言任务中实现最先进的性能。其创新之处在于不仅提高了模型的整体规模和分辨率,还通过多阶段训练策略,确保模型能够在广泛的任务中进行高效迁移。这些模型的多样性也使得研究团队可以更深入地分析模型规模、图像分辨率以及不同任务类型之间的相互作用。

未来方向

  1. 跨领域应用:PaliGemma 2已经展示了在多领域(如医学、化学、音乐等)中的应用潜力,未来可以进一步探索其在更多跨领域任务中的应用,特别是涉及更加复杂的视觉和语言推理的任务。
  2. 模型的轻量化与设备部署:尽管目前PaliGemma 2已经表现出了强大的迁移能力,未来的研究可以更加关注如何对模型进行进一步的轻量化处理,以便在边缘设备上运行。此外,通过对模型进行量化(如8-bit量化),可以在保证性能的前提下大幅降低推理的计算开销,使其更适合在资源有限的设备上进行推理。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注