MetaMorph:实现视觉理解与生成统一的多模态模型

论文MetaMorph: Multimodal Understanding and Generation via Instruction Tuning提出了一种新的微调框架——Visual-Predictive Instruction Tuning (VPiT),并构建多模态模型 MetaMorph实现视觉理解和生成的统一

论文作者为Shengbang Tong, David Fan, Jiachen Zhu, Yunyang Xiong, Xinlei Chen, Koustuv Sinha, Michael Rabbat, Yann LeCun, Saining Xie, Zhuang Liu,均来自Meta。杨立昆(Yann LeGun)教授也是论文作者之一。

MetaMorph: Multimodal Understanding and Generation via Instruction Tuning
1. 背景与研究动机
1.1 多模态模型的现状

多模态大型语言模型(MLLMs)的发展,使得机器能够同时理解和处理图像与文本。然而,当前模型大多局限于单一任务(如图像理解或生成),且实现这些任务通常需要大规模的数据训练和复杂的模型架构调整。以往的研究表明:

  • 视觉理解任务,如图像问答(ImageQA),通过视觉编码器将图像嵌入到语言模型中,可以高效地实现。
  • 视觉生成任务则通常被认为是独立于理解的,需要额外的生成模块,如扩散模型(Diffusion Models)。
1.2 存在的问题
  1. 生成与理解割裂:现有方法中,视觉生成和理解通常被分开处理,这限制了模型的多任务能力。
  2. 高成本需求:视觉生成任务通常需要大量的数据和计算资源。
  3. 架构复杂性:实现多模态能力的模型设计往往需要在现有架构上引入大量调整,增加了实现难度。
1.3 研究目标

作者提出的主要目标是:

  • 通过轻量级微调(VPiT),在预训练语言模型的基础上实现统一的视觉理解与生成能力。
  • 探讨视觉生成和理解任务之间的协同关系,揭示两者的潜在互补性。
  • 通过联合多模态数据训练一个模型,实现视觉生成任务所需的数据效率提升。
2. 研究方法
2.1 VPiT(Visual-Predictive Instruction Tuning)
核心思想

通过扩展视觉指令微调(Visual Instruction Tuning),实现统一的视觉理解与生成。具体步骤包括:

  1. 从单模态到多模态的预测任务
    • 输入扩展为图像和文本的混合序列。
    • 输出既包括离散的文本令牌,也包括连续的视觉令牌。
  2. 多模态数据的令牌化
    • 文本数据通过语言模型的标准令牌器进行离散化。
    • 图像数据通过预训练视觉编码器(如 SigLIP)转换为连续视觉令牌,并通过投影层调整维度以适配语言模型。
  3. 模型架构
    • 在预训练语言模型的基础上增加“视觉头”,用于预测视觉令牌。
    • 引入特殊令牌 <image_start><image_end> 以标识视觉令牌序列。
  4. 损失函数
    • 文本生成任务采用标准的交叉熵损失。
    • 视觉生成任务采用余弦相似性损失,最大化模型预测的视觉令牌与视觉编码器生成的嵌入之间的相似度。
  5. 令牌可视化
    • 使用扩展的扩散模型将预测的视觉令牌映射回像素空间,实现视觉生成。
2.2 数据类型与处理

VPiT 支持多种类型的多模态数据,涵盖视觉理解和生成任务,具体包括:

  1. 视觉理解数据
    • 图像问答(ImageQA):例如 Cambrian-7M 数据集,提供图像和对应的问题-回答对。
    • 视频问答(VideoQA):如 VideoStar 数据集,输入为视频帧和文本问题。
  2. 视觉生成数据
    • 通过描述生成图像,如 MetaCLIP 数据集,输入为文本描述,输出为视觉令牌。
  3. 混合视觉数据
    • 视频预测:根据部分视频帧预测未来帧。
    • 图像推理:通过输入图像生成变换后的图像(如 InstructPix2Pix 数据集)。
2.3 可视化视觉令牌

通过一个微调的扩散模型(如 Stable Diffusion),将连续视觉令牌映射为像素数据。此过程需要:

  • 使用预训练的扩散模型。
  • 引入一个两层的多层感知机(MLP)投影器,用于将视觉令牌维度调整为扩散模型的条件输入维度。
3. 实验设计与结果分析
3.1 实验问题
  1. 视觉生成能否通过轻量级微调实现?
  2. 视觉理解与生成任务是否相互补充?
  3. 增加不同数据类型对模型性能的具体贡献如何?
3.2 实验发现
发现1:视觉生成能力通过联合训练高效解锁
  • 单独训练视觉生成任务时,模型需要超过 300 万条数据才能实现较高质量生成。
  • 联合训练视觉理解和生成任务后,仅需 20 万条生成数据即可达到相似的性能。这表明视觉生成并非独立能力,而是与视觉理解高度相关。
发现2:理解与生成任务的协同效应
  1. 增加视觉理解数据(如 VQA 数据)可以显著提升生成质量。
  2. 增加视觉生成数据也能提升理解任务(如 VQA)的性能,但效果不如增加理解数据显著。
发现3:视觉理解数据贡献更大

通过对不同类型数据的对比实验发现:

  • 视觉理解数据(如 ImageQA 和 VideoQA)对生成任务的提升最显著。
  • 视觉生成数据的贡献较小,尤其是在理解数据较多的情况下。
发现4:特定任务的贡献差异
  • 一般性任务(如高分辨率图像问答)与生成任务的相关性较强。
  • 知识密集型任务(如科学问答)的贡献较低,说明生成任务更依赖于视觉内容的直接理解。
3.3 定量结果

在多个基准任务上,MetaMorph 的表现优于现有方法,包括:

  • 在视觉理解任务(如 ImageQA)上,与 GPT-4V 等先进模型表现相当。
  • 在视觉生成任务上,超过部分专用生成模型(如 Stable Diffusion)。
4. 模型能力展示
4.1 利用 LLM 的知识生成视觉内容

MetaMorph 能够利用预训练语言模型的知识生成复杂的视觉概念,例如:

  • 生成“Chhogori”(乔戈里峰,世界第二高峰)的图像。
  • 生成“Oncilla”(南美小野猫)等特定领域知识相关的图像。
4.2 隐式多步推理

通过隐式完成多步逻辑推理,MetaMorph 能够直接生成正确的视觉内容。例如:

  • 输入“生成科学家爱因斯坦喜欢演奏的乐器”,模型推理出答案为小提琴并生成对应的图像。
5. 意义与未来展望
5.1 意义
  1. 统一能力:通过简单的微调,MetaMorph 实现了视觉理解与生成的统一。
  2. 数据效率:联合训练显著减少了视觉生成任务对大规模数据的依赖。
  3. 潜在能力激活:实验表明,预训练的语言模型中已存在“隐性”的视觉生成能力,通过 VPiT 可以高效激活。
5.2 未来方向
  • 探索更多多模态数据类型,进一步提升模型的统一能力。
  • 优化微调技术,使其适配更多任务场景,推动通用人工智能的发展。

Metamorph项目主页: tsb0601.github.io/metamorph

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注