论文Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction提出了一种全新的视觉自回归生成框架——视觉自回归建模(VAR),通过多尺度的生成策略,有效解决了传统自回归模型在图像生成中的效率低下和空间结构破坏等问题。VAR模型首次在图像生成的质量、速度和效率上超越了主流的扩散模型,展示了其作为下一代图像生成模型的巨大潜力。此外,VAR模型的标度规律和零样本泛化能力进一步证明了其扩展性和通用性,为视觉自回归学习领域的进一步探索提供了坚实的理论和实践基础。
论文作者为Keyu Tian(田柯宇), Yi Jiang, Zehuan Yuan, Bingyue Peng, Liwei Wang,来自北京大学(Peking University)和字节跳动(Bytedance Inc)。
一、研究背景与动机
1. 自回归模型与语言生成的成功
自回归(Autoregressive, AR)模型在自然语言生成中的成功,特别是像GPT系列模型(如GPT-2、GPT-3)的出现,显著推动了大规模语言模型的发展。这些模型通过简单的“下一个token预测”策略,在训练过程中学习到广泛的语言模式,并展示了出色的扩展性和零样本学习能力。自回归模型的核心思想在于将复杂的生成问题分解为一系列顺序的生成任务,这种方法的成功启发了计算机视觉领域,希望在视觉生成中也能实现类似的突破。
2. 视觉生成的挑战
与语言数据相比,视觉数据具有二维结构,而传统的自回归模型主要应用于一维序列数据,因此在应用于图像生成时存在显著的挑战。早期的视觉自回归模型通常采用“栅格扫描”(raster scan)的方式来处理图像,即将二维图像分解为一维token序列,按照从左到右、自上而下的顺序逐个生成。然而,这种方法在扩展性和效率上均面临挑战:
- 效率低下:生成图像需要逐像素进行,并且每个像素的生成都依赖于之前所有像素,导致推理速度非常慢,尤其是在高分辨率图像生成中,计算复杂度呈指数级增长。
- 结构信息的丢失:图像具有天然的空间结构,而将其转化为一维序列后,这种空间结构信息被破坏,难以有效捕捉邻近像素之间的依赖关系。
- 双向相关性问题:图像的量化编码过程中,token之间存在双向的相互依赖,但自回归模型假设token仅依赖于其先前的序列,这种假设在图像生成中不完全成立。
3. 研究动机
为解决上述问题,本文提出了一种新颖的视觉自回归建模方法——视觉自回归建模(Visual AutoRegressive, VAR)。其核心思想是通过“下一个尺度预测”来实现图像的逐步生成,从低分辨率到高分辨率逐步递进,从而更好地保留图像的空间结构信息,同时显著提高生成效率。
二、VAR模型的创新方法
1. 多尺度生成与“下一个尺度预测”
VAR的核心在于将传统的“下一个token预测”重构为“下一个尺度预测”。具体来说,VAR通过以下步骤来实现图像生成:
- 多尺度量化编码:首先,图像通过一个多尺度量化自动编码器(VQVAE)被编码为多个不同分辨率的token map。这些token map从低分辨率到高分辨率逐级细化,最终达到原图的分辨率。
- 从粗到细的自回归生成:生成过程从最粗糙的1×1 token map开始,逐步向更高分辨率扩展。在每一个生成步骤中,当前尺度的token map被用来条件生成下一尺度的token map,这种方式保证了生成过程中空间结构信息的保留。
- 并行生成:在每个尺度内,所有token是并行生成的,这使得生成过程更高效,相较于逐像素的生成方式大幅减少了时间复杂度。
通过这种多尺度生成策略,VAR能够更有效地学习到图像的多层次结构信息,克服了传统方法在生成过程中面临的多种限制。
2. 自适应层归一化与层次编码策略
VAR采用了GPT-2风格的解码器架构,但在实现上做了几项重要改进:
- 自适应层归一化(Adaptive Layer Normalization, AdaLN):为了增强模型的训练稳定性和生成质量,VAR使用了自适应层归一化技术。相比标准的层归一化,AdaLN能够根据条件信息(例如类别标签)进行归一化调整,使得模型能够更好地处理不同类型的输入。
- 共享码本的多尺度量化:VAR在不同尺度间使用了共享的量化码本(codebook),这有助于减少尺度转换时的信息丢失,使得各个尺度之间的信息能够更自然地传递和融合。
3. 生成过程的复杂度分析
VAR相比于传统的自回归模型,极大地降低了生成过程的复杂度。在传统的自回归模型中,生成n×n分辨率的图像需要O(n^6)的计算复杂度,而VAR通过“下一个尺度预测”策略,将其复杂度降低至O(n^4)。具体而言,VAR在每个尺度上并行生成token,而不是逐个生成,这使得整体生成过程更加高效。此外,通过多尺度并行生成,VAR在每个生成步骤中都保持了图像的空间结构完整性,从而提高了生成质量。
三、实验结果与对比分析
1. 与其他生成模型的比较
VAR模型在ImageNet 256×256和512×512基准测试中表现出色,特别是在生成质量、数据效率和推理速度等方面,相较于其他生成模型(包括GAN、扩散模型、BERT风格的掩码预测模型和传统自回归模型)具有显著优势:
- 生成质量:VAR在ImageNet 256×256数据集上的Fréchet Inception Distance(FID)达到1.73,这个结果超过了许多领先的扩散模型(例如DiT-L/2、L-DiT-3B等),并首次使得自回归模型在生成质量上超越了扩散模型。
- 推理速度:VAR的推理速度比传统的自回归模型(如VQGAN、ViT-VQGAN)快约20倍,达到了与高效GAN模型相当的速度。这种速度提升得益于多尺度并行生成的策略,使得每次生成的计算量显著减少。
- 数据效率:与扩散模型(如DiT系列)相比,VAR模型只需较少的训练轮数(350轮相较于DiT-XL/2的1400轮)就能达到更好的生成质量,体现了更高的数据利用效率。
2. 标度规律(Scaling Laws)验证
VAR模型展示了与大规模语言模型类似的标度规律,即模型性能随着参数量和计算量的增加呈现出幂律下降趋势。实验中,作者训练了不同参数量的VAR模型(从18M到2B参数),并观察其在ImageNet验证集上的测试损失。结果表明,VAR模型的测试损失随着模型规模的增大而平滑下降,且这种下降趋势符合幂律关系,说明VAR模型具备良好的可扩展性。这种标度规律的存在,使得可以通过小模型的训练结果来预测大模型的性能,从而更有效地进行资源配置。
3. 零样本任务泛化能力
VAR模型在图像补全(in-painting)、扩展绘制(out-painting)和图像编辑等任务上展示了良好的零样本泛化能力。在这些任务中,VAR能够在不需要额外调优的情况下,直接生成符合上下文的内容,说明模型具备较强的通用性和适应性。例如,VAR在图像编辑任务中能够根据给定的类别标签生成符合语义的内容,并且与周围未编辑部分的内容自然融合。
四、模型设计与训练细节
1. VAR量化器(Tokenizer)
VAR模型采用了一种改进的多尺度量化自动编码器(VQVAE)来对图像进行多尺度编码。具体来说,VAR量化器首先通过编码器将图像特征映射到多尺度token map上,每个尺度的token map都使用相同的共享码本进行量化,这确保了不同尺度间的一致性和信息传递的有效性。为了进一步减少信息在尺度转换中的丢失,作者引入了残差风格的设计,使得在每个尺度上量化后的特征可以更好地保持与原始图像的相似性。
2. VAR Transformer架构
VAR模型的自回归生成部分采用了标准的GPT-2风格的解码器架构,并结合了以下技术:
- 自适应层归一化(AdaLN):通过在每一层使用自适应层归一化,VAR能够根据输入的类别信息进行归一化调整,从而提高生成过程的稳定性和生成图像的多样性。
- 查询和键的归一化:为了增强模型在注意力机制中的稳定性,VAR对查询和键进行了单位向量归一化,这种操作使得模型在生成过程中能够更加稳定地捕捉特征之间的关系。
五、实验结果的可视化与分析
作者通过对不同大小的VAR模型(从深度6到30)在不同训练阶段(20%、60%、100%训练完成)生成的样本进行可视化,展示了模型规模和训练量对生成质量的影响。随着模型参数量的增加和训练量的增加,生成图像的视觉保真度和内容一致性显著提高。这些观察与标度规律的结论一致,表明更大的模型能够更好地学习到复杂的图像分布。
六、限制与未来研究方向
尽管VAR模型在图像生成方面取得了显著进展,作者也指出了一些需要改进的地方和未来的研究方向:
- 改进量化器:当前VAR模型采用的是与VQGAN类似的VQVAE结构,未来可以尝试使用更先进的量化器来进一步提升生成质量。
- 文本提示生成:目前的研究主要集中在图像生成上,而通过与大规模语言模型的结合,VAR模型可以扩展到文本到图像生成任务中,实现更复杂的多模态生成。
- 视频生成:VAR的多尺度生成方法也可以自然地扩展到视频生成中,通过考虑视频的时间维度,使用类似的“3D下一个尺度预测”方法,可以生成时空一致性较强的视频内容。这在长时序依赖的视频生成中有较大潜力。