Movie Gen：来自Meta的先进多媒体基础AI模型集

近日，Meta发布了多媒体基础模型集Movie Gen，号称最先进（the most advanced media foundation AI models），超越了现有的商业系统如Runway Gen3和OpenAI Sora。从发布的生成视频看，效果确实惊艳。

针对Movie Gen的研究成果，Meta的Movie Gen Team发表了论文《Movie Gen: A Cast of Media Foundation Models》。论文提到，Movie Gen基础模型能够生成高质量的1080p高清视频，并支持不同的宽高比和音频同步。Movie Gen模型的功能包括基于文本指令生成视频、个性化视频生成、视频编辑以及视频转音频、文本转音频等任务。Movie Gen模型在多个领域中设立了新的技术标准，超越了现有的商业系统如Runway Gen3和OpenAI Sora。

以下为论文概要内容：

1. 论文背景与目标

论文介绍了Meta团队开发的Movie Gen，它是一个多模态生成模型的集合，能够生成高质量的高清（1080p）视频，支持多种宽高比和音频同步功能。Movie Gen模型集不仅能生成视频，还可以编辑视频、个性化生成视频以及生成同步音频。其主要目标是为视频和音频生成设定新的行业标准，并且推动视频生成技术的发展。

2. Movie Gen的核心功能

Movie Gen包括多个基础模型，主要功能包括：

文本到视频生成（Text-to-Video Synthesis）：根据用户提供的文本提示生成高清视频。例如，用户输入“穿着芭蕾舞裙的豪猪在舞台上跳芭蕾”，Movie Gen可以生成一个符合该描述的视频。
个性化视频生成（Personalized Video Generation）：通过输入一张人物的图像，Movie Gen可以生成基于该人物的个性化视频，如人物进行科学实验或放飞灯笼的场景。
视频编辑（Video Editing）：用户可以通过自然语言指令对视频进行精确编辑。例如，用户可以命令模型将视频中灯笼的底部添加上闪光带，或将背景从原始环境改为城市公园的湖边。
视频到音频生成（Video-to-Audio Generation）：根据视频场景生成与之匹配的音效，例如水花四溅的声音和碰撞声，或是雷鸣声伴随着激烈的音乐。

3. 技术创新与模型架构

3.1 模型规模与训练数据

Movie Gen的最大视频生成模型拥有30亿参数，是基于Transformer架构训练的。其音频生成模型拥有13亿参数，能够生成48kHz高质量的同步音效。Movie Gen使用了大量的互联网数据进行预训练，包括1亿+视频数据和10亿+图像数据，确保模型具备丰富的视觉、运动、物理、几何和音频生成能力。

3.2 时空自编码器（Temporal Autoencoder, TAE）

为了提高视频生成的效率，Movie Gen引入了时空自编码器（TAE），它将视频和图像数据压缩到一个时空压缩的潜在空间中。TAE通过编码器将输入的视频转换为潜在向量，随后通过解码器将潜在向量重建为像素级的视频或图像。通过这种压缩方法，Movie Gen在生成视频时可以减少处理时的计算复杂度，但依然保持高质量的输出。

3.3 流匹配（Flow Matching）训练方法

Movie Gen使用了一种称为流匹配（Flow Matching）的训练目标，这种方法通过模拟生成数据的分布变化来训练模型。它通过对目标视频的每一帧进行噪声扰动，让模型学习从噪声中逐步恢复视频内容。在推理阶段，模型通过解算器（如Euler方法）逐步生成视频，确保高效的视频生成。

3.4 模型架构设计与并行化技术

Movie Gen的模型架构基于Transformer，同时引入了多种并行化技术，以支持大规模模型的训练：

张量并行（Tensor Parallelism）：将模型的线性层沿列或行进行分片，以减少计算负担。
序列并行（Sequence Parallelism）：通过分割输入序列进一步减少计算负担。
上下文并行（Context Parallelism）：为处理更长的上下文长度（如长视频序列），对自注意力机制进行优化。这种多维度的并行化策略使得Movie Gen能够在大规模GPU集群上高效地训练，例如使用6,144个H100 GPU。

3.5 个性化与编辑能力

Movie Gen的个性化功能允许模型在生成视频时不仅参考文本，还可以参考一张人物的图像，从而生成包含该人物的定制视频。个性化视频保持了人物的特征，同时根据文本描述生成合适的场景。此外，Movie Gen能够根据用户提供的指令进行视频的精准编辑，如改变背景、添加物体等操作，这些能力在现有的商业系统中尚未普及。

4. 训练与推理

4.1 多阶段训练策略

Movie Gen采用了多阶段的训练流程，以提高模型的生成质量和效率。首先，模型在256px分辨率的图像数据上进行预训练，随后在高分辨率的图像和视频数据上进行联合训练（文本到图像与文本到视频任务）。最后，模型会进行监督微调，以确保视频的运动和美学质量。

4.2 空间上采样器（Spatial Upsampler）

为了生成更高分辨率的视频，Movie Gen使用了空间上采样器，它将基础视频从768px提升至1080p的高清分辨率。这个上采样器基于视频到视频生成任务，通过条件生成更高分辨率的视频，确保在生成高质量视频的同时，降低计算成本。

4.3 推理优化

Movie Gen使用了多种推理优化策略，包括基于时间步长的线性-二次采样方法（linear-quadratic t-schedule），能够将推理步数从1000步减少到50步，同时保持生成质量不变。这种方法通过在早期的时间步长中保持较小的变化，随后使用较大的二次步长逼近完整的视频生成过程，从而显著加速视频的生成。

5. 性能评估与基准测试

5.1 评估指标

Movie Gen的评估通过三个主要维度来进行：

文本对齐（Text Alignment）：评估生成的视频与输入文本描述的匹配程度，包括物体外观、运动、背景、摄像机运动等。
视觉质量（Visual Quality）：评估视频的帧一致性、运动完整性、运动自然性以及整体质量。
真实感与美学（Realness & Aesthetics）：评估生成的视频在视觉上的真实感和美学表现，包括颜色、光效、场景设计等。

5.2 视频生成基准（Movie Gen Video Bench）

Meta团队还提出了一个新的基准测试Movie Gen Video Bench，它涵盖了1000个不同的测试提示，涵盖从人物动作到物理现象、非自然场景等多个领域。通过人类评估专家的A/B测试，Movie Gen在文本对齐、视觉质量和真实感等方面都表现优异。

6. 未来工作与影响

Meta团队计划公开Movie Gen的多个评估基准，以推动媒体生成模型的研究。通过详细介绍模型架构、训练过程和评估方法，Meta希望Movie Gen能够为未来的生成式AI在视频、音频以及多模态生成任务中的发展提供有力支持。

总的来说，Movie Gen通过其强大的生成能力、灵活的个性化和编辑功能，以及在多个评估任务上的出色表现，展现了其在视频生成领域的领导地位。Meta希望这项研究能加速多模态生成技术的创新与发展。

Meta Movie Gen生成视频Demo：https://www.youtube.com/playlist?list=PL86eLlsPNfyi27GSizYjinpYxp7gEl5K8

Blogpost：https://ai.meta.com/blog/movie-gen-media-foundation-models-generative-ai-video/

Meta Movie Gen：https://ai.meta.com/research/movie-gen/