近日,Meta发布了多媒体基础模型集Movie Gen,号称最先进(the most advanced media foundation AI models),超越了现有的商业系统如Runway Gen3和OpenAI Sora。从发布的生成视频看,效果确实惊艳。
针对Movie Gen的研究成果,Meta的Movie Gen Team发表了论文《Movie Gen: A Cast of Media Foundation Models》。论文提到,Movie Gen基础模型能够生成高质量的1080p高清视频,并支持不同的宽高比和音频同步。Movie Gen模型的功能包括基于文本指令生成视频、个性化视频生成、视频编辑以及视频转音频、文本转音频等任务。Movie Gen模型在多个领域中设立了新的技术标准,超越了现有的商业系统如Runway Gen3和OpenAI Sora。
以下为论文概要内容:
1. 论文背景与目标
论文介绍了Meta团队开发的Movie Gen,它是一个多模态生成模型的集合,能够生成高质量的高清(1080p)视频,支持多种宽高比和音频同步功能。Movie Gen模型集不仅能生成视频,还可以编辑视频、个性化生成视频以及生成同步音频。其主要目标是为视频和音频生成设定新的行业标准,并且推动视频生成技术的发展。
2. Movie Gen的核心功能
Movie Gen包括多个基础模型,主要功能包括:
- 文本到视频生成(Text-to-Video Synthesis):根据用户提供的文本提示生成高清视频。例如,用户输入“穿着芭蕾舞裙的豪猪在舞台上跳芭蕾”,Movie Gen可以生成一个符合该描述的视频。
- 个性化视频生成(Personalized Video Generation):通过输入一张人物的图像,Movie Gen可以生成基于该人物的个性化视频,如人物进行科学实验或放飞灯笼的场景。
- 视频编辑(Video Editing):用户可以通过自然语言指令对视频进行精确编辑。例如,用户可以命令模型将视频中灯笼的底部添加上闪光带,或将背景从原始环境改为城市公园的湖边。
- 视频到音频生成(Video-to-Audio Generation):根据视频场景生成与之匹配的音效,例如水花四溅的声音和碰撞声,或是雷鸣声伴随着激烈的音乐。
3. 技术创新与模型架构
3.1 模型规模与训练数据
Movie Gen的最大视频生成模型拥有30亿参数,是基于Transformer架构训练的。其音频生成模型拥有13亿参数,能够生成48kHz高质量的同步音效。Movie Gen使用了大量的互联网数据进行预训练,包括1亿+视频数据和10亿+图像数据,确保模型具备丰富的视觉、运动、物理、几何和音频生成能力。
3.2 时空自编码器(Temporal Autoencoder, TAE)
为了提高视频生成的效率,Movie Gen引入了时空自编码器(TAE),它将视频和图像数据压缩到一个时空压缩的潜在空间中。TAE通过编码器将输入的视频转换为潜在向量,随后通过解码器将潜在向量重建为像素级的视频或图像。通过这种压缩方法,Movie Gen在生成视频时可以减少处理时的计算复杂度,但依然保持高质量的输出。
3.3 流匹配(Flow Matching)训练方法
Movie Gen使用了一种称为流匹配(Flow Matching)的训练目标,这种方法通过模拟生成数据的分布变化来训练模型。它通过对目标视频的每一帧进行噪声扰动,让模型学习从噪声中逐步恢复视频内容。在推理阶段,模型通过解算器(如Euler方法)逐步生成视频,确保高效的视频生成。
3.4 模型架构设计与并行化技术
Movie Gen的模型架构基于Transformer,同时引入了多种并行化技术,以支持大规模模型的训练:
- 张量并行(Tensor Parallelism):将模型的线性层沿列或行进行分片,以减少计算负担。
- 序列并行(Sequence Parallelism):通过分割输入序列进一步减少计算负担。
- 上下文并行(Context Parallelism):为处理更长的上下文长度(如长视频序列),对自注意力机制进行优化。 这种多维度的并行化策略使得Movie Gen能够在大规模GPU集群上高效地训练,例如使用6,144个H100 GPU。
3.5 个性化与编辑能力
Movie Gen的个性化功能允许模型在生成视频时不仅参考文本,还可以参考一张人物的图像,从而生成包含该人物的定制视频。个性化视频保持了人物的特征,同时根据文本描述生成合适的场景。此外,Movie Gen能够根据用户提供的指令进行视频的精准编辑,如改变背景、添加物体等操作,这些能力在现有的商业系统中尚未普及。
4. 训练与推理
4.1 多阶段训练策略
Movie Gen采用了多阶段的训练流程,以提高模型的生成质量和效率。首先,模型在256px分辨率的图像数据上进行预训练,随后在高分辨率的图像和视频数据上进行联合训练(文本到图像与文本到视频任务)。最后,模型会进行监督微调,以确保视频的运动和美学质量。
4.2 空间上采样器(Spatial Upsampler)
为了生成更高分辨率的视频,Movie Gen使用了空间上采样器,它将基础视频从768px提升至1080p的高清分辨率。这个上采样器基于视频到视频生成任务,通过条件生成更高分辨率的视频,确保在生成高质量视频的同时,降低计算成本。
4.3 推理优化
Movie Gen使用了多种推理优化策略,包括基于时间步长的线性-二次采样方法(linear-quadratic t-schedule),能够将推理步数从1000步减少到50步,同时保持生成质量不变。这种方法通过在早期的时间步长中保持较小的变化,随后使用较大的二次步长逼近完整的视频生成过程,从而显著加速视频的生成。
5. 性能评估与基准测试
5.1 评估指标
Movie Gen的评估通过三个主要维度来进行:
- 文本对齐(Text Alignment):评估生成的视频与输入文本描述的匹配程度,包括物体外观、运动、背景、摄像机运动等。
- 视觉质量(Visual Quality):评估视频的帧一致性、运动完整性、运动自然性以及整体质量。
- 真实感与美学(Realness & Aesthetics):评估生成的视频在视觉上的真实感和美学表现,包括颜色、光效、场景设计等。
5.2 视频生成基准(Movie Gen Video Bench)
Meta团队还提出了一个新的基准测试Movie Gen Video Bench,它涵盖了1000个不同的测试提示,涵盖从人物动作到物理现象、非自然场景等多个领域。通过人类评估专家的A/B测试,Movie Gen在文本对齐、视觉质量和真实感等方面都表现优异。
6. 未来工作与影响
Meta团队计划公开Movie Gen的多个评估基准,以推动媒体生成模型的研究。通过详细介绍模型架构、训练过程和评估方法,Meta希望Movie Gen能够为未来的生成式AI在视频、音频以及多模态生成任务中的发展提供有力支持。
总的来说,Movie Gen通过其强大的生成能力、灵活的个性化和编辑功能,以及在多个评估任务上的出色表现,展现了其在视频生成领域的领导地位。Meta希望这项研究能加速多模态生成技术的创新与发展。
Meta Movie Gen生成视频Demo:https://www.youtube.com/playlist?list=PL86eLlsPNfyi27GSizYjinpYxp7gEl5K8
Blogpost:https://ai.meta.com/blog/movie-gen-media-foundation-models-generative-ai-video/
Meta Movie Gen:https://ai.meta.com/research/movie-gen/