CVPR2024最佳论文：Generative Image Dynamics

计算机图像和模式识别2024年度大会（Computer Vision and Pattern Recognition 2024 conference, CVPR2024）上，论文“Generative Image Dynamics”获评最佳论文。论文作者为Zhengqi Li, Richard Tucker, Noah Snavely和Aleksander Holynski👍👍

论文内容概述如下：

论文摘要：这篇论文提出了一种基于图像空间的场景运动生成方法。该方法通过从实际视频序列中提取的运动轨迹训练生成模型，用于预测场景中的密集、长期的像素轨迹。这些轨迹通过频域表示（称为光谱体积）建模，适用于使用扩散模型进行预测。该模型能够从单一图像生成连续的运动纹理，用于创建无缝循环的视频或交互式模拟动态。该方法的应用包括将静态图像转化为视频或使用户能够与图像中的物体互动。

一、引言

自然界中的场景总是处于运动中，即使是静止的场景也会因风、水流等产生微小的振动。人类能够轻松理解或想象场景中的运动，而训练模型生成真实的场景运动则具有挑战性。这项研究的目标是建立一种计算模型，能够从单张图像中生成多种可能的自然运动。

二、相关工作

生成合成：近年来的生成模型进展显著，能够生成逼真的图像和视频内容。这些模型包括条件扩散模型，用于从文本生成图像和视频。
图像动画：从静态图像生成动画的方法多种多样，包括直接生成视频内容或通过图像渲染技术进行动画。
运动模型和运动先验：在计算机图形学中，自然的3D运动可以通过频域中的噪声建模，转换为时间域的运动场。该研究借鉴了频域运动表示技术，将其用于生成图像中的运动。
动态纹理：将某些移动场景视为动态纹理，这些纹理通过分析场景运动和像素统计生成无缝循环的视频。

三、概述

该系统由两个模块组成：运动预测模块和基于图像的渲染模块。首先，使用潜在扩散模型（LDM）预测输入图像的光谱体积。然后通过逆离散傅里叶变换将光谱体积转换为运动纹理，并使用神经图像渲染技术将运动纹理应用于输入图像，生成未来的帧。

四、运动预测

1. 运动表示

运动纹理是一个随时间变化的二维位移图序列。每个像素的位移定义了未来时间步中该像素的位置。为了避免直接预测时间域的运动纹理，该方法采用频域表示，通过傅里叶变换将像素轨迹转换为光谱体积。

2 使用扩散模型预测运动

该方法选择潜在扩散模型作为运动预测模块的基础，通过编码器将输入图像压缩到潜在空间，并通过解码器重建输入图像。训练过程中应用频率自适应归一化和频率协调去噪策略，以确保频域中不同频率之间的协调，生成逼真的运动纹理。

五、基于图像的渲染

使用预测的光谱体积生成未来帧，采用深度图像渲染技术，通过预测的运动场对输入图像进行前向映射。为了填补空洞，采用特征金字塔软最大值技术进行特征映射，生成最终渲染图像。

六、应用

1. 图像到视频

该方法通过预测运动光谱体积并应用渲染模块生成动画，可以创建慢动作视频或放大/缩小动画运动。

2. 无缝循环

使用运动自引导技术，通过在每次去噪步骤中加入运动引导信号，生成无缝循环的视频。

3. 交互动态

采用模态分析方法，通过模拟物体对用户施加力的响应，生成交互式场景。

七、实验

实验部分比较了该方法与现有单图像动画和视频预测方法的性能，量化评估生成视频的质量和时间一致性。

1. 定量结果

该方法在图像和视频生成质量上显著优于现有基线方法，生成的视频更加真实和时间一致。

2. 定性结果

通过空间时间切片可视化生成视频动态，与基线方法相比，该方法生成的视频动态更接近真实视频。

3. 消融研究

通过消融研究验证了主要设计选择，结果显示完整配置的模型性能最佳。

4. 与大型视频模型的比较

用户研究表明，该方法生成的动画在逼真度上优于现有的大型视频扩散模型。

八、讨论与结论

1. 限制

该方法在非振荡运动或高频振动建模上存在不足，生成视频质量依赖于基础运动轨迹的质量，某些场景可能会产生伪影。

2. 结论

该研究提出了一种从单张图片生成自然振动动态的新方法，使用光谱体积表示像素轨迹，生成逼真的动画，并显著优于现有方法。

P.S., Generative Dynamics on GitHub