GameNGen:首个完全由神经网络模型驱动的游戏引擎

论文Diffusion Models Are Real-Time Game Engines(《扩散模型是实时游戏引擎》)介绍了GameNGen,这是第一个完全由神经网络模型驱动的游戏引擎,能够以超过20帧每秒(FPS)的速度在单个TPU上进行复杂环境的实时交互模拟。通过应用生成扩散模型(通常在媒体生成领域表现出色,例如图像和视频),GameNGen现在被用于模拟交互式虚拟世界。

论文作者为Dani Valevski, Yaniv Leviathan, Moab Arar, Shlomi Fruchter,来自Google Research、Tel Aviv University和Google DeepMind。

GameNGen:完全由神经网络模型驱动的游戏引擎

Nvidia高级研发经理Jim Fan对GameNGen的评价

GameNGen 在单个游戏上过拟合到了极致,通过训练了0.9B(9亿)帧(!!)。这是一个巨大的数字,几乎是用于训练 Stable Diffusion v1 数据集的40%。在这一点上,它可能已经记住了 DOOM 在各种场景中从每个角落渲染的方式。反正 DOOM 本身的内容也不多。

GameNGen 更像是一个升级版的 NeRF,而不是一个视频生成模型。NeRF 从不同的视角拍摄场景的图像,并重建该场景的3D表示。原始形式的 NeRF 没有泛化能力,也就是说,它无法“想象”新的场景。GameNGen 不像 Sora:从设计上来说,它无法合成新的游戏或互动机制。

这篇论文的难点不在于扩散模型,而在于数据集。作者首先训练了 RL 代理以不同的技能水平来玩游戏,并收集了0.9B(帧,动作)对用于训练。大多数在线视频数据集并不包含动作信息,这意味着这种方法无法推广。数据始终是基于动作的世界模型的瓶颈。

在我看来,游戏世界模型有两个实际的应用场景:(1)编写提示词以创建可玩世界,而这些世界本来需要游戏工作室花费数年时间来制作;(2)使用世界模型来训练更好的具身 AI。然而,这两个应用场景都无法实现。应用场景(2)行不通,因为使用 GameNGen 来训练代理并没有比直接使用 DOOM 模拟器本身更有优势。如果一个神经世界模型能模拟出传统手工制作的图形引擎无法实现的场景,那会更有趣。

……

抱抱脸Hugging Face机器学习工程师Aymeric Roucher对GameNGen的评价

—从3秒的短片段中,人类玩家几乎无法分辨出是真实游戏还是模拟结果。
—尽管模型的有效上下文长度只有3秒,但它能在长时间内保持游戏状态(生命值、弹药等)。
—他们在训练中使用了“噪声增强”技术,以防止在长时间游戏过程中质量下降。
—游戏在一个TPU上以20 FPS的速度运行,使用4次去噪步骤;通过模型蒸馏,可以在50 FPS的速度下运行(但会有一些质量损失)。
—仍然存在一些限制,例如模型的短期记忆上下文仅为几秒,这可能会使游戏在较长时间内显得不够真实。
……

论文概要内容如下:

一、主要贡献和方法
  1. DOOM游戏的交互式模拟
    • GameNGen能够交互式地模拟经典游戏DOOM,达到29.4的PSNR(峰值信噪比),这一结果与有损JPEG压缩相当。人类评测员发现很难分辨出游戏的实际片段和模拟片段,表明其视觉保真度极高。
    • 该引擎能够执行复杂的游戏状态更新,例如计算生命值和弹药、攻击敌人、管理游戏进程等,并在长时间的游戏过程中保持这些状态。
  2. 训练过程
    • GameNGen的训练分为两个阶段:
      1. 强化学习(RL)代理训练:首先训练一个RL代理来玩游戏,并记录其游戏过程。
      2. 扩散模型训练:使用记录下来的游戏过程来训练一个扩散模型,以预测游戏的下一帧图像,基于之前的帧序列和操作进行条件生成。
  3. 自回归生成与条件增强
    • 该模型以自回归方式生成游戏帧,这意味着每一帧的生成都依赖于之前的帧。为了确保在长序列中的稳定性,训练时加入了如对上下文帧添加噪声等条件增强技术。
  4. 推理与性能
    • 在推理过程中,该模型使用去噪扩散隐式模型(DDIM)采样技术,经过优化,只需4次采样步骤即可维持高质量的帧生成,以20 FPS运行。通过蒸馏技术的进一步优化,模型能够以50 FPS的速度运行,且几乎不影响质量。
  5. 消融研究
    • 作者进行了多项消融研究,以评估不同组件(如条件上下文长度和噪声增强)对模型性能的影响。这些研究表明,这些因素在保持长序列中的高质量模拟方面至关重要。
  6. 与现有工作的对比
    • GameNGen与其他模拟视频游戏的神经网络模型(如World Models和GameGAN)进行了比较,结果显示,GameNGen在模拟质量、稳定性和长时间运行性能上均优于其他模型。
二、限制与未来工作
  • 内存限制:目前模型只能访问约3秒的历史记录,在某些复杂场景下可能不够用。
  • 代理行为:尽管代理的行为在大多数情况下是有效的,但其并未探索所有可能的游戏场景,这导致了某些情况下的模拟不准确。
  • 潜在扩展:未来的工作可以将GameNGen应用于其他游戏或交互软件,增强模型的内存能力,并探索新的优化技术以进一步提升性能。
三、更广泛的影响:
  • 走向游戏开发的新范式:作者设想了一个未来,游戏可以通过神经网络模型开发和编辑,而不是传统的编程方法。这种方法可能使游戏开发更加便捷和经济,允许新的互动形式和游戏定制化。

GameNGen:https://gamengen.github.io/

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注