NVIDIA推出Cosmos世界基础模型(World Foundation Model)平台

NVIDIA 宣布推出 NVIDIA Cosmos™,一个包含最先进的生成性世界基础模型、先进的标记器、保护机制以及加速视频处理管道的平台,旨在推动物理 AI 系统的发展,如自动驾驶车辆(AVs)和机器人。

物理 AI 模型的开发成本高昂,并且需要大量的现实世界数据和测试。Cosmos 世界基础模型(WFMs)为开发者提供了一种简便的方法,生成大量基于物理的合成数据,以用于训练和评估现有模型。开发者还可以通过微调 Cosmos WFMs 来构建定制模型。

Cosmos 模型将在开放模型许可下提供,以加速机器人和自动驾驶车辆社区的工作。开发者可以在 NVIDIA API 目录中预览首批模型,或从 NVIDIA NGC™ 目录或 Hugging Face 下载模型及微调框架。

领先的机器人和汽车公司,包括 1X、Agile Robots、Agility、Figure AI、Foretellix、Fourier、Galbot、Hillbot、IntBot、Neura Robotics、Skild AI、Virtual Incision、Waabi 和 XPENG,以及共享出行巨头 Uber,都是首批采用 Cosmos 的公司之一。

NVIDIA 创始人兼 CEO 黄仁勋表示:“机器人领域的 ChatGPT 时刻即将到来。像大型语言模型一样,世界基础模型是推动机器人和自动驾驶车辆发展的基础,但并非所有开发者都具备训练自己模型的专业知识和资源。我们创建 Cosmos 旨在让物理 AI 普及化,并让通用机器人技术成为每个开发者都能触及的领域。”

开放的世界基础模型加速下一波 AI 发展

NVIDIA Cosmos 的开放模型套件意味着开发者可以根据目标应用的需求,使用数据集(如自动驾驶车辆行驶录像或机器人在仓库中导航的录像)定制 WFMs。

Cosmos WFMs 专为物理 AI 研发而设计,能够基于输入(如文本、图像、视频以及机器人传感器或运动数据)生成物理仿真视频。这些模型适用于物理互动、物体持久性、高质量生成模拟工业环境(如仓库或工厂)和驾驶环境(包括各种道路条件)。

在 CES 上的开场主题演讲中,NVIDIA 创始人兼 CEO 黄仁勋展示了物理 AI 开发者如何使用 Cosmos 模型,包括:

  • 视频搜索与理解,帮助开发者轻松从视频数据中找到特定的训练场景,如雪地道路条件或仓库拥堵情况。
  • 基于物理的逼真合成数据生成,使用 Cosmos 模型从 NVIDIA Omniverse™ 平台开发的受控 3D 场景中生成逼真的视频。
  • 物理 AI 模型的开发与评估,无论是基于基础模型构建定制模型,还是通过 Cosmos 进行强化学习以改进模型,或是测试它们在特定模拟场景中的表现。
  • 远见和“多元宇宙”仿真,使用 Cosmos 和 Omniverse 生成 AI 模型可能采取的所有未来结果,帮助它选择最佳和最准确的路径。

高级世界模型开发工具

构建物理 AI 模型需要数 PB 的视频数据以及数万个计算小时来处理、整理和标注这些数据。为帮助节省大量的数据整理、训练和模型定制成本,Cosmos 提供了:

  • 基于 NVIDIA AI 和 CUDA® 加速的数据处理管道,由 NVIDIA NeMo™ Curator 提供支持,使开发者能够在 14 天内使用 NVIDIA Blackwell 平台处理、整理和标注 2000 万小时的视频,而使用仅 CPU 的管道则需要超过三年的时间。
  • NVIDIA Cosmos Tokenizer,最先进的视觉标记器,可将图像和视频转换为标记。它比当前领先的标记器提供了 8 倍的数据压缩和 12 倍的处理速度。
  • NVIDIA NeMo 框架,支持高效的模型训练、定制和优化。

全球最大的物理 AI 行业采用 Cosmos

物理 AI 行业的先驱者们已经开始采用 Cosmos 技术。

  • AI 和类人机器人公司 1X 推出了使用 Cosmos Tokenizer 的 1X World Model Challenge 数据集。XPENG 将使用 Cosmos 加速其类人机器人开发。Hillbot 和 Skild AI 正在使用 Cosmos 快速推进其通用机器人的开发。

Agility 的首席技术官 Pras Velagapudi 说道:“数据稀缺性和变化性是机器人环境中成功学习的关键挑战。Cosmos 的文本、图像和视频到世界的功能使我们能够生成和增强逼真的场景,用于多种任务的训练,而不需要像以往那样大量昂贵的现实世界数据采集。”

交通领域的领导者们也在使用 Cosmos 构建自动驾驶车辆的物理 AI:

  • Waabi,一家在物理世界中开创生成 AI 的公司,从自动驾驶车辆开始,正在评估 Cosmos 用于自动驾驶软件开发和仿真中的数据整理。
  • Wayve,开发自动驾驶的 AI 基础模型的公司,正在评估 Cosmos 作为一种工具,用于查找安全性和验证所需的边缘和极限驾驶场景。
  • 自动驾驶工具链提供商 Foretellix 将与 NVIDIA Omniverse Sensor RTX API 一起使用 Cosmos,评估和生成高保真测试场景和大规模训练数据。
  • 全球共享出行巨头 Uber 正与 NVIDIA 合作,加速自动驾驶出行。Uber 提供的丰富驾驶数据集,与 Cosmos 平台和 NVIDIA DGX Cloud 的功能结合,能够帮助自动驾驶合作伙伴更高效地构建更强大的 AI 模型。

Uber CEO Dara Khosrowshahi 说道:“生成 AI 将推动未来的出行,需要丰富的数据和强大的计算能力。通过与 NVIDIA 合作,我们有信心加速安全且可扩展的自动驾驶解决方案的时间表。”

开发开放、安全和负责任的 AI

NVIDIA Cosmos 的开发遵循了 NVIDIA 的可信 AI 原则,重点关注隐私、安全、透明度并减少不必要的偏见。

可信的 AI 对于促进开发者社区的创新并维持用户信任至关重要。NVIDIA 致力于安全和可信的 AI,符合白宫的自愿 AI 承诺和其他全球 AI 安全倡议。

开放的 Cosmos 平台包括旨在减轻有害文本和图像的保护机制,并具备增强文本提示准确性的工具。使用 Cosmos 自回归和扩散模型在 NVIDIA API 目录中生成的视频包括隐形水印,用于识别 AI 生成的内容,帮助减少虚假信息和错误归属的可能性。

NVIDIA 鼓励开发者采用可信 AI 实践,并进一步增强其应用的保护机制和水印解决方案。

可用性

Cosmos WFMs 现已在 Hugging Face 和 NVIDIA NGC 目录下提供开放模型许可。Cosmos 模型很快将作为完全优化的 NVIDIA NIM 微服务提供。

开发者可以访问 NVIDIA NeMo Curator 进行加速视频处理,并使用 NVIDIA NeMo 定制自己的世界模型。NVIDIA DGX Cloud 提供了一种快速且便捷的方式来部署这些模型,并通过 NVIDIA AI Enterprise 软件平台提供企业支持。

NVIDIA 还宣布了新的 NVIDIA Llama Nemotron 大型语言模型和 NVIDIA Cosmos Nemotron 视觉语言模型,供开发者用于医疗保健、金融服务、制造业等领域的企业 AI 用例。


Nvidia高级研发经理Jim Fan对NVIDIA Cosmos的介绍

Introducing NVIDIA Cosmos, an open-source, open-weight Video World Model. It’s trained on a whopping 20M hours of videos (!!) and weighs from 4B to 14B. To put in perspective, 20M hours is like watching YouTube 24/7 non-stop from the age of Roman Empire to today. Cosmos offers two flavors: diffusion (continuous tokens) and autoregressive (discrete tokens); and two generation modes: text->video and text+video->video.

Physical AI has a big data problem. Synthetic data to the rescue! We apply Cosmos to large-scale synthetic data generation for robotics and autonomous driving, and now you can too! It’s all yours to finetune.
——
介绍NVIDIA Cosmos,一个开源、开放权重的视频世界模型。它在惊人的2000万小时视频上进行了训练,参数量从40亿到140亿不等。为了更好地理解,2000万小时就像从罗马帝国时期到今天,全天候不停地观看YouTube。Cosmos提供了两种版本:扩散模型(连续令牌)和自回归模型(离散令牌);以及两种生成模式:文本->视频和文本+视频->视频。

物理AI面临着大数据问题。合成数据来拯救!我们将Cosmos应用于机器人和自动驾驶的大规模合成数据生成,现在你也可以使用!它完全开放,供你进行微调。

——Jim Fan

NVIDIA Cosmos对多达2000万小时的视频进行了训练,假设视频的FPS为36,则用以训练的视频画面数量为:20,000,000X3,600X36=2,592,000,000,000,即2.592万亿帧画面。啧啧,HUGE~


NVIDIA Cosmos on GitHub: https://github.com/NVIDIA/Cosmos


相关阅读:Genie 2:大型基础世界模型(large-scale foundation world model)

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注