近日,NVIDIA的Jim Fan在一场题为《What’s Next/ Physical AI》的演讲中,详细阐述了其关于“具身智能”(Embodied AI)发展的路线图,并提出了“物理图灵测试”(Physical Turing Test)的全新概念。这一测试的核心思想是:当我们无法分辨家中完成的一顿烛光晚餐到底是由人类还是由机器人准备的那一刻,人类就真正实现了具身AI的图灵测试。
Jim开场指出,当今语言模型已经“悄然”通过了传统的图灵测试,但人们却对此无动于衷。与此相对比的是,具身智能领域仍远未达到这一水平。他通过幽默的例子(如机器人摔倒、识别香蕉皮、用勺子喂人吃饭)说明当前机器人在物理世界中的执行能力仍相当有限。
接着他指出,具身智能最关键的瓶颈是数据:语言模型可以通过海量的互联网文本进行训练,而机器人控制数据则无法从网络获取,必须依赖“人类燃料”——也就是通过遥操作采集的数据。他展示了NVIDIA在总部餐厅用VR设备遥操作机器人采集数据的场景,并指出该方法成本高、效率低、不具备扩展性。
因此,NVIDIA提出了“模拟原理”(Simulation Principle):必须通过高效的模拟环境来“清洁替代”现实世界的数据收集。他展示了一个超人类级别的手部控制任务(如在模拟中旋转笔),指出其关键在于两个方面:一是在单块GPU上并行运行1万个物理环境;二是引入“领域随机化”,在重力、摩擦等参数上打散训练分布。如此训练出的神经网络能泛化到现实世界,实现“零样本迁移”(zero-shot transfer)。
他进一步展示了包括机器人狗、仿人机器人在内的多个例子,展示这些经过短时间模拟训练(如仅需两小时即可完成相当于十年经验的训练)之后的机器人如何在现实世界中实现稳定行走、动态平衡以及人体动作模仿。他特别强调:即使是执行复杂的整身体动作控制任务(whole-body control),也只需要一个仅有150万参数的小型神经网络。这表明“控制物理身体”的潜在神经需求远低于大家对AI模型参数规模的想象。
为了降低仿真环境构建的成本,NVIDIA提出了“数字表亲”(Digital Cousin)范式,区别于精确复制现实世界的“数字孪生”(Digital Twin)概念。他们构建了一个名为“RoboCasa”的大规模合成模拟框架,其中3D资产、纹理、场景布局等均由生成模型生成(如Stable Diffusion生成纹理、LLM编写XML布局等)。通过一次人类遥操作轨迹在模拟中的采集,即可通过组合环境与动作,实现“m × n”的数据放大。
这为训练具身智能模型提供了新的数据倍增路径,并由此引出“视频扩散模型”的重要作用。他展示了一段完全由模型生成的视频,其中没有一个像素是真实采集的,却精准反映了环境中的物理互动、机器人行为与反射细节。例如,仅通过语言描述模型就能模拟机器人完成从抓取物体、放置到弹奏尤克里里的全套动作,即便这些动作在现实中未曾发生。Jim称这种方法为“数字游牧民”(Digital Nomad),比喻其在生成世界中游走、探索无数可能的具身世界。
他指出,视频扩散模型本质上是将数以亿计的互联网上的视频压缩为一个“多重宇宙模拟器”(Multiverse Simulator),使机器人得以在梦境空间中进行试验与学习。这种神经网络驱动的模拟方式(Sim 2.0)将突破传统物理引擎(Sim 1.x)的扩展瓶颈,其多样性随着计算量指数级增长,最终在模拟能力和泛化性能上超越传统图形工程师构建的系统。他将两种模拟方式类比为“核能”:是机器人智能爆发所需的“清洁能量”。
最后,他介绍了NVIDIA最近开源的GROOT N1模型,这是一个视觉-语言-动作(Visual-Language-Action)融合的模型,能够从像素和指令中直接输出机器人控制指令,支持实际清理、工业操作与多机器人协调任务。Jim强调,这一模型将继续开源,其未来版本也会继续遵循Jensen Huang提出的“开源民主化物理AI”的路线。
他以一段富有想象力的未来愿景作结:未来的“物理API”将像今日的语言API一样普及。人类软件程序不仅能操控数字世界的bit,也能直接作用于现实世界的atom,形成全新的技能经济、App Store与人机交互范式。届时,米其林大厨可以将“晚宴即服务”传授给机器人,人类回家时会看到整洁的客厅、精致的晚餐和伴侣温柔的笑容,仿佛所有杂务都不曾存在。他相信,正如语言模型悄然通过传统图灵测试,某一天我们也会悄然通过“物理图灵测试”——那天只是又一个平凡的星期二。