NaVILA:用于腿式机器人导航的新型视觉语言行动模型框架

论文NaVILA: LEGGED ROBOT VISION-LANGUAGE-ACTION MODEL FOR NAVIGATION提出了一个用于腿式机器人导航的新型视觉语言行动模型框架NaVILA。NaVILA框架通过创新性的分层设计,成功实现了腿式机器人在复杂场景中的视觉-语言导航,展示了卓越的鲁棒性和通用性。

论文作者为An-Chieh Cheng, Yandong Ji, Zhaojing Yang, Xueyan Zou, Jan Kautz, Erdem Bıyık, Hongxu Yin, Sifei Liu, Xiaolong Wang,来自UC San Diego, USC, NVIDIA。

NaVILA: LEGGED ROBOT VISION-LANGUAGE-ACTION MODEL FOR NAVIGATION

1. 背景与研究动机

  • 视觉语言导航的核心问题
    • 视觉-语言导航(Vision-Language Navigation, VLN)要求机器人在没有地图的环境中,根据自然语言指令完成导航任务。这种任务涉及视觉感知、语言理解、高层推理和低层运动控制,是机器人自主能力的关键组成部分。
    • 现有的VLN研究多集中于离散场景和轮式机器人,忽视了连续环境中的挑战,如复杂地形、动态障碍物、环境光线变化等。
  • 腿式机器人的需求与挑战
    • 腿式机器人相比轮式机器人在狭窄空间、不规则地形中具有更大的灵活性。然而,腿式机器人需要处理精确的低层运动控制,例如腿关节的姿态调整,这使得从语言到动作的映射更加复杂。
    • 传统的端到端方法试图直接生成低级控制命令,但这对视觉-语言模型提出了过高的要求,往往导致模型难以泛化。
  • 研究目标
    • 提出一种分层方法,利用视觉-语言模型生成中层动作指令,再通过强化学习策略执行这些指令,以实现更加鲁棒和灵活的导航。

2. NaVILA 框架设计

NaVILA 是一个两级框架,包含高层的视觉语言行动(Vision-Language-Action, VLA)模型和低层的视觉行走策略。

2.1 高层VLA模型
  1. 核心功能
    • 将输入的单视图图像和自然语言指令转换为中层动作描述,如“向前移动75厘米”或“向右转30度”。
    • 提供导航过程中所需的高层次规划。
  2. 模型架构
    • 视觉编码器:处理输入图像,将其转换为视觉令牌。
    • 多层感知(MLP)映射器:将视觉令牌投射到语言域,与文本令牌结合。
    • 大语言模型(LLM):负责从输入中生成导航动作。
  3. 改进策略
    • 结合当前视图和历史视图(多帧图像),通过统一提示(prompt)设计区分这两者的角色。
    • 通过自然语言输出中层指令,使得模型能够保留语言推理的强大能力,同时避免直接生成低级动作的复杂性。
  4. 导航提示设计
    • 构建基于文本和图像的任务描述,例如“当前观察:走廊,历史观察:实验室”,生成指令“向右转并进入下一个房间”。
2.2 低层视觉行走策略
  1. 核心功能
    • 接收来自VLA模型的中层动作指令,如移动距离或旋转角度。
    • 利用机器人传感器(LIDAR和关节状态)实现对环境的实时感知和精准控制。
  2. 主要技术
    • LIDAR高度图:通过激光雷达生成2.5D环境高度图,有效检测透明或复杂表面。
    • 强化学习策略:采用单阶段强化学习(PPO算法),直接训练机器人在真实场景中的行走策略。
    • 动作空间和观测空间
      • 动作空间:12个腿关节的目标位置。
      • 观测空间:关节位置、速度、上一动作、LIDAR高度图等。
  3. 训练方法
    • 在模拟环境(Isaac Sim)中使用高度图进行端到端训练,确保策略能够在现实环境中部署。
    • 引入随机化技术,弥合模拟和现实之间的差距(sim-to-real gap)。

3. 数据集与训练

3.1 数据设计
  1. 数据来源
    • 真实导航视频:从YouTube获取2000段导航视频,使用视觉-语言模型生成自然语言指令。
    • 仿真数据:在模拟环境中生成路径点和动作序列,用于训练中层指令。
    • 辅助数据集:利用扩展数据集(如ScanQA)增强模型对场景理解和问答任务的能力。
    • 通用视觉-问答数据集:确保模型在广泛任务上的泛化能力。
  2. 数据处理
    • 对导航视频进行轨迹采样,通过熵优化确保样本多样性。
    • 使用Mast3R技术估计相机姿态,并生成与轨迹匹配的自然语言指令。
3.2 训练流程
  1. 视觉语言模型训练
    • 使用视觉-文本数据预训练VILA模型,然后进行导航任务微调。
    • 微调时解冻所有模块,包括视觉编码器、映射器和LLM。
  2. 行走策略训练
    • 在模拟环境中直接训练低层策略,机器人通过与环境交互学习复杂场景中的最佳行为策略。

4. 实验与评估

4.1 在经典VLN基准上的表现
  • 数据集:R2R 和 RxR。
  • 性能指标:
    • 成功率(Success Rate, SR):NaVILA在单视图RGB输入条件下提高了17%。
    • 导航误差(NE):相比现有方法显著降低。
4.2 在模拟环境中的表现
  • 数据集:VLN-CE-Isaac(新提出的基准)。
  • 成果:
    • 视觉策略成功率比盲策略提高14%-21%。
    • 展示了对复杂地形和动态障碍物的优异适应能力。
4.3 在真实场景中的表现
  1. 场景
    • 工作空间、家庭环境、室外场景。
  2. 任务
    • 简单指令:如“走到椅子前停止”。
    • 复杂指令:如“走出房间,右转,进入前方房间,到达桌子前停止”。
  3. 结果
    • 简单任务成功率达100%。
    • 复杂任务中,与GPT-4o相比提升显著,尤其是在多房间导航任务中表现优异。

5. 创新与优势

  1. 分层设计
    • 通过中层指令解耦高层推理与低层控制,显著提高模块化能力。
  2. 泛化能力
    • 通过多源数据训练,模型具备跨场景的鲁棒性和适应性。
  3. 现实部署
    • 无需额外训练即可适应不同机器人平台(如Unitree Go2和H1)。

6. 潜在应用与未来工作

  1. 潜在应用
    • 智能家居机器人:在室内场景中完成复杂任务。
    • 搜救机器人:在动态环境中导航到指定地点。
    • 工业巡检机器人:适应复杂工业环境的自动化任务。
  2. 未来工作方向
    • 数据增强:引入更多具有噪声和动态障碍物的真实场景数据。
    • 跨平台优化:提升模型在不同硬件平台上的适应性。
    • 多模态扩展:结合语音、触觉等模态,进一步提升导航任务的完成度。

NaVILA: https://navila-bot.github.io/

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注