EmbodiedBench:专门用于评估视觉驱动具身智能体(Vision-Driven Embodied Agents)的基准测试框架

近年来,具身智能体(Embodied Agents)在人工智能研究中受到了越来越多的关注。这些智能体需要具备理解环境、感知视觉信息以及执行复杂任务的能力。多模态大型语言模型(Multi-modal Large Language Models, MLLMs)的兴起,使得基于大规模预训练模型的智能体成为可能。然而,当前研究主要集中在语言驱动的具身智能体,而 MLLMs 在具身智能体中的应用仍然缺乏系统性的评估框架。

论文EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents提出 EmbodiedBench,这是一个全面的基准测试框架,专门用于评估视觉驱动的具身智能体。其主要特点包括:

  1. 多层次任务评估:涵盖 1,128 个测试任务,涉及四个不同环境,包括高层语义任务(如家庭场景)和低层物理交互任务(如导航和操控)。
  2. 细粒度能力测评:设计六个子集,专门评估智能体的常识推理、复杂指令理解、空间感知、视觉感知、长时规划等关键能力。

通过对 13 个主流 MLLMs(包括专有和开源模型)进行测试,研究发现:

  • 现有 MLLMs 在高层次任务(如计划任务)上表现较好,但在低层物理操控任务上存在显著性能瓶颈(最佳模型 GPT-4o 的平均成功率仅为 28.9%)。
  • 视觉输入对于低层次任务至关重要,其去除后成功率下降 40%-70%,而高层任务对视觉输入的依赖较小。

本论文作为Rui Yang, Hanyang Chen, Junyu Zhang, Mark Zhao, Cheng Qian, Kangrui Wang, Qineng Wang, Teja Venkat Koripella, Marziyeh Movahedi, Manling Li, Heng Ji, Huan Zhang, Tong Zhang,来自University of Illinois Urbana-Champaign, Northwestern University, University of Toronto和Toyota Technological Institute at Chicago。

EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents
一、相关研究

具身智能体的研究可以追溯到早期的强化学习和机器人研究,近年来随着 LLMs 和 MLLMs 的发展,这些模型在推理和决策任务上展现了强大的能力。然而,目前的评测框架仍然存在局限性。

  1. LLMs 在高层任务中的应用
    • SayCan(Ahn et al., 2022):结合语言模型和强化学习,使机器人能根据自然语言指令执行任务。
    • Inner Monologue(Huang et al., 2022):引入反思机制,让智能体在执行过程中调整决策。
    • VOXPOSER(Huang et al., 2023):通过 3D 结构建模提升机器人在复杂场景中的适应能力。
  2. MLLMs 在感知和决策中的应用
    • PALM-E(Driess et al., 2023):一个端到端的多模态模型,结合视觉和语言信息,实现跨领域任务。
    • RT-2(Brohan et al., 2023):采用 Transformer 结构,将大规模网络知识迁移到机器人控制领域。
  3. 现有基准测试的局限性
    • ALFWorldVisualAgentBenchAgentBench 等评测框架主要针对 LLMs,缺乏对 MLLMs 在具身任务中的评测。
    • VisualAgentBench 是目前唯一针对 MLLMs 评测的框架,但它主要关注高层任务,如家庭任务或 Minecraft 游戏,而低层任务(如精准操控和空间感知)未得到充分研究。

为弥补这些不足,EmbodiedBench 设计了多层次任务和能力评测,涵盖从高层计划到低层操控的完整任务体系

二、问题建模

具身智能体的行为可以分为高层任务和低层任务,每种任务的复杂性和执行方式不同。

  1. 具身智能体的行动层次
    • 低层次行动(Low-Level Actions):指直接可执行的原子级指令,如 move forward 0.1m。通常采用 7 维向量 [X, Y, Z, Roll, Pitch, Yaw, Gripper] 进行描述。
    • 高层次行动(High-Level Actions):由多个低层行动组成,例如 find a HandTowel 可能涉及旋转、扫描目标、接近目标等多个子步骤。
  2. 视觉驱动智能体的决策建模
    智能体的决策可建模为部分可观测马尔可夫决策过程(POMDP)

(S,A,Ω,T,O,L,R)

其中:

  • S:完整环境状态(不可直接观测)
  • A:高层或低层行动空间
  • Ω:视觉感知空间
  • T:状态转移函数
  • O:状态与观测之间的映射
  • L:语言指令
  • R:任务完成的奖励函数

智能体的目标是通过策略π(at​∣L,ht​) 最大化任务成功率

三、EmbodiedBench 设计

EmbodiedBench 包含四个不同环境,每个环境针对特定任务进行评测。

  1. EB-ALFRED(基于 ALFRED 数据集):
    • 任务:高层规划,涉及拾取、放置、打开、关闭等操作
    • 评测能力:任务分解、长期计划
  2. EB-Habitat(基于 Language Rearrangement Benchmark):
    • 任务:导航和物品放置
    • 评测能力:目标导向任务执行、局部环境探索
  3. EB-Navigation
    • 任务:目标导向导航
    • 评测能力:空间感知、路径规划
  4. EB-Manipulation(基于 VLMBench):
    • 任务:低层次物体操控
    • 评测能力:精准动作执行、物体交互

EmbodiedBench 设计六个子集:

  1. 基本任务能力(Base)
  2. 常识推理(Common Sense)
  3. 复杂指令理解(Complex Instruction)
  4. 空间感知(Spatial Awareness)
  5. 视觉感知(Visual Perception)
  6. 长时规划(Long Horizon)
四、实验与分析
  1. 主要实验结果
    • 高层任务表现优异,但低层任务表现不佳,如 GPT-4o 在 EB-ALFRED 取得 56.3% 成功率,而在 EB-Manipulation 仅为 28.9%
    • 视觉输入对低层任务至关重要,去除后成功率下降 40%-70%
    • 长时规划(Long-Horizon)为最难任务,GPT-4o 在此子集仅有 64% 成功率(相比基础任务下降 22%)。
  2. 误差分析
    • 主要错误类型:
      • 规划错误(55%):如缺少必要步骤
      • 认知错误(41%):如错误终止任务
      • 感知错误(4%):如物体识别错误
五、结论与未来方向
  1. 改进低层任务执行
  2. 增强长时规划能力
  3. 提升视觉感知与空间推理能力
  4. 优化多步视觉理解

EmbodiedBench 为未来 MLLM 在具身智能体中的应用提供了坚实的评估工具,并为研究者提供了更丰富的分析方法和改进方向。


EmbodiedBench on GitHub: https://embodiedbench.github.io/

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注