EmbodiedBench：专门用于评估视觉驱动具身智能体（Vision-Driven Embodied Agents）的基准测试框架

近年来，具身智能体（Embodied Agents）在人工智能研究中受到了越来越多的关注。这些智能体需要具备理解环境、感知视觉信息以及执行复杂任务的能力。多模态大型语言模型（Multi-modal Large Language Models, MLLMs）的兴起，使得基于大规模预训练模型的智能体成为可能。然而，当前研究主要集中在语言驱动的具身智能体，而 MLLMs 在具身智能体中的应用仍然缺乏系统性的评估框架。

论文EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents提出 EmbodiedBench，这是一个全面的基准测试框架，专门用于评估视觉驱动的具身智能体。其主要特点包括：

多层次任务评估：涵盖 1,128 个测试任务，涉及四个不同环境，包括高层语义任务（如家庭场景）和低层物理交互任务（如导航和操控）。
细粒度能力测评：设计六个子集，专门评估智能体的常识推理、复杂指令理解、空间感知、视觉感知、长时规划等关键能力。

通过对 13 个主流 MLLMs（包括专有和开源模型）进行测试，研究发现：

现有 MLLMs 在高层次任务（如计划任务）上表现较好，但在低层物理操控任务上存在显著性能瓶颈（最佳模型 GPT-4o 的平均成功率仅为 28.9%）。
视觉输入对于低层次任务至关重要，其去除后成功率下降 40%-70%，而高层任务对视觉输入的依赖较小。

本论文作为Rui Yang, Hanyang Chen, Junyu Zhang, Mark Zhao, Cheng Qian, Kangrui Wang, Qineng Wang, Teja Venkat Koripella, Marziyeh Movahedi, Manling Li, Heng Ji, Huan Zhang, Tong Zhang，来自University of Illinois Urbana-Champaign, Northwestern University, University of Toronto和Toyota Technological Institute at Chicago。

**EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents**

一、相关研究

具身智能体的研究可以追溯到早期的强化学习和机器人研究，近年来随着 LLMs 和 MLLMs 的发展，这些模型在推理和决策任务上展现了强大的能力。然而，目前的评测框架仍然存在局限性。

LLMs 在高层任务中的应用
- SayCan（Ahn et al., 2022）：结合语言模型和强化学习，使机器人能根据自然语言指令执行任务。
- Inner Monologue（Huang et al., 2022）：引入反思机制，让智能体在执行过程中调整决策。
- VOXPOSER（Huang et al., 2023）：通过 3D 结构建模提升机器人在复杂场景中的适应能力。
MLLMs 在感知和决策中的应用
- PALM-E（Driess et al., 2023）：一个端到端的多模态模型，结合视觉和语言信息，实现跨领域任务。
- RT-2（Brohan et al., 2023）：采用 Transformer 结构，将大规模网络知识迁移到机器人控制领域。
现有基准测试的局限性
- ALFWorld、VisualAgentBench、AgentBench 等评测框架主要针对 LLMs，缺乏对 MLLMs 在具身任务中的评测。
- VisualAgentBench 是目前唯一针对 MLLMs 评测的框架，但它主要关注高层任务，如家庭任务或 Minecraft 游戏，而低层任务（如精准操控和空间感知）未得到充分研究。

为弥补这些不足，EmbodiedBench 设计了多层次任务和能力评测，涵盖从高层计划到低层操控的完整任务体系。

二、问题建模

具身智能体的行为可以分为高层任务和低层任务，每种任务的复杂性和执行方式不同。

具身智能体的行动层次
- 低层次行动（Low-Level Actions）：指直接可执行的原子级指令，如 move forward 0.1m。通常采用 7 维向量 [X, Y, Z, Roll, Pitch, Yaw, Gripper] 进行描述。
- 高层次行动（High-Level Actions）：由多个低层行动组成，例如 find a HandTowel 可能涉及旋转、扫描目标、接近目标等多个子步骤。
视觉驱动智能体的决策建模
智能体的决策可建模为部分可观测马尔可夫决策过程（POMDP）：

(S,A,Ω,T,O,L,R)

其中：

S：完整环境状态（不可直接观测）
A：高层或低层行动空间
Ω：视觉感知空间
T：状态转移函数
O：状态与观测之间的映射
L：语言指令
R：任务完成的奖励函数

智能体的目标是通过策略π(a_t∣L,h_t) 最大化任务成功率。

三、EmbodiedBench 设计

EmbodiedBench 包含四个不同环境，每个环境针对特定任务进行评测。

EB-ALFRED（基于 ALFRED 数据集）：
- 任务：高层规划，涉及拾取、放置、打开、关闭等操作
- 评测能力：任务分解、长期计划
EB-Habitat（基于 Language Rearrangement Benchmark）：
- 任务：导航和物品放置
- 评测能力：目标导向任务执行、局部环境探索
EB-Navigation：
- 任务：目标导向导航
- 评测能力：空间感知、路径规划
EB-Manipulation（基于 VLMBench）：
- 任务：低层次物体操控
- 评测能力：精准动作执行、物体交互

EmbodiedBench 设计六个子集：

基本任务能力（Base）
常识推理（Common Sense）
复杂指令理解（Complex Instruction）
空间感知（Spatial Awareness）
视觉感知（Visual Perception）
长时规划（Long Horizon）

四、实验与分析

主要实验结果
- 高层任务表现优异，但低层任务表现不佳，如 GPT-4o 在 EB-ALFRED 取得 56.3% 成功率，而在 EB-Manipulation 仅为 28.9%。
- 视觉输入对低层任务至关重要，去除后成功率下降 40%-70%。
- 长时规划（Long-Horizon）为最难任务，GPT-4o 在此子集仅有 64% 成功率（相比基础任务下降 22%）。
误差分析
- 主要错误类型：
  - 规划错误（55%）：如缺少必要步骤
  - 认知错误（41%）：如错误终止任务
  - 感知错误（4%）：如物体识别错误

五、结论与未来方向

改进低层任务执行
增强长时规划能力
提升视觉感知与空间推理能力
优化多步视觉理解

EmbodiedBench 为未来 MLLM 在具身智能体中的应用提供了坚实的评估工具，并为研究者提供了更丰富的分析方法和改进方向。

EmbodiedBench on GitHub: https://embodiedbench.github.io/

一、相关研究

二、问题建模

(S,A,Ω,T,O,L,R)

三、EmbodiedBench 设计

四、实验与分析

五、结论与未来方向

相关文章：

发表评论 取消回复

发表评论取消回复