BAKU:用于多任务策略学习的高效transformer架构

论文《BAKU:用于多任务策略学习的高效transformer架构》
BAKU: An Efficient Transformer for Multi-Task Policy Learning

作者: Siddhant Haldar, Zhuoran Peng, Lerrel Pinto

机构: New York University

简介

训练能够解决多种任务的通用智能体是一个巨大的挑战,尤其是在机器人领域,每个数据点都需要在现实世界中物理执行操作。为了有效利用现有的训练数据,我们提出了一种简单的transformer架构BAKU,用于多任务机器人策略的高效学习。BAKU结合了观察trunks、动作分块、多感官观察和动作heads的最新进展,显著提升了前人工作的性能。通过在129个模拟任务和30个真实操作任务上的实验,BAKU表现出了显著的性能提升。

论文《BAKU:用于多任务策略学习的高效transformer架构》
BAKU: An Efficient Transformer for Multi-Task Policy Learning
By Siddhant Haldar, Zhuoran Peng, Lerrel Pinto

1. 引言

多任务策略学习在决策和机器人领域中是一项长期存在的问题。尽管在计算机视觉和自然语言处理方面取得了重大进展,物理智能体的算法却远远落后。原因之一是数据的规模问题。与从互联网轻松获取的大规模数据集不同,机器人数据需要与现实世界互动,数据采集既耗时又昂贵。

现有的方法通常通过收集大量数据来训练多任务策略,但效率低下,表现不及单独训练的单任务策略。BAKU提出了一种简单的架构,特别适用于数据稀缺的机器人领域,通过transformer编码器、多模态融合和动作预测head等关键特性,实现高效训练。

2. 背景

模仿学习的目标是通过访问专家策略或其轨迹,学习行为策略。本文采用观察轨迹的设定,使用行为克隆(BC)技术,通过最大似然估计解决多任务学习问题,将目标变量作为条件来进行动作预测。

3. BAKU架构

BAKU的设计涉及多个决策,本文通过系统的消融研究,提出了一个简单的多任务策略学习架构。该架构分为三个主要组件:感官编码器、观察trunk和动作head。

  • 感官编码器:处理视觉、深度反馈、本体感觉反馈和任务指令等多模态数据,使用ResNet-18视觉编码器和FiLM层。
  • 观察Trunk:将所有感官编码器的编码输入结合,使用多层感知器或transformer进行处理。
  • 动作Head:利用观察trunk的输出预测动作,可以轻松整合最新的动作生成模型。

4. 实验

我们在LIBERO、Meta-World和DeepMind Control套件的129个模拟任务以及一个包含30个任务的真实操作环境中进行了广泛的实验。

  • 多任务学习性能:BAKU在129个模拟任务中表现出整体18%的绝对性能提升,在最难的LIBERO基准测试中提升了36%。
  • 真实世界任务性能:在30个多任务厨房环境的真实操作任务中,BAKU的成功率达到了91%。
  • 消融分析:研究了BAKU各组件的重要性,特别是动作分块和多模态动作head对性能提升的作用。

5. 相关工作

讨论了模仿学习和多任务学习的相关工作,指出了现有方法的不足和改进方向。BAKU结合了前人工作的关键思想,提出了一个简单而高效的多任务策略学习模型。

6. 结论与局限性

BAKU在多任务策略学习中表现出色,但在一些精细操作任务上仍有不足。此外,当前只关注单一技能的执行,未来可以研究多技能的连接和执行。希望BAKU能为开发能够执行精确机器人操作的多任务策略提供重要参考。


详细架构与实验分析

A. 算法细节

  • FiLM 调制:通过特征线性调制实现网络的任务适应性。
  • 动作Head:评估了五种不同的动作预测模块,详细描述了各自的实现和优缺点。
  • 时间平滑与动作分块:采用指数时间平滑技术,改进了动作分块的实现,确保机器人动作的平滑性。

B. 模拟任务

  • 描述了在LIBERO-90、Meta-World和DM Control上的模拟任务设置,提供了详细的任务列表和实验设置。

C. 机器人任务

  • 描述了真实世界多任务厨房环境的30个任务,提供了任务描述和BAKU的实际部署结果。

D. 基准

  • 详细解释了MT-ACT和RT-1基准方法,并与BAKU进行了对比分析,突出BAKU的设计优势和性能提升。

E. 附加结果与分析

  • 提供了真实世界任务的逐项性能结果,并分析了影响多任务策略学习性能的设计决策。

这篇论文通过提出一个简单但高效的transformer架构BAKU,显著提升了多任务策略学习的性能,特别是在数据稀缺的机器人领域。实验结果表明,BAKU在多个模拟和真实任务环境中表现出色,为多任务策略学习的研究提供了新的思路和方法。


此论文研究的源码实现:Source code for BAKU on GitHub

发表评论

您的电子邮箱地址不会被公开。 必填项已用 * 标注