论文《BAKU:用于多任务策略学习的高效transformer架构》
BAKU: An Efficient Transformer for Multi-Task Policy Learning
作者: Siddhant Haldar, Zhuoran Peng, Lerrel Pinto
机构: New York University
简介
训练能够解决多种任务的通用智能体是一个巨大的挑战,尤其是在机器人领域,每个数据点都需要在现实世界中物理执行操作。为了有效利用现有的训练数据,我们提出了一种简单的transformer架构BAKU,用于多任务机器人策略的高效学习。BAKU结合了观察trunks、动作分块、多感官观察和动作heads的最新进展,显著提升了前人工作的性能。通过在129个模拟任务和30个真实操作任务上的实验,BAKU表现出了显著的性能提升。
1. 引言
多任务策略学习在决策和机器人领域中是一项长期存在的问题。尽管在计算机视觉和自然语言处理方面取得了重大进展,物理智能体的算法却远远落后。原因之一是数据的规模问题。与从互联网轻松获取的大规模数据集不同,机器人数据需要与现实世界互动,数据采集既耗时又昂贵。
现有的方法通常通过收集大量数据来训练多任务策略,但效率低下,表现不及单独训练的单任务策略。BAKU提出了一种简单的架构,特别适用于数据稀缺的机器人领域,通过transformer编码器、多模态融合和动作预测head等关键特性,实现高效训练。
2. 背景
模仿学习的目标是通过访问专家策略或其轨迹,学习行为策略。本文采用观察轨迹的设定,使用行为克隆(BC)技术,通过最大似然估计解决多任务学习问题,将目标变量作为条件来进行动作预测。
3. BAKU架构
BAKU的设计涉及多个决策,本文通过系统的消融研究,提出了一个简单的多任务策略学习架构。该架构分为三个主要组件:感官编码器、观察trunk和动作head。
- 感官编码器:处理视觉、深度反馈、本体感觉反馈和任务指令等多模态数据,使用ResNet-18视觉编码器和FiLM层。
- 观察Trunk:将所有感官编码器的编码输入结合,使用多层感知器或transformer进行处理。
- 动作Head:利用观察trunk的输出预测动作,可以轻松整合最新的动作生成模型。
4. 实验
我们在LIBERO、Meta-World和DeepMind Control套件的129个模拟任务以及一个包含30个任务的真实操作环境中进行了广泛的实验。
- 多任务学习性能:BAKU在129个模拟任务中表现出整体18%的绝对性能提升,在最难的LIBERO基准测试中提升了36%。
- 真实世界任务性能:在30个多任务厨房环境的真实操作任务中,BAKU的成功率达到了91%。
- 消融分析:研究了BAKU各组件的重要性,特别是动作分块和多模态动作head对性能提升的作用。
5. 相关工作
讨论了模仿学习和多任务学习的相关工作,指出了现有方法的不足和改进方向。BAKU结合了前人工作的关键思想,提出了一个简单而高效的多任务策略学习模型。
6. 结论与局限性
BAKU在多任务策略学习中表现出色,但在一些精细操作任务上仍有不足。此外,当前只关注单一技能的执行,未来可以研究多技能的连接和执行。希望BAKU能为开发能够执行精确机器人操作的多任务策略提供重要参考。
详细架构与实验分析
A. 算法细节
- FiLM 调制:通过特征线性调制实现网络的任务适应性。
- 动作Head:评估了五种不同的动作预测模块,详细描述了各自的实现和优缺点。
- 时间平滑与动作分块:采用指数时间平滑技术,改进了动作分块的实现,确保机器人动作的平滑性。
B. 模拟任务
- 描述了在LIBERO-90、Meta-World和DM Control上的模拟任务设置,提供了详细的任务列表和实验设置。
C. 机器人任务
- 描述了真实世界多任务厨房环境的30个任务,提供了任务描述和BAKU的实际部署结果。
D. 基准
- 详细解释了MT-ACT和RT-1基准方法,并与BAKU进行了对比分析,突出BAKU的设计优势和性能提升。
E. 附加结果与分析
- 提供了真实世界任务的逐项性能结果,并分析了影响多任务策略学习性能的设计决策。
这篇论文通过提出一个简单但高效的transformer架构BAKU,显著提升了多任务策略学习的性能,特别是在数据稀缺的机器人领域。实验结果表明,BAKU在多个模拟和真实任务环境中表现出色,为多任务策略学习的研究提供了新的思路和方法。
此论文研究的源码实现:Source code for BAKU on GitHub