BAKU：用于多任务策略学习的高效transformer架构

论文《BAKU：用于多任务策略学习的高效transformer架构》
BAKU: An Efficient Transformer for Multi-Task Policy Learning

作者: Siddhant Haldar, Zhuoran Peng, Lerrel Pinto

机构: New York University

简介

训练能够解决多种任务的通用智能体是一个巨大的挑战，尤其是在机器人领域，每个数据点都需要在现实世界中物理执行操作。为了有效利用现有的训练数据，我们提出了一种简单的transformer架构BAKU，用于多任务机器人策略的高效学习。BAKU结合了观察trunks、动作分块、多感官观察和动作heads的最新进展，显著提升了前人工作的性能。通过在129个模拟任务和30个真实操作任务上的实验，BAKU表现出了显著的性能提升。

论文《BAKU：用于多任务策略学习的高效transformer架构》
BAKU: An Efficient Transformer for Multi-Task Policy Learning
By Siddhant Haldar, Zhuoran Peng, Lerrel Pinto

1. 引言

多任务策略学习在决策和机器人领域中是一项长期存在的问题。尽管在计算机视觉和自然语言处理方面取得了重大进展，物理智能体的算法却远远落后。原因之一是数据的规模问题。与从互联网轻松获取的大规模数据集不同，机器人数据需要与现实世界互动，数据采集既耗时又昂贵。

现有的方法通常通过收集大量数据来训练多任务策略，但效率低下，表现不及单独训练的单任务策略。BAKU提出了一种简单的架构，特别适用于数据稀缺的机器人领域，通过transformer编码器、多模态融合和动作预测head等关键特性，实现高效训练。

2. 背景

模仿学习的目标是通过访问专家策略或其轨迹，学习行为策略。本文采用观察轨迹的设定，使用行为克隆（BC）技术，通过最大似然估计解决多任务学习问题，将目标变量作为条件来进行动作预测。

3. BAKU架构

BAKU的设计涉及多个决策，本文通过系统的消融研究，提出了一个简单的多任务策略学习架构。该架构分为三个主要组件：感官编码器、观察trunk和动作head。

感官编码器：处理视觉、深度反馈、本体感觉反馈和任务指令等多模态数据，使用ResNet-18视觉编码器和FiLM层。
观察Trunk：将所有感官编码器的编码输入结合，使用多层感知器或transformer进行处理。
动作Head：利用观察trunk的输出预测动作，可以轻松整合最新的动作生成模型。

4. 实验

我们在LIBERO、Meta-World和DeepMind Control套件的129个模拟任务以及一个包含30个任务的真实操作环境中进行了广泛的实验。

多任务学习性能：BAKU在129个模拟任务中表现出整体18%的绝对性能提升，在最难的LIBERO基准测试中提升了36%。
真实世界任务性能：在30个多任务厨房环境的真实操作任务中，BAKU的成功率达到了91%。
消融分析：研究了BAKU各组件的重要性，特别是动作分块和多模态动作head对性能提升的作用。

5. 相关工作

讨论了模仿学习和多任务学习的相关工作，指出了现有方法的不足和改进方向。BAKU结合了前人工作的关键思想，提出了一个简单而高效的多任务策略学习模型。

6. 结论与局限性

BAKU在多任务策略学习中表现出色，但在一些精细操作任务上仍有不足。此外，当前只关注单一技能的执行，未来可以研究多技能的连接和执行。希望BAKU能为开发能够执行精确机器人操作的多任务策略提供重要参考。

详细架构与实验分析

A. 算法细节

FiLM 调制：通过特征线性调制实现网络的任务适应性。
动作Head：评估了五种不同的动作预测模块，详细描述了各自的实现和优缺点。
时间平滑与动作分块：采用指数时间平滑技术，改进了动作分块的实现，确保机器人动作的平滑性。

B. 模拟任务

描述了在LIBERO-90、Meta-World和DM Control上的模拟任务设置，提供了详细的任务列表和实验设置。

C. 机器人任务

描述了真实世界多任务厨房环境的30个任务，提供了任务描述和BAKU的实际部署结果。

D. 基准

详细解释了MT-ACT和RT-1基准方法，并与BAKU进行了对比分析，突出BAKU的设计优势和性能提升。

E. 附加结果与分析

提供了真实世界任务的逐项性能结果，并分析了影响多任务策略学习性能的设计决策。

这篇论文通过提出一个简单但高效的transformer架构BAKU，显著提升了多任务策略学习的性能，特别是在数据稀缺的机器人领域。实验结果表明，BAKU在多个模拟和真实任务环境中表现出色，为多任务策略学习的研究提供了新的思路和方法。

此论文研究的源码实现：Source code for BAKU on GitHub

论文《BAKU：用于多任务策略学习的高效transformer架构》BAKU: An Efficient Transformer for Multi-Task Policy Learning

相关文章：

发表评论 取消回复

论文《BAKU：用于多任务策略学习的高效transformer架构》
BAKU: An Efficient Transformer for Multi-Task Policy Learning

发表评论取消回复