功夫机器人KungfuBot

论文KungfuBot: Physics-Based Humanoid Whole-Body Control for Learning Highly-Dynamic Skills提出了一种基于物理的人形机器人控制框架,旨在通过多步骤动作处理和自适应动作追踪,掌握如功夫和舞蹈等高动态的人类行为。在动作处理方面,论文设计了一条流程,用于提取、筛选、校正并重定向动作,同时尽可能满足物理约束。在动作模仿方面,论文研究构建了一个双层优化问题,根据当前追踪误差动态调整追踪精度容差,从而形成自适应的训练机制。此外,论文还构建了一个非对称的actor-critic结构用于策略训练。实验中,训练了用于模仿一组高动态动作的全身控制策略。结果显示,论文提出的方法显著降低了追踪误差,并成功部署在Unitree G1机器人(宇树G1机器人)上,展现出稳定且富有表现力的动作能力。

论文作者为Weiji Xie, Jinrui Han, Jiakun Zheng, Huanyu Li, Xinzhe Liu, Jiyuan Shi, Weinan Zhang, Chenjia Bai, Xuelong Li,来自Institute of Artificial Intelligence (TeleAI, China Telecom, 中国电信人工智能研究院),Shanghai Jiao Tong University(上海交大),East China University of Science and Technology(华东理工),Harbin Institute of Technology(哈工大),ShanghaiTech University(上海科技大学)。

一、研究背景与挑战

人形机器人因其结构与人类相似,有潜力模仿人类的多种行为,适用于多样化的任务。尽管动作捕捉(MoCap)与动作生成方法的快速发展催生了大量动作数据集,但将人类高动态动作迁移至机器人仍面临挑战,主要在于:

  1. 人类动作序列往往不满足机器人物理约束,如关节范围、动力学、运动学等。
  2. 使用强化学习直接最大化负追踪误差,可能无法在解空间中收敛。
  3. 现有方法大多只能追踪平滑、低速的动作,难以应对如功夫、舞蹈等高动态任务。
  4. 类似ASAP的方法虽引入残差策略来弥合模拟与现实之间的差异,但需多个训练阶段和真实机器人状态记录,代价高昂。

为此,本文提出了一个基于物理的人形机器人全身控制框架 PBHC(Physics-Based Humanoid motion Control),以高精度地模仿高动态人类行为,突破上述局限。

二、方法概述与系统架构

PBHC分为两个主要阶段:

  1. 动作处理阶段:从视频中提取SMPL格式的动作,通过物理指标筛选不可行动作,计算接触掩码并进行动作校正,最后利用差分逆运动学将处理后的动作重定向至机器人。
  2. 动作模仿阶段:通过自适应追踪机制动态调整追踪精度容差(Tracking Factor σ),设计双层优化问题(Bi-level Optimization),引导策略强化学习过程中的误差收敛。

整个控制框架基于异构actor-critic结构:actor仅依赖本地感知信息,critic利用带有奖励向量化和特权信息的增强状态以提高价值估计精度,并借助PPO算法完成策略优化。

三、多步骤动作处理流程

本文设计的动作处理流程包括四个关键步骤:

  1. 动作估计:使用GVHMR模型从单目视频恢复SMPL参数,引入重力视角坐标系统以解决身体倾斜问题,并缓解脚滑现象。
  2. 物理约束过滤:基于稳定性指标“质心-压力中心投影距离”筛选动作,设定稳定阈值与最大不稳定帧数限制,过滤掉无法实现稳定支撑的动作。
  3. 接触掩码校正:通过脚踝在连续帧的零速度假设估计接触区域,在接触帧应用垂直偏移以消除悬浮伪影,并使用EMA平滑处理后带来的抖动。
  4. 动作重定向:基于差分逆运动学方法将SMPL动作重定向至G1机器人,同时从AMASS与LAFAN中引入更多开源数据丰富训练样本。

四、自适应动作追踪机制

PBHC中引入了指数形式奖励函数:
r(x)=exp⁡(−x/σ)
其中 x 为追踪误差,σ为控制其容忍度的Tracking Factor。相比负误差形式,该方式有界、训练更稳定且对不同误差区间更具响应性。

通过理论推导,论文提出最优追踪因子应为最优追踪误差序列的平均值。为解决σ与x间的循环依赖,设计了如下在线自适应机制:

  1. 用EMA估计当前策略下的平均追踪误差。
  2. σ ← min(σ, x̂),即使σ单调收敛。
  3. 训练过程中σ不断收紧,提升精度,最终实现误差收敛。

实验证明该闭环机制使策略逐步提高精度,适应不同难度的动作。

五、强化学习训练框架设计

  1. 异构Actor-Critic结构:Actor使用自身状态与时间进度变量(ϕt),Critic增加参考状态、随机物理参数等丰富信息。
  2. 奖励向量化:将多个奖励项向量化,每个分量独立对应一个价值函数,最终汇总用于计算优势值,有助于稳定学习与精确估值。
  3. 参考状态初始化(RSI):从参考动作不同时间段初始化机器人状态,提升训练效率。
  4. Sim-to-Real迁移:采用领域随机化策略,包括随机摩擦、质量、刚度、控制延迟等,训练后直接部署到真实机器人,实现零微调部署。

六、实验结果与验证

  1. Q1 – 物理过滤有效性:10个动作中,4个被过滤,其余6个通过。计算ELR(Episode Length Ratio)显示被过滤动作难以完成,验证了物理过滤的必要性。
  2. Q2 – 模拟追踪精度:PBHC在多个指标上全面优于OmniH2O、ExBody2等baseline,甚至接近Oracle级别的MaskedMimic。
  3. Q3 – 自适应机制优势:与固定σ对比,自适应机制在所有动作类型上均表现稳定且优越,验证了该机制在高动态任务中的通用性。
  4. Q4 – 实机部署表现:机器人在真实环境中完成包括马步冲拳、跳踢、360度旋转、太极等复杂技能。对比仿真与现实下的误差指标显示,模拟与现实性能高度一致,验证了其优秀的Sim-to-Real能力。

七、主要贡献与局限性

贡献

  1. 提出PBHC框架,实现高动态人形动作学习。
  2. 设计高效动作处理流程,物理过滤与校正保证可执行性。
  3. 创新性提出自适应追踪奖励机制,有效降低追踪误差。
  4. 成功实现策略的零微调部署,真实环境表现优异。

局限性

  1. 当前系统缺乏环境感知,不能适应复杂地形或避障任务。
  2. 每个策略只能模仿单一动作,难以高效泛化多样动作库。

KungfuBot on GitHub: https://kungfu-bot.github.io/

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注