论文Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models中的研究中,使用了经过方差-协方差正则化(Variance-Covariance regularization)训练的JEPA (Joint Embedding Predictive Architecture,联合嵌入预测架构)模型,并在其潜在空间中进行规划。结果表明,当有大量高质量数据时,基于模型自由的强化学习表现优越,而基于模型的规划方法在新环境布局的泛化、轨迹拼接和数据效率方面表现突出。
论文作者为Vlad Sobal, Wancong Zhang, Kynghyun Cho, Randall Balestriero, Tim G. J. Rudner, Yann LeCun,来自来自New York University,, Genentech, Brown University和Meta。杨立昆(Yann LeGun)教授也是论文作者之一。

一、引言
人工智能领域的一个长期目标是构建能够在不同环境中执行各种任务的智能体,尤其是能在未曾见过的环境中执行任务。传统上,这一挑战通过两种主要方法进行解决:(i) 强化学习(RL),通过与环境的交互,不断试错以学习最优策略;(ii) 最优控制,通过学习或已知的动态模型来计划最佳行动。然而,这两种方法的优缺点,在智能体需从离线轨迹(即没有奖励标注的数据)中学习时,尚未得到充分的探索。本研究通过系统地分析不同的强化学习和控制方法在不同数据集质量下的表现,尝试填补这一空白。我们从奖励条件强化学习(Goal-conditioned RL)、零样本(zero-shot)强化学习方法、以及基于潜在(空间)动力学模型的最优控制方法(Planning with Latent Dynamics Models, PLDM)等多个角度进行了深入比较,探讨它们在从没有奖励标注的离线数据中学习时的优势与不足。
实验结果表明,在数据充足且质量高的情况下,强化学习方法表现优越,而基于模型的规划方法则在新环境布局的泛化、轨迹拼接以及数据效率方面展现出明显的优势。尤其是PLDM,在零样本(zero-shot)任务的泛化能力上表现突出,能够有效应对次优数据的挑战。
二、相关工作
在没有奖励信号的离线强化学习领域,研究者提出了一些方法来从离线数据中提取通用行为,并将其应用于下游任务。目标条件强化学习(Goal-Conditioned RL)就是一种典型的策略,通过对目标的条件化来引导学习过程,增强智能体在复杂任务中的表现。为了进一步提升泛化能力,零样本(zero-shot)强化学习方法采用潜在任务变量的方式,目标不仅是学会一个固定任务,而是学会适应新的任务和目标。
与强化学习的策略不同,最优控制方法采用已知的动力学模型来选择行动,并根据该模型进行规划。在动力学模型无法精确描述的情况下,近年来许多方法尝试学习环境的动态模型,并通过该模型进行规划。这些方法不依赖于奖励信号,而是通过对环境动力学的建模来优化智能体的行为。近年来,一些研究已经证明,基于模型的控制方法在某些任务中的表现,尤其是面对离线数据时的表现,具有极大的潜力。
三、方法概述
本研究提出了潜在(空间)动力学模型(PLDM)进行规划的方法,并与多种强化学习方法进行了比较。PLDM方法的核心思想是通过自监督学习(SSL)目标训练潜在(空间)动力学模型。我们不依赖传统的图像重建任务,而是专注于通过潜在空间的表示来学习动力学,从而避免了重建过程中的潜在信息丢失问题。在测试阶段,我们使用规划优化目标任务,通过优化规划过程中的代价函数来达到目标状态。
在我们的实验中,除了PLDM方法外,还选用了多个强化学习方法进行比较,包括目标条件强化学习方法(GCIQL)、层次强化学习方法(HIQL)、以及零样本(zero-shot)学习方法(HILP)等。这些方法分别代表了不同的强化学习思路,从目标导向、策略学习到潜在空间的探索,都具有一定的应用价值和研究意义。
四、实验与结果
在本研究中,我们设计了一系列实验来评估不同方法在不同条件下的表现,重点考察了以下几个方面:
- 数据质量较好的情况下,哪些方法能够取得最佳表现
我们首先通过一个大数据集进行测试,其中数据的质量较高,状态覆盖面广,轨迹长度充足。在这种情况下,所有方法均达到了最佳表现,其中HIQL和HILP达到了接近100%的成功率。然而,由于PLDM的训练目标是学习动力学而非策略,因此在这一阶段PLDM的表现略逊一筹。 - 在数据稀缺时,哪些方法能更有效地学习
通过控制数据集的大小,我们测试了各方法在稀缺数据环境下的表现。实验结果表明,PLDM在数据稀缺时表现出较强的样本效率,能够从少量数据中有效学习,并在测试中取得良好结果。相比之下,HILP方法在数据稀缺时的表现较差,需要更多的训练数据来达到较好的效果。 - 能否从较短的轨迹中学习并拼接出完整的轨迹
在此实验中,我们使用了长度不同的轨迹数据集,重点考察智能体在面对短轨迹数据时的表现。实验结果显示,基于目标条件的强化学习方法在遇到短轨迹时容易出现目标分布外的情况,难以从短期轨迹中学习到完整的行为序列。相比之下,PLDM通过学习动力学模型能够在测试阶段有效地拼接轨迹,完成任务。 - 能否从随机策略的轨迹中学习
在这项实验中,我们生成了随机策略的轨迹数据,重点测试智能体在面对噪声较大的数据时的学习能力。结果表明,PLDM和HILP方法能够有效地从随机策略的轨迹中学习,而其他基于目标条件的强化学习方法则表现较差。PLDM通过学习环境的动力学能够较好地应对这种低质量数据,HILP则通过学习潜在空间的结构,有效应对了随机轨迹的挑战。 - 各方法在零样本(zero-shot)任务中的泛化能力
我们设计了一个新的任务——避免追逐任务,测试不同方法在新任务中的泛化能力。实验表明,PLDM能够通过简单的调整代价函数,实现对新任务的零样本(zero-shot)学习,而HILP则难以在没有额外训练的情况下完成该任务。 - 各方法在新环境变化中的泛化能力
在这个实验中,我们测试了不同方法在面对新环境布局时的泛化能力。PLDM在这种设置下表现出了最好的泛化能力,即使在仅用五种环境布局进行训练的情况下,仍然能够在新环境中成功完成任务。相比之下,其他方法随着测试环境的变化表现大幅下降。
五、结论
本研究通过对现有强化学习和最优控制方法的全面比较,得出了一些关键结论:
- 潜在(空间)动力学模型的学习和规划方法(PLDM)表现优越,能够在较差的数据质量下展现出极强的鲁棒性和数据效率,同时在新环境和新任务中的泛化能力也最为突出。
- 目标条件强化学习方法(如HIQL)和层次强化学习方法(如HILP)在数据充足时表现最佳,但在数据稀缺和环境变化较大时,其表现较差。
- 基于模型的控制方法(如PLDM)在数据稀缺时具有更高的样本效率,能够从少量的数据中提取更多有用的信息。
研究还表明,潜在(空间)动力学模型和基于规划的学习方法,在应对不确定性和变化较大的任务时,具有较强的适应性和潜力。未来的研究可以进一步优化PLDM的计算效率,并探索如何在更复杂的物理环境和机器人控制任务中应用这一方法。
PLDM 通过自监督学习(Self-Supervised Learning, SSL)学习环境的 潜在(空间)动力学模型(latent dynamics model),即在一个低维的潜在空间(latent space)中进行动态建模,而不是直接在原始观测空间(如像素空间或高维状态空间)中进行建模。
具体而言,PLDM 的核心思想是:
- 使用编码器(encoder)将原始状态映射到潜在空间:状态 s 经过编码器 hθ变换,得到对应的潜在表示 z。
- 在潜在空间中进行动力学建模:使用一个预测模型(dynamics model) fθ在潜在空间内对状态转移进行建模,即学习 zt+1=fθ(zt,at)。
- 基于潜在空间进行规划:在测试时,给定初始状态和目标状态,PLDM 在潜在空间内搜索最优的动作序列,使得智能体能够达到目标状态。
相比于在高维状态空间中直接建模,PLDM 通过 潜在空间学习(latent space learning) 可以:
- 避免冗余信息:例如对于视觉任务,原始像素空间包含大量无关信息,而潜在空间可以保留任务相关特征。
- 提高数据效率:在低维潜在空间中进行学习和规划,能够减少数据需求,提高泛化能力。
- 增强泛化能力:PLDM 在实验中展现出比传统强化学习方法更好的泛化能力,尤其是在新环境布局或次优数据上。
Latent Planning: https://latent-planning.github.io/
PLDM on GitHub: https://github.com/vladisai/PLDM