RLPD——利用离线数据实现高效的在线RL：不进行离线RL预训练，直接应用离策略方法SAC，在线学习时对称采样离线数据-EW帮帮网

前言

之所以写此文，原因在于下面两篇文章都涉及到本文要介绍的RLPD

UC伯克利HIL-SERL——结合视觉和人类示教与纠正的RL方法(直接真实环境中RL开训，可组装电脑主板和插拔USB)
RLDG——RL知识蒸馏通用体：先基于精密任务训练RL策略，后让其自动生成数据，最后微调VLA，效果超越人类演示数据

正因为其重要些，故写本文

RLPD『Ball等，2023，即Efficient online reinforcement learning with offline data，相当于利用离线数据实现高效的在线RL，即Online RL with Offline Data 』，之所以选择它，是因为其样本效率高，且能够融合先验数据

该工作关注的是，是否可以在在线学习时，直接应用现有的离策略方法以充分利用离线数据，作者从头开始在线强化学习，同时将离线数据包含在回放缓冲区中，从而展示了online off-policy RL algorithms利用离线数据进行学习时表现出极高的效率

且在每一步训练中，RLPD 在先验(离线)数据和on-policy数据之间等概率采样，以形成一个训练批次「Song等，2023——Hybrid RL: Using both offline and online data can make RL efficient」
即“对称采样”，即每个批次有50%的数据来自(在线)回放缓冲区，另外50%来自离线数据缓冲区「We call this ‘symmetric sampling’, whereby for each batch we sample 50% of the data from our replay buffer, and the remaining 50% fromthe offline data buffer」

第一部分 RLPD：基于先验数据的强化学习

1.1 引言、相关工作

1.1.1 引言

如原论文所说，深度强化学习（RL）在多个复杂领域取得了成功，例如Atari（Mnih等，2015）和围棋（Silver等，2016），以及现实世界中的应用，如芯片设计（Mirhoseini等，2021）和人类偏好对齐（Ouyang等，2022）

在许多这些场景中，强化学习的优异表现依赖于与环境进行大量的在线交互，这通常通过使用模拟器来实现
然而，在实际问题中，常常面临样本获取成本高昂的情况。此外，奖励信号稀疏，且高维的状态和动作空间往往使这一问题更加严重
解决该问题的一种有前景的方法，是在训练深度强化学习算法时，纳入由先前策略或人类专家生成的数据——通常被称为离线数据(Levine 等，2020)

理论上（Wagenmaker & Pacchiano，2022；Song 等，2023）以及现实案例中（Cabi等，2019；Nair 等，2020；Lu 等，2021）均已证实，这一做法可以通过为算法提供初始数据集来“启动”学习过程，从而缓解样本效率和探索方面的挑战
该初始数据集可以是高质量的专家演示，甚至是低质量但覆盖面广的探索性轨迹。此外，这也为作者利用大量预先收集的数据集以学习有用的策略提供了途径

一些先前的研究致力于通过预训练利用这些数据，而其他方法则在在线训练时引入约束，以应对分布转移问题。然而，每种方法都有其缺点，例如需要额外的训练时间和超参数，或者在行为策略之外的提升有限

回过头来看，作者注意到，标准的离策略算法本应能够利用这些离线数据，此外相关问题在该场景下，由于可以在线探索环境，因此分布偏移的问题应当得到缓解
然而，迄今为止，此类方法在该问题设定下取得的成功有限。因此，在本研究中，作者提出如下问题：在不进行离线强化学习预训练或显式的模仿项以优先利用先前离线数据的情况下，是否可以直接应用现有的离策略方法，在在线学习时充分利用离线数据？

通过在一系列广泛研究的基准测试上进行详尽的实验，作者宣称，他们证明了这个问题的答案是肯定的

然而，直接应用现有的online off-policy RL算法可能会导致相对较差的性能，正如图1中‘SAC + 离线数据’与‘IQL + 微调’的对比所示

因此，必须考虑一组关键的设计选择，才能确保算法的成功

具体来说，作者首先提出了一种极其简单的离线数据采样方法，称之为“对称采样”，该方法在多种领域中无需超参数调整即可表现良好
接着，作者发现，在复杂场景——例如稀疏奖励、离线数据量少、高维度等下，必须防止价值函数的过度外推
为此，作者从一个新颖的视角分析了层归一化(LayerNormalization，Ba等，2016)如何在隐式上防止灾难性的价值过度外推，从而在许多场景下极大地提升了样本效率与稳定性，同时对现有方法的改动最小

然后，为了提升离线数据的利用效率，作者整合并比较了最新的高效无模型强化学习进展，发现大规模集成方法在多种领域中都表现出色

总之，作者展示了在线离策略(online off-policy)RL算法在利用离线数据进行学习时表现出极高的效率。然而，作者也指出，其可靠性能依赖于若干关键的设计选择

即离线数据的采样方式、对评论者critic更新进行关键归一化的方法，以及利用大型集成模型以提升样本效率
尽管 RLPD 的各个组成部分只是对现有强化学习组件的简单改进，作者宣称他们却证明了这些要素的组合能够在多个主流的基于离线数据的在线强化学习基准测试中实现最先进的性能

1.1.2 相关工作

首先，对于离线RL预训练

作者注意到与离线强化学习的联系（Ernst 等, 2005；Fujimoto 等, 2019；Levine等, 2020）；许多先前的研究采用离线强化学习，随后进行在线微调（Hester 等, 2018；Kalashnikov 等,2018；Nair 等, 2020；Lee 等, 2021；Kostrikov 等,2022）
值得注意的是，Lee 等（2021）在进行在线学习时，也考虑了大规模集成和每步多次梯度更新的机制

然而，RLPD的方法采用了更为简洁的采样机制，无需超参数设置，并且不依赖于代价高昂的离线预训练，这通常会引入更多超参数

作者还强调，他们的归一化更新方法并不是一种离线强化学习方法——即没有进行任何离线预训练，而是从头开始在线强化学习，同时将离线数据包含在回放缓冲区中

其次，对于约束于先前数据的工作

离线强化学习预训练范式的另一种替代方法是，明确约束在线智能体的更新，使其行为表现类似于离线数据（Levine & Koltun,2013；Fox 等，2016；Hester 等，2018；Nair等，2018a；Rajeswaran 等，2018；Rudner 等，2021）

与RLPD方法特别相关的是Rajeswaran等人（2018）的工作，他们在策略梯度更新中加入了一个显式包含示范数据的加权更新
相比之下，作者采用的是一种样本高效的离策略范式，并且不进行任何预训练
与RLPD相似的还有Nair等人（2018a），他们同样使用了带有固定离线回放缓冲区的离策略算法。然而，作者并未通过行为克隆项来限制策略，也不会重置到示范状态

此外，作者注意到这些方法通常要求离线数据具有较高质量（即“从示范数据中学习”（Asada & Hanafusa,1979；Schaal, 1996）），而RLPD则重要的是对数据质量不敏感

最后，对于无约束方法结合先验数据

已有研究还探讨了在没有任何约束的情况下整合离线数据的方法
一些方法侧重于用离线数据初始化回放缓冲区（Veˇcer´ık 等，2017；Hester 等2018年），而其他研究则采用了平衡采样策略来处理在线与离线数据（Nair等，2018b；Kalashnikov等，2018；Hansen等，2022；Zhang等，2023）
最近，Song等人（2023）对这类方法进行了理论分析，表明平衡采样在理论和实践中都非常重要

在作者的实验中，作者同样发现平衡采样能够提升结合离线数据的在线强化学习效果；然而，直接将该方法应用于一系列基准任务时并不足够，作者提出的其他设计决策对于在所有任务上获得良好性能同样至关重要

1.1.3 预备知识

本问题可以表述为马尔可夫决策过程MDP(Bellman, 1957)的问题，该过程被描述为一个元组

$\left(\mathcal{S}, \mathcal{A}, \gamma, p, r, d_{0}\right)$

其中S 是状态空间，A 是动作空间，γ ∈(0, 1) 是折扣因子
动态由转移函数 $p\left(s^{\prime} \mid s, a\right)$ 控制
有一个奖励函数 $r(s, a)$ 和初始状态分布 $d_{0}(s)$

强化学习的目标是最大化期望的折扣奖励和：

$\mathbb{E}_{\pi}\left[\sum_{t=1}^{\infty} \gamma^{t} r\left(s_{t}, a_{t}\right)\right]$

在本研究中，作者关注于在获取离线数据集D(Levine等人，2020) 的情况下进行强化学习，该数据集是由特定马尔可夫决策过程生成的一组 $\left(s, a, r, s^{\prime}\right)$ 元组
离线数据集的一个关键特性是通常不提供完整的状态-动作覆盖，即， $\{s, a \in \mathcal{D}\}$ 只是S × A 的一个小子集。由于缺乏策略覆盖，使用函数逼近的方法在该数据上学习时可能会对数值进行过度外推，从而对学习性能产生显著影响（Fujimoto 等人，2019）

1.2 基于离线数据的在线强化学习

如上文所述，作者考虑在标准RL设置的基础上，增加了一个预先收集的数据集。在本研究中，作者旨在设计一种对该预收集数据的质量和数量均不敏感的通用方法。例如，这些数据可以是少量的人类演示，或大量次优的探索性数据

此外，作者希望提出的方法对于问题设置的性质也具有通用性，无论观测是基于状态还是像素，奖励是稀疏还是密集

为此，作者提出了一种基于离策略无模型强化学习的方法，无需预训练或显式约束，我们称之为RLPD(利用先验数据的强化学习)

下文将介绍，其算法设计基于SAC(Haarnoja等人，2018a；b)，但原则上这些设计选择也可能提升其他离策略强化学习方法

首先，作者提出了一种简单的机制来融合先验数据
随后，作者发现，在对该问题直接应用离策略方法时会出现一种病态现象，并提出一个简单且最小化侵入性的解决方案

故作者通过结合最新的高样本效率强化学习方法，提高了离线数据的利用率
最后，作者指出，近期深度强化学习中的一些常见设计选择实际上对环境具有敏感性，因此实践者应根据具体环境进行相应调整

1.2.1 设计选择一：一种简单高效的离线数据融合策略

作者首先提出了一种简单的方法，该方法融合了先前的数据，不会增加任何计算开销，并且对离线数据的类型具有通用性。作者称之为“对称采样”，即每个批次有50%的数据来自(在线)回放缓冲区，另外50%来自离线数据缓冲区，这与Ross & Bagnell (2012)采用的方案类似——且这也印证了我之前的判定或解读是对的(详见本文开头)

正如后续章节所示，这种采样策略在多种场景下出乎意料地有效，作者对该方案的不同要素进行了广泛的消融实验（见第5.1节）

然而，将该方法直接应用于经典的离策略方法(如SAC，Haarnoja等，2018a)时，效果并不理想，如图1所示，因此还需要进一步考虑其他设计选择

1.2.2 设计选择2：层归一化缓解灾难性高估

标准的离策略强化学习算法会对分布外(OOD)的动作查询已学习的Q函数，而这些动作在学习过程中可能并未被明确定义

因此，由于采用了函数逼近方法（Thrun & Schwartz, 1993），实际值可能会被严重高估。在实际操作中，这一现象会导致训练过程不稳定，甚至在评论者试图追赶不断上升的数值时引发发散
特别是，当在复杂任务中天真地应用对称采样方法时，会发现确实会出现这种情况（见图2）。评论者分歧是一个被广泛研究的问题，尤其是在离线场景下，即策略无法生成新的经验
即采用对称采样方法结合SAC时，可能由于Q值发散导致不稳定性；而在评论器中加入LayerNorm后，这种现象消失，性能得以提升

然而，在RLPD的问题设定中，可以从环境中采样。因此，与其专门设计机制明确抑制OOD动作（这可以被视为反探索，参见Rezaeifar等，2022），实际上只需要确保习到的函数不会以无约束的方式进行外推

为此，作者展示了层归一化(LayerNormalization，LayerNorm)可以对网络的外推进行约束，但关键在于，它并不会显式约束策略保持在离线数据附近。因此，这并不会阻止策略去探索状态-动作空间中未知且可能有价值的区域

具体来说，作者证明了 LayerNorm可以对值函数进行约束，并在实证上防止灾难性价值外推

具体而言，考虑一个由 θ、w 参数化的 Q函数 Q，并对中间表示 $\psi_{\theta}(\cdot, \cdot)$ 应用 LayerNorm
对于任意的 a 和 s，可以说：
$\begin{aligned} \left\|Q_{\theta, w}(s, a)\right\| & =\left\|w^{T} \operatorname{relu}\left(\psi_{\theta}(s, a)\right)\right\| \\ & \leq\|w\|\left\|\operatorname{relu}\left(\psi_{\theta}(s, a)\right)\right\| \leq\|w\|\|\psi(s, a)\| \\ & \leq\|w\| \end{aligned}$
因此，由于层归一化（Layer Normalization）的作用，Q值被权重层的范数所限制，即使对于数据集之外的动作也是如此。因此，错误动作的外推效应被极大地减轻，因为这些动作的Q值不太可能显著高于数据中已经见过的值
实际上，回顾图2可以看到，将LayerNorm引入评论器能够通过缓解评论器发散显著提升性能