用于人形机器人强化学习运动的神经网络架构分析-EW帮帮网

1. 引言：人形机器人运动强化学习中的架构探索

人形机器人具备在多样化环境中自主运行的巨大潜力，有望缓解工厂劳动力短缺、协助居家养老以及探索新星球等问题。其拟人化的特性使其在执行类人操作任务（如运动和操纵）方面具有独特优势。深度强化学习（DRL）作为一种前景广阔的无模型方法，能够有效控制双足运动，实现复杂行为的自主学习，而无需显式动力学模型。

1.1 人形机器人运动强化学习的机遇与挑战

尽管DRL取得了显著进展，但开发一个能够处理广泛任务的统一框架仍是一个持续的挑战。人形机器人运动控制面临的关键难题包括：

泛化与适应性： 传统控制器难以泛化和适应新环境。
连续动作空间探索： 在纯连续动作空间中训练强化学习智能体极具挑战性，因为探索效率低下。
动态平衡： 人形机器人在极端条件下的动态平衡能力远不及人类。
仿真到现实的迁移鸿沟： 在仿真中训练的策略在迁移到真实机器人时，由于仿真与现实之间的差异，性能常会下降。
样本效率： 真实世界中与物理机器人的交互耗时且昂贵，需要大量数据样本才能学习到有效的策略，这对强化学习而言是一个重大问题。
奖励函数设计： 精心设计奖励函数是一个劳动密集且耗时的过程，对于复杂机器人系统尤其如此。
计算需求： 强化学习训练通常需要大量的计算资源。

这些挑战并非孤立存在，而是相互关联的。例如，解决仿真到现实的迁移问题（Sim-to-Real）通常涉及在仿真中大规模数据收集，如果处理不当，这反过来会加剧样本效率问题。神经网络架构的选择直接影响这些相互关联的挑战如何得到有效管理。例如，Transformer模型具备的上下文适应能力可以减轻泛化问题，减少对权重持续更新的需求，从而通过更有效地利用历史经验间接提高现实世界的适应性和样本效率。同样，精心设计的奖励函数至关重要，而像双评论家（Double Critic）这样的架构则能在存在复杂混合奖励信号时稳定学习过程。这表明架构创新不仅关乎原始性能，更在于实现更鲁棒、高效和可泛化的解决方案。

1.2 创新探索：DRL中的架构选择

在DRL中，选择合适的网络架构对于实现鲁棒、自适应和创新的人形机器人运动策略至关重要。每种架构都具有独特的优势和劣势，可针对强化学习问题的不同方面进行定制。本报告旨在提供对这些选择的结构化理解，指导研究人员设计有效的人形机器人DRL系统。

2. 强化学习运动的核心神经网络架构：深入探讨

2.1 循环神经网络（RNNs）：捕捉时间依赖性

循环神经网络（RNNs）专门用于处理序列数据，通过维护一个隐藏状态来记忆过去的输入。它们在时间步长之间共享参数，这使得它们在处理可变长度序列时具有内存效率。

优势：
- 在自然语言处理、时间序列分析和语音识别等序列建模任务中表现出色，这对于运动控制中的连续时间序列至关重要。
- 通过隐藏状态记住上下文信息。
- 能够处理可变长度的序列。
劣势：
- 梯度消失问题： 在通过时间反向传播时，梯度可能变得非常小（消失），这限制了网络捕捉长期依赖关系的能力。这意味着RNNs难以记住许多时间步长之前的信息。
- 梯度爆炸问题： 梯度也可能变得异常大，导致数值不稳定。
- 顺序计算： RNNs按顺序处理数据，这限制了训练期间的并行化，并减慢了长序列的训练速度。这使得它们无法充分利用现代硬件（如GPU）的优势。
- 记忆有限： 固定大小的隐藏状态限制了它们在非常长序列上保留信息的能力。
- 偏向近期数据： 随着时间步长的推进，过去数据的影响会减弱，导致网络偏向序列中更近期的信息。

在运动强化学习中的应用： 尽管基础RNNs在处理时间序列信息方面具有潜力，但由于其在长期依赖性和并行化方面的限制，它们很少单独用于复杂运动任务。它们通常作为更高级循环架构的基础。

人形机器人运动本质上是一个序列决策问题，过去的动作和观测对未来的状态和最优控制产生深远影响。运动、平衡和步态的性质本身就要求理解时间依赖性。RNNs是捕捉这种时间依赖性的首次重大尝试。然而，它们的根本局限性，特别是梯度消失/爆炸问题，直接促成了更复杂的门控机制（如LSTM和GRU）的开发。这揭示了网络设计中一条清晰的演进路径，其驱动力是更有效、更稳定地建模长期时间关系，以应对机器人技术等复杂任务的需求。从基本RNNs到LSTM/GRU，再到Transformer的转变，直接反映了对能够捕捉更长时间范围内的上下文并更高效处理信息的模型日益增长的需求。

2.1.1 门控循环单元（GRUs）

GRUs是RNNs的一种简化变体，通过使用更新门和重置门来解决梯度消失问题。这些门控制信息的流动，使网络能够保留重要信息并丢弃不相关细节。

优势：
- 缓解梯度消失问题。
- 由于架构更简单，比LSTM计算效率更高，参数更少。
- 在许多任务中可以达到与LSTM相当的性能。
- 擅长处理时序信息并捕捉长期依赖关系。
劣势：
- 虽然优于基本RNNs，但它们仍然按顺序处理数据，限制了并行化。
- 在需要非常长期记忆的任务中，可能不总是优于LSTM 。

在运动强化学习中的应用： GRUs因其效率和处理序列数据的能力，是机器人技术中处理时间序列信息的良好选择。它们适用于处理速度至关重要的任务，且LSTM的复杂性可能过高的情况。例如，在光通信系统中，双向GRU用于处理时间序列信息。虽然在引用的材料中对人形机器人运动的具体提及有限，但它们在时间序列处理方面的普遍适用性使其与本体感觉历史记录相关。

2.1.2 长短期记忆网络（LSTMs）

长短期记忆网络（LSTMs）是一种RNN，专门设计用于缓解梯度消失问题并捕捉长期依赖关系。它们通过一个更复杂的架构实现这一点，该架构包括一个记忆单元和三个门：输入门、输出门和遗忘门。这些门调节信息进出记忆单元的流动，使其能够记住任意时间间隔内的值。

优势：
- 明确设计用于避免长期依赖问题，并且对间隙长度相对不敏感。
- 通过允许梯度几乎无衰减地流动，有效解决了梯度消失问题。
- 能够为预测保持有用的长期依赖关系。
劣势：
- 与GRU和传统RNNs相比，架构更复杂，计算成本更高。
- 仍然可能遭受梯度爆炸问题。
- 与GRU类似，它们逐个处理单词/数据，限制了并行化。

在运动强化学习中的应用： LSTM在强化学习中被广泛用于需要记忆过去状态的任务，例如机器人运动，其中理解一系列动作和观测至关重要。它们对于学习需要随时间适应或保持稳定步态的策略特别有用。混合MPC-DRL方法的未来研究表明，LSTM可以通过考虑过去状态来更准确地预测干扰。

从RNNs到GRUs和LSTMs的演变清晰地展示了克服梯度消失问题和改善长期记忆的驱动力。LSTMs在处理长期依赖方面表现优越，但代价是更高的计算成本和参数数量。GRUs通过合并门来简化这一点，以更高的效率实现可比的性能。这为研究人员提出了一个关键的设计选择：对于人形机器人运动这种实时控制和效率至关重要的任务，必须仔细权衡LSTMs的表达能力和GRUs的计算效率。如果时间依赖性极其长或复杂，LSTMs可能更具优势；否则，GRUs可能提供更实用的解决方案，特别是对于嵌入式系统或高频控制回路。这一决策直接影响训练时间和部署可行性。

2.2 卷积神经网络（CNNs）：空间特征提取

卷积神经网络（CNNs）是一种前馈神经网络，主要用于通过网格状拓扑处理数据来分析视觉图像。它们自动从原始输入中学习分层特征，从边缘等基本特征开始，在更深层中逐步识别更复杂的模式和对象。关键组件包括卷积层、激活层（如ReLU）、池化层（如最大池化）和全连接层。

优势：
- 无需手动提取即可自动学习特征，减少了对手工特征的需求。
- 使用共享权重，减少参数并提高效率。
- 无论模式在输入中的位置如何，都能识别模式（平移不变性）。
- 有效捕捉低级和高级特征。
- 在图像分类、目标检测和分割等领域具有高精度。
- 对数据缺陷具有鲁棒性。
劣势：
- 需要高计算能力和资源，特别是对于复杂应用。
- 需要大量标记数据进行训练。
- 难以解释决策过程（缺乏可解释性）。
- 可能过拟合，尤其是在数据集较小的情况下。
- 需要固定输入大小，限制了灵活性。
- 在光照或视角变化时难以检测物体。
- 本质上是局部性的，难以识别非相邻像素之间的长距离依赖关系。

在运动强化学习中的应用： 当机器人的观测是来自摄像头的高维像素图像时，CNNs至关重要。它们作为视觉编码器，从原始像素数据中提取相关特征，然后将这些特征输入到强化学习策略网络中。这使得机器人能够根据对其周围环境的视觉识别来学习行为，类似于人类感知。然而，挑战在于从复杂的图像背景中识别关键信息，以及CNNs的巨大尺寸，使得它们难以用少量数据进行训练。结合CNNs的自监督学习（SSL）是一种建议的解决方案，可以克服数据限制。

人形机器人在现实世界中的运动通常需要视觉感知。CNNs是处理图像数据的首选。然而，对于强化学习而言，原始像素输入比基于状态的特征“难得多” ，因为图像中混杂着有用和无用的信息。这直接导致了需要“庞大”的CNNs，而这些CNNs“难以用少量数据或经验进行学习”的问题。提出的自监督学习（SSL）解决方案直接解决了数据稀缺问题，通过允许模型从未标记数据中学习有用的表示。这形成了一个因果链：复杂的视觉环境 -> 需要CNNs -> 数据效率低下 -> 需要SSL。这凸显了一个关键的研究方向：将CNNs与SSL（例如对比学习）结合，以减少对昂贵标记数据的依赖，从而为人形机器人实现鲁棒的视觉感知。

2.3 残差网络（ResNets）：实现更深层次的学习

残差网络（ResNets）是一种CNN，引入了“跳跃连接”（或“快捷连接”），允许某一层输入跳过一个或多个层，并直接添加到后续层的输出中。这形成了“残差块”，其中网络学习“残差”映射（输入和输出之间的差异），而不是完整的变换。

优势：
- 解决梯度消失/爆炸问题（部分）： 跳跃连接有助于梯度在非常深的网络中更容易地反向流动，使训练更稳定有效。虽然它们不能完全解决梯度爆炸问题，但它们显著缓解了梯度消失问题。
- 实现非常深的网络训练： 克服了“退化问题”，即更深的网络由于优化困难而表现更差，从而允许构建具有50、101甚至152层的架构。
- 更快的收敛： 由于跳跃连接，损失曲面更平滑，导致收敛更快。
- 减少过拟合： 有助于减少过拟合。
- 特征重用： 在像DenseNets（使用拼接而不是求和进行跳跃连接）这样的变体中，它们促进了特征重用。
- 多功能性： 预训练的ResNets可用于图像分类之外的各种任务，包括分割、关键点检测和目标检测。
劣势：
- 与普通CNNs相比，架构复杂性增加。
- 如果恒等映射不接近最优变换，跳跃连接的优势可能有限。

在运动强化学习中的应用： ResNets在机器人强化学习中具有极高价值，尤其是在处理高维视觉输入时。通过实现非常深的网络训练，ResNets可以学习更复杂和分层的视觉观测表示，这对于感知复杂地形或识别运动障碍物至关重要。它们提高训练稳定性和收敛性的能力使其成为端到端学习控制器中强大的视觉处理骨干。例如，在基于视觉的操纵中，使用此类深度网络的强化学习系统可以在实际训练时间内实现高成功率。虽然在引用的材料中没有明确提及人形机器人“运动”中的应用，但它们在基于视觉的强化学习中的广泛使用以及处理复杂视觉数据的能力使其高度相关。

“退化问题” 揭示了扩展神经网络的一个根本限制：简单地增加层数并不能保证更好的性能；事实上，由于优化困难，它可能会使性能恶化。ResNets通过引入跳跃连接，从根本上改变了这一点，使得训练非常深的网络变得更容易。对于人形机器人运动，这涉及高度复杂的动力学、多样化的环境以及潜在的高维传感输入，学习越来越抽象和鲁棒的表示至关重要。由ResNets促进的更深层网络，能够更好地捕捉这些复杂性。这意味着ResNets不仅仅是一个架构细节，更是学习更复杂策略的推动者，这些策略可以泛化到各种地形和干扰，这是人形机器人的一个关键目标。

2.4 Transformer网络：长距离上下文的注意力机制

Transformer是一种神经网络架构，它完全依赖“注意力机制”，特别是“自注意力机制”，来捕捉数据中的长距离依赖关系。与RNN/LSTM不同，它们并行处理整个序列，克服了顺序计算的限制。自注意力机制决定了输入序列的哪些部分彼此最相关，并分配“注意力权重” 。添加位置编码以考虑单词/令牌顺序。多头注意力允许同时捕捉不同的关系。

优势：
- 擅长捕捉长距离依赖： 在理解序列中远距离部分之间的关系方面优于RNN和CNN 。
- 并行化： 在训练和推理期间能够显著增加并行计算，充分利用GPU的性能。这使得在“前所未有的大规模数据集”上进行训练成为可能。
- 克服梯度消失： 通过避免循环结构，它们避免了RNN固有的梯度消失问题。
- 信用分配： 可以通过自注意力机制直接执行信用分配，可能在稀疏或干扰性奖励存在的情况下有效工作。
- 泛化和迁移： 可以建模广泛的行为分布，从而实现更好的泛化和迁移。
- 上下文适应： 可以根据观测-动作历史在测试时动态调整行为，而无需更新模型参数。
劣势：
- 计算复杂度： 传统自注意力机制的计算复杂度与序列长度的平方成正比，这对于非常长的序列可能成为瓶颈。
- 缺乏固有顺序： 与RNNs不同，它们缺乏对词序的固有理解，需要位置编码。
- 数据需求大： 需要大量数据集才能有效训练，尽管自监督学习有所帮助。

在运动强化学习中的应用： Transformer正成为人形机器人运动的强大解决方案。

一个关键应用是将强化学习视为序列建模问题，其中Transformer通过对所需回报、过去状态和动作进行条件化来预测最优动作（决策Transformer）。
它们被用作因果Transformer，将本体感觉观测和动作的历史作为输入来预测下一个动作。这个历史隐式编码了世界信息，用于上下文适应，从而实现零样本部署到真实世界地形并抵抗干扰。
示例包括出现类人手臂摆动和从足部陷阱中恢复。
当用作编码器以预测多评论家强化学习框架中的未来目标时，它们可以提高目标达成精度。

Transformer模型具备的“无需更新权重即可进行上下文适应”的能力标志着一个深刻的转变。这意味着机器人不仅仅是执行预训练策略；它会根据观测到的历史动态调整其行为，从而有效地学习如何即时适应。这直接解决了泛化到未见环境和干扰的关键挑战。其并行化能力使得在“大规模并行”仿真中进行训练成为可能，每天可收集“100亿”个样本，这是实现如此鲁棒的零样本仿真到现实迁移的根本原因。这种架构能力与大规模数据的结合，为创新提供了强大的动力，推动强化学习从固定策略走向真正自适应和通用的人形智能体。

2.5 对比学习：自监督表示能力

对比学习（CL）是一种自监督学习技术，它教会模型识别数据集中项目之间的差异和相似性。它通常涉及创建“正样本对”（同一样本的不同增强）和“负样本对”（不同样本的增强），并训练模型使正样本对在嵌入空间中更接近，同时使负样本对更远离。数据增强对于创建这些不同的“视图”至关重要。

优势：
- 未标记数据的有效性： 最大的优势之一是它能够有效利用大量未标记数据，减少对昂贵且耗时的标记数据集的依赖。
- 提高模型鲁棒性： 通过关注相似性和差异性，它有助于减轻标记数据中的偏差，并提高学习表示的质量。
- 实现迁移学习： 在一项任务中学习到的表示可以应用于不同但相关的任务。
- 适用于不同数据类型： 对图像、文本和音频数据均有效。
- 部分自动化数据标注： 通过对相似示例进行分组，可以部分自动化数据标注。
- 增强监督学习： 可以与监督学习相结合，以捕捉更鲁棒的表示。
劣势：
- 需要大量数据（未标记数据）。
- 选择有意义的负样本对存在困难。
- 计算密集。

对比学习与强化学习高度相关，尤其是在从原始像素等高维观测中学习时，可用于提高样本效率。

CURL（用于强化学习的对比无监督表示）： 该框架使用对比学习从原始像素中提取高级特征，并在提取的特征之上执行离策略控制。CURL显著提高了基于像素的现有方法的样本效率，几乎与使用基于状态特征的方法的样本效率相匹配。它使用随机裁剪进行增强，并将相同的增强应用于序列图像堆栈中的每个帧。
这解决了从像素学习更困难且需要更多交互的挑战。

现实世界机器人强化学习的一个主要瓶颈是样本效率；收集真实世界交互既昂贵又缓慢。高维传感器输入（如图像）加剧了这一问题。对比学习通过实现从

未标记数据中有效学习来直接解决这一问题。CURL的成功证明了其内在联系：将对比学习作为辅助任务显著提高了基于像素的强化学习的样本效率。这意味着，机器人不再需要数十亿次真实世界交互（这不切实际），而是可以从丰富、易于获取的未标记视觉数据中学习鲁棒的视觉表示，从而使基于视觉的强化学习在人形机器人运动中的现实世界部署更具可行性。这是将强化学习扩展到复杂现实世界人形机器人任务的关键创新。

2.6 教师-学生框架：知识迁移与效率

教师-学生（T-S）框架，常被称为知识蒸馏（KD），涉及将知识从一个大型、强大的“教师”模型转移到一个更小、更高效的“学生”模型。学生模型被训练来模仿教师模型的输出（例如，logits、特征相似性），通常通过最小化比较其输出的损失函数来实现。

优势：
- 模型压缩/效率： 学生模型通常更小、更高效，便于部署。
- 提高学生性能： 学生模型通常可以达到或超越从头开始训练小型模型的性能，通过利用教师的“暗知识”（教师学习到的隐式关系）。
- 样本效率： 通过重复利用仿真样本并同步学习轨迹，可以显著降低样本复杂度和训练时间。
- 促进仿真到现实迁移： 教师模型（例如，具有特权信息）可以指导仅使用真实世界可访问观测的学生模型，从而帮助实现零样本迁移。
劣势：
- 需要一个预训练的、有效的教师模型。
- 学生模型的质量本质上受限于教师模型的性能。
- 设计有效的蒸馏策略（损失函数、要迁移的知识）可能很复杂。

在运动强化学习中的应用： 教师-学生框架对于人形机器人运动极具前景，特别是在弥合仿真到现实的鸿沟和提高训练效率方面。

特权学习： 一个常见的应用是在仿真中训练一个“教师”模型，该模型可以访问在现实世界中无法获得的“特权信息”（例如，摩擦系数、关节扭矩、地面真实地形高度图）。然后，这个教师模型指导一个仅使用本体感觉或真实世界可访问传感器数据的“学生”策略。
L2T（学习教学）： 一种新颖的单阶段训练框架，统一了教师和学生策略学习，通过重复利用仿真样本和同步学习轨迹。这显著降低了样本复杂度和训练时间，同时实现了最先进的性能，并为Digit等机器人提供了在多样化地形上的鲁棒零样本仿真到现实迁移。

仿真到现实的鸿沟是机器人技术中一个持续存在的挑战。在现实世界中直接训练既昂贵又不安全。教师-学生框架，特别是结合特权学习，为此提供了一个战略性解决方案。在理想信息丰富的仿真环境中，可以训练“教师”模型，然后将其知识蒸馏到在真实世界传感器限制下运行的“学生”模型中。L2T的创新更进一步，通过统一这一过程，展示了同步学习与样本复杂度显著降低、训练时间缩短之间的内在联系，从而实现了最先进的零样本迁移。这种方法使得研究人员能够利用仿真的可扩展性来处理复杂的人形机器人行为，同时仍能实现实际的现实世界部署，从而加速了研究和开发。

2.7 双评论家架构：增强价值估计的稳定性

在Actor-Critic强化学习框架中，“评论家”估计价值函数（Q值或V值），为“行动者”（策略网络）提供反馈。双评论家架构，例如在软Actor-Critic（SAC）或双延迟DDPG（TD3）中使用的架构，维护两个独立的评论家网络（或Q函数），而不是一个。在价值目标计算期间，使用两个Q值的最小值（或加权平均值）。

优势：
- 减轻Q值高估： 强化学习中常见的问题是Q值的高估，这可能导致次优策略。使用两个评论家并取最小值有助于减少这种高估偏差，从而实现更稳定可靠的训练。
- 提高训练稳定性： 更准确的Q值估计有助于行动者更稳定地更新策略。
- 更快的收敛： 可以更快地收敛到最优策略。
- 对噪声的鲁棒性： 可以提高在嘈杂环境中的鲁棒性。
- 减少超参数调整： 与标准单评论家方法相比，多评论家方法可以显著减少超参数调整的工作量。
劣势：
- 由于维护和更新两个评论家网络，计算成本增加。
- 增加了整体强化学习算法的复杂性。

在运动强化学习中的应用： 双评论家，或更广泛地说，多评论家架构，对于复杂运动任务中强化学习的稳定性和效率非常有益。

多评论家强化学习： 该框架训练一组评论家网络来学习与不同奖励组相关的不同价值函数。这对于处理密集和稀疏奖励的复杂混合特别有用，这在运动任务中很常见，其中既有连续运动目标（密集）又有特定目标达成（稀疏）。
多评论家方法在学习过程的速度和敏感性方面已显示出优于标准Actor-Critic方法。
它可以与基于Transformer的编码器集成，用于目标预测。
Actor-Dueling-Critic（ADC）网络，受Dueling Network启发，可以独立于状态和环境噪声估计动作优势值，从而提高连续动作空间中的训练稳定性。

奖励函数设计在强化学习中是出了名的困难，特别是对于人形机器人运动等复杂、自然的行为。策略是使用“精心设计的奖励函数”进行训练的，但指定跳跃等任务存在“重大挑战” 。密集（例如，保持直立、向前移动）和稀疏（例如，达到特定关键帧）奖励的混合存在进一步使学习复杂化。双/多评论家架构直接解决了由于不准确的价值估计导致的不稳定性以及平衡不同奖励信号的困难。通过提供更稳定和准确的价值估计，这些架构能够学习更鲁棒和自然的运动行为，减轻超参数调整的负担，并使复杂人形机器人任务的整体强化学习过程更易于处理。这为实现细致和自然的运动提供了有力的支持。

表2：人形机器人运动强化学习的神经网络架构：优势、劣势和应用场景

架构名称	主要原理	主要优势（1-2点）	主要劣势（1-2点）	运动强化学习中的典型应用	创新潜力
RNN	带有记忆的序列处理	有效处理序列数据，捕捉上下文	梯度消失/爆炸，并行化困难	基础时序处理，但通常被更高级模型替代	奠定时序建模基础
GRU	门控机制简化序列记忆	计算效率高，缓解梯度消失	仍受限于顺序处理，长时记忆不如LSTM	实时时序处理，本体感觉历史	效率与性能的平衡
LSTM	门控记忆单元长时记忆	擅长捕捉长期依赖，解决梯度消失	计算成本高，并行化受限	复杂时序依赖，稳定步态学习，干扰预测	克服长期依赖核心挑战
CNN	空间特征提取，平移不变性	自动学习特征，参数共享效率高	计算资源需求大，需要大量标记数据	视觉感知，从像素中提取环境特征	实现视觉驱动的机器人行为
ResNet	残差连接，跳跃信息流	训练非常深的网络，缓解梯度问题	增加架构复杂性	视觉骨干网络，复杂视觉特征学习，泛化	推动深度学习在机器人视觉中的应用
Transformer	自注意力机制，并行处理	卓越的长距离依赖捕捉，高度并行化	计算复杂度高（平方），数据需求大	上下文适应，零样本迁移，序列建模	范式转变，实现通用自适应行为
Contrastive Learning	自监督学习，对比相似性	有效利用未标记数据，提高样本效率	负样本选择复杂，计算密集	从像素学习鲁棒表示，提高样本效率	解决数据稀缺，实现高效现实世界学习
Teacher-Student	知识蒸馏，知识迁移	提高学生模型效率，促进仿真到现实迁移	依赖高质量教师模型	仿真到现实迁移，样本效率提升	战略性利用仿真，加速现实部署
Double Critic	多评论家价值估计	减轻Q值高估，提高训练稳定性	计算成本增加，算法复杂性	复杂奖励信号下的稳定学习，自然行为	稳定学习过程，实现细致自然运动

3. 网络架构的战略应用与问题解决

3.1 架构与运动挑战的匹配

仿真到现实的迁移

挑战： 仿真与现实世界动力学之间的差异导致性能下降。现实世界交互昂贵且缓慢。
架构解决方案/考量：
- Transformer： 其基于观测-动作历史的上下文适应能力，通过在仿真中大规模随机化环境进行训练，实现了鲁棒的零样本仿真到现实迁移。这是其在真实世界人形机器人运动中当前成功的主要驱动因素。
- 教师-学生框架： 特权学习，即在仿真中训练一个具有完整仿真信息的教师模型，然后由一个仅使用真实世界传感器信息的学生模型进行指导，直接解决了仿真到现实的迁移问题。L2T等框架统一了这一过程，降低了样本复杂度并实现了零样本迁移。
- 对比学习： 通过从原始像素中学习鲁棒、可泛化的表示，对比学习可以帮助在仿真中训练的策略更好地解释真实世界的视觉输入，从而通过提高学习特征的质量间接辅助仿真到现实的迁移。
- ResNet/CNN： 当使用视觉输入时，通过深度CNN（如ResNet）进行鲁棒特征提取是实现跨各种真实世界视觉条件泛化的基础。

虽然领域随机化是仿真到现实迁移的常用技术，但引用的材料显示，特定的架构选择是主动的推动者，而不仅仅是被动地接收随机化数据。Transformer的上下文适应能力意味着它们不仅能容忍变化，还能学会适应变化。同样，教师-学生框架提供了一种结构化的方式来传递仿真中的“特权”知识，本质上是将仿真环境的丰富性提炼成可部署的真实世界策略。这表明，仿真到现实迁移的关键不仅仅在于数据多样性，更在于构建能够智能地利用这种多样性并适应新颖性的模型。

动态平衡与抗干扰能力

挑战： 人形机器人支撑区域有限，重心较高，使得在极端条件下的动态平衡变得困难。它们需要适应未知障碍物和外部推力。
架构解决方案/考量：
- Transformer： 其基于观测历史的上下文适应能力使其能够检测并响应足部陷阱等意外事件，动态调整步态。
- 循环网络（LSTM/GRU）： 对于维持过去状态和动作的记忆以指导实时平衡控制至关重要，尤其是在处理连续本体感觉反馈时。
- 双/多评论家： 可以在包含平衡项（例如，基于ZMP的奖励）和鲁棒性的复杂奖励环境中稳定学习，确保策略有效地学习保持平衡。基于ZMP的奖励与全身Actor-Critic框架相结合，对于动态平衡至关重要。

动态平衡不仅仅是一个单一的控制回路；它涉及协调动作，利用本体感觉，并可能涉及上身摆动。引用的材料表明，像Transformer 这样的架构可以导致手臂摆动等

涌现行为，这意味着网络在获得足够数据和能力的情况下，无需明确编程即可发现复杂的物理协调。这为创新提供了有力的支持，将控制从明确分解转向学习到的全身协调。在强化学习框架内使用基于ZMP的奖励，并由稳定的评论家架构支持，为学习这些动态平衡技能提供了必要的反馈。

长期规划与复杂任务规范

挑战： 传统强化学习难以处理稀疏奖励和长时程问题，这使得学习复杂的多阶段行为变得困难。
架构解决方案/考量：
- Transformer（决策Transformer）： 通过将强化学习视为序列建模问题，并以期望回报为条件，它们可以生成未来动作以实现长期目标，有效处理稀疏奖励和长时程问题。
- 分层强化学习（HRL）： （在4.1节讨论）HRL通过将任务分解为高级目标和低级技能来固有地解决长期规划问题。
- 多评论家强化学习： 可以有效管理密集和稀疏奖励的混合，这在同时包含连续运动目标和特定长期目标的任务中很常见。

强化学习在运动方面的演变正从简单的反应式控制转向能够执行复杂、目标导向行为的智能体。稀疏奖励的挑战是长期规划的一个主要障碍。Transformer，特别是决策Transformer ，通过将强化学习重新定义为序列生成问题，其中期望回报是输入的一部分，提供了一种新颖的解决方案。这意味着模型通过生成导致指定未来奖励的动作来隐式学习

规划，而不是仅仅依赖即时反馈。这代表着朝着更智能、更自主的人形智能体迈出了重要一步，这些智能体能够解决多步骤任务。

样本效率

挑战： 现实世界交互昂贵且耗时；有效训练需要大量样本。
架构解决方案/考量：
- 对比学习： 通过使用自监督从原始像素中学习高质量表示，提高了样本效率，减少了对大量标记数据的需求。
- 教师-学生框架： L2T框架通过重复利用仿真样本，明确降低了样本复杂度和训练时间。
- 混合方法（例如，MPC-DRL）： （在4.5节讨论）可以利用基于模型方法的样本效率，同时将DRL纳入复杂方面。

样本效率问题可以说是将强化学习部署到真实机器人上的最关键的实际障碍。因此，能够从更少数据或从易于获取的

未标记数据中有效学习的架构具有极高的价值。对比学习和教师-学生框架通过优化从现有数据中提取信息的方式或更有效地利用仿真数据来直接解决这一问题。这意味着未来的趋势是数据效率不仅是算法上的改进，更是现实世界机器人策略的基本设计原则。

表3：通过架构选择应对人形机器人运动强化学习中的关键挑战

关键挑战	对运动的影响	相关架构	作用机制	创新/贡献
仿真到现实鸿沟	性能下降，部署困难	Transformer, Teacher-Student, Contrastive Learning, ResNet/CNN	上下文适应，特权学习，鲁棒特征学习，自监督表示	零样本迁移，提高现实世界适应性
动态平衡	稳定性差，易受干扰	Transformer, LSTM/GRU, Double/Multi-Critic	涌现适应性步态，记忆状态历史，稳定价值估计	学习全身协调，鲁棒抗干扰
长期规划	难以学习复杂多阶段行为	Transformer (Decision Transformer), HRL, Multi-Critic	序列建模目标，任务分解，混合奖励处理	从反应式到目标导向智能，解决稀疏奖励
样本效率	训练成本高，现实世界部署难	Contrastive Learning, Teacher-Student, Hybrid Approaches	未标记数据表示学习，知识迁移，模型与学习结合	降低数据需求，加速现实世界训练
奖励函数设计	耗时费力，影响性能	Double/Multi-Critic, HRL	稳定学习复杂奖励，分解奖励信号	简化工程，实现更自然行为

3.2 打造“好故事”与促进研究创新

对于人形机器人运动强化学习而言，一个引人入胜的研究故事通常围绕着克服根本限制和实现类人能力展开。

创新支柱：
- 泛化到未见环境： 证明在训练中未明确见过的地形或干扰下具有鲁棒性能。具有上下文适应能力的Transformer在此提供了有力的叙事。
- 零样本仿真到现实迁移： 在真实硬件上实现成功部署，无需任何真实世界微调。教师-学生框架是关键的推动者。
- 涌现行为： 无需明确编程或参考运动即可学习复杂的、自然的运动技能（例如，动态手臂摆动、自适应步态）。这展示了端到端学习的力量。
- 减少工程工作量： 最大限度地减少繁琐的奖励工程或系统识别的需求。双评论家或无参考学习方法有助于实现这一点。
- 人类水平性能/适应性： 在极端条件下突破动态平衡、敏捷性和导航的极限。

叙事构建： 将所选架构框定为使机器人实现以前困难或不可能的壮举的关键创新，直接解决一个核心挑战。例如，“我们对因果Transformer的使用使人形机器人能够通过学习推断和响应未见地形属性来实现前所未有的零样本现实世界适应性，这种能力以前受限于固定策略。”

4. 超越核心：新兴架构与未来方向

4.1 分层强化学习（HRL）

分层强化学习（HRL）涉及多层策略，这些策略被训练以在更高层次的时间和行为抽象级别上执行决策和控制。高级策略（HLP）通过为低级策略（LLP）设定目标来规划更长的时间尺度，低级策略在环境中执行动作。

优势：
- 解决复杂任务： 能够学习需要多级推理和长期规划的高度复杂行为，例如运动与物体交互相结合。
- 提高样本效率： 比扁平强化学习更具数据效率，特别是对于高级和低级都采用离策略方法时。
- 更好的探索： 允许在复杂环境中进行更适当的探索。
- 模块化： 提供模块化结构，允许组件的互换。
- 通用适用性： 可以通过训练低级策略达到由高级策略学习和指导的目标状态来实现通用性，而无需手动多任务设计。
- 减少奖励工程： 通过将足部放置作为目标，可以减少对大量奖励工程的需求。
劣势：
- 非平稳性： 低级策略的变化可能导致高级策略的问题变得非平稳。
- 设计复杂性： 需要仔细设计层次结构以及各层之间的通信。
- 学习动力学模型： 某些方法可能需要为每个原语学习动力学模型。

在运动强化学习中的应用： HRL与复杂地形上的四足和双足机器人运动高度相关。

它可以学习在有间隙和高度变化的地形上优化足部放置的策略。
HLP可以通过LLP学习到的价值函数进行在线优化，而无需额外的训练或环境样本。
示例包括在迷宫般的环境中导航、推动物体以清除路径或使用方块作为桥梁。

人形机器人任务不仅仅是行走；它们涉及复杂的运动序列、操纵和交互。扁平强化学习难以处理这种多级推理和长时程问题。HRL通过引入抽象提供了一个原则性解决方案。这里的核心在于使机器人能够执行需要“人类水平技能”的任务，通过将复杂性分解为可管理子问题。创新之处在于使复杂的、多模态行为变得可行，从而使研究人员能够解决以前被非HRL方法认为无法解决的任务。这对于开发真正通用的人形智能体至关重要。

4.2 生成模型（VAEs, GANs, Diffusion Models）

深度生成模型（DGMs），如变分自编码器（VAEs）、生成对抗网络（GANs）和扩散模型，旨在学习数据的底层分布并从该分布中生成新样本。

VAEs： 学习数据的压缩潜在表示，并可以从该潜在空间重建数据。
GANs： 由生成器和判别器组成，通过对抗过程进行训练以生成逼真数据。
扩散模型： 学习反转噪声过程以生成数据。
优势：
- 行为生成： 可以生成多样化和复杂的行为。
- 状态表示： 学习紧凑且有意义的状态潜在表示。
- 数据增强： 可以通过生成新轨迹来增强离线数据。
- 离线策略学习： 在离线强化学习和模仿学习中，通过从离线数据中学习生成器函数，显示出巨大潜力。
- 多模态输入： 有效融合来自多种模态的输入。
- 技能获取： 可以从专家轨迹中提取有意义的子序列（技能）用于分层模仿学习。
劣势：
- 训练稳定性： GANs由于模式崩溃和训练不稳定而难以训练。
- 外推误差： 在离线强化学习中，生成超出观测数据分布的动作可能导致性能不佳。
- 计算成本： 训练复杂的DGM可能计算密集。

在运动强化学习中的应用： DGM在从数据中学习机器人行为模型方面越来越受欢迎，特别是在模仿学习和离线强化学习中。

策略近似： GANs可以通过最小化统计散度来训练策略使其接近专家行为。
世界模型近似： GANs可以近似环境的转换动力学和奖励函数，这对于基于模型的离线强化学习至关重要。
行为克隆增强： VAEs可以建模专家策略，学习紧凑的状态表示，并建模整个轨迹以用于多任务策略。它们还通过学习解耦表示来解决因果混淆问题。
技能学习： NFs可以用作动作解码器，将潜在变量转换为原始动作或固定长度的技能序列。

传统强化学习常受数据稀缺和大量交互需求的困扰。生成模型提供了一种强大的方式来利用大规模

离线数据集来合成多样化和鲁棒的行为，而不仅仅是学习单一策略。这为创新提供了一个有力的方向，因为它将范式转向数据驱动的行为生成，使机器人能够从演示中获取复杂的运动技能或通过近似世界模型来实现。这种方法可以带来更自然、类人的运动和更好的泛化能力，通过捕捉所有可能的行为范围，解决了连续动作空间中探索有限的挑战。

4.3 图神经网络（GNNs）

图神经网络（GNNs）将深度学习架构推广到处理非欧几里得数据，特别是以图形式表示的数据。它们擅长建模以图表示的系统中的复杂关系和结构依赖性。

优势：
- 捕捉结构依赖性： 擅长捕捉固有的结构依赖性和关系信息，这对于机器人技术至关重要，因为空间关系和连接性至关重要。
- 鲁棒和自适应策略： 通过利用丰富的空间和关系信息，可以获得鲁棒和自适应的策略。
- 处理复杂性： 即使模型复杂性增加（例如，生物体腿部更多），也能保持一致的性能，这与传统FNNs不同。
- 动态适应： 时序GNNs能够有效适应节点值随时间的动态演变。
劣势：
- 引用的材料没有明确详细说明GNN在强化学习运动任务中的局限性，只提到了缺乏对不同GNN架构的全面比较分析。
- 需要进一步研究才能在日益复杂的控制任务中充分利用GNN的预测精度。

在运动强化学习中的应用： GNN与DRL集成，通过将机器人身体或环境中的复杂关系建模为图，优化机器人任务的控制策略，重点是运动。

NerveNet： 将GNN应用于强化学习运动，利用智能体的结构通过其策略网络传播信息以预测动作。在尺寸和残疾迁移以及多任务学习方面表现出色。
封建图强化学习： 使用分层消息传递过程进行控制动作，通过分层图传播高级决策。
可以比较静态和动态GNN架构的控制策略预测。

人形机器人是具有许多相互连接的关节和传感器的复杂系统，形成了自然的图结构。传统的神经网络通常将观测视为扁平向量，从而丢失了这种固有的关系信息。GNN提供了一种原则性的方法来明确建模这些关系。这里的核心在于开发“结构感知”策略，从而实现更鲁棒和自适应的运动。这可以实现更好地泛化到具有不同形态的机器人（“尺寸和残疾迁移”——），甚至通过理解身体部位如何相互作用来促进新技能的学习，这是多功能人形智能体的关键创新。

4.4 隐式神经表示（INRs）

隐式神经表示（INRs）用深度神经网络近似的连续函数取代了传统的离散网格采样信号表示（例如，像素图像）。这些网络将低维坐标作为输入，并输出相应位置的信号值（例如，颜色、密度）。

优势：
- 分辨率无关： 不受空间分辨率限制，提高了内存效率并克服了分辨率限制。
- 连续表示： 有利于需要精细细节或插值的任务。
- 紧凑表示： 可以用更少的参数实现精细表示。
劣势：
- 高频分量建模： 传统的基于ReLU的多层感知机（MLPs）难以处理高频分量；其频谱迅速衰减。傅里叶神经网络（FNNs）可以部分解决这个问题，但对于复杂拟合需要更多的训练参数。
- 计算资源： 可能增加对计算资源的需求。

在运动强化学习中的潜在应用： 尽管引用的材料没有包含INRs在强化学习中用于机器人运动的具体细节，但其一般应用包括表示场景或3D对象、时间序列预测和求解微分方程。

场景/环境表示： INR可以表示复杂、连续的地形表面或障碍物场，为机器人的策略提供高保真、分辨率无关的观测空间。
轨迹/策略表示： 策略可以表示为INR，将连续的状态-时间输入映射到连续的动作输出，可能导致更平滑、更灵活的控制。
正向动力学建模： 可以隐式建模机器人的动力学或环境交互作为连续函数。

机器人技术，特别是运动，涉及连续的物理空间和动力学。传统的离散表示（例如，像素网格、固定状态向量）可能会丢失信息或难以进行插值。INRs提供了一个向连续表示的根本性转变。这里的核心在于使机器人能够以前所未有的保真度感知并与环境交互，这可能导致更精确、自然和鲁棒的运动。尽管在运动强化学习中的直接应用没有详细说明，但其暗示是INRs可以构成更准确的世界模型或状态表示的基础，从而使策略能够学习更精细的控制并适应微妙的环境变化。这对于在高度非结构化和动态的现实世界环境中导航可能是一项重大创新。

4.5 混合方法（例如，MPC-DRL）

混合方法结合了不同控制范式的优势，例如模型预测控制（MPC）和深度强化学习（DRL）。MPC依赖预定义的数学模型实时解决优化问题，生成期望轨迹。DRL通过系统交互学习控制策略，适应各种场景。

优势：
- 优势互补： 将MPC基于模型的优化原理与DRL的适应性和学习能力相结合。
- 提高鲁棒性： DRL可以预测干扰（例如，来自摆动腿的干扰）并将其输入MPC，从而使MPC能够计算出抵抗这些干扰的最佳地面反作用力，从而实现更稳定的运动。
- 降低建模复杂性： DRL可以避免复杂的建模和参数调整过程。
- 扩大应用范围： 可以将基于模型方法的适用性扩展到假设（例如，腿部质量可忽略不计）不成立的场景。
劣势：
- 训练复杂性和时间： DRL方法仍需要大量的训练时间。
- 计算密集： 将DRL与MPC结合会增加计算开销。
- 经验调优： 某些DRL参数可能仍需要经验调优。
- 极端条件下的限制： 在非常大的干扰下可能无法保证稳定性。

在运动强化学习中的应用： 一个值得注意的应用是使用DRL（例如PPO）预测双足机器人摆动腿引起的干扰，然后将这些预测输入MPC框架，以计算出稳定行走的最佳地面反作用力。这增强了稳定性，特别是对于腿部质量不可忽略的机器人。

传统控制方法（如MPC）受限于复杂动力学系统建模不准确。DRL虽然强大，但可能样本效率低下且不稳定。混合MPC-DRL方法代表了一种强大的协同作用。这里的核心在于克服纯模型方法和纯学习方法的局限性。通过使用DRL“预测干扰” ，系统获得了对未建模复杂性的适应性，而MPC则提供了实时、最优的控制保证。这显著提高了鲁棒性，并扩大了先进控制方法在挑战性真实世界人形机器人运动场景中的实际适用性。这种方法代表了创新的一种务实且高效的方向。

5. 结论与人形机器人运动研究建议

本报告对人形机器人强化学习运动中关键神经网络架构进行了全面分析。所探讨的每种架构都为应对当前挑战和推动未来创新提供了独特的能力。

架构选择的综合考量：
- 时序建模： 对于本体感觉等序列数据，LSTM 提供鲁棒的长期记忆能力，而 GRU 则提供了计算效率更高的替代方案。
- 视觉感知： CNN（特别是采用 ResNet 作为骨干网络）对于处理高维视觉输入不可或缺。将其与 对比学习 结合对于从无标记数据中进行数据高效的表示学习至关重要。
- 自适应和可泛化策略： Transformer 处于领先地位，通过其强大的注意力机制和并行训练能力，实现了前所未有的上下文适应和零样本仿真到现实迁移。
- 训练稳定性和效率： 教师-学生框架 对于利用仿真数据、实现样本效率和鲁棒的仿真到现实迁移至关重要。双评论家/多评论家 架构增强了训练稳定性，尤其是在处理复杂混合奖励信号时。
战略性问题解决：
- 仿真到现实： 优先考虑 Transformer 和 教师-学生 框架，利用大规模随机化仿真。
- 动态平衡： 整合 循环网络 用于状态历史，并采用 双评论家/多评论家 与精心设计的奖励函数（例如，基于ZMP的奖励）相结合，以稳定地学习动态行为。考虑 Transformer 用于涌现自适应步态。
- 长期规划： 探索 Transformer（决策Transformer）用于目标序列建模，以及 分层强化学习 用于任务分解。
- 样本效率： 实施 对比学习 用于从像素中进行鲁棒表示学习，并利用 教师-学生 框架进行高效知识迁移。
促进创新和“好故事”：
- 将重点放在 涌现行为（例如，Transformer产生的手臂摆动）上，作为端到端学习力量的证明。
- 强调 零样本迁移 作为现实世界适用性的关键成就。
- 突出 减少工程工作量（例如，双评论家减少奖励调整，DRL减少系统识别）。
- 探索 混合方法（例如，MPC-DRL）作为一种务实的方式，结合模型方法和学习方法的最佳优点，以实现鲁棒性能。
- 研究 新兴架构，如 GNN 用于结构感知策略，以及 生成模型 用于多样化行为合成，从而突破人形智能的界限。
- 考虑 隐式神经表示 用于新颖的、连续的世界和策略表示。
未来研究方向：
- 开发更鲁棒、更高效的 混合架构，将经典控制与DRL无缝集成，特别是用于处理极端干扰和复杂地形。
- 进一步研究机器人领域的 基础模型，可能利用大规模预训练的各种机器人数据，并将其与人形实体集成，以实现通用能力。
- 探索先进的 自监督和无监督学习 技术（超越当前的对比学习），以减少对标记数据的依赖，并提高现实世界部署的样本效率。
- 研究人形机器人的 可解释强化学习策略，特别是对于安全关键应用，可能利用模块化或受大脑启发式架构。
- 开发人形机器人运动和操纵任务的标准化 基准和数据集，以促进比较性能评估并加速研究。

用于人形机器人强化学习运动的神经网络架构分析