RoboVerse--为机器人学习打造的大一统世界--UC Berkeley...--2025.4.26-EW帮帮网

在这里插入图片描述
ROBOVERSE 包含一个可扩展的仿真平台、大规模的合成数据集，以及统一的基准测试。

该仿真平台通过统一协议，支持新任务和演示的无缝接入，保证了灵活性和可扩展性。
该数据集包含 1,000 多个多样化任务及超过 1,000 万个状态转换，构建手段包括大规模数据迁移、跨机型迁移，以及强健的数据增强和随机化。

0. 前言

最近在复现了几个VLA之后，重点转移到如何将现有的VLA部署到自己的任务上，但是每种VLA的仿真环境、所需求的数据集类型、格式等等各不相同，令我十分苦恼，十分想要有一个环境、基准、数据集都能够方便的应用各种现有的，甚至未来的 VLA。

目前 HuggingFace 的 lerobot 是在做类似的工作，LeRobot 确实在朝「一套通用接口＋数据＋仿真环境」的方向努力，不过它跟我心目中那种专门针对 VLA 的「开箱即用」平台还有些差别，目前 LeRobot 的核心方法主要还是模仿学习（imitation learning）和强化学习（RL），它把人类示范＋经典 RL 算法打包好了，方便训练和评估。

RoboVerse 也是类似的工作，不过集成的仿真环境更多一点，提供了更完善的资源格式转换，但是实际效果还需要和lerobot对比之后才知道，最近还加入了SmolVLA，2025.6.2，huggingface自己发的一篇VLA，主要特点就是速度快，推理资源消耗小。

1. 背景与相关技术

1.1 提出问题

老生常谈，数据规模化和标准化评估基准推动了 NLP 和 CV 的重大进展，具体而言，大规模数据提供了充足的训练样本以增强学习效果，而统一基准则实现了用标准化的评估衡量不同方法的公平比较。

然而，机器人领域在数据扩展与建立可靠评估协议方面面临独特挑战，收集真实环境下的机器人数据既耗费资源又低效，而在真实场景中进行基准测试也非常复杂。

首先，采集示范耗时且资源密集，所得数据通常依赖特定硬件或感知模态，限制了其向新场景的适应性。
建立标准化且广泛适用的基准本质上很难，因为几乎不可能重现完全相同的条件来保证公平比较。例如，同一物体的位置在多次运行中会变化，户外自然光照会波动，背景环境也可能改变。

因此，在真实场景中扩展数据集、评估策略和迭代开发仍然成本高昂且难以标准化。

模拟器为构建大规模数据集和基准测试提供了有前景的替代方案。近期诸多工作已在不同的机器人任务中展示了基于仿真的方法潜力，但现有尝试常在数据质量、多样性和基准标准化方面不尽如人意。

首先，使用模拟器往往需要丰厚专业背景，因模拟器设计复杂且多平台尚不成熟，进而使数据构建过程复杂化。
其次，各模拟器在内部架构和外部接口上差异巨大，导致数据和模型的迁移或工作流的适配都非常费力。

因此，复用现有合成数据集和基准变得困难，形成了分散的生态系统，进一步阻碍了在仿真环境中便捷构建和有效利用大规模数据。

模拟器是⼀切的基础物理引擎
仿真环境则是在此基础上，构建起完整的「任务＋数据＋评测」体系。

1.2 解决问题

为解决这些难题，作者提出了 ROBOVERSE，一个可扩展的仿真平台，将现有模拟器在统一格式与基础设施下整合，并提供大规模合成数据集与统一基准。为达成此目标，作者首先提出 METASIM，作为 ROBOVERSE 的核心基础设施。

通过精心设计，METASIM 为智能体、物体、传感器、任务和物理参数建立了通用配置系统，并提供了与模拟器无关的接口来进行仿真设置与控制。

这种架构可实现来自不同仿真环境的任务、资源和机器人轨迹的无缝整合，仅需极少适配工作。

METASIM 提供了三大关键能力：

跨模拟器集成：支持在不同模拟器之间一键切换，让基准测试更统一、更方便迁移。
例如，可将 Meta-World [134] 的任务用于 Isaac Gym [75] 的快速并行训练，然后将生成的轨迹部署到 Isaac Sim [88] 进行渲染。
混合仿真：把一个仿真器的高级物理和另一个的超强渲染“拼”在一起，既高效又好看，让用户兼享不同模拟器的优势。
具体来说，仅需一条命令，即可将具备强大渲染能力的模拟器（如 Isaac Sim）与拥有精准物理引擎的模拟器（如 MuJoCo）联合启动，形成更强大的仿真，从而生成高质量数据。
跨机型迁移：通过重新定向末端执行器的姿态，在不同平行夹爪机械臂形态间复用轨迹，使来自多种机器人的数据能够整合为统一格式。
比如把 UR5 的抓取动作映射到 Panda 机械臂上，不用重新采集数据，也能让 Panda “学会”同样的操作。

METASIM 使 ROBOVERSE 能够系统地优化构建和扩展仿真环境与数据集的那个工作流。他们的方法具有以下特性：

可扩展且多样的数据生成：对齐多个基准和任务轨迹，通过多源整合与数据过滤，生成海量高质数据；再配合随机化和增强，数据多到让模型“吃不完”
真实感仿真与渲染：用混合仿真能力，把高精度物理和逼真场景拼到一起，让机器人“在虚拟世界里也能以假乱真”。
统一的基准与评估：将常用基准整合成一套系统，简化算法开发和性能比对，并引入标准化协议评估泛化与仿真到真实的迁移能力。
高扩展性与可扩展性：统一 API 与基础设施让算法集成、测试、部署更高效；并提供真到虚、遥操作、多种 AI 生成方法，助力大规模任务和数据创建。

借助这些工作流，ROBOVERSE 构建了迄今最大、最具多样性且高质量的合成数据集与基准，且均以统一格式呈现。该数据集包含约50万条高保真轨迹，涵盖276个任务类别和约5500个资源（资产）。此外，还生成了超过5000万条高质量状态转换以支持策略学习。

除了数据集和基准构建外，他们通过在模仿学习（第 VI‑B 节）、强化学习（第 VI‑C 节）和世界模型学习（第 VI‑E 节）上的大规模实验，探索了 ROBOVERSE 的潜力。此外，还为模仿学习和强化学习提出了统一基准，实现了不同泛化水平下的一致评估。

结果表明，ROBOVERSE 可实现可靠的策略学习与评估，通过高保真物理和渲染支持强大的sim2sim（第 VI‑G 节）及sim2real（第 VI‑F 节）迁移，并通过遥操作（第 IV‑C 节）、轨迹增强（第 IV‑D 1 节）、域随机化（第 IV‑D 2 节）和生成模型（第 IV‑C 节）等方法高效扩展数据。

1.3 相关工作

1.3.1 机器人模拟器Simulator

计算机图形学的进步促进了高保真模拟器的发展，这些模拟器在机器人研发中被广泛使用。

CoppeliaSim、Bullet 和 MuJoCo 提供精确的物理仿真，并在强化学习和机器人基准测试等应用中得到广泛使用。

Isaac Gym、Isaac Sim、SAPIEN、MuJoCo MJX 和 Genesis 利用 GPU 算力以提升性能，支持大规模强化学习和高效数据收集，大幅提高训练速度和可扩展性。

有些模拟器专注于缩小 sim2real 的差距，引入光线追踪和定制渲染器以实现照片级真实感渲染。此外，Isaac Sim 和 Genesis 提供高保真的软体和液体仿真，拓展了机器人与柔性物体和流体互动的场景。

ROBOVERSE 提出一个支持多种模拟器的统一平台，便于在它们之间无缝切换，并启用混合集成以发挥各模拟器的优势。

1.3.2 大规模的机器人数据集

机器人社区长期以来一直认识到大规模、高质量和多样化数据集的匮乏。

RoboNet 是一个大规模操控数据集，包含来自多种机器人平台的大约 16.2 万条轨迹。DROID 已收集了超过 7.6 万条富含接触信息的机器人操作示范，涵盖 86 个任务。RH20T 提出了一个包含 10 万多条示范和 147 个任务的数据集。

与此同时，RT‑1 将示范数量提升至 13 万条，覆盖 700 多个任务。Open X‑Embodiment 展示了一种有前景的方法，汇集社区力量，收集了 100 多万条轨迹，涵盖 160,266 个任务和 22 种不同的机器人形态。

这个纯纯缝合怪，收集了大量学校、研究所、各种机构的数据，质量参差不齐，用的时候一般就是摘出来自己想要的去用

在此阶段，随着示范轨迹数量增加，采集成本和投入的工作量成正比增长，令真实世界数据集难以进一步扩大规模。基于仿真的数据收集为真实世界数据集的高成本和低效率提供了有前景的解决方案。

Hussing等人提出的、RoboCasa、DexGraspNet‑2.0。尽管有这些工作，合成数据集常散落于不同的模拟器中，导致生态系统分散，数据多样性和质量受限。此外，仿真数据常无法涵盖真实世界中复杂的物理现象和多样化任务变体，可能导致对特定模拟器的过拟合，妨碍在现实场景中的泛化能力。

合成数据集很多了，但是很分散，而且不够“真”

ROBOVERSE 提供了一个针对大规模、高质量和多样化合成数据的统一解决方案。它让智能体可在大量不同环境和模拟器上训练，以减少过拟合，从而提升所学策略的鲁棒性。

1.3.3 机器人种的基准测试

基准测试在机器人领域依然是一个关键但极具挑战性的问题。与监督学习任务相比，评估机器人模型的性能相对更困难。

Meta‑World 是早期多任务基准测试的尝试。随后出现了 RLBench、BEHAVIOR‑1K、Habitat 和 ManiSkill 等，涵盖了大量不同的机器人任务。

Grutopia 和 InfiniteWorld 向通用型机器人基准测试迈出了关键一步。尽管为这些基准付出了大量努力，但并不保证在不同基准间的结果具有可复现性。这种不确定性来源于仿真精度、渲染风格和资源属性等多方面差异。

为应对这些挑战，ROBOVERSE 使研究者能够在多个基准和模拟器上无缝评估策略，而无需单独熟悉每一个平台。

2. 基础架构：METASIM

METASIM，一种位于各具体仿真环境实现之上的高层接口。它也是 ROBOVERSE 的核心基础设施。

如图 2 所示，METASIM 为 ROBOVERSE 仿真平台赋能，使其能够生成大规模高质量数据集，并构建统一的基准测试。
在这里插入图片描述
如图 3 所示，METASIM 采用三层架构：通用配置系统、与模拟器无关的接口，以及友好的环境封装层。

通用配置系统统一仿真场景的规范，并保证各模拟器间格式一致。
与模拟器无关的接口负责解析这些规范，将其转换为各模拟器所需的命令，从而对齐不同模拟器的后端实现。
环境封装层将上述无关接口包装成标准化的学习环境，比如 Gym 环境。

Gym 环境：强化学习中通用的接口规范，所有算法都能通过 step()、reset() 等方法对接。

将在下面的章节中更详细地介绍每一层。

2.1 METASIM 实现细节

2.2.1 通用配置系统

一个典型的仿真环境由智能体（agents）、物体（objects）、任务（tasks）、传感器（sensors）和物理参数（physics parameters）组成。

它们共同定义了：谁来执行动作（agents）、环境看起来的样子（objects）、智能体该做什么（tasks，包括指令、成功标准和奖励）、环境如何被感知和测量（sensors），以及支配物理运动的规则（physics parameters）。

理想情况下，这些组件应与模拟器无关，需要统一的仿真场景标准。无论跑哪个模拟器，都按照同一个模版来填，方便共享与复用。

这种标准将使研究者能够在不同模拟器间无缝工作，并通过跨模拟无缝整合社区已有成果。

基于这一原则，作者设计了 MetaConfig 配置系统，以与模拟器无关的方式抽象仿真场景。如图 4 所示，MetaConfig 是一个嵌套类，包含了上述核心组件。
在这里插入图片描述
它可以被不同的模拟器后端解释，用于构建相应的仿真环境。此外，MetaConfig 支持可选的模拟器特有超参数（如求解器类型），通过定制化充分利用不同模拟器的独特功能。

2.2.2 对齐的模拟器后端

不同模拟器在实现和功能侧重点上各有差异。然而，初始化场景、加载物体、推进物理引擎、获取观测、时间管理和判定成功状态等常规操作通常模式相似。

为标准化这些通用操作，作者通过 Handler 类创建了一个统一接口。每个模拟器都有一个对应的 Handler 实例来实现该接口。Handler 类实现了包括 launch()、get_states()、set_states() 等常用方法，覆盖了仿真任务的整个生命周期。API 的使用示例见代码 1。更多内容请参见补充材料。
在这里插入图片描述

2.2.3 用户友好的环境封装器

Gym 是强化学习和机器人领域广泛采用的范式，其中 gym.Env 类是构建学习环境的基础。他们定义了一个封装器，用于将 Handler 轻松转换为具备 Gym API（step()、reset()、render()、close()）的环境。

如代码 1 所示，这些方法均通过调用底层的 Handler 方法来实现。

3. RoboVerse 数据集

3.1 数据集概览

在 METASIM 之上，通过整合多种数据采集方法，生成大规模高质量数据集。总体而言，需要采集三类关键数据：任务（tasks）、资源（assets）和机器人轨迹（robot trajectories）。

任务：机器人要完成的操作指令；资源：场景中的物体模型、材质、灯光等；轨迹：机器人执行任务的连续状态与动作。

这些数据的主要来源是从现有模拟环境进行迁移。除了迁移，他们还探索了多种数据采集方法，例如利用大语言模型生成新任务，借助real2sim 工具集从现实中重建场景资源，通过遥操作收集新轨迹等。此外，还对轨迹和视觉观察数据采用增强方法。最后，报告了 ROBOVERSE 中数据迁移的最新进展统计。

3.2 任务、资源、轨迹收集：迁移

利用 ROBOVERSE 的格式和基础设施，作者以统一的格式和整洁的代码库，实现了对多种基准和数据集的无缝整合。

采用了以下方法来采集任务定义和示范数据：

直接从其他模拟环境迁移
部分基准自带重要组件，可直接集成到 ROBOVERSE 中。作者为任务初始化和评估定义环境配置，然后转换轨迹数据和资源格式，以实现无缝兼容。值得注意的是，ROBOVERSE 首先在原模拟器中对齐格式，然后自动确保所有模拟器间的兼容性，从而简化了迁移流程。
运动规划与强化学习部署
当部分基准只提供关键点轨迹或抓取姿态等片段数据时，使用运动规划生成完整的轨迹。若无现成的示范数据，但已有可用的策略或强化学习框架，我们将利用这些策略或新训练策略，通过部署（rollout）收集示范数据。为保证数据高质量并符合我们的系统标准，他们会对成功判定器进行适配，并严格过滤规划与收集到的所有轨迹。

通过上述技术，已将多种现有的操作数据集迁移至 ROBOVERSE：目前，它支持的包括 ManiSkill、RLBench、CALVIN、Meta-World、robosuite、MimicGen、GAPartNet、Open6DOR、ARNOLD、LIBERO、SIMPLER、GraspNet、GarmentLab 以及 UniDoorManip 等数据集。

他们还集成了更广泛机型的数据集，包括灵巧机械手、四足机器人和人形机器人，涵盖灵巧操作、运动、导航与全身控制等任务。目前，已迁移了用于导航的 VLN‑CE R2R 和 RxR，以及用于行走和全身控制的 HumanoidBench 和 Humanoid‑X。

3.3 任务、资源、轨迹收集：遥操和生成

3.3.1 用于轨迹采集的遥操作系统

正如图 5 所示，ROBOVERSE 在 METASIM 架构中集成了遥操作系统，提供了灵活高效的高质量数据采集方案。
在这里插入图片描述
它支持多种机器人系统，包括机械臂、灵巧机械手以及双臂配置，实现了跨模拟器的无缝遥操作。

为降低专业设备的高成本和复杂性，他们引入了一种交互式运动控制系统，采用键盘、手柄、移动应用（我们针对 Android 和 iOS 开发了新应用用于控制机械臂；详见补充材料）、动作捕捉（Mocap）和 VR 系统等易得设备。

这些设备集成的传感器能够捕捉运动数据，实现自然的手势式控制，并通过实时高频通信保证精确且低成本的远程操作。更多细节请参见补充材料。

3.3.2 AI 辅助任务生成

利用大型生成模型的泛化能力，AI 辅助任务生成为任务类型和场景分布多样化提供了机制。通过学习示例摆放，它能够理解空间和语义约束（例如，通过展示特定约束，它可以学习将物体合理分散以避免重叠等）。

它能将源自不同基准的数据按物理合理的方式在 METASIM 中组合场景，如图 6 所示。
在这里插入图片描述
通过在机器人和物体的选取及其初始姿态中引入随机化，大型生成模型能够生成多样化的初始状态。系统可自动输出所有所需配置文件，统一格式，便于即时可视化和用户友好编辑。

任务生成后，作者会进行两步过滤以避免错误与“幻觉”： (1) 格式验证：不符合 ROBOVERSE 标准格式的任务将被剔除； (2) 可行性检查：由于轨迹数据来自人工遥操作，遥操作员认为不合理的任务也会被移除。

通过发挥大型生成模型的外推能力和少样本学习能力，他们在统一模式下自动整合资源，推动跨模拟器和基准的任务生成。

3.3.3 用于资源构建的 real2sim

基于视频的重建通过利用 real2sim 技术，已被证明是数据与资源创建的宝贵来源。他们的方法整合多条重建流水线，从视频数据中提取高保真资源。

首先，使用 COLMAP 初始化场景结构，并采用 Gaussian Splatting 实现高质量渲染。接着，将语义图像和原始图像一并输入视觉-语言模型（VLM），推断物理属性。

在几何重建方面，从视频中估计表面法线，应用 surfel splatting，并结合动态滤波的 TSDF 方法重建细致网格。通过利用语义掩码，从 Gaussian 和网格表示中有选择地提取组件。

为进一步增强真实感，他们直接从视频中推断并学习物体运动学，确保运动表示精准。最后，通过精炼坐标系、姿态、轴对齐、比例、相对六自由度位姿及 PD 控制参数等关键属性，生成 URDF 模型。

该流程有效弥合了真实视频数据与仿真资源之间的鸿沟，提升了机器人学习和仿真的真实度。还在补充材料中展示了对比实验，证明这种方法能显著提升真实环境策略性能。

3.4 数据增强

3.4.1 轨迹增强

借助统一的仿真接口和数据格式，ROBOVERSE 实现了大幅高效的数据增强，并支持高级增强技术。

除了《基准协议》中详述的视觉随机化，还提供了强大的轨迹空间增强。提供了 API，可从有限的示范数据生成大规模机器人轨迹数据集。

遵循 MimicGen 框架，对于大多数任务，将其分解为面向物体的子任务序列，假设每个任务的子任务顺序是预先定义好的，借助对子任务顺序的最少人工标注，我们可利用仿真器将每条示范高效切分为连续的面向物体的操控片段，然后使用 MimicGen 为不同任务变体（如物体（D）和机器人（R）的初始与目标状态分布）生成大规模轨迹数据集。

该方法已被证明可显著提升模仿学习的泛化能力，尤其在示范数据有限的情况下效果尤为明显。

3.4.2 域随机化

在 METASIM 的 Isaac Sim Handler 中实现了域随机化。这包括四种随机化类型：

桌面、地面、墙面：对于缺少预定义场景的任务，可添加墙壁（和天花板）；对于桌面操作的任务，可包含可定制的桌子。这些元素的视觉材质从精选的 ARNOLD 和 vMaterials 子集中随机选择。桌子约有 300 种材质选项，而墙面和地面各约有 150 种材质选项。
灯光条件：可指定两种灯光场景：远光源和圆柱灯阵列。对于远光源，随机化其极角；对于圆柱灯阵列，则在智能体上方固定高度处添加随机尺寸的 n × m 圆柱灯矩阵。两种场景中，灯光强度和色温都在合理范围内随机化。
摄像机姿态：精心挑选了 59 个候选摄像机位置，其中大部分正对机器人，少部分位于侧向角度。
反射属性：各表面的粗糙度、高光和金属度属性在合理范围内随机化。

这些随机化选项可自由组合。例如，可在场景中同时包含自定义桌子、有天花板的墙壁和一组圆柱灯，以模拟室内环境。详情请参见补充材料。

3.5 RoboVerse 数据集

3.5.1 数据集统计

操作数据集
将来自现有基准的多样化操作数据集迁移至 ROBOVERSE，各源基准贡献的任务类别数、轨迹数和资源数汇总见表 I。

总计该迁移产生了 276 个任务类别、51.05 万条轨迹以及 5.5k 个资源。具有丰富域随机化的代表性任务示例见图 8。

左侧为其他具有代表性的合成机器人数据集，右侧为 ROBOVERSE 数据集。
导航数据集
将视觉-语言导航（VLN）任务迁移至 ROBOVERSE。请注意，VLN 任务有多种不同设定；作者特别关注连续环境中的 VLN（VLN-CE），因为它更贴近真实场景。
具体而言，通过整合 MatterPort 3D 场景（90 个场景）以及 R2R （1 万条集）和 RxR（2 万条集）的现成指令，在 ROBOVERSE 中构建导航数据集。
提供两种移动机型：Unitree Dog（四足机器人）和 JetBot（轮式机器人），它们支持不同的控制策略。导航数据集的详细说明请参见补充材料。
人形数据集
将 HumanoidBench 的任务用于强化学习基准，并整合来自 Humanoid-X 和 SkillBlender 的任务、策略和数据样本。此外，在框架内重新实现了 UH-1 推理流水线。
预训练策略成功使人形机器人在多个基于 ROBOVERSE 的模拟器中，既能跟随示范姿态，又能保持稳定的运动。

4. RoboVerse基准测试

利用所收集的任务、资源和轨迹，ROBOVERSE 建立了机器人学习的标准化基准测试，包括模仿学习和强化学习两大类别。在 ROBOVERSE 平台内定义了统一的训练与评估协议，并实现了标准化的基线模型和学习框架用于基准测试。

具体地，对模仿学习，设计了不同层次的泛化基准，以评估模型的泛化能力。

4.1 模仿学习基准测试

针对每个模仿学习基准，建立了包含固定示范数据集和可控评估环境的标准化评测框架。策略必须仅在提供的训练数据上进行训练，并在该环境中进行评测，以确保公平比较。

为了严格测试泛化能力，从特定领域筛选训练数据，并在未见样本上评估策略，考验其对新场景的适应性。将视觉泛化因素系统地划分为多个层次：任务空间泛化、环境布置泛化、相机设置泛化，以及光照和反射泛化。

每个层次通过受控的变化引入新的挑战，以评估策略在愈发多样且困难条件下的适应性和鲁棒性。
在这里插入图片描述

level 0 ：任务空间泛化
我们通过统一相机、材质、光照及其他参数来标准化环境，以实现受控评测。任务空间（包括物体初始化和指令）按 90% 训练、10% 验证划分，以评估在固定设置下的泛化能力，如图 9 (a) 所示。
Level 1: 环境随机化
在标准化设置基础上，引入场景随机化，但保持相机、材质和光照固定。通过改变房屋、桌子和地面布局，我们生成多样化的视觉输入，以测试对环境变化的鲁棒性。预定义一组固定的随机场景，以确保结构化评测，如图 9 (b) 所示。
Level 3: 材质和光照随机化
真实环境中存在多样化的材质和光照条件，为模拟这些挑战，我们对光照和反射进行随机化，并精心选取真实的物体材质和照明配置。如图 9 (d) 所示，这提升了在多变条件下的鲁棒性测试效果。

4.2 强化学习基准测试

除模仿学习外，ROBOVERSE 还提供了全面的强化学习基准，支持多样化任务、机器人形态和仿真后端。具体而言，将 Stable-Baselines3 和 rsl_rl 中的 PPO 算法集成到 METASIM 接口，实现了简便的任务定义、无缝的环境切换及标准化的性能记录。

基于此基础设施，已成功将 HumanoidBench 中的多个人形控制任务移植到 ROBOVERSE 中。通过文中针对 rsl_rl 的适配接口，我们高效扩展了框架兼容性，支持原基准中的 TD-MPC2 算法，并保持了实现的一致性。

5. 实验结果

首先，他们在来自多个基准的代表性任务上评估基线方法，以确保所收集数据集和建立基准的可靠性。包括对模仿学习基线（第5.1节）和强化学习基线（第5.2节）的评估。接着，进一步展示了高质量合成数据集的优势，发现合成数据能显著提升世界模型学习效果。

5.1 模仿学习基准测试的结果

为真实反映 ROBOVERSE 数据集的数据质量并为各种模仿学习策略模型提供标准基准，我们选取了当前流行的专用型（specialist）和通用型（generalist）模型作为基线。

专用型模型：针对某一类任务优化；通用型模型：适配多种任务。

具体而言，专用型选用 ACT 和 Diffusion Policy；通用型则在 OpenVLA 和 Octo 上进行基准测试，并使用他们的合成数据集对它们进行了微调。

借助 ROBOVERSE 的格式与基础设施设计，能够在统一平台上评估不同任务上的模型表现。为全面测试策略模型在多样化设置下的表现，作者从 ROBOVERSE 整合的每个源基准中各选取一个代表性任务，如表 II 所示。
在这里插入图片描述
这些任务不仅要求精确的抓放技能，还需与可动部件进行富接触的物理交互。通过这些任务，基准结果可全面反映各模型在不同场景下的表现。

由于时间和资源限制，对专用型与通用型模型采取了不同的实现策略，且所有结果均在单任务设置下获得。训练和评估设置遵循第 4.b 节中规定的 90/10 ROBOVERSE 基准协议（90% 训练、10% 验证）。

评估时，从训练集中随机选取 10 种任务设置，从验证集中再选取 10 种；报告的成功率为三个随机种子下的平均值。每步输入为 256×256×3 的 RGB 图像和一段根据任务设定生成的简短语言描述。

对专用型模型，从头训练，动作空间为 9 维机器人关节状态。对通用型模型，动作由绝对末端执行器位置预处理为位置增量，夹爪动作离散化为二值 {0, +1}。由于时间和资源有限，仅在单任务设置下对通用型模型进行微调。

评估时，使用 cuRobo 作为逆运动学求解器，将动作转换为机器人关节空间命令。具体实现细节和超参数请参见补充材料。表 II 中展示模仿学习基准测试结果，在表 III 中展示泛化评估结果（这些任务被分成了不同的泛化等级去评估）。
在这里插入图片描述
还对大型视觉-语言-动作模型在简单和复杂的语言条件任务上进行微调，结果见表 VIII。

5.2 强化学习基准测试的结果

使用 Stable-Baselines3 和 rsl_rl 的 PPO 实现，在一致的超参数设置下，对 IsaacLab 提供的任务进行策略训练。对额外任务（人形机器人、灵巧机械手），同样采用基于 PPO 的工作流程。

成功将 HumanoidBench 从 MuJoCo 迁移到 ROBOVERSE，使得可在 Isaac Sim 和 MuJoCo 等多个模拟器上通过一致接口进行训练。实验结果表明策略在各模拟器上均能稳定收敛，并达到与原生 MuJoCo 基线相当的性能。

利用 rsl_rl 的通用性，进一步将基准扩展至支持 TD-MPC2 算法，该算法在所有环境中表现出稳健的训练动态。有关实现细节、奖励曲线和扩展实验结果，请参见补充材料。

5.3 扩展实验

为验证轨迹增强 API 的有效性，在四个代表性任务上比较了 Diffusion Policy 在 50 条源示范和 200、1000、3000 条生成增强示范下的成功率（模仿学习设置）。图 10 的结果表明，随着生成数据量的增加，模型性能持续提升，突出了轨迹增强 API 的有效性和可扩展性。
在这里插入图片描述

5.4 世界模型学习

最近在通用视频生成和交互式世界模型方面取得了令人鼓舞的进展。然而，超大规模的机器人数据集依然稀缺，这阻碍了稳健世界模型在各类机器人应用中的开发。

本节中，演示了如何利用 ROBOVERSE 合成数据增强真实数据集，以训练更强大的机器人世界模型。当模型仅以 DROID 数据集的 5 万个回合训练时，虽然通常能遵循动作指令，却难以准确模拟夹爪与目标物体间的物理交互。

如图 11 所示，接触时物体常出现“扭曲”现象。
在这里插入图片描述
当再加入 ROBOVERSE 的 5 万条合成回合，组成共 10 万条混合数据集后，模型在保持物体几何形状方面的预测明显改进。

但仅仅“观看视频”依然不足以学习 DROID 中复杂的物理交互。相比之下，若仅在 ROBOVERSE-50K 或 DROID‑RoboVerse‑100K 混合集上训练并在 ROBOVERSE 样本上验证，生成帧在大多数场景中物理真实性更高，具体细节见补充材料。这种改进归功于 ROBOVERSE 中丰富的随机化与增强手段。

5.5 通过模仿 ROBOVERSE 数据集，可以实现仿真环境到现实世界的无缝迁移

ROBOVERSE 系统将强大的物理引擎与高质量渲染器无缝结合，保证生成逼真且高保真的数据。为展示其潜力，进行了直接仿真到现实转移（sim-to-real）的验证实验。

如图 12 所示，在 ROBOVERSE 数据集上微调 OpenVLA，并将所学策略直接应用于真实场景，无需额外微调。模型成功操作了此前未见过的物体和环境，展示了系统的鲁棒性和泛化能力。
在这里插入图片描述
在更具挑战性的语言引导任务上，表 V 中的定量结果进一步证明了在 ROBOVERSE 数据集上训练的模型具有较高的成功率。更多细节请参见补充材料。

5.6 通过强化学习实现Sim-to-Sim-to-Real

大规模并行环境在大范围探索中具有显著潜力，并对强化学习任务高度有效。然而，尽管效率极佳，它们在某些场景下的精度可能受限，为解决此问题，仿真对仿真（sim-to-sim）评估与微调提供了有前景的解决方案。

先在粗糙快仿真中探索，再切换到高精度慢仿真中精调。

如图 13 所示，ROBOVERSE 平台无缝支持上述功能，实现了稳健的 Sim-to-Sim-to-Real 转换。
在这里插入图片描述

RoboVerse--为机器人学习打造的大一统世界--UC Berkeley...--2025.4.26