摘要:机器人模仿学习已经从解决静态任务发展到解决动态交互场景,但由于需要与动态环境进行实时交互,测试和评估仍然成本高昂且具有挑战性。 我们提出了EnerVerse-AC(EVAC),这是一种基于代理预测动作生成未来视觉观察的动作条件世界模型,可以实现逼真且可控的机器人推理。 EVAC在先前架构的基础上,引入了多级动作调节机制和光线图编码,用于动态多视图图像生成,同时扩展了具有不同故障轨迹的训练数据,以提高泛化能力。 作为数据引擎和评估器,EVAC将人类收集的轨迹扩充到不同的数据集中,并为政策测试生成逼真的、动作条件下的视频观察,从而消除了对物理机器人或复杂模拟的需求。 这种方法在保持机器人操作评估的高保真度的同时,显著降低了成本。 广泛的实验验证了我们的方法的有效性。 代码、检查点和数据集可以在Github上找到。Huggingface链接:Paper page,论文链接:2505.09723
研究背景和目的
研究背景
随着机器人技术的快速发展,机器人模仿学习(Robotic Imitation Learning)已成为解决复杂和多样化交互场景中机器人操作任务的关键技术。传统的机器人学习主要依赖于静态任务环境中的孤立解决方案,而现代机器人系统则需要在动态环境中进行实时交互,这对测试和评估机器人策略的性能提出了新的挑战。传统的评估方法通常需要在物理机器人上进行直接部署或创建大规模的3D仿真环境,这些方法不仅成本高昂、劳动密集,而且难以扩展到多样化的任务场景中。
近年来,利用视频生成模型作为世界模拟器的概念逐渐兴起,为机器人学习提供了一种新的途径。这些模型允许代理通过学习到的视觉动力学观察和交互动态世界,从而绕过了对显式物理模拟的需求。然而,现有的世界建模技术主要侧重于从语言指令生成视频或基于生成的视频预测动作,而未能充分模拟环境对代理动作的动态响应,这限制了它们作为真实世界模拟器的潜力。
研究目的
本研究旨在提出一种名为EnerVerse-AC(EVAC)的动作条件世界模型,以解决上述挑战。EVAC的目标是通过代理的预测动作直接生成未来的视觉观察,从而实现逼真且可控的机器人推理。具体而言,本研究旨在:
- 开发动作条件世界模型:构建一个能够基于代理动作生成未来视觉观察的世界模型,支持机器人操作任务的逼真模拟。
- 提高泛化能力:通过引入多样化的失败轨迹数据,扩展训练数据的覆盖范围,提高模型在多样化场景中的泛化能力。
- 降低测试成本:作为数据引擎和评估器,EVAC旨在减少对物理机器人或复杂仿真环境的需求,从而降低测试和评估的成本。
- 验证模型有效性:通过广泛的实验验证EVAC在机器人操作评估中的有效性和可靠性。
研究方法
模型架构
EVAC基于UNet的视频生成模型,并进行了以下关键改进:
- 多级动作条件注入:
- 空间感知姿态注入:将末端执行器的6D姿态信息转换为像素坐标,并通过视觉提示技术直观地表示姿态信息。这些姿态图经过CLIP视觉编码器处理后,与RGB图像的特征图沿通道维度连接。
- 增量动作注意力模块:计算连续帧之间的增量运动,以近似末端执行器位置和方向的变化。这些增量运动通过线性投影编码为固定数量的潜在表示,并通过交叉注意力机制与参考图像图融合,注入到UNet阶段。
- 多视图条件注入:
- 为了支持机器人操作任务中的多视图图像生成,EVAC扩展了基础模型以处理多视图特征。通过空间交叉注意力模块实现视图之间的交互,并引入光线方向图编码以提供空间上下文。
- 数据增强与评估:
- 数据引擎:EVAC作为数据引擎,通过分割动作、应用空间增强和生成新的视频序列,将有限的人类收集轨迹扩充为多样化的数据集。
- 评估器:作为评估器,EVAC生成逼真的动作条件视频观察,用于策略测试,消除了对物理机器人或复杂模拟的需求。
训练数据
EVAC的训练数据主要来源于AgiBot World数据集,该数据集包含超过210个任务和100万条轨迹。为了确保动作轨迹的全面覆盖,包括成功和失败案例,研究团队与AgiBot数据团队合作,获取了原始数据的完全访问权限,并从中挖掘了大量失败案例。此外,还开发了一个自动化数据收集管道,在遥操作和真实机器人推理期间捕获实时故障案例,进一步丰富了数据集。
实施细节
- 模型架构:基于UNet的视频扩散模型(VDM),在训练过程中冻结CLIP视觉编码器和VAE编码器,同时微调UNet、重采样器和线性层。
- 训练参数:批量大小为16,单视图版本训练需要约32张A100 GPU持续2天,多视图版本则需要约32张A100 GPU持续8天。
- 评估指标:通过比较EVAC生成的视频与真实世界执行结果的成功率,评估模型的准确性和可靠性。
研究结果
可控操作视频生成
EVAC在合成复杂机器人-物体交互场景的逼真视频方面表现出色。通过保持高视觉保真度并准确遵循输入动作轨迹,EVAC能够生成可靠且一致的评估系统视频。实验结果表明,生成的视频在单视图场景中可保持高达30个连续块的清晰度和可靠性,在多视图设置中则可达10个块。
EVAC作为策略评估器
通过四个操纵任务的评估,验证了EVAC作为生成模拟器与真实世界环境之间的一致性。尽管在绝对成功率上存在细微差异,但EVAC在任务间的相对性能趋势与真实世界评估结果一致。此外,EVAC还能够准确反映策略训练过程中的性能波动,与真实世界评估结果高度相关。
EVAC作为数据引擎
通过比较仅使用20个专家演示轨迹训练的策略与使用相同轨迹加上30%由EVAC生成轨迹训练的策略,发现后者在任务成功率上显著提高(从0.28提高到0.36)。这表明EVAC能够通过生成多样化且有效的训练样本,增强策略学习的鲁棒性和泛化能力。
失败数据的重要性
实验还验证了失败数据在训练中的重要性。包含失败轨迹的模型能够更准确地识别和区分失败的抓取尝试,避免过拟合到成功案例,从而在面对边缘情况时表现出更强的鲁棒性。
研究局限
尽管EVAC在机器人模仿学习中展现出巨大潜力,但仍存在一些局限性:
- 末端执行器表示的通用性:当前使用单位圆表示抓手开合程度的方法可能无法有效推广到更复杂的末端执行器,如灵巧手。
- 手腕摄像头背景噪声:手腕摄像头经常捕捉到与任务无关的背景噪声,增加了视频生成的复杂性,限制了多视图推理的效率。
- 未探索的应用领域:EVAC与演员-评论家方法等强化学习技术的集成等潜在应用领域尚未得到充分探索。
未来研究方向
针对EVAC的局限性和潜在应用领域,未来的研究可以关注以下几个方面:
- 改进末端执行器表示:开发更通用的末端执行器表示方法,以适应不同类型的机器人硬件配置。
- 减少背景噪声:探索减少手腕摄像头背景噪声的方法,提高多视图视频生成的效率和质量。
- 扩展应用领域:研究EVAC与强化学习技术的集成,探索其在更多机器人学习任务中的应用潜力。
- 提高模型效率:优化模型架构和训练过程,减少计算资源需求,提高模型训练和推理的效率。
- 增强模型泛化能力:通过引入更多样化的训练数据和增强技术,进一步提高EVAC在未知场景中的泛化能力。
综上所述,EVAC作为一种动作条件世界模型,在机器人模仿学习中展现出巨大的应用潜力。通过广泛的实验验证,EVAC在可控操作视频生成、策略评估和数据增强等方面均表现出色。未来的研究将进一步探索EVAC的局限性和潜在应用领域,以推动机器人学习技术的发展。