- 作者:Daojie Peng1^{1}1, Jiahang Cao1,2^{1,2}1,2, Qiang Zhang1,2^{1,2}1,2, Jun Ma1,3^{1,3}1,3
- 单位:1^{1}1香港科技大学(广州),2^{2}2北京人形机器人创新中心,3^{3}3香港科技大学
- 论文标题:LOVON: Legged Open-Vocabulary Object Navigator
- 论文链接:https://arxiv.org/pdf/2507.06747
- 项目主页:https://daojiepeng.github.io/LOVON/
- 代码链接:https://github.com/DaojiePENG/LOVON
主要贡献
- 提出统一框架LOVON,整合了LLMs、开放词汇视觉检测和L2MM,用于规划和执行复杂的开放世界长时域导航任务。
- 开发了基于拉普拉斯方差的运动模糊过滤方法,解决了动态模糊问题,提高了系统的鲁棒性。同时,引入了机器人执行逻辑,确保对各种环境的适应性。
- 通过仿真和多种足式机器人平台(Unitree Go2、B2和H1-2)的实验验证了系统的有效性,结果表明LOVON能够在非结构化环境中成功执行开放词汇对象搜索和导航任务。
研究背景
- 近年来,LLMs在自然语言理解、推理和任务分解方面取得了显著进展,被广泛应用于机器人领域的高级任务规划。
- 开放词汇视觉感知技术也取得了突破性进展,使机器人能够识别和理解超出预定义类别的多样化对象。
- 足式机器人因其出色的地形适应能力,在复杂环境中展现出巨大潜力。然而,大多数研究集中在单一任务上,如行走、跳跃、攀爬和短距离导航,缺乏对复杂长时域任务的全面考虑。
问题表述
- 任务描述:机器人需要在任意开放世界环境中执行长时域任务,搜索不同目标。长时域任务 TlT_lTl 被定义为一系列子任务的集合 Tl={Ti∣T1,T2,… }T_l = \{T_i|T_1, T_2, \dots\}Tl={Ti∣T1,T2,…},每个子任务对应搜索特定目标 OiO_iOi。任务描述是灵活的,允许不同的任务目标。
- 核心挑战:机器人需要自主地搜索和识别不同的子目标(目标),根据任务指令以不同速度导航至这些目标。这些子目标在任务过程中可能会发生变化,要求机器人能够动态适应。
- 目标:开发一个双系统模型:
- 高级策略:能够将复杂的任务指令 TlT_lTl 分解为具体的子任务指令 Iins={Ii∣I1,I2,… }I_{ins} = \{I_i|I_1, I_2, \dots\}Iins={Ii∣I1,I2,…} 并执行任务规划。
- 低级策略:基于具体的子任务指令 IiI_iIi 和视频流输入 IRGBI_{RGB}IRGB,生成运动向量 Vm∈R3V_m \in \mathbb{R}^3Vm∈R3 以实现精确的运动控制。该模型应能够适应各种足式机器人,确保在实际应用中的多功能性。
方法
- 最初,LLM将人类的长时域任务重新配置为基本任务指令。这些指令随后传递给指令对象提取器(IOE)以识别目标对象。
- 检测模型处理捕获的视频流,输入图像使用拉普拉斯滤波器进行预处理。
- 最后,将任务指令、目标对象、边界框、任务状态和搜索状态结合起来作为提出的L2MM的输入,L2MM生成机器人的控制向量和反馈状态,以逐步完成所有任务。
多模态输入处理
- LOVON整合了两个预训练模型:用于视觉输入处理的对象检测模型和用于长时域任务管理的LLM。LLM的输入包括系统描述 IsysI_{sys}Isys、用户的长序列任务描述 TlT_lTl 和来自L2MM的反馈 OfO_fOf。利用这些输入,LLM生成具体任务指令 IiI_iIi,使LOVON能够通过产生实现任务目标所需的指令来执行长序列任务:
Iins=fLLM(Isys,Tl,Of) I_{ins} = f_{LLM}(I_{sys}, T_l, O_f) Iins=fLLM(Isys,Tl,Of) - 接着,提出的IOE将指令映射到检测类别。IOE使用两层Transformer和感知层来预测对象类别:
Iobject=fIOE(Im)∈C I_{object} = f_{IOE}(I_m) \in C Iobject=fIOE(Im)∈C
其中 CCC 表示检测模型能够识别的类别集合。 - 关于视觉处理,对象检测模型以RGB图像 IRGBI_{RGB}IRGB 和 IobjectI_{object}Iobject 作为输入,并输出所需的检测信息如下:
Om,Cp,Oxy,Owh=fdet(IRGB,Iobject) O_m, C_p, O_{xy}, O_{wh} = f_{det}(I_{RGB}, I_{object}) Om,Cp,Oxy,Owh=fdet(IRGB,Iobject)
使用归一化格式表示检测结果,预测的对象记为 OmO_mOm,置信度分数为 CpC_pCp,边界框中心位置为 Oxy=[xn,yn]O_{xy} = [x_n, y_n]Oxy=[xn,yn]。边界框的宽度和高度分别表示为 Owh=[wn,hn]O_{wh} = [w_n, h_n]Owh=[wn,hn]。此外,还应用移动平均滤波器对对象检测模型的输出边界框进行平滑处理,进一步提高稳定性。
基于拉普拉斯方差的运动模糊过滤
- 当足式机器人处于运动状态时,由此产生的波动会导致捕获的帧出现运动模糊。尤其是在机器人动态运动的最初几帧,模糊现象更为严重,这对视觉模型来说是一个挑战。
- 为了解决这个问题,提出了一种基于拉普拉斯方差的方法,用于检测和过滤运动模糊的帧。这一预处理步骤通过减轻机器人运动和振动引起的运动模糊和失真,提高了输入到基于对象检测的视觉语言管道的鲁棒性。
- 具体来说,首先将RGB帧 IRGBI_{RGB}IRGB 转换为灰度图像 IgrayI_{gray}Igray。然后,应用拉普拉斯算子以增强高频分量,得到拉普拉斯响应。计算拉普拉斯响应的方差以评估帧的清晰度。如果方差低于阈值 TblurT_{blur}Tblur,则将该帧归类为模糊帧,并用上一个清晰的帧替换它。阈值 TblurT_{blur}Tblur 是针对机器人场景进行经验校准的。
语言到运动模型(L2MM)
- 提出的L2MM是负责预测运动和提供反馈的核心模块。L2MM采用编码器 - 解码器架构。编码器接收由以下组件组成的输入序列:前一个任务指令 Im0I_{m0}Im0、当前任务指令 Im1I_{m1}Im1、预测的对象 OpO_pOp、预测的置信度 CpC_pCp、中心位置 OxyO_{xy}Oxy、归一化边界框的宽度和高度 OwhO_{wh}Owh、当前任务状态 SmS_mSm 以及当前搜索状态 SsS_sSs。这些输入通过特殊标记 [SEP] 分隔后进行拼接,即 Iencoder={Im0,Im1,Op,Cp,Oxy,Owh,Sm,Ss}I_{encoder} = \{I_{m0}, I_{m1}, O_p, C_p, O_{xy}, O_{wh}, S_m, S_s\}Iencoder={Im0,Im1,Op,Cp,Oxy,Owh,Sm,Ss}。编码器处理该序列并输出潜在状态 lel_ele。
- 该架构使模型能够同时预测运动向量、任务状态和搜索状态,从而使机器人不仅能够精确控制其运动,还能够理解长任务序列并提供相关反馈。
损失函数
根据任务的不同,模型使用不同的损失函数进行训练:
- 运动向量损失:对于运动向量头 DmotionD_{motion}Dmotion,使用均方误差损失,并使用系数 β\betaβ 来衡量预测运动向量与实际运动向量之间的差异:
LMSE=1N∑i=1Nβ(Vipred−Vitrue)2 L_{MSE} = \frac{1}{N} \sum_{i=1}^{N} \beta (V_{i}^{pred} - V_{i}^{true})^2 LMSE=N1i=1∑Nβ(Vipred−Vitrue)2 - 任务和搜索状态损失:对于任务和搜索状态头 DmissionD_{mission}Dmission 和 DsearchD_{search}Dsearch,使用交叉熵损失来比较预测状态与真实标签:
LCE=−∑i=1Nyilog(pi) L_{CE} = -\sum_{i=1}^{N} y_i \log(p_i) LCE=−i=1∑Nyilog(pi)
其中 yiy_iyi 是真实标签,pip_ipi 是每个类别的预测概率。
机器人任务执行的功能逻辑
- 执行新任务:机器人将当前任务指令与上一个任务指令进行比较,如果发现它们不同,机器人就会开始执行新的任务。
- 奔向目标对象:一旦机器人检测到任务目标,它就会根据运动向量和检测结果向该目标移动。
- 搜索丢失的目标对象:如果机器人失去了对任务目标的跟踪,它会自动切换到搜索状态,并调整其运动以重新找到目标。
- 保持当前状态:机器人会根据实时视觉输入保持其当前状态,直到触发状态转换,确保任务执行的一致性。
- 完成任务:机器人会持续监测任务目标,一旦目标的边界框大小达到成功阈值,机器人就会停止并切换到成功状态。
数据集准备
数据集生成流程包括三个主要部分:
- 检测类别同义词扩展:使用LLM为预定义的对象类别生成同义词,丰富对象类别,提高模型在不同对象描述下的泛化能力。
- 指令变体生成:为了增强语言模块,使用LLM生成任务指令的释义。这使得模型能够处理多样化的句子结构,同时保留核心信息,提高其适应性。
- 对象类别的阈值生成:根据初始示例定义对象检测的成功阈值,然后使用LLM为其他类别调整这些阈值,确保模型能够处理不同大小的对象。
- 数据集生成特点:在生成过程中,生成的数据会反馈到LLM中,以迭代地优化数据集,避免冗余,提高数据集的多样性。数据集生成过程快速且易于扩展,使用CPU Intel i9-12900KF在不到15分钟内就可以生成100万条数据。
实验
实验设置
- 模型细节:使用YOLO-11作为对象检测模型,DeepSeek R1作为任务规划器和数据生成助手。L2MM是一个基于Transformer的模型,具有256维特征、4层、8个注意力头、1024维前馈层和一个线性头层。IOE具有类似的架构,但特征维度较小。
- 训练设置:收集了100万样本的数据集,分为训练集和测试集,比例为4:1。使用NVIDIA RTX 3080 Ti GPU进行训练。L2MM模型的训练参数包括0.1的dropout率、10^-4的学习率、512的批量大小、64的最大序列长度和10的运动损失系数β。使用AdamW优化器训练25个周期,总训练时间约为1小时。
- 机器人设置:LOVON可以应用于多种足式机器人。在实验中,评估了Unitree Go2、B2和H1-2三种模型。计算平台使用Jetson Orin,视觉平台包括机器人的内置摄像头和Realsense D435i摄像头。
运动模糊帧过滤的性能
研究运动模糊对目标检测性能的影响,并验证提出的运动模糊帧过滤方法的有效性。
- 实验方法:让机器人以0.3、0.5或0.7 m/s的固定速度接近背包、椅子或人。计算每个帧的拉普拉斯方差,并将其输入目标检测模型以获得预测置信度分数。
- 实验结果:发现拉普拉斯方差与YOLO置信度之间存在显著波动。通过设置模糊阈值,可以过滤掉运动模糊严重的帧。实验结果表明,当阈值设置为Tblur = 150时,所有数据集的合格帧率提高了约15%。将过滤方法整合到目标检测流程中后,合格帧率总体提高了25%。
在仿真环境中的评估
- 基准和评估指标:在Gym-Unreal基准的四个场景(UrbanCity、SnowVillage、ParkingLot和UrbanRoad)中进行评估。使用两个指标:集数长度(EL)和成功率(SR)。
- 性能比较:LOVON在大多数环境中的表现优于基线方法,例如在ParkingLot环境中,LOVON的平均集数长度为500,成功率为1.00,而EVT的平均集数长度为484,成功率为0.92。与TrackVLA相比,LOVON在训练时间上更高效,仅需1.5小时,而TrackVLA需要360小时。
在现实世界实验中的评估
- 开放世界适应性:LOVON能够处理日常生活中常见的各种大小和类型的物体,包括大型物体(如汽车)、中型物体(如人)和小型物品(如包)。
- 多目标跟踪:通过LLM规划器实现长时域目标导航,使机器人能够高效地跟踪多个目标。
- 动态跟踪:LOVON能够在动态环境中成功跟随移动目标,例如在平坦道路、螺旋楼梯和野草中行走。
- 抗干扰能力:即使目标物体被移动或机器人受到干扰(如被踢),机器人也能快速重新定位并继续搜索。
消融研究
- 模型参数的消融研究:研究了模型大小、数据集大小Nds、运动损失权重β和特殊标记[SEP]的包含与否对模型性能的影响。结果表明,中等大小的模型表现最佳,数据集大小对模型稳定性有影响,运动损失权重β对性能至关重要,特殊标记[SEP]对于区分不同输入组件(尤其是语言)是必要的。
- 过滤方法和状态数量的消融研究:评估了搜索状态的数量和帧过滤技术对目标丢失时导航效率的影响。实验结果表明,使用四个状态和帧过滤技术的配置(Case 3)在导航效率方面表现最佳。
结论与未来工作
- 结论:
- LOVON通过整合LLMs、开放词汇视觉检测和L2MM,有效地解决了足式机器人在开放世界环境中执行长时域任务的挑战。
- 通过拉普拉斯方差帧过滤和平均置信度平滑滤波器,显著提高了模型在实际应用中的性能。
- 未来工作:
- 在未来的工作中,论文计划进一步优化LOVON的架构,增强其与最新视觉语言模型的集成,以进一步提升其在具身智能导航任务中的能力。