作者:Zihan Wang, Seungjun Lee, Gim Hee Lee
单位:新加坡国立大学计算机学院
论文标题:Dynam3D: Dynamic Layered 3D Tokens Empower VLM for Vision-and-Language Navigation
论文链接:https://arxiv.org/pdf/2505.11383
代码链接:https://github.com/MrZihan/Dynam3D (coming soon)
主要贡献
提出了动态分层的 3D 表示模型,能够在线对 3D 实例和区域进行编码和实时分层更新,适用于动态环境。
引入了 3D 视觉-语言模型(3D-VLM),该模型整合了来自通用特征场的 3D patch 特征和来自 Dynam3D 的 3D 实例-区域特征,平衡了细粒度几何和全局空间布局,以进行导航规划。
在多个 VLN 基准测试(包括 R2R-CE、REVERIE-CE 和 NavRAG-CE)中,Dynam3D 在单目设置下取得了新的最佳性能。此外,实验还验证了其在预探索、长期记忆和真实世界机器人部署中的有效性。
研究背景
视觉语言导航(VLN)任务要求智能体能够理解自然语言指令,并在三维环境中导航至指定目的地。近年来,基于视频的语言模型(Video-VLMs)在 VLN 任务中展现出了强大的性能,但这些模型在应用于真实世界的 3D 导航时仍面临以下挑战:
对 3D 几何和空间语义的理解不足:视频模型难以捕捉大规模 3D 环境中的空间几何和语义,这显著阻碍了模型的探索能力和错误纠正能力。
缺乏大规模探索和长期环境记忆的能力:现有模型缺乏结构化的场景记忆机制,限制了预探索知识的利用和终身学习的潜力。
对动态变化环境的适应性差:从历史帧中派生的表示在动态变化的 3D 场景中表现不佳,频繁的对象和人类运动会导致性能下降。
研究方法
Dynam3D 框架的核心在于其动态分层的 3D 表示模型,该模型能够对 3D 环境进行编码和更新,以支持导航决策。
动态分层的 3D 表示模型
3D 表示的构建与更新
Patch 特征点的编码:使用 CLIP 模型提取 RGB 图像的 2D patch 特征,并通过深度图和相机姿态将这些特征投影到 3D 空间中。
实例级表示的构建:利用 FastSAM 生成 2D 实例掩码,并将 patch 特征聚合到每个掩码内,形成实例级表示。
3D 实例的动态更新:通过一个 3D 实例合并判别器,将 2D 实例与现有的 3D 实例对齐,实现 3D 实例表示的动态更新。
区域级表示的构建:通过空间区域聚合 3D 实例特征,以促进对大规模环境的理解。
特征蒸馏与语言对齐
对比学习:为了使 3D 实例与语言语义对齐,Dynam3D 采用了对比学习方法,利用大规模 3D-语言对进行训练。
特征蒸馏:从 CLIP 模型中蒸馏视觉知识,进一步提升模型的泛化能力。
子空间对比学习:提出了一种子空间对比学习策略,通过替换对比学习中的锚点,减轻不同视图间偏差的影响,提高特征表示的质量。
3D 视觉-语言模型
全景 3D patch tokens 的渲染:利用通用特征场模型渲染全景 3D patch tokens,为 3D-VLM 提供丰富的几何和语义信息。
导航动作预测:3D-VLM 基于这些输入以及语言指令和历史动作,直接预测导航动作。
实验
论文在多个 VLN 基准测试上对 Dynam3D 进行了评估,包括 R2R-CE、REVERIE-CE 和 NavRAG-CE,并在真实世界的静态和动态环境中进行了实验验证。
实验结果表明,Dynam3D 在所有基准测试中均取得了最佳性能,并在真实世界实验中展现出强大的鲁棒性和适应性。
VLN 基准测试
R2R-CE 数据集:Dynam3D 的导航成功率(SR)达到了 52.9%,比之前的最佳方法提高了近 5%。
REVERIE-CE 数据集:Dynam3D 实现了 40.1% 的 SR,显著优于其他方法。
NavRAG-CE 数据集:Dynam3D 实现了 24.7% 的 SR,表现出强大的指令理解和路径规划能力。
预探索和长期记忆实验
预探索设置:预探索允许智能体在评估前扫描和编码环境表示,Dynam3D 在 R2R-CE 和 REVERIE-CE 上的 SR 分别提高了超过 5% 和 8%。
长期记忆设置:长期记忆使智能体能够在后续任务中利用之前存储的环境表示,Dynam3D 在 R2R-CE 和 REVERIE-CE 上的 SR 分别提高了 2.7% 和 4.9%。
真实世界和动态环境实验
静态环境:在真实世界的静态环境中,Dynam3D 的导航成功率达到了 70%,比基线方法高出 20%。
动态环境:在动态环境中,即使目标被移动到另一个位置,Dynam3D 仍然能够成功导航至新目标位置,展现出对环境变化的强大适应性。
结论与未来工作
- 结论:
Dynam3D 通过其动态分层的 3D 表示模型,在 VLN 任务中实现了对 3D 环境的深度理解和有效导航。
该模型在多个基准测试中取得了最佳性能,并在真实世界的实验中验证了其有效性。
- 未来工作:
然而,Dynam3D 在预测导航动作时未能显式输出目标实例的坐标,限制了其在某些任务(如移动操作)中的应用。
此外,该模型缺乏问答、对话和任务更新的能力,这些将是未来研究的潜在方向。