新国立动态3D表示助力具身导航!Dynam3D:基于动态分层3D标记视觉语言模型的视觉语言导航

发布于:2025-06-28 ⋅ 阅读:(21) ⋅ 点赞:(0)

  • 作者:Zihan Wang, Seungjun Lee, Gim Hee Lee

  • 单位:新加坡国立大学计算机学院

  • 论文标题:Dynam3D: Dynamic Layered 3D Tokens Empower VLM for Vision-and-Language Navigation

  • 论文链接:https://arxiv.org/pdf/2505.11383

  • 代码链接:https://github.com/MrZihan/Dynam3D (coming soon)

主要贡献

  • 提出了动态分层的 3D 表示模型,能够在线对 3D 实例和区域进行编码和实时分层更新,适用于动态环境。

  • 引入了 3D 视觉-语言模型(3D-VLM),该模型整合了来自通用特征场的 3D patch 特征和来自 Dynam3D 的 3D 实例-区域特征,平衡了细粒度几何和全局空间布局,以进行导航规划。

  • 在多个 VLN 基准测试(包括 R2R-CE、REVERIE-CE 和 NavRAG-CE)中,Dynam3D 在单目设置下取得了新的最佳性能。此外,实验还验证了其在预探索、长期记忆和真实世界机器人部署中的有效性。

研究背景

视觉语言导航(VLN)任务要求智能体能够理解自然语言指令,并在三维环境中导航至指定目的地。近年来,基于视频的语言模型(Video-VLMs)在 VLN 任务中展现出了强大的性能,但这些模型在应用于真实世界的 3D 导航时仍面临以下挑战:

  • 对 3D 几何和空间语义的理解不足:视频模型难以捕捉大规模 3D 环境中的空间几何和语义,这显著阻碍了模型的探索能力和错误纠正能力。

  • 缺乏大规模探索和长期环境记忆的能力:现有模型缺乏结构化的场景记忆机制,限制了预探索知识的利用和终身学习的潜力。

  • 对动态变化环境的适应性差:从历史帧中派生的表示在动态变化的 3D 场景中表现不佳,频繁的对象和人类运动会导致性能下降。

研究方法

Dynam3D 框架的核心在于其动态分层的 3D 表示模型,该模型能够对 3D 环境进行编码和更新,以支持导航决策。

动态分层的 3D 表示模型

3D 表示的构建与更新
  • Patch 特征点的编码:使用 CLIP 模型提取 RGB 图像的 2D patch 特征,并通过深度图和相机姿态将这些特征投影到 3D 空间中。

  • 实例级表示的构建:利用 FastSAM 生成 2D 实例掩码,并将 patch 特征聚合到每个掩码内,形成实例级表示。

  • 3D 实例的动态更新:通过一个 3D 实例合并判别器,将 2D 实例与现有的 3D 实例对齐,实现 3D 实例表示的动态更新。

  • 区域级表示的构建:通过空间区域聚合 3D 实例特征,以促进对大规模环境的理解。

特征蒸馏与语言对齐
  • 对比学习:为了使 3D 实例与语言语义对齐,Dynam3D 采用了对比学习方法,利用大规模 3D-语言对进行训练。

  • 特征蒸馏:从 CLIP 模型中蒸馏视觉知识,进一步提升模型的泛化能力。

  • 子空间对比学习:提出了一种子空间对比学习策略,通过替换对比学习中的锚点,减轻不同视图间偏差的影响,提高特征表示的质量。

3D 视觉-语言模型

  • 全景 3D patch tokens 的渲染:利用通用特征场模型渲染全景 3D patch tokens,为 3D-VLM 提供丰富的几何和语义信息。

  • 导航动作预测:3D-VLM 基于这些输入以及语言指令和历史动作,直接预测导航动作。

实验

  • 论文在多个 VLN 基准测试上对 Dynam3D 进行了评估,包括 R2R-CE、REVERIE-CE 和 NavRAG-CE,并在真实世界的静态和动态环境中进行了实验验证。

  • 实验结果表明,Dynam3D 在所有基准测试中均取得了最佳性能,并在真实世界实验中展现出强大的鲁棒性和适应性。

VLN 基准测试

  • R2R-CE 数据集:Dynam3D 的导航成功率(SR)达到了 52.9%,比之前的最佳方法提高了近 5%。

  • REVERIE-CE 数据集:Dynam3D 实现了 40.1% 的 SR,显著优于其他方法。

  • NavRAG-CE 数据集:Dynam3D 实现了 24.7% 的 SR,表现出强大的指令理解和路径规划能力。

预探索和长期记忆实验

  • 预探索设置:预探索允许智能体在评估前扫描和编码环境表示,Dynam3D 在 R2R-CE 和 REVERIE-CE 上的 SR 分别提高了超过 5% 和 8%。

  • 长期记忆设置:长期记忆使智能体能够在后续任务中利用之前存储的环境表示,Dynam3D 在 R2R-CE 和 REVERIE-CE 上的 SR 分别提高了 2.7% 和 4.9%。

真实世界和动态环境实验

  • 静态环境:在真实世界的静态环境中,Dynam3D 的导航成功率达到了 70%,比基线方法高出 20%。

  • 动态环境:在动态环境中,即使目标被移动到另一个位置,Dynam3D 仍然能够成功导航至新目标位置,展现出对环境变化的强大适应性。

结论与未来工作

  • 结论
    • Dynam3D 通过其动态分层的 3D 表示模型,在 VLN 任务中实现了对 3D 环境的深度理解和有效导航。

    • 该模型在多个基准测试中取得了最佳性能,并在真实世界的实验中验证了其有效性。

  • 未来工作
    • 然而,Dynam3D 在预测导航动作时未能显式输出目标实例的坐标,限制了其在某些任务(如移动操作)中的应用。

    • 此外,该模型缺乏问答、对话和任务更新的能力,这些将是未来研究的潜在方向。


网站公告

今日签到

点亮在社区的每一天
去签到