【机器人】ForesightNav | 高效探索 动态场景 CVPR2025

发布于:2025-06-19 ⋅ 阅读:(16) ⋅ 点赞:(0)

ForesightNav是一种基于场景想象的探索策略,用于机器人在未知环境高效导航

从 “反应式探索” 到 “预见式规划”,基于局部几何语义地图,推理出全局场景,填补“未探索区域”。

论文地址:ForesightNav: Learning Scene Imagination for Efficient Exploration

代码地址:https://github.com/uzh-rpg/foresight-nav

一、框架思路流程

 ForesightNav的框架思路流程,如下图所示:

  • 1.1、输入机器人的Pose位姿信息、彩色图、深度图
  • 1.2、输入查询目标物体的描述
  • 2、生成和更新具有几何结构和语义信息的地图;通过CLIP生成图像的语义特征;深度和位姿生成3D点云几何结构,通过网络进一步预测占据状态
  • 3、生成的几何语义地图 GeoSem Map,维度是MxMx(D+1),分别表示特征地图的长宽,D是CLIP生成的语义特征+1是表示占据地图的状态,即点云几何特征
  • 4、场景想象模块,基于前面的局部几何语义地图,推断全局场景,填补“未探索区域”的空白;学习 “局部观察→全局场景” 的映射规律
  • 5、生成更“完整”的几何语义地图,这里的地图是已经推理出一些未知区域,维度也是MxMx(D+1)
  • 6、计算几何语义地图中每个网络的CLIP特征,与查找物体CLIP特征的余弦相似度;几何语义地图 MxMx(D+1) 与 物体特征1x1xD 逐个网格计算那个更匹配
  • 7、生成语义匹配热图,热图值越高,说明该区域越可能包含目标物体
  • 8、导航目标生成,进行路径规划
  • 9、输出控制指令

“观察 - 记忆 - 想象 - 规划” 闭环:模仿人类 “看环境→记信息→脑补全貌→决定怎么走” 的导航逻辑。

几何与语义双驱动:用占据地图保证 “走得通”,用 CLIP 语义保证 “找得对”。

二、目标导航技术对比

2.1、具身目标导航技术流派对比

当前主流的具身目标导航技术流派对比,如下表所示:

方法类别 核心技术 优势 不足
传统 ObjectNav RL / 示范学习 / 语义拓扑图 训练数据充足时精度高 泛化性差,依赖预定义类别
零样本 ObjectNav CLIP/LLM + 前沿探索点 支持开放词汇,零样本适应 计算开销大,缺乏全局推理
场景图表示方法 拓扑图 / 多模态嵌入 支持大规模环境建模 需预探索,实时性不足
ForesightNav GeoSem Map + 想象模块 几何 - 语义联合预测,主动推理导航 大场景下内存消耗较高

从 “反应式探索” 到 “预见式规划”:现有方法多基于当前观察选择前沿,ForesightNav 通过想象未观察区域,实现基于全局场景的长期目标规划。

中间表示的跨模态融合:GeoSem Map 整合占据地图与 CLIP 语义嵌入,为导航决策提供几何与语义双重支持,优于单一模态表示(如纯视觉或纯语言模型)。

2.2、ForesightNav的核心创新

ForesightNav 的核心创新在于 将人类 “场景想象” 能力工程化,突破传统导航 “反应式决策” 的局限:

  • 从 “看一步走一步” 升级为 “想全局再行动”,大幅减少无效探索;
  • 通过 GeoSem Map 实现几何 - 语义深度融合,让导航既有 “空间结构感” 又有 “语义理解度”;
  • 模拟真实探索的数据生成与多任务监督,让 “脑补能力” 更贴近实际应用,为未知环境导航提供全新解决方案。

2.3、导航路径对比分析

下面这组图对比了 普通智能体(Vanilla Agent) 和 带想象能力的智能体(Imagine Agent) 的导航路径,展示了 “场景想象如何让路径规划更高效” 

Vanilla Agent(普通智能体):“走一步看一步,路径绕弯”

  • 路径特点:红色路线明显更 “绕”,比如在障碍物附近反复调整方向。
  • 行为逻辑:只依赖当前观察的局部信息做决策,缺乏对全局场景的预判 —— 遇到障碍物才调整,容易走弯路。

Imagine Agent(带想象的智能体):“预判场景结构,路径更优”

  • 路径特点:红色路线更 “直”,提前避开障碍物,直接朝向目标点规划。
  • 行为逻辑:通过 想象模块 预测场景的全局结构(比如障碍物分布、未探索区域的布局),提前规划更高效的路径 —— 不是 “走一步看一步”,而是 “先想全局,再选路线”。

三、关键点分析

3.1、场景表示:GeoSem Map 几何 - 语义联合建模

突破传统地图局限

传统导航地图仅关注几何(如占据地图)或单一模态语义(如纯视觉特征)

ForesightNav 提出几何语义地图 GeoSem Map,实现 几何占据(Occupancy+ 语义 CLIP 嵌入 的联合表示:

  • 几何层:通过深度点云投影,区分 “自由 / 未知 / 占据” 区域,解决 “能不能走” 的问题;
  • 语义层:用 LSeg 编码器提取 RGB 图像的 CLIP 嵌入,投影到鸟瞰图网格,解决 “有什么物体” 的问题。
  • 这种 “双模态融合” 让地图既有 “空间结构” 又有 “语义理解”,为后续想象与导航提供统一基础。

跨模态对齐技术

  • 通过2D - 3D配对,将RGB图像的像素级CLIP嵌入(2D)与深度点云(3D)精准对齐,确保语义特征 “贴” 在正确的空间位置上。

3.2、核心模块:神经想象能力赋予 “脑补” 功能

想象模块(Imagination Module)

传统导航依赖 “当前观察” 做决策,ForesightNav 引入 神经想象模块,让机器人能 “脑补” 未探索区域:

  • 输入:部分观察的 GeoSem Map(含未知区域);
  • 输出:预测的完整 GeoSem Map,包括未观测区域的 占据概率、语义特征、室内掩码
  • 这一模块模拟人类 “由已知推未知” 的空间推理能力,例如看到客厅布局,可推测卧室可能的结构与物体分布。

双架构支持与训练优化

支持 U - Net(CNN) 和 ViT(Transformer) 两种网络架构:

  • U - Net 擅长捕捉局部几何特征(如墙的轮廓),适合占据掩码预测;
  • ViT 利用自注意力捕捉全局语义关联(如 “客厅有沙发→卧室可能有床”),适合语义特征预测。
  • 训练时通过 模拟真实探索数据(让智能体在 2D 网格世界导航,生成部分观察掩码),解决传统随机掩码与实际观察的偏差问题,大幅提升想象精度。

3.3、导航策略:从 “反应式探索” 到 “预见式规划”

长期目标提取机制

传统导航依赖 “语义前沿” 或 “随机探索”,ForesightNav 基于想象模块的预测结果,实现 语义 - 几何联合目标规划

  • 用 CLIP 编码目标查询(如 “Bed”),与预测 GeoSem Map 的语义嵌入计算余弦相似度,生成热图;
  • 通过 DBSCAN 聚类 + GMM 拟合,筛选出最可能的目标区域,优先探索 “语义匹配且几何可通行” 的位置。

闭环动态更新

  • 每次移动后,根据新观察 动态更新 GeoSem Map,并重新触发 “想象 - 目标提取” 流程,确保目标规划随探索进程优化。
  • 例如,探索新区域后,想象模块会更新对全局场景的预测,导航目标也会更精准。

原始相似度热力图(Raw Similarity Scores):“初步筛选目标区域”

对应 ForesightNav 中 语义匹配(Cosine Similarity) 环节 —— 用 CLIP 实现 “文本目标(Bed)→ 场景语义(各区域特征)” 的匹配,找出潜在目标位置

  • 核心逻辑:把 “Bed(床)” 的语义特征,和场景中每个位置的 CLIP 语义特征做余弦相似度计算,得分越高,说明该区域越可能是床。
  • 可视化解读
    • 颜色越红(接近 1.0),相似度越高 → 越可能是床的位置;
    • 颜色越蓝(接近 0.0),相似度越低 → 不太可能是床。
    • 比如图中红色区域,就是模型初步判断 “最像床” 的地方。

高斯混合模型热力图(Similarity Heatmap + GMM):“精准定位目标中心

对应 ForesightNav 中 目标优化(GMM 聚类、后处理) 环节 —— 过滤原始热力图的噪声,精准定位目标中心,为路径规划提供明确坐标。

  • 核心逻辑:对原始相似度热力图做后处理,用 高斯混合模型(GMM) 拟合相似区域,突出最可能的目标中心(椭圆区域),并计算对数似然热力图(颜色越红,概率越高)。
  • 可视化解读
    • 彩色椭圆:GMM 拟合出的目标分布范围,椭圆中心是最可能的目标位置;
    • 热力图:红色越集中,说明模型对该区域是目标的 “信心越强”。
    • 比如图中床的位置,椭圆和热力图精准圈出了床的中心区域。

3.4、损失函数

采用三损失联合监督:CLIP 相似性损失、占据预测损失、室内分割掩码损失

1)CLIP 相似性损失:仅计算室内区域的余弦相似度损失,避免室外区域干扰

2)占据预测损失:加权 BCE 损失,平衡占据非占据样本比例

3)室内分割掩码损失:标准 BCE 损失,确保目标选择在有效场景内

总体损失函数(损失系数:λ_CLIP=10,λ_occ=1,λ_interior=1,平衡多任务训练)

四、实验验证与效果

4.1、Structured3D 数据集

  • 规模与划分:包含 3500 个室内场景,按官方推荐划分为 3000 个训练场景、500 个验证场景,每个场景含全景 RGB、深度图像、语义标注及地面真实拓扑结构。
  • 特点
    • 提供精确的地面真实占据地图(墙壁、障碍物分布),便于训练想象模块的几何预测能力;
    • 语义标注覆盖 Matterport 类别(如床、沙发、厕所),支持 ObjectNav 任务的语义评估。
  • 数据预处理
    • 将全景 RGBD 图像转换为透视视角子图(12 个方向,FOV 90°),避免全景投影几何畸变对 LSeg 编码器的干扰;
    • 通过 2D-3D 配对技术,将像素级 CLIP 嵌入与 3D 点云对齐,生成 GeoSem Map 的训练监督数据。

4.2、硬件与软件环境

  • 硬件:NVIDIA GPU(如 A100)用于训练和推理,支持大规模张量计算;
  • 框架:PyTorch 实现网络架构,CLIP、LSeg 等预训练模型基于 Hugging Face 生态;
  • 计算优化:使用混合精度训练减少显存消耗,DBSCAN/GMM 后处理通过 NumPy/SciPy 加速。

4.3、模型参数设置

几何语义地图 GeoSem Map

  • 空间分辨率:224×224(H×W),适配无人机视角(高度范围 30%-70% 场景高度);
  • CLIP 嵌入维度:D=512(使用 ViT-B/32 模型),GeoSem Map 维度为 224×224×513。

想象模块(Imagination Module)

  • U-Net 架构:卷积层深度 [64,128,256,512,1024],输出通道 D+2(语义 + 占据 + 室内掩码);
  • ViT 架构:基于 MAE-ViT-Base,patch 大小 16×16,处理全局语义关联;
  • 损失系数:λ_CLIP=10,λ_occ=1,λ_interior=1,平衡多任务训练。

4.4、评估指标

PointNav 任务

  • Completion Rate(完成率):成功到达目标点的比例;
  • Mean Timesteps(平均时间步):到达目标的平均步数,衡量效率。

ObjectNav 任务

  • SPL(Success weighted by Path Length):结合成功率与路径效率的综合指标;
  • Distance to Goal(到目标距离):终止时与目标的平均距离;
  • Success Rate(成功率):成功到达目标 1 米内的比例。

在 Structure3D 验证数据集上,ObjectNav任务中不同探索策略的平均指标:

闭环仿真评估结果,如下表所示:

 分享完成~

  相关文章推荐:

UniGoal 具身导航 | 通用零样本目标导航 CVPR 2025-CSDN博客

【机器人】具身导航 VLN 最新论文汇总 | Vision-and-Language Navigation-CSDN博客

【机器人】复现 UniGoal 具身导航 | 通用零样本目标导航 CVPR 2025-CSDN博客

【机器人】复现 WMNav 具身导航 | 将VLM集成到世界模型中-CSDN博客

【机器人】复现 ECoT 具身思维链推理-CSDN博客

【机器人】复现 SG-Nav 具身导航 | 零样本对象导航的 在线3D场景图提示-CSDN博客

 【机器人】复现 3D-Mem 具身探索和推理 | 3D场景记忆 CVPR 2025 -CSDN博客

【机器人】复现 Embodied-Reasoner 具身推理 | 具身任务 深度推理模型 多模态场景 长远决策 多轮互动_embodied reasoner-CSDN博客

【机器人】DualMap 具身导航 | 动态场景 开放词汇语义建图 导航系统-CSDN博客


网站公告

今日签到

点亮在社区的每一天
去签到