CVPR 2025|基于视觉语言模型的零样本3D视觉定位

发布于:2025-09-09 ⋅ 阅读:(27) ⋅ 点赞:(0)

论文信息

题目:Zero-Shot 3D Visual Grounding from Vision-Language Models

基于视觉语言模型的零样本3D视觉定位

作者:Rong Li, Shijie Li, Lingdong Kong, Xulei Yang, Junwei Liang

论文创新点

  1. 提出全新框架:论文提出SeeGround这一无需训练的零样本3D视觉定位框架,通过渲染视图和空间文本,将3D场景重新组织成适用于2D视觉语言模型(2D-VLMs)的输入。

  2. 设计动态视角选择策略:设计了一种查询引导的视角选择策略,能动态选择最优视角,既能捕捉特定对象线索,又能获取空间上下文,从而提升模型对3D场景的理解和定位能力。

  3. 引入视觉提示机制:提出一种视觉提示机制,将2D图像特征与3D空间描述对齐,减少在复杂场景中定位的模糊性,提高目标定位的准确性。

  4. 取得领先实验结果:该方法在ScanRefer和Nr3D两个标准基准测试上取得了零样本设置下的最优结果,展现出强大的泛化能力,且无需针对3D数据进行特定训练。

摘要

3D视觉定位(3DVG)旨在利用自然语言描述在3D场景中定位目标物体,这使得诸如增强现实和机器人技术等下游应用成为可能。现有的方法通常依赖有标记的3D数据和预定义的类别,限制了其在开放世界场景中的可扩展性。作者提出了SeeGround,这是一个零样本3DVG框架,它利用2D视觉 - 语言模型(VLM)来避免对特定3D训练的需求。为了弥合模态差距,作者引入了一种混合输入格式,将与查询对齐的渲染视图与空间丰富的文本描述相结合。该框架包含两个核心组件:一个视角适应模块,它根据查询动态选择最佳视角;以及一个融合对齐模块,它整合视觉和空间信号以提高定位精度。在ScanRefer和Nr3D上的大量评估证实,SeeGround相对于现有的零样本基线有显著改进,分别超过它们7.7%和7.1%,甚至可以与完全监督的方法相媲美,这表明它在具有挑战性的条件下具有很强的泛化能力。

关键词

3D视觉定位;零样本学习;视觉 - 语言模型;跨模态对齐

一、引言

3D视觉定位(3DVG)专注于使用自然语言描述在3D场景中定位被提及的物体。这种能力在增强现实[1 - 6]、视觉 - 语言导航[7 - 9]和机器人感知[10 - 22]等应用中至关重要。解决这一任务需要在杂乱多样的3D环境中同时具备语言理解和空间推理能力。

大多数现有方法依赖于使用有限的、标注繁重的数据集来训练特定任务的模型[1, 23 - 28],这限制了它们的泛化能力。将这些模型扩展到更广泛的场景既耗费资源又不切实际[29 - 31]。最近的趋势[32, 33]试图通过纳入大语言模型(LLM)[34, 35]来解释重新格式化的文本查询,以减少对3D监督的依赖。然而,这些策略往往忽略了关键的视觉属性,如颜色、纹理、视角和空间布局,而这些对于精细定位至关重要(见图1)。

图片

为了克服这些限制,作者引入了SeeGround,这是一个无需训练的3DVG框架,它利用2D视觉 - 语言模型(VLM)[35 - 37]的开放词汇能力。这些模型在大规模图像 - 文本语料库上进行预训练,具有很强的泛化能力,使其成为零样本3DVG的理想选择[24, 38]。由于VLM并非天生为3D输入而设计,作者提出了一种跨模态对齐机制,通过查询驱动的渲染和空间丰富的文本描述,将3D场景重新格式化为兼容的输入。这种策略使得无需额外的特定3D训练即可对3D内容进行推理[39]。

作者的表示结合了与查询对齐的渲染2D图像和从预先计算的物体检测中导出的结构化空间文本。与静态多视图或鸟瞰投影不同,作者的查询引导渲染动态地捕捉局部物体细节和全局上下文。空间文本提供了精确的语义和位置线索。为了进一步弥合语言和视觉之间的差距,作者纳入了一种视觉提示技术,突出候选区域,引导VLM解决歧义并关注相关的图像区域。

作者在两个标准基准上验证了该方法。在ScanRefer[1]上,SeeGround比先前的零样本方法提高了7.7%,在Nr3D[40]上提高了7.1%,缩小了与完全监督模型的差距。值得注意的是,作者的方法在模糊或部分语言输入的情况下仍然稳健,通过依赖视觉上下文来完成定位过程。

总之,作者的贡献如下:

  • 作者提出了SeeGround,这是一种用于零样本3DVG的无需训练的方法,它通过渲染视图和空间文本将3D场景重新格式化为适合2D - VLM的输入。

  • 作者设计了一种查询引导的视角选择策略,以捕捉特定物体线索和空间上下文。

  • 作者提出了一种视觉提示机制,将2D图像特征与3D空间描述对齐,减少杂乱场景中的定位歧义。

  • 作者的方法在ScanRefer和Nr3D上取得了零样本的最先进结果,表明在无需特定3D训练的情况下具有很强的泛化能力。

三、方法

(一)概述

3D视觉定位(3DVG)的目标是根据自然语言查询在3D场景中定位目标物体,通过预测其对应的3D边界框:。

作者提出了一种新颖的3DVG框架,该框架结合2D视觉 - 语言模型(2D - VLM)与空间丰富的3D表示。由于传统的3D数据格式与2D - VLM的输入模态不兼容,作者提出了一种混合表示,将渲染的2D视图与结构化的3D空间描述相融合。这使得2D - VLM能够在无需特定3D重新训练的情况下,对视觉和空间信息进行联合推理。

该框架由三个主要组件组成:(1)一个多模态3D表示模块(3.1节);(2)一个视角适应模块(3.2节);(3)一个融合对齐模块(3.3节)。这种架构通过充分利用预训练的2D - VLM的优势,能够在复杂的3D场景中准确地解释和定位物体。框架概述如图2所示。

图片

(二)多模态3D表示

作者利用在大规模图像 - 文本数据上预训练的2D视觉 - 语言模型(2D - VLM),以实现对新物体的开放集理解。然而,传统的3D表示,如点云[53, 70]、体素[71]和隐式场[54],本质上与2D - VLM期望的输入格式不兼容。为了弥合这一差距,作者提出了一种混合表示,将2D渲染图像与基于文本的3D空间描述相结合。

  1. 基于文本的3D空间描述:作者首先使用一个开放词汇的3D检测器检测场景中的所有物体:其中和分别表示每个物体的3D边界框和语义标签。这些输出被转换为自然语言并存储在一个物体查找表(OLT)中以供重用:OLT作为物体级空间信息的结构化存储库,支持高效推理,并避免在多个查询中进行冗余计算。

  2. 混合3D场景表示:虽然文本描述编码了布局和语义,但它们缺乏精细的视觉线索。为了补充这一点,作者渲染与输入查询对齐的2D图像:其中是渲染图像,是相应的空间描述文本。这种配对使2D - VLM能够同时访问视觉外观线索(如颜色、纹理、形状)和准确的3D空间语义,有助于全面的场景理解。

(三)视角适应模块

现有的视图选择策略通常无法与查询所隐含的视角对齐。例如,LAR[43]渲染以物体为中心的多视图,但缺乏全局场景上下文,而鸟瞰视图提供了全面的空间覆盖,但省略了垂直信息,导致遮挡和误解(见图3(a))。多视图或多尺度方法[59]改善了覆盖范围(见图3(b) - (d)),但仍然依赖静态视角。此外,当渲染的视角不能反映语言查询时,2D - VLM可能会误解场景。因此,作者引入了一种查询驱动的动态渲染策略,使视角与查询意图对齐,捕捉更多相关的空间和视觉细节(见图3(e))。

图片

  1. 动态视角选择:给定查询,2D - VLM使用少样本提示识别一个锚点物体和一组候选目标:作者将虚拟相机放置在场景中心,面向锚点物体,并将其向后和向上移动以增强可见性和上下文。如果无法自信地提取锚点(例如,在多物体或模糊查询中),作者默认使用位于质心的伪锚点,并应用相同的相机放置策略。

  2. 查询对齐图像渲染:基于选定的视角,作者使用look - at - view - transform函数计算相机姿态,该函数产生相对于的旋转和平移。然后获得渲染图像为。这种查询对齐的渲染保留了关键的视觉特征,同时过滤掉无关的杂乱信息,使2D - VLM能够更准确地定位被提及的物体(见图3(e))。

(四)融合对齐模块

虽然2D图像和空间描述提供了互补信息,但直接将它们输入2D - VLM可能无法将视觉线索与相应的3D语义相关联,特别是在包含相似实例的场景中(例如,多个椅子),这通常会导致定位错误。为了解决这个问题,作者引入了一个融合对齐模块,明确地将2D视觉特征与空间定位的物体描述对齐。

  1. 深度感知视觉提示:给定渲染图像,作者从物体查找表OLT中检索每个物体的3D点,并使用相机姿态将它们投影到图像平面上。为了处理遮挡,作者将每个点的深度与渲染的深度图进行比较,只保留可见点。对于每个物体,作者在其可见投影的中心放置一个视觉提示。生成的提示图像为:其中是属于物体的可见像素的指示掩码。

  2. 使用2D - VLM进行物体预测:最后,给定自然语言查询、提示图像和结构化空间描述,2D - VLM预测被提及的物体:通过强制视觉和空间模态之间的对齐,该模块有效地减少了定位歧义,并提高了在杂乱场景中的物体定位能力。

四、实验

(一)实验设置

  1. 数据集:作者在两个广泛使用的3D视觉定位基准上评估方法。ScanRefer[1]包含800个ScanNet场景中的51,500个指代表达。Nr3D[40]包括通过双人游戏收集的41,503个查询。ScanRefer专注于稀疏点云定位,而Nr3D提供密集的3D边界框注释,能够进行更精细的评估。

  2. 实现细节:在Nr3D验证集上进行消融实验。图像以1000×1000分辨率渲染,排除顶部0.3 m以匹配封闭房间设置。作者遵循ZSVG3D[32]并使用Mask3D[58]进行一致的物体检测。

(二)对比研究

在ScanRefer上,作者的方法在“Unique”分割上的Acc@0.25 / Acc@0.5达到75.7% / 68.9%,在“Multiple”分割上达到34.0% / 30.0%,超过了所有现有的零样本和弱监督基线[32, 33, 46],并接近完全监督方法的性能[28, 45]。在Nr3D上,作者的模型总体准确率达到46.1%,比之前零样本的最先进方法高出7.1%[32]。它在不同子集上保持稳健,在“Easy” / “Hard”分割上达到54.5% / 38.3%,在“View - Dependent” / “View - Independent”分割上达到42.3% / 48.2%,有效地缩小了与完全监督方法的差距[23]。

图片

图片

(三)消融研究

  1. 架构设计的影响:作者首先评估所提出架构中每个组件的贡献。结果总结在表3中。

    图片

    场景布局:仅使用3D坐标(37.7%,表3(a))提供了粗略的物体位置,但准确率较低。通过3D边界框的2D渲染(无纹理或颜色)纳入场景布局(39.7%,表3(b)),引入了空间上下文,帮助模型推理物体的大小和位置。视觉线索:整合物体颜色/纹理(39.5%,表3(c))使模型能够区分视觉上相似的物体,例如“白色”与“黑色”(图4(a))。

图片

融合对齐模块:如表3(d)所示,添加作者提出的融合对齐模块通过将渲染图像与空间文本对齐,将准确率提高到43.3%,使模型能够在杂乱场景中定位目标。

视角适应模块:纳入视角适应模块(45.0%,表3(e))通过使视角与查询所隐含的空间上下文对齐,提高了定位准确率(图4(b))。这有助于解决歧义并增强空间推理。

完整配置:完整配置(表3(f))实现了最高准确率(46.1%),验证了SEEGROUND的有效性以及所有组件结合的协同效益。 2. 作者方法与现有方法对比:ZSVG3D[32]通过投影物体中心并应用预定义的启发式方法来推断空间关系,但缺乏灵活性,省略了视觉上下文,并且在检测不完善时会失败(图6)。如图5a所示,其基于VLM的变体仅渲染目标和锚点中心而无背景。相比之下,作者的方法生成全场景渲染,能够利用周围的视觉线索对未检测到或模糊的物体进行推理。

图片

图片

  1. Qwen2 - VL与GPT - 4对比:为了提高可及性和可重复性,作者采用开源的Qwen2 - VL[36]作为智能体。为了进行公平比较,作者使用Qwen2 - VL代替GPT - 4[35]重新评估ZSVG3D(图5b)。在相同的VLM下,作者的方法始终优于ZSVG3D,证实了作者策略的有效性,与底层语言模型无关。

  2. 视图选择策略的影响:表4显示了不同视角策略的影响。作者的查询驱动方法优于静态基线。固定方法(Center2Corner、Edge2Center、Corner2Center)缺乏适应性,而鸟瞰视图(BEV)虽然具有全局性,但错过了关键的空间线索,如方向和高度。相比之下,作者的动态策略实现了持续的提升,特别是在Hard(+4.4%)和View - Dependent(+5.7%)查询上。

    图片

  3. 不完整文本描述下的鲁棒性评估:图6显示了作者模型在不完整查询下的鲁棒性,其中省略锚点物体以模拟检测失败。虽然基于LLM的方法在没有锚点线索时显著下降,但作者的方法成功利用视觉上下文保持准确的定位。这些结果强调了整合视觉和文本信号对于稳健3D理解的重要性。

  4. 不同检测器上的结果:表5比较了不同3D检测器的性能。使用Mask3D时,作者的方法达到44.1%,显著超过ZSVG3D(36.4%)。使用OVIR - 3D时,作者的性能仍然更高(30.7%对19.3%)。当提供真实(GT)框时,作者的方法达到59.5%,揭示了明显的性能上限。

图片

  1. 类型错误分析:作者从10个场景中随机采样185个案例,以识别常见的失败模式(图7)。定位和分类错误的减少表明视觉输入对空间理解的益处。然而,空间关系错误仍然频繁(19%),这表明在精细推理方面的局限性,可以通过专门的空间模块来解决。作者当前的视角选择在复杂的以自我为中心的引用(例如,“当窗户在左边时”,“从门进入时”)方面也存在困难。此外,由于使用原始数据集点云,渲染质量有限,阻碍了物体的区分。未来的工作可以纳入高保真渲染,以增强杂乱场景中的视觉清晰度。

    图片

五、结论

在本文中,作者提出了SeeGround,这是一个零样本3D视觉定位框架,通过查询对齐的渲染和空间描述弥合了3D数据与2D视觉 - 语言模型之间的差距。作者的视角适应模块动态选择视角,而融合对齐模块对齐视觉和空间线索以实现稳健的定位。在两个基准上的实验表明,作者的方法优于零样本基线。

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。


网站公告

今日签到

点亮在社区的每一天
去签到