UniSeg3D:A Unified Framework for 3D Scene Understanding

发布于:2025-08-01 ⋅ 阅读:(17) ⋅ 点赞:(0)

目录

统一三维场景理解框架 (UniSeg3D) 

摘要

1. 引言:问题陈述与动机

1.1 三维场景理解的碎片化现状

1.2 现有统一方法的局限性

1.3 UniSeg3D 的解决方案:一个统一框架

2. UniSeg3D 统一框架的核心原理

2.1 通过共享表示和架构实现统一

2.2 促进任务间知识共享

3. 详细架构与实现

3.1 点云处理与提示编码器

3.1.1 点云骨干网络

3.1.2 视觉提示编码器

3.1.3 文本提示编码器

3.2 掩码生成机制

3.2.1 统一掩码解码器

3.2.2 类别和掩码预测

3.3 显式任务间关联策略

3.3.1 基于排序的对比学习

3.3.2 知识蒸馏

3.4 训练目标与损失函数

3.4.1 开放集伪掩码标签

3.4.2 损失函数

4. 实验评估与结果分析

4.1 与最先进方法的性能比较

4.2 消融研究与组件贡献

4.2.1 多任务统一的挑战

4.2.2 任务间关联的贡献

4.2.3 两阶段微调技巧

4.2.4 超参数 λ

4.2.5 视觉提示的影响

4.3 效率分析

5. 局限性讨论

5.1 室内场景焦点

5.2 对视觉提示位置的敏感性

6. 结论与未来方向

6.1 成就总结

6.2 未来方向


统一三维场景理解框架 (UniSeg3D) 

论文:[2407.03263] A Unified Framework for 3D Scene Understanding

代码:GitHub - dk-liang/UniSeg3D: [NeurIPS 2024] A Unified Framework for 3D Scene Understanding

简介:华中科技大学白翔团队提出UniSeg3D框架,首次统一六种3D点云分割任务,通过对比学习和知识蒸馏建立任务间关联,在多项基准测试中实现SOTA性能。

摘要

UniSeg3D 是一种新颖的统一三维场景理解框架,旨在通过单一模型实现六种不同的分割任务:全景分割、语义分割、实例分割、交互式分割、指代分割和开放词汇分割。该框架旨在解决现有任务专用方法所面临的核心挑战,这些方法通常导致三维场景理解的碎片化和多任务场景下的效率低下。

UniSeg3D 的关键创新在于其共享的基于 Transformer 的架构、统一的查询表示以及旨在促进知识共享和提升性能的显式任务间关联机制(包括知识蒸馏和基于排序的对比学习)。实验结果表明,UniSeg3D 在 ScanNet20、ScanRefer 和 ScanNet200 等基准数据集上的所有六项任务中均持续实现了最先进的性能,甚至超越了许多专用型最先进方法和现有统一框架(如 OneFormer3D)。

本报告将详细阐述 UniSeg3D 的架构组成、其设计选择背后的原理、其经验验证结果以及已识别的局限性,从而将 UniSeg3D 定位为未来三维场景理解研究的强大统一基线。

1. 引言:问题陈述与动机

1.1 三维场景理解的碎片化现状

传统的三维分割研究主要集中于为特定任务开发专用解决方案,例如全景分割、语义分割、实例分割、交互式分割、指代分割和开放词汇分割。这种专业化导致了对三维场景理解的碎片化视角 。这些专用方法通常忽略了不同任务之间固有的联系,例如对象的几何一致性和语义一致性 。它们也未能有效共享可能偏向其他任务的知识,从而将对三维场景的理解限制在任务特定的视角内 。

这种碎片化不仅阻碍了对场景的全面理解,还在实际应用中造成了显著的效率低下。在机器人、自主导航、混合现实和智能家居等现实世界应用中,需要同时应用多种任务特定的三维分割方法,这会带来高昂的计算开销和复杂性,使得部署变得极具挑战。如果每个任务都需要一个单独优化的模型,那么一个需要多种分割类型的系统(例如,一个根据用户命令与对象交互的机器人,同时进行通用场景映射)将需要加载和运行多个大型模型。这直接影响了推理时间、内存占用和能耗,这些都是边缘计算或实时应用中的关键限制。UniSeg3D 通过提出统一的解决方案,旨在解决这种实际效率低下的问题。

1.2 现有统一方法的局限性

尽管在统一三维分割方面已有一些探索,但其范围通常有限。例如,OneFormer3D 是一项近期旨在统一三维通用分割任务(全景、语义、实例分割)的工作 。然而,该架构未能支持三维交互式分割、三维指代分割和开放词汇分割 (OVS) 任务 。这些未受支持的任务提供了关键的补充场景信息,包括用户先验知识和开放集类别,对于实现全面的三维场景理解同样至关重要 。

现有统一方法未能整合以用户为中心的任务(交互式、指代)和开放词汇能力,这凸显了在人类-AI 交互与基础场景理解之间建立桥梁的空白。一个真正全面的系统需要能够响应动态用户输入并处理新颖对象,而这正是 UniSeg3D 旨在实现的能力。此外,将分离的专用方法直接集成到单一架构中,面临着平衡这些方法中特定任务定制优化的挑战 。这种复杂性使得设计一个没有任务特定定制模块的简单优雅的统一框架变得困难。

1.3 UniSeg3D 的解决方案:一个统一框架

为了应对上述挑战,UniSeg3D 提出了一种统一的三维场景理解框架,该框架能够在单一模型内实现全景、语义、实例、交互式、指代和开放词汇分割任务 。其核心方法是将这六项任务统一为由相同 Transformer 处理的统一表示 。这种统一化设计促进了任务间的知识共享,从而提升了对三维场景的全面理解 。

为了充分利用多任务统一的优势,UniSeg3D 通过建立显式任务间关联来增强性能,具体通过知识蒸馏和对比学习方法实现 。据研究者所知,这是首次尝试统一六种三维分割任务的工作 。

2. UniSeg3D 统一框架的核心原理

2.1 通过共享表示和架构实现统一

UniSeg3D 的核心原理是通过相同的 Transformer 处理统一表示,从而实现对多种三维分割任务(全景、语义、实例、交互式、指代、开放词汇)的处理 。这通过使用查询来统一输入信息表示来实现 。

具体而言,通用分割和开放词汇分割 (OVS) 任务仅以点云作为输入,不涉及人类知识,因此可以通过共享相同的工作流程进行处理,而无需担心先验知识泄露 。一个统一的查询集被用于表示这四项任务的特征 。对于交互式分割,其输入视觉点先验信息以进行分割。UniSeg3D 通过简单地采样点云查询来表示点提示信息,从而避免了重复的点特征提取 。指代分割任务的输入是文本表达式,这与点云存在模态差异,在现有工作流程中难以统一。为了最小化时间消耗,UniSeg3D 设计了一个并行的文本提示编码器来提取文本查询 。所有这些查询都由相同的掩码解码器进行解码,并共享相同的输出头,无需设计任务特定的定制结构 。

这种避免任务特定模块的架构简洁性是一种重要的设计理念。它表明,一个单一的、通用目的的 Transformer 架构,当被馈送以适当形式的查询时,可以学习执行各种视觉任务,从而在三维场景理解的背景下推动实现更“通用”的人工智能。如果一个模型需要为每个任务设置单独的专用模块,那么它将变得复杂、难以维护且可扩展性差。UniSeg3D 强调对所有六个任务使用单一的掩码解码器和共享的输出头,尽管它们之间存在固有差异(例如,通用与交互式与指代),这突显了基于查询的统一 Transformer 架构的强大能力。这种设计最大限度地降低了架构复杂性,使得该框架更加优雅,并有可能在未来更容易扩展到更多任务。

2.2 促进任务间知识共享

UniSeg3D 的统一化设计促进了任务间的知识共享,从而提升了对三维场景的全面理解 。为了充分利用多任务设计的优势,该框架通过建立显式任务间关联来增强性能 。具体而言,这通过设计知识蒸馏和对比学习方法来实现,以在不同任务之间传递任务特定知识 。这些方法促进了六项任务之间的知识共享,有效地建立了不同任务之间的关联 。

显式的任务间关联不仅仅是一种优化;它承认了不同的分割任务虽然独立,但并非完全不相关。例如,了解一个对象的位置(实例分割)可以指导用户如何与它交互(交互式分割),或者如何在文本中指代它(指代分割)。通过知识蒸馏和对比学习将这些联系形式化,UniSeg3D 利用一个任务所学到的知识来促进其他任务,从而形成对三维场景更强大和更全面的内部表示。这超越了简单的任务统一,实现了真正的“知识协同”。仅仅将任务放入一个模型并不能保证协同效应;它们甚至可能相互干扰。该论文显式设计知识蒸馏和对比学习,表明其深入理解了知识应如何在这些任务之间流动。例如,交互式分割凭借其精确的用户先验,可以作为通用实例分割的“教师”,传递其卓越的掩码预测能力。这是一种有意的设计选择,旨在克服简单统一(如 表 3 中观察到的)所带来的“平衡不同任务”的挑战。

3. 详细架构与实现

UniSeg3D 的框架主要由三个模块组成:点云骨干网络、提示编码器和掩码解码器 。

3.1 点云处理与提示编码器

3.1.1 点云骨干网络

该系统将 N 个输入点集表示为 P∈RN×6,其中每个点由三维坐标 (x, y, z) 和三通道颜色 (r, g, b) 表征 。这些输入点随后被馈送到一个稀疏三维 U-Net,作为点云骨干网络,以获取点级特征 F∈RN×din​,其中 din​ 表示特征维度 。

为了处理高维数据和降低计算成本,三维场景被下采样为 M 个超点。每个超点内的点特征被池化以形成超点特征 Fs​={fi​}i=1M​,其中每个 fi​∈Rdin​ 。这种处理过程在降低成本消耗的同时,保持了对边缘纹理的感知 。使用超点是一种务实的选择,它在计算效率和几何保真度之间取得了平衡。虽然处理密集点耗时巨大,但简单的下采样可能会丢失细粒度细节。超点通过在空间连贯区域内池化特征,并“感知边缘纹理”,旨在在数据密度降低后仍能保留关键的几何信息(如对象边界)。这对于精确的分割任务至关重要。

3.1.2 视觉提示编码器

视觉提示编码器处理视觉交互条件,特别是“点击”,这是一种清晰便捷的视觉交互方式 。在实践中,点击首先由空间上最近的点指示 。然后,系统采样包含该点的超点,并将其超点特征用作视觉提示特征 fv​∈Rdin​,以表示点提示信息 。这种方法避免了冗余特征提取,并保持了与点云特征的一致性 。

将视觉提示直接整合到超点特征空间是一种巧妙的设计。它避免了处理原始点击坐标或重新提取特征,而是利用现有的超点特征,确保提示信息与主要点云表示立即兼容,从而最大限度地减少架构开销并保持统一的特征空间。这有助于实现“简单优雅的框架”设计理念。如果视觉提示需要单独的处理管道或不同的特征空间,那将引入复杂性和潜在的不一致性。通过将点击映射到现有超点特征,系统重用了其核心表示,这与“没有任务特定定制模块的统一框架”的目标相符。这种设计选择直接支持了效率和架构的优雅性。

3.1.3 文本提示编码器

UniSeg3D 能够根据文本表达式分割实例 。为了处理文本提示,首先对文本句子进行分词以获取其字符串令牌 T∈Rl×c,其中 l 是句子长度,c 表示令牌维度 。这些令牌随后被馈送到一个冻结的 CLIP 文本编码器,以生成一个 C 维度的文本特征 ft​∈RC 。此特征随后通过两个线性层投影到 din​ 维度,得到 ft​∈Rdin​,使其维度与点特征对齐,以便后续处理 。

选择冻结的 CLIP 文本编码器是一种战略性决策。CLIP 在大量的图像-文本数据集上进行了预训练,提供了强大的通用文本嵌入。冻结它可以防止在三维分割训练期间发生灾难性遗忘,并利用其强大的先验知识进行语言理解,这对于指代分割任务至关重要。线性投影确保了模态对齐,而无需在管道早期进行复杂的跨模态融合。

3.2 掩码生成机制

UniSeg3D 采用单一掩码解码器来输出六种三维场景理解任务的预测 。

3.2.1 统一掩码解码器

通用分割和开放词汇分割 (OVS) 共享相同的输入数据,即不带用户知识的点云 。因此,系统从 M 个超点特征中随机选择 m 个特征作为通用查询 qu′​∈Rm×din​,用于通用分割和 OVS 任务 。在训练期间,设置 m<M 以降低计算成本;而在推理时,设置 m=M 以实现每个区域的分割 。

提示信息被编码为提示特征 。这些提示特征被用作提示查询,可以表示为:qt′​={ft,i​}i=1Kt​​ 和 qv′​={fv,i​}i=1Kv​​,其中 qv′​∈RKv​×din​,qt′​∈RKt​×din​,Kv​ 和 Kt​ 分别是点提示和文本提示的数量 。

qu′​、qv′​、qt′​ 是包含来自不同方面信息的三种查询类型 。不加区分地将它们前向传播会使掩码解码器难以挖掘任务特定信息 。因此,在进一步处理之前,系统添加了任务特定嵌入 eu​、ev​ 和 et​ 。这些嵌入被广播到相应的维度 。

掩码解码器包含 L 个掩码解码器层,其中包含自注意力层,用于整合查询之间的信息 。在推理期间,通用分割无法获得提示先验信息 。因此,在训练阶段,应防止人类知识泄露给通用分割 。在实践中,提示查询仅被馈送到交叉注意力层 。最后一个掩码解码器层的输出查询被发送到输出头,该输出头由 MLP 层组成,用于将输出查询的维度从 din​ 投影到 dout​ 。

掩码生成过程可以形式化定义为:

Fout​=MLP(MaskDecoder(q=Concat(qu​,qv​,qt​);k=Fs​;v=Fs​))

其中 Fout​ 表示输出特征 。

对任务特定嵌入的仔细处理以及对通用分割提示查询的训练约束,突出了多任务学习中的一个关键挑战:防止“信息泄露”或“任务干扰”。虽然统一旨在共享知识,但某些信息(如用户提示)不应影响在推理时没有此类提示的任务。这表明在统一框架内保持任务完整性需要精细的设计。

3.2.2 类别和掩码预测

对于类别预测,常见的做法是使用类别 ID 替换类别名称 。然而,为了支持指代分割,类别名称是不能忽视的关键信息 。因此,UniSeg3D 使用冻结的 CLIP 文本编码器将类别名称编码为文本特征 ecls​∈RKc​×dout​,并提出回归类别名称特征,其中 Kc​ 表示类别数量 。

具体而言,掩码预测 maskpred​ 和类别预测 clspred​ 的公式如下:

maskpred​=Fout​×MLP(Fs​)⊤

clspred​=Softmax(Fout​×ecls⊤​)

其中 maskpred​ 和 clspred​ 分别表示掩码结果和类别概率 。由于 maskpred​ 和 clspred​ 是从超点派生的,系统将每个超点的分割输出映射回输入点云,以生成点级掩码和类别预测 。

回归类别名称特征而非离散类别 ID,是实现开放词汇能力的一项重要设计选择。通过在连续嵌入空间中操作,模型可以泛化到新颖类别,即使其特定 ID 未包含在训练集中,只要这些类别的名称在语义上与已知类别相似。这是大型语言模型(如 CLIP)能力在三维领域直接应用,以实现零样本或少样本泛化。

3.3 显式任务间关联策略

以往的研究忽略了三维场景理解任务之间的关联,导致了任务专用方法未能利用跨任务知识 。这种局限性将三维场景的理解限制在任务特定视角,阻碍了全面的三维场景理解 。UniSeg3D 建立了显式任务间关联以克服这些限制 。

3.3.1 基于排序的对比学习

指代分割在处理多个形状相同且相邻的个体时具有挑战性,例如区分文本提示中包含位置变化的描述(例如“在另一把椅子右边的扶手椅”与“在它右边的另一把椅子”)。然而,三维点和语言文本之间的模态差异构成了显著障碍 。UniSeg3D 提出了基于排序的视觉与文本特征对比学习,以缩小模态差异并优化指代分割 。

系统将指定相同个体实例的视觉和文本提示配对,并通过对比学习对齐它们的对偶特征 。假设训练小批量中有 B 个视觉-文本对,相应的输出特征被归一化以获得度量嵌入 。对比学习损失 Lcon​=Lv​+Lt​ 旨在鼓励正(匹配)视觉-文本对之间的相似性,同时推开负(不匹配)对 。

为了区分目标实例与形状相同且相邻的实例,系统引入了受 CrowdCLIP 启发的排序规则,即对角线元素(正确匹配)大于非对角线元素(不正确匹配)。损失 Lrank​ 惩罚了不正确配对具有比正确配对更高相似度的情况,从而抑制了不正确配对 。

在标准对比学习之上增加排序规则是一种精妙而强大的改进。标准对比学习将正样本拉近,将负样本推开。然而,在具有相似对象的复杂场景中(例如,“扶手椅在另一把椅子的右边”与“另一把椅子在它的右边” ),简单的对比损失可能仍然难以进行细粒度区分。排序规则明确强制正确配对具有最高相似度,直接解决了基于微妙文本线索区分相邻、相同形状的歧义。这表明对指代分割中特定困难问题的深入理解。

3.3.2 知识蒸馏

经验发现,交互式分割在掩码预测方面优于其他任务,这归因于可靠的视觉先验 。例如,交互式分割的 mIoU 比实例分割高出 7.9% 。因此,UniSeg3D 设计了知识蒸馏,以从交互式分割中共享知识,利用其卓越的掩码预测能力 。知识蒸馏的关键是利用质量最佳的任务预测分割掩码来指导其他任务,即使用教师模型来指导学生模型 。

  • 交互式分割到通用分割任务 (Lv→g​): 统一查询的预测与交互式分割标签使用匈牙利算法进行匹配,Dice 和交叉熵指标作为匹配成本标准 。匹配的预测被选为正样本 。交互式分割的预测掩码用于定义学习区域 R,该区域包含掩码前 k% 分数的像素 。知识传递过程被定义为二元交叉熵 (BCE) 损失:Lv→g​=LBCE​(maskpos​(R),maskv​(R)) 。

  • 交互式分割到指代分割任务 (Lv→r​): 视觉和文本提示查询预测的对偶类别概率被用于知识传递 。知识传递过程被定义为在 sigmoid 激活的类别概率上的 BCE 损失:Lv→r​=LBCE​(Sigmoid(clst​),Sigmoid(clsv​)) 。

这种知识蒸馏策略是“教师-学生”学习的实际应用,其中更可靠的来源(交互式分割,受益于精确的人类输入)指导不太可靠的来源。它隐含地承认并非所有任务都同样“容易”或“可靠”地从头开始学习,并且统一框架可以从分层的“专业知识”转移中受益。这是克服简单统一任务时观察到的性能下降( 表 3)的核心机制。

3.4 训练目标与损失函数

3.4.1 开放集伪掩码标签

对于开放词汇任务,模型在封闭集数据上进行训练 。为了提高开放集数据上的分割性能,UniSeg3D 使用 SAM3D 生成具有未确定类别的分割掩码作为伪掩码标签(开放集掩码)。在训练期间,统一查询的预测与真实掩码(封闭集掩码)进行分配 。分配和未分配的预测分别分为正样本和负样本 。正样本被监督以回归封闭集掩码 。负样本与伪掩码标签进行匹配,并监督匹配的样本以回归开放集掩码 。值得注意的是,SAM3D 是一种无监督方法,不依赖于真实标注,从而消除了标签泄露的担忧 。此过程仅在训练阶段应用,不产生额外的推理成本 。

整合 SAM3D 生成的伪标签是弥合封闭集训练和开放词汇推理之间差距的关键策略。它允许模型学习新颖类别的对象形状和边界,而无需对这些类别进行显式的人工标注。这是一种自监督学习形式,利用外部强大的分割模型来扩展训练数据的范围,从而实现对未见类别的泛化。

3.4.2 损失函数

UniSeg3D 的最终损失函数 L 包含两个主要组成部分 :

  1. 基本损失 (Lbase​):

    • Lmask​:像素级掩码损失,由 BCE 损失和 Dice 损失组成 。

    • Lcls​:分类损失,使用交叉熵损失 。

  2. 用于建立任务间关联的损失 (Linter​):

    • Lv→g​:交互式分割到通用分割的知识蒸馏 。

    • Lv→r​:交互式分割到指代分割的知识蒸馏 。

    • Lcon​:对比学习损失 。

    • Lrank​:排序规则损失 。

最终损失函数表示为 L=Lbase​+λLinter​,其中 λ 是平衡权重,经验设置为 0.1 。

Linter​ 以相对较小的 λ (0.1) 进行加权,表明任务间关联虽然至关重要,但它们作为一种正则化或精炼机制,而非主导主要的分割和分类目标。这表明了一种精心的平衡:模型必须首先学会胜任每个任务,然后任务间损失帮助它在任务之间学习协同作用,而不会破坏核心任务的性能。

4. 实验评估与结果分析

4.1 与最先进方法的性能比较

UniSeg3D 在三个基准数据集上进行了评估:ScanNet20 、ScanNet200 和 ScanRefer 。评估指标包括通用任务的 PQ、mIoU 和 mAP;交互式和指代分割的 AP 和 mIoU;以及 OVS 的 AP 。报告中还使用了“总体指标”,它代表六项任务的平均性能,旨在反映模型的统一能力 。

UniSeg3D 在所有六项任务上均持续超越了任务专用型最先进方法 。例如:

  • 全景分割 (PS): UniSeg3D 取得了 71.3 PQ,比 PanopticNDT (59.2 PQ) 高出 12.1 PQ 。

  • 语义分割 (SS): UniSeg3D 记录了 76.9 mIoU,比 OctFormer (75.7 mIoU) 高出 1.2 mIoU 。

  • 实例分割 (IS): UniSeg3D 取得了 59.3 mAP,超越 MAFT (58.4 mAP) 0.9 mAP 。

  • 交互式分割: UniSeg3D 取得了 54.5 AP,比 AGILE3D (53.5 AP) 高出 1.0 AP 。

  • 指代分割: UniSeg3D 取得了 29.6 mIoU,比 X-RefSeg3D (25.5/29.9 mIoU) 高出 4.1 mIoU(与 X-RefSeg3D 在过滤数据集上报告的 25.5 mIoU 相比)。

  • 开放词汇分割 (OVS): UniSeg3D 取得了 19.7 AP,比 Open3DIS (19.0 AP) 高出 0.7 AP 。

与竞争性的三维统一方法 OneFormer3D 相比,UniSeg3D 在 PS 任务上取得了 0.1 PQ 的提升,在 SS 任务上取得了 0.3 mIoU 的提升,同时在 IS 性能上与 OneFormer3D 持平 。更重要的是,OneFormer3D 仅关注三项通用分割任务,未能理解用户提示和实现 OVS,这限制了其应用前景 。相比之下,UniSeg3D 统一了六项任务并展现了理想的性能,证明了其强大的架构 。

值得注意的是,UniSeg3D 在不同任务上的性能是通过单一模型实现的,这比单独运行多个任务专用方法更高效 。此外,UniSeg3D 使用 72.4% 的训练数据在三维指代分割任务上实现了与 X-RefSeg3D 接近的性能 (29.6 vs. 29.9) 。当使用相同的过滤训练数据复现 X-RefSeg3D 时,其性能比 UniSeg3D 低 4.1 mIoU,这进一步证明了 UniSeg3D 的有效性 。

表 1:ScanNet20 、ScanRefer 和 ScanNet200 上的比较

最佳结果以粗体突出显示,次佳结果以下划线表示。“*”表示使用了两阶段微调技巧。“-/-”表示在过滤或完整 ScanRefer 数据集上进行训练。

数据集 ScanNet20 ScanRefer ScanNet200
3D 场景理解任务 Pan. Sem. Inst. Inter. Ref. OV
方法 参考 mIoU MAP PQ AP mIoU AP
SceneGraph Fusion CVPR 21 31.5
TUPPer-Map IROS 21 50.2
Panoptic Lifting CVPR 23 58.9
PanopticNDT IROS 23 59.2
PointNeXt-XL NeurIPS 22 71.5
PointMetaBase-XXL CVPR 23 72.8
MM-3DScene CVPR 23 72.8
Point TransformerV2 NeurIPS 22 75.4
ADS ICCV 23 75.6
OctFormer SIGGRAPH 23 75.7
SoftGroup CVPR 22 45.8
PBNet ICCV 23 54.3
ISBNet CVPR 23 54.5
SPFormer AAAI 23 56.3
Mask3D ICRA 23 55.2
MAFT ICCV 23 58.4
QueryFormer ICCV 23 56.5
OneFormer3D CVPR 24 59.3 71.2 76.6
InterObject3D ICRA 23 20.9
AGILE3D ICLR 24 53.5
TGNN AAAI 21 24.9/27.8
X-RefSeg3D AAAI 24 25.5/29.9
OpenScene with CVPR 23 8.5
OpenMask3D NeurIPS 23 12.6
SOLE CVPR 24 18.7
Open3DIS CVPR 24 19.0
UniSeg3D (ours) 71.3 76.3 59.1 54.1 29.5/- 19.6
UniSeg3D (ours)* 71.3 76.9 59.3 54.5 29.6/- 19.7

4.2 消融研究与组件贡献

为了理解所提出组件的单独和组合贡献以及多任务统一的挑战,研究者进行了消融研究 。

4.2.1 多任务统一的挑战

研究者首先探讨了将多任务统一到单一模型中的挑战。简单地将交互式分割、指代分割和 OVS 添加到框架中以构建统一基线时,在 PS、IS 和交互式分割任务上观察到性能的持续下降 。这表明在平衡不同任务方面存在显著挑战 。这种初始的性能下降验证了显式任务间关联机制的必要性。它表明仅仅将任务组合到单一架构中是不够的;需要深思熟虑的策略来管理潜在的任务干扰并利用协同效应。这一发现强调了 UniSeg3D 核心创新背后的原因。

表 2:任务统一的消融研究

ScanNet200 ScanRefer ScanNet20
OV Ref. Inter. Pan. Sem. Inst.
AP mIoU AP PQ mIoU MAP
X X X 71.0 76.2 59.0
X X 56.8 71.0 76.4 58.7
X 29.1 56.0 70.3 76.3 58.4
19.7 29.1 54.5 70.4 76.2 58.0

4.2.2 任务间关联的贡献

UniSeg3D 通过知识蒸馏和对比学习来连接支持的任务。应用知识蒸馏后( 表 4,第 2 行),IS 和交互式分割的性能分别提高到 58.6 mAP 和 55.3 AP 。IS 任务的改进归因于从交互式分割中蒸馏出的可靠知识,而交互式分割的改进则归因于两任务之间的内在联系 。

接下来,对基于排序的对比学习进行消融( 表 4,第 3 行)。观察到五项任务(包括通用分割和指代分割)都有所改进,但交互式分割的性能略有下降 。这表明对比学习在大多数任务中是有效的,但在对齐点和文本模态方面存在巨大困难,这削弱了交互式分割的性能 。

表 3:组件消融研究

“Distillation”、“Rank-Contrastive”和“Trick”分别表示知识蒸馏、基于排序的对比学习和两阶段微调技巧。

数据集 ScanNet20 ScanRefer ScanNet200
组件 Pan. Inst. Sem. Inter. Ref. OV Overall
Distillation Rank-Contrastive Trick PQ mIoU MAP AP mIoU AP
70.4 58.0 76.2 54.5 29.1 19.7 51.3
70.9 58.6 76.2 55.3 29.2 19.6 51.6
70.8 76.4 58.4 54.1 29.6 19.9 51.5
71.3 59.1 76.3 54.1 29.5 19.6 51.7
71.3 59.3 76.9 54.5 29.6 19.7 51.9

同时应用知识蒸馏和基于排序的对比学习( 表 4,第 4 行)在大多数任务上取得了可比较的性能,并且总体指标高于仅使用任一组件的情况,这表明这两个组件具有互补性 。观察到的性能权衡(例如,对比学习改善了一些任务但略微损害了交互式分割)揭示了多目标优化的固有复杂性。没有单一组件是万能药,最佳解决方案通常在于多种有时相互冲突的策略的协同组合。这里的“总体”指标变得至关重要,它反映了优化聚合性能而非孤立地最大化单个任务分数的实际决策。

详细的组件消融研究如 表 5 所示。知识蒸馏到不同任务带来了各自的改进 。对于对比学习,基于排序的规则抑制了混淆的点-文本对,使对比学习更有效 。

表 4:所提出组件的不同设计消融研究

“v→g”和“v→r”分别表示从交互式分割到通用分割和指代分割的知识蒸馏。“Contrastive”和“Rank”分别表示对比学习和排序规则。

(a) 知识蒸馏设计消融研究。

数据集 ScanNet20 ScanRefer ScanNet200
组件 Pan. Sem. Inst. Inter. Ref. OV Overall
v→r v→g PQ mIoU MAP AP mIoU AP
70.8 76.4 58.4 54.1 29.6 19.9
71.2 59.0 76.3 54.0 29.5 19.8
70.7 76.2 58.6 54.1 29.7 20.0
71.3 59.1 76.3 54.1 29.5 19.6

(b) 基于排序的对比学习设计消融研究。

数据集 ScanNet20 ScanNet200 ScanRefer
组件 Pan. Sem. Inst. Inter. Ref. OV
Contrastive Rank PQ mIoU MAP AP mIoU
70.9 76.2 58.6 55.3 29.2
71.0 76.3 59.0 54.5 29.4
71.0 76.2 58.7 54.6 29.5
71.3 76.3 59.1 54.1 29.5

4.2.3 两阶段微调技巧

两阶段微调技巧是指使用初始学习率和权重衰减的 0.001 倍对最佳模型进行 40 个 epoch 的微调 。该技巧带来了各项任务的持续改进 。这表明即使通过复杂的任务间关联,通过仔细优化训练计划,仍有微小的性能提升空间。它表明了一种精益求精的性能提升方法。

4.2.4 超参数 λ

超参数 λ 控制着显式任务间关联的强度 。经验发现,将 λ 设置为 0.1 可获得最佳性能 。λ 的敏感性突出了多目标学习中所需的微妙平衡。过强的任务间关联(高 λ)可能会强制任务过度符合,从而可能阻碍单个任务的性能。过弱(低 λ)可能无法有效利用协同效应。0.1 的最佳值表明,任务间关联的适度影响是最有利的,它起到正则化的作用,而不是主导力量。

表 5:超参数 λ 的消融研究

数据集 ScanNet20 ScanRefer ScanNet200
超参数 Pan. Inst. Sem. Inter. Ref. OV Overall
λ PQ mIoU mAP AP mIoU AP
0.05 70.7 76.2 58.9 54.4 29.5 19.6 51.6
0.1 71.3 59.1 76.3 54.1 29.5 19.6 51.7
0.2 70.8 76.6 58.6 52.3 29.8 19.5 51.3
0.3 70.6 75.7 58.4 51.6 29.6 19.3 50.9

4.2.5 视觉提示的影响

经验发现,视觉提示会影响交互式分割性能 。为了确保公平比较,研究者采用了 AGILE3D 中设计的相同视觉提示生成策略来评估交互式分割性能 。

为了分析视觉提示的影响,研究者对视觉提示与实例中心之间的三维空间距离进行了消融研究 。当视觉提示位于实例中心时,交互式分割实现了 56.6 AP 的上限性能 。边缘点和中心点之间存在显著的性能差距(高达 20.2 AP)。这表明仍有相当大的改进空间 。当 rd​ 从 0.9 增加到 1.0 时,AP 出现异常下降 。这可能是由于区分边缘点与相邻实例的歧义所致 。

表 6:视觉提示的消融研究

策略 mIoU AP AP50 AP25
From 78.8 54.5 79.4 93.2
Instance center 79.6 56.6 82.1 94.9
rd​=0.1 79.1 55.9 81.1 94.4
rd​=0.2 78.7 55.1 80.0 93.4
rd​=0.3 78.0 53.8 78.5 92.4
rd​=0.4 77.5 53.0 77.4 91.7
rd​=0.5 76.6 52.1 76.2 90.6
rd​=0.6 75.9 51.2 74.6 90.0
rd​=0.7 74.9 50.1 72.9 88.1
rd​=0.8 73.4 48.2 71.1 86.5
rd​=0.9 71.0 45.3 66.6 82.1
rd​=1.0 62.7 36.4 54.8 70.2
Random 76.0 51.3 75.2 89.6

交互式分割对提示质量(接近实例中心)的强烈依赖性揭示了一个实际的脆弱性。虽然交互式分割是其他任务的“教师”,但其自身的性能严重依赖于人类输入的质量。这凸显了实际交互式应用中潜在的瓶颈,因为用户可能无法始终提供理想的提示,并且表明需要更强大的提示解释或细化机制。

4.3 效率分析

UniSeg3D 比单独运行六个任务专用方法更高效,因为它可以在一次推理中实现六个任务 。UniSeg3D 的总推理时间为 230.03 毫秒,与许多专用型最先进方法和 OneFormer3D(3 个任务为 221 毫秒)等其他统一方法相比,具有竞争力或更优 。

表 7:ScanNet20 验证集上的推理时间与实例分割性能

方法 组件 设备 组件时间, ms 总时间, ms mAP
PointGroup Backbone GPU 48 372 34.8
Grouping GPU+CPU 218
ScoreNet GPU 106
HAIS Backbone GPU 50 256 43.5
Hierarchical aggregation GPU+CPU 116
Intra-instance refinement GPU 90
SoftGroup Backbone GPU 48 266 45.8
Soft grouping GPU+CPU 121
Top-down refinement GPU 97
SSTNet Superpoint extraction CPU 168 400 49.4
Backbone GPU 26
Tree Network GPU+CPU 148
ScoreNet GPU 58
Mask3D w/o clustering Backbone GPU 106 221 54.3
Mask module GPU 100
Query refinement GPU 15
Mask3D Backbone GPU 106 19851 55.2
Mask module GPU 100
Query refinement GPU 15
DBSCAN clustering CPU 19630
SPFormer Superpoint extraction CPU 168 215 56.3
Backbone GPU 26
Superpoint pooling GPU 4
Query decoder GPU 17
OneFormer3D Superpoint extraction CPU 168 221 59.3
Backbone GPU 26
Superpoint pooling GPU 4
Query decoder GPU 23
UniSeg3D (ours) Superpoint extraction CPU 168 230.03 59.3
Backbone GPU 33
Text encoder GPU 0.03
Mask decoder GPU 29

效率分析表明,CPU 绑定的超点提取是主要的性能瓶颈。这提示,未来对三维统一框架的优化可能更多地受益于高效点云预处理的进步(例如,超点提取的硬件加速或更高效的数据结构),而不是仅仅关注神经网络骨干或解码器。

5. 局限性讨论

5.1 室内场景焦点

UniSeg3D 目前主要针对室内任务,缺乏在室外场景中的探索 。这意味着其当前能力局限于结构化的室内环境,其在更复杂多变的室外环境(如自动驾驶、大规模城市测绘)中的性能或适用性尚不明确 。

室内场景的焦点表明,当前模型可能无法很好地泛化到室外三维数据中存在的规模、稀疏性和不同对象类型。室外场景通常涉及不同的传感器模态(例如,具有稀疏、远距离点的 LiDAR)和环境挑战(天气、动态对象),这些是室内数据集通常不具备的。这意味着将 UniSeg3D 扩展到室外场景将需要显著的架构适应或在多样化的室外数据集上进行重新训练。

5.2 对视觉提示位置的敏感性

UniSeg3D 在视觉提示远离实例中心时,交互式分割性能会下降 。这一局限性影响了 UniSeg3D 的可靠性,因为其在交互式分割中的准确性依赖于视觉提示的精确放置 。研究者承认这是未来需要探索的领域,表明需要增强模型的鲁棒性和实用性 。

虽然交互式分割是 UniSeg3D 的一个关键优势和知识蒸馏的来源,但其对提示质量的敏感性是一个显著的实际障碍。真实世界用户可能无法始终提供完美居中或精确的点击。这一局限性表明,未来的工作需要专注于使交互式组件对嘈杂或模糊的人类输入更具鲁棒性,这可能通过提示细化模块或不确定性感知分割来实现。这对于真正可部署的人机交互应用至关重要。

6. 结论与未来方向

6.1 成就总结

UniSeg3D 成功提出了一个统一的三维场景理解框架,能够在单一模型内支持六种不同的分割任务。它通过新颖的知识蒸馏和基于排序的对比学习方法,有效促进了任务间知识共享,从而解决了以往任务专用方法的局限性。实验结果表明,UniSeg3D 在所有六项统一任务上均持续实现了最先进的性能,验证了其强大和高效。该框架简单优雅的结构,不包含任务定制模块,使其成为未来研究的理想统一基线。

6.2 未来方向

  • 扩展到室外场景: 未来关键一步是探索和调整 UniSeg3D 以适应室外三维场景理解,这在规模、数据稀疏性和对象类型方面提出了不同的挑战。这将扩大其在自动驾驶和大规模测绘等领域的适用性。

  • 对不完美提示的鲁棒性: 解决交互式分割对视觉提示位置的敏感性至关重要。未来的工作应侧重于开发方法,使 UniSeg3D 对不那么精确或偏离中心的的用户输入更具鲁棒性,从而提高其在真实世界交互场景中的可靠性和实用性。这可能涉及提示细化技术或从模糊提示中学习。

  • 探索更多任务间关联: 尽管知识蒸馏和对比学习是有效的,但进一步的研究可以探索其他形式的显式或隐式任务间关联,以解锁更深层次的协同效应和对更广泛三维任务的全面理解。

  • 预处理效率优化: 鉴于超点提取是重要的瓶颈,未来的工作可以研究更高效的点云预处理技术,可能利用硬件加速或新颖的数据结构,以进一步缩短整体推理时间。

  • 泛化到新模态/任务: 灵活的基于查询的 Transformer 架构可以被探索用于统一更多三维任务或整合额外的模态(例如,音频、力反馈),以实现真正的多模态三维场景理解。

附注:参考deepseek、kimi、gemini等大模型


网站公告

今日签到

点亮在社区的每一天
去签到