Efficient Multi-Task RGB-D Scene Analysis for Indoor Environments

室内环境的高效多任务RGB-D场景分析

arXiv:2207.04526v1 [cs.CV] 10 Jul 2022
文章地址：https://arxiv.org/abs/2207.04526
代码地址： https://github.com/TUI-NICR/EMSANet

摘要

语义场景理解对于在各种环境中行动的移动代理至关重要。尽管语义分割已经提供了很多信息，但关于单个物体以及一般场景的细节还是缺失的，但对于许多现实世界的应用来说是需要的。然而，鉴于移动平台上有限的计算和电池能力，单独解决多个任务是昂贵的，而且不能实时完成。在本文中，我们提出了一种高效的RGB-D场景分析的多任务方法（EMSANet），它同时进行语义和实例分割（全景分割）、实例方向估计和场景分类。我们表明，所有的任务都可以在移动平台上使用单一的神经网络实时完成，而不会降低性能–相比之下，各个任务之间能够相互受益。为了评估我们的多任务方法，我们扩展了常见的RGB-D室内数据集NYUv2和SUNRGB-D的注释，以便进行分割和方向估计。据我们所知，我们是第一个在NYUv2和SUNRGB-D上为室内场景分析提供如此全面的多任务设置的结果。

索引项–多任务学习，方向估计，全景分割，场景分类，语义分割，NYUv2，SUNRGB-D

1. 导言

图1. 我们提出的高效多任务场景分析网络（EMSANet）的预测，它同时进行全景分割、方向估计和场景分类。以24. FPS的NVIDIA Jetson AGX Xavier，它很适合移动机器人应用。语义标签颜色见图4。颜色变化表示个别实例。

在计算机视觉中，语义场景理解通常等同于语义分割，因为它能够通过给图像的每个像素分配一个语义标签来获得关于场景结构的精确知识。然而，这种知识对于我们正在进行的研究项目MORPHIA和CO-HUMANICS中需要在其环境中自主操作的代理来说是不够的。想象一下，一个移动机器人应该导航到一个语义实体，例如，如图1所示，在客厅的一组椅子中的一个特定椅子。执行这样一个高层次的任务需要对场景有更广泛的了解。首先，即使有了环境的语义图[1]，机器人仍然需要知道其环境的哪一部分属于客厅。随后，它需要能够区分同一语义类别的各个实例，最后，为了从正确的方向接近椅子，需要它的方向。

在本文中，我们提出了一种叫做高效多任务场景分析网络（EMSANet）的方法，用于解决上述所有的挑战，以完成这样一个高级任务。我们的方法可以进行场景分类、语义和实例分割（全景分割），以及实例方向估计。然而，考虑到移动平台上有限的计算和电池资源，单独解决所有这些任务是昂贵的，而且不能实时完成。因此，我们设计了我们的方法来解决所有上述的任务，使用一个单一的高效的多任务网络。我们的方法扩展了ESANet[2]，这是一种高效的语义分割方法，通过增加额外的头来处理全景分割、实例方向估计和场景分类。ESANet同时处理RGB和深度数据作为输入。如[2]所示，特别是对于室内环境，深度数据提供了补充的几何信息，有助于分析杂乱的室内场景。在本文中，我们表明这对于全景分割、实例方向估计和场景分类也是如此。因此，我们的方法也依赖于RGB和深度数据。

训练这样一个多任务方法需要全面的数据集。然而，据我们所知，没有一个真实世界的RGB-D室内数据集包含了所有上述任务的地面真实注释。因此，我们在现有的数据集NYUv2[3]和SUNRGB-D[4]中为实例分割和实例方向估计增加了注释。有了这些数据，我们首先训练单任务基线，然后在几个多任务设置中结合多个任务。我们的实验表明，所有的任务都可以使用单个神经网络实时解决，而不会降低性能–相比之下，各个任务能够相互促进。我们的完全多任务方法达到了24。在移动平台NVIDIA Jetson AGX Xavier上的FPS，同时实现了最先进的性能。因此，它非常适用于移动平台上的实际应用。

综上所述，我们的主要贡献是。

一种高效的RGB-D多任务方法，用于全景分割、场景分类和实例方向估计（EMSANet），包括一种新颖的实例方向编码
丰富的NYUv2和SUNRGB-D注释
在NVIDIA Jetson AGX Xavier上进行的关于单任务和多任务设置中的性能以及相应推理吞吐量的详细实验。

我们的代码、NYUv2和SUNRGB-D的额外注释以及训练好的模型都可在以下网站上公开获得：https://github.com/TUI-NICR/EMSANet

2. 相关工作

在下文中，我们简要地总结了每个任务的相关工作。此外，我们还对多任务环境下的任务组合提出了一些见解。

A. 语义分割

语义分割的架构通常遵循编码器-解码器设计，以完成密集的像素级预测。知名的方法如PSPNet[5]或DeepLab系列[6]-[8]取得了良好的效果，但由于其对中间特征表示的低下采样，无法在移动平台上实时执行。因此，出现了另一条研究路线，专注于低推理时间，同时仍然保持高性能。例如，ERFNet[9]通过在空间上将昂贵的3×3卷积分解为3×1和1×3卷积，引入了一个更有效的块，因此，减少了计算量。相比之下，SwiftNet[10]只是使用了预先训练好的ResNet18[11]作为编码器，并进行了早期和高度的下采样，从而使推理时间较短，但也仍然有很好的性能。

虽然上述方法只处理RGB数据，特别是针对室内应用，但其他方法[12]-[16]也纳入了深度数据，因为它们提供了补充的几何信息，有助于分析杂乱的场景。大多数方法首先使用两个编码器分别处理RGB和深度数据（RGB-D），然后在网络中融合产生的特征。然而，几乎所有的RGB-D方法都使用深度和复杂的网络结构，并不注重快速推理。相比之下，我们最近发表的ESANet[2]结合了高效和RGB-D语义分割的优点。它利用了一个精心设计的架构，其特点是基于RGB-D ResNet的双分支编码器，具有高下采样和空间因子化的卷积，能够实现快速推理。我们在[2]中的实验表明，用浅色骨架处理RGB和深度数据要比只利用RGB数据和更深的骨架要好。因此，我们的方法沿用了ESANet，并通过额外的头处理剩余的任务来扩展其架构。

B. 全景分割

全景分割[17]是为了将语义分割（为每个像素分配一个类别标签）和实例分割（为同一实例的像素分配一个唯一的ID）统一在一个任务中。在全景分割中，可计数物体的语义类被视为事物类，代表前景。背景类，如墙或地板–被称为东西类–不需要实例。因此，所有相关的像素都有相同的实例ID。全景分割的方法可以分为自上而下、自下而上和端到端的方法。自上而下的方法通常扩展了两阶段的实例分割方法，如Mask R-CNN[18]，并增加了一个用于语义分割的解码器[19]，[20]。尽管自上而下的方法通常会取得优异的性能，但它们有几个主要的缺点。由于实例分割方法可以输出重叠的实例掩码，因此需要进一步的逻辑来解决这些问题，以便在没有矛盾的情况下合并实例和语义分割。此外，它们需要复杂的训练和推理管道，这使得它们不太适合于移动应用。另一方面，自下而上的方法为语义分割扩展了基于编码器-解码器的架构，并通过将像素分组到集群中，将事物类别分成实例[21]-[23]。由于自下而上的方法既不需要区域建议，也不需要独立估计多个掩码，更不需要进一步的细化步骤，因此与自上而下的方法相比，其训练和推理的管道要简单得多。然而，在Panoptic DeepLab[23]之前，自下而上的方法在全景质量方面无法与自上而下的方法竞争。尽管如此，自上而下和自下而上的方法都需要额外的逻辑来合并实例和语义分割。最近提出的MaX-DeepLab[24]采用了另一种基于新型双路径转化器架构的方法[25]，并试图使用一个端到端的管道直接预测泛在的分割。然而，这类方法的研究目前侧重于建立新的架构，而不是快速有效的推断。

与语义分割不同，只有少数方法以效率为目标[26]-[30]。然而，他们的目标硬件是不同的，因为他们只报告了高端GPU上的推理时间。在移动平台上的执行，如NVIDIA Jetson AGX Xavier，预计会慢得多。

我们的方法遵循自下而上的理念，因为它可以直接集成到ESANet中，并有望在移动平台上实现更快的推理。

C.方向估计

方向估计通常与三维边界框检测一起完成[31]-[33]，并深深地集成到这种架构中。调整这些检测器以完成密集预测将需要根本性的改变，因此，不适合我们的应用。与方位估计密切相关的另一个研究领域是人的感知[34]-[38]。除了使用骨架[34]来估计一个人的固有方向外，还有一些方法直接从斑块中估计方向[35]-[38]。这可以使用分类或回归来进行。然而，如[35]所示，分类法进一步增加了离散性的不准确性，并且不能很好地说明周期性。因此，诸如[35]、[36]等方法依赖于回归，并通过其正弦和余弦部分估计角度，这通常被称为Biternion编码[35]。同一作者还提议使用冯-米塞斯损失函数[35]，而不是L1或MSE损失，因为它进一步改善了核算周期性，避免了不连续现象。

我们的方法遵循后者的想法，并将方向估计制定为回归。然而，我们没有使用基于补丁的方法，而是提出了一种新的方法来完成密集的方向估计。

D. 场景分类

场景分类，即为输入图像分配一个场景标签，如厨房或客厅，与其他分类任务类似，如ImageNet-Challenge[39]。因此，可以使用众所周知的架构[11], [40]-[42]。

E. 多任务学习

多任务学习是指在一个神经网络中同时学习多个任务。由于这些任务通常至少共享一些网络参数，与为每个任务使用独立的网络相比，推理速度更快。此外，[43]中显示，密集的预测任务在一起训练时可能会从另一个任务中受益。特别是早期的网络层，已知可以学习共同的特征，因此，可以在多个任务之间共享 - 在文献中，这被称为硬参数共享[44]。一些方法[45], [46]也在特定任务的头部交换信息，这被称为软参数共享。然而，当利用软参数共享的任务头时，这些任务不能再被解耦。这意味着，在推理过程中需要应用整个网络，即使只有一个任务可能是感兴趣的。因此，我们的方法使用一个硬参数共享的RGB-D编码器和独立的特定任务头，不共享任何网络参数或信息。我们表明，语义和实例分割、实例方向估计以及场景分类都受益于这种多任务设置。

3 高效的多任务RGB-D场景分析

图2. 我们的高效多任务场景分析网络（EMSANet）的结构，它扩展了用于语义分割的ESANet[2]（顶部），有一个用于实例分割和实例方向估计的额外解码器，以及一个用于场景分类的头。语义标签的颜色见图4。

我们的高效多任务场景分析网络（EMSANet）扩展了基于编码器-解码器的ESANet[2]，用于高效的RGB-D语义分割。如图2（顶部）所示，ESANet具有两个相同的编码器，一个用于处理RGB图像，一个用于处理深度图像。出于效率的考虑，这两个编码器都是基于ResNet34[11]的骨架。为了更快的推理和提高准确性，3×3的卷积被空间因子化，从而形成了非瓶颈1D块（NBt1D）[9]（见图2紫色）。在编码器的每个分辨率阶段，一个基于注意力的机制被用来将深度特征融合到RGB分支中，用额外的几何信息增强其代表性。在最后一次融合之后，一个类似于PSPNet[5]中的金字塔集合模块的上下文模块被连接起来。它使用几个具有不同池子大小的分支来整合多个尺度的背景信息（详见[2]）。解码器由三个解码器模块组成（见图2浅红色），每个模块都在细化和上采样中间特征图，以逐步恢复输入分辨率。这是通过一个3×3的卷积，然后是三个NonBottleneck1D块和一个最终学习到的2倍的上采样来完成。学习到的上采样（见图2深绿色）首先被初始化为模仿双线性上采样。然而，由于它的权重不是固定的，网络能够在训练中学习以更有用的方式结合相邻的特征。额外的编码器-解码器跳过连接进一步帮助恢复在编码器中降采样过程中丢失的空间细节。在最后一个解码器模块之后，一个3×3卷积将特征映射到语义类别。最后，两个额外的学习型上采样恢复了输入分辨率。如图2所示，整个网络是通过额外的侧面输出和多尺度监督进行端到端的训练。

ESANet为语义分割建立了一个强大而高效的基线。然而，该架构是专门为语义分割定制的。为了提高其对其余任务的泛化能力，我们在所有NonBottleneck1D区块中进一步增加了一个速率为0.1的轻微辍学。此外，我们将所有RGB-D融合模块的初始化改为He-初始化[47]，并在所有NonBottleneck1D块中强制进行零初始化[48]。最后，为了更有效地纳入其他任务的损失，我们不通过应用语义类别权重的总和来减少累积损失，而只通过网络所有输出的所有像素的数量来减少。

接下来，我们介绍对多任务网络的扩展。

A. 全景式分割

对于全景分割，需要有第二个用于实例分割的解码器。如图2（中间）所示，我们的实例解码器遵循与语义解码器相同的架构，除了特定任务的头。实例编码遵循Panoptic DeepLab[23]的实现。实例由其质心表示，在热图中被编码为小的二维高斯，类似于其他领域的关键点估计[34]。通过一个额外的头，实例解码器还预测了每个像素的偏移向量，这些偏移向量在X和Y方向指向相应的实例中心。由于只需要属于事物类的像素的实例–即除了墙、地板和天花板以外的所有类别–相应的前景掩码从语义分割中得到。然后，通过结合实例中心和偏移量预测，将所有事物像素分组为与类别无关的实例。每个实例的语义类别是由语义分割的多数投票得出的。

与Panoptic DeepLab类似，我们使用MSE损失进行中心预测，使用L1损失进行偏移预测。然而，与Panoptic DeepLab不同的是，我们使用地面真相实例掩码而不是事物类别掩码来掩盖预测的中心，以说明地面真相中缺少实例注释。我们还采用了他们的后处理方法，包括阈值处理和关键点非最大抑制，使用最大池的中心和实例与语义分割的最终合并，把更多的注意力放在实例上。然而，在应用他们的训练制度时，我们面临一些问题。Panoptic DeepLab使用线性输出来估计中心和绝对偏移量。这导致了损失的无界化和相当的不平衡，因此，需要仔细调整初始化和损失权重，如在他们的实现中使用的200：0.1的中心：偏移量。此外，绝对偏移矢量不能适用于不同的输入分辨率。为了解决这些问题，我们对实例中心使用sigmoid激活，对相对实例偏移进行tanh激活编码。因此，输出分别在[0, 1]和[-1, 1]的范围内。我们观察到，在优化过程中的稳定性和实例分割的性能方面有很大的改进。

B. 实例方向估计

我们的方法进一步预测了与室内场景相关的事物类别的实例的方向，即橱柜、床、椅子、沙发、书架、书架、梳妆台、冰箱、电视、人、床头柜和厕所。当从正确的方向接近物体（例如椅子或人）或限制等待位置（例如，机器人不应该在电视的视线范围内或在独立的椅子或柜子前面等待）时，方向是至关重要的。为了实现这一点，如图2（中间）所示，我们的实例解码器也将方向预测为围绕垂直于地面的轴的连续角度（见图2中方向编码的左下角图例）。我们没有依赖基于补丁的方向估计，而是遵循我们的密集预测设计，建议预测一个实例的所有像素的方向。这样一来，我们的实例解码器的实例意识可以进一步加强。此外，为了确定一个实例的方向，我们能够对多个预测进行平均，接近于一个集合效应。我们使用biternion编码[35]和von Mises损失函数[35]来说明角度的周期性并避免损失的不连续性。

C. 场景分类

对于场景分类，如图2（底部）所示，我们只需在上下文模块的顶部应用一个全连接层。然而，由于场景分类需要全局背景，我们将全连接层直接连接到背景模块的全局平均集合分支。由于场景类的噪声性质，我们在训练中进一步利用标签平滑。

4. 数据集

训练我们提出的多任务方法是具有挑战性的，因为它需要为所有任务提供全面的数据注释。此外，我们的方法依赖于RGB和深度图像作为输入。基于这些要求和我们的应用场景，下面我们将检查常见的RGB-D数据集的适用性。此外，我们还描述了我们如何丰富这些数据集，以便能够训练我们的多任务方法。额外的注释是公开可用的。

NYUv2。NYUv2数据集[3]为语义和实例分割提供了密集的注释。对于语义学，我们使用常见的40类设置。然而，这可能导致非常小的实例被分配到误导性的类别，例如门把手被分配到橱柜、梳妆台或床头柜。为了避免这种错误的分配，我们限制实例的面积至少要达到图像面积的0.25%。为了实现全景分割，我们宣布墙壁、地板和天花板为背景（东西类），并将其余的类视为事物类。除了这些密集的注释外，NYUv2还为场景分类提供了真实的标签。然而，到目前为止，还缺少对实例方向的注释。因此，我们手动注释了III-B节中提到的语义类的实例的方向。由于透视失真，在纯RGB图像中不可能将方向精确地注释为围绕垂直于地面的轴线的以自我为中心的角度，这就是为什么我们直接将它们注释在点云中。

SUNRGB-D：SUNRGB-D数据集[4]结合了多个室内RGB-D数据集，包括NYUv2，并通过额外的注释来丰富它们，使SUNRGB-D成为现实世界应用中最重要的数据集之一。该数据集带有用于场景分类和语义分割的注释。与NYUv2相比，最后三个语义填充类，即其他结构、其他家具和其他道具，被省略并分配给了空白。此外，NYUv2部分的一些语义注释被进一步分配给了void类，导致与原始NYUv2数据集的微小差异。不幸的是，用于实例分割和实例方向估计的注释没有了。然而，幸运的是，SUNRGB-D也提供了三维边界框，每个边界框都有一个类别标签和方向，可用于实例提取。为了获得实例，我们首先在语义和盒子类别之间建立了一个映射。随后，我们将盒子集群与三维语义点云进行匹配。在匹配过程中，我们为属于同一语义类别的所有像素分配了一个独特的实例标签。这样一来，就可以为每个边界盒提取一个实例掩码以及方向。然而，这种方法的一个局限性是，在一个场景中并不是所有的物体都有一个三维边界盒的注释，这使得实例掩码更加稀疏。为了在一定程度上弥补这一点，我们还将NYUv2的实例掩码和方向合并为SUNRGB-D。对于全景分割，我们认为与NYUv2相同的语义类是属于东西的。

Hypersim：与SUNRGB-D和NYUv2不同的是，Hypersim[49]是一个照片般真实的合成数据集。为了创建该数据集，我们将虚拟摄像机放置在461个专业渲染的三维场景中，产生了77,400个样本，我们使用了其中的72,419个。由于一些场景或轨迹问题，即无效/仅有单一语义标签、缺少纹理或无效深度，我们将其余样本列入黑名单。每个样本都提供了一个RGB-D图像，一个语义和实例的掩码，实例的方向，以及一个场景标签。然而，实例方向的注释并不一致，因此，如果没有进一步的人工完善，就不能使用。由于Hypersim采用了NYUv2的语义类别，所以对东西和事物的划分也可以应用于泛指的分割。

表1：关于我们的多任务方法所使用的数据集的概述。

表2：所有数据集的场景类别分布及其拆分。

最后的评论和进一步的调整。由于有额外的注释，NYUv2和SUNRGB-D都适合训练我们完整的多任务方法。HyperSim提供了高质量的合成数据，因此，很适合用于预训练。表1总结了所有数据的重要统计数据。表1总结了用于训练和评估我们多任务方法的所有数据集的重要统计数据。对于场景分类，我们进一步创建了一个自己的类谱，将所有数据集中的类统一起来，并考虑到类似的类。由此产生的频谱是为室内应用量身定做的，由表2中所列的类组成.请注意，无效类用于分配不明确、可能干扰学习过程的图像。此外，显示室内场景但不能被分配到上述类别之一的图像被认为是其他室内图像。

5. 实验

我们在室内数据集NYUv2和SUNRGB-D的几个设置中评估了我们的方法。首先，我们使用较小的NYUv2数据集来制定合适的超参数和任务权重。我们为每个任务建立了单任务基线，并随后将其与几个多任务设置进行比较。最后，我们将研究扩展到SUNRGB-D和Hypersim，以检验对更大的数据集的适用性和预训练的合成数据的相关性。

A. 实施细节

我们的架构以及训练和评估的管道是用PyTorch[50]实现的。我们使用ImageNet[39]上的预训练权重来初始化两个编码器，并对每个网络进行了500个epochs的训练，批次大小为8。对于优化，我们使用SGD，动量为0.9，小权重衰减为0.0001。为了确定一个合适的学习率，我们用{0.00125, 0.0025, 0.005, 0.01, 0.02, 0.03, 0.04, 0.08, 0.12}的值进行了网格搜索。在训练过程中，使用单周期学习率调度器进一步调整学习率。为了增加样本的数量，我们使用随机缩放、裁剪和翻转的方法来增强图像。对于RGB图像，我们在HSV空间中进一步应用了轻微的颜色抖动。

对于后处理实例中心，我们首先应用0.1的阈值和池子大小为17的最大池子来进行关键点非最大抑制，最后过滤前64个实例。池化大小导致网络无法预测彼此之间距离超过8像素的实例中心。然而，对于NYUv2和SUNRGBD来说，这一决定影响了不到1%的实例。关于进一步的细节和其他超参数，我们可以参考GitHub上的实现。

B. 度量

由于我们专注于快速推理，我们没有应用任何测试技巧，如水平翻转或多尺度输入。在获得密集预测的任何性能指标之前，我们将预测的大小调整为地面真相的全部分辨率。

语义分割（Sem）。作为这项任务的常用方法，我们使用平均相交大于联合（mIoU）。

全景分割（Panoptic Segmentation）。全视点分割的常用指标是全视点质量（PQ）[17]。每个类别c的全景质量PQc由识别质量（RQc）和分割质量（SQc）的乘积决定，前者是指类似于F1分数的正确检测实例的百分比，后者是指类似于mIoU的分割精度，但只针对匹配的片段。这些指标通常在所有的东西（st）和事物（th）类中取平均值，结果分别为RQst、SQst、PQst和RQth、SQth、PQth。在所有类别中独立于东西和事物的三个度量的平均值也很常见，结果是RQ、SQ和PQ。请注意，以这种方式确定指标的结果是PQ通常不等于RQ-SQ。对于SUNRGB-D，我们进一步忽略了地垫和浴帘这两个类别，因为这些类别的实例在测试中没有出现。

实例分割（Ins）。对于实例分割，我们也坚持采用全景质量，而不是报告平均精度（AP），因为这需要给每个实例分配一个信心分数[51]。此外，AP和PQ密切跟踪，这就是为什么后者也能以一种有意义的方式评估实例分割[17]。

方向估计（Or）。对于评估实例的方向，我们使用类似于[36]、[38]的平均绝对角度误差（MAAE），即与其他指标相比，越低越好，最大误差为180。我们报告两种情况下的MAAE。 1）独立于其他任务，即使用地面实证实例，和 2）全景合并后的匹配实例。请注意，在后一种情况下，我们不对未匹配的实例进行惩罚。

场景分类（Sce）。由于场景类标签是不平衡的，我们用平衡精度（bAcc）评估场景分类。

C. 单一任务设置

我们的目标是使用单一神经网络一次解决多个任务。为了能够详细说明这是否会降低或提高单个任务的性能，我们首先在一个单一任务环境中进行了实验。此外，我们的目标是研究新任务在不同模式下的表现，以及额外的网络部分如何影响移动平台上的推理时间。请注意，执行实例分割只需要语义和前景掩码。在这种情况下，我们使用真实的语义分割，导致RQst、SQst和PQst总是等于1。此外，由于实例方向的估计需要实例掩码，我们也依赖地面真实的实例。

图3显示了这组实验的结果。很明显，所有的任务都能够从纳入额外的深度分支处理的补充信息中受益，而不是只处理RGB。对于语义和实例分割，结果与我们在[2]中的发现相吻合，即只要有可能，处理RGB和深度应该比应用更复杂的单一模式的RGB编码器更可取。结果进一步表明，深度对于更准确地估计方向至关重要，而RGB对于场景分类至关重要。最后，在比较不同的骨干网时，很明显，对于除场景分类以外的所有任务，具有NonBottleneck1D块（NBt1D）的骨干网在性能和推理吞吐量方面都比具有BasicBlock的同类骨干网要好。甚至，ResNet34 NBt1D经常与更复杂的ResNet50竞争，同时实现更快的推理。因此，我们在其余的实验中坚持使用ResNet34 NBt1D。

D. 多任务设置

图3. 在NIVIDA Jetson AGX Xavier（Jetpack 4.TensorRT 8,Float16）上测量的NYUv2测试分割结果，在单任务设置中执行每个任务时，不同骨干的推理吞吐量为每秒帧数。衡量标准的缩写见V-B节。

使用一个神经网络学习多个任务是具有挑战性的，因为这些任务可能会相互影响。因此，调整任务权重，以平衡彼此的损失，是至关重要的。通过不确定性加权[52]、GradNorm[53]、动态加权平均[54]和VarNorm[55]，已经提出了几种自动确定权重的方法。不幸的是，在我们的方案中，它们都没有导致良好的性能。因此，我们进行了广泛的实验来确定合适的任务权重。我们首先一次结合两个任务来阐述任务之间的基本关系。有了这些发现，我们就能够限制完整的多任务设置的搜索空间了。表3总结了最佳结果，并将其与图3中的单任务对应物进行了比较。此外，它还列出了应用的任务权重、学习率，以及在NVIDIA Jetson AGX Xavier上实现的每秒帧数。

表3：在不同的多任务设置下，用ResNet34 NBt1D骨干网训练EMSANet时，在NYUv2测试分割上获得的结果。关于报告指标的细节，见V-B节。在合并语义和实例预测后，获得了泛化的结果。图例：斜体：用于确定最佳检查点的指标，*：同一运行中的最佳结果，Lr：学习率，pre.：在Hypersim上的额外预训练，FPS：在NVIDIA Jetson AGX Xavier（Jetpack 4.TensorRT 8, Float16）上的每秒帧数。

Sem + Sce: 如表3（MT I）中显示，结合这两个任务，语义分割需要更大的权重才能达到其单任务性能。然而，即使把更多的权重放在语义分割上，场景分类也会从这样的设置中受益，已经缩小了图3（d）所示的ResNet34 NBt1D和ResNet34的差距。这表明，关于场景的各个部分的知识是共享的，有助于对场景进行分类。

Sem + Ins。这种设置允许首次使用预测的语义分割来获得全景结果。由于语义分割为实例分割提供了语义和前景掩码，将这两项任务结合起来对我们的多任务系统至关重要。如表3所示。III（MT II）中显示，通过更多关注实例分割，可以获得最佳的PQ。语义解码器获得的mIoU表明，网络进一步受益于这两项任务的结合执行。如果记住，实例解码器的PQ是用真实的语义分割计算出来的，那么全景结果的PQ更低是合理的。使用地面真实语义分割，网络的RQ为70.15，SQ为85.78（未列于表3）。这表明，PQ的下降主要是由于RQ的损失。我们观察到，这主要是由小的实例引起的，这些实例不是预测的前景掩码的一部分。

Ins + Or：表3（MT III）显示，两个任务都可以用一个解码器来完成。与单任务基线相比，这种设置稍微改善了方向估计，几乎超过了在三维中注释方向的可达到的水平。然而，即使把更多的权重放在实例分割上，我们总是观察到PQ的轻微下降。

Sem + Sce + Ins + Or：有了上述双任务实验的结果，我们将所有的任务结合到一个单一的神经网络中。最好的结果见表3（MT IV）。很明显，语义分割和场景分类都从整个多任务设置中大大受益。实例分割和实例方向估计几乎达到了与在单任务设置中执行时相同的精度水平。泛在的结果，即合并语义和实例预测后，与多任务设置MT II相似。合并后得到的mIoU比合并前略低，但仍处于相似的水平。这表明，应用合并这两种预测，重点放在实例上，并没有削弱语义分割的结果。图4中对IoU的详细分类显示，这对几乎所有的类别都是如此。最后，当看一下方位估计的结果时，可以看到合并后的方位误差比实例解码器的误差要低。然而，这并不一定表明有更好的结果，因为全景合并后的MAAE只代表可以被匹配的实例。

图4. 合并语义和实例分割前后，NYUv2测试分割上的语义IoUs，完整多任务网络（MT IV）。

E. SUNRGB-D的结果

表4：在单任务和多任务设置下，用ResNet34 NBt1D骨干网训练EMSANet时，在SUNRGB-D测试分割上获得的结果。有关报告指标的详情，请参见第五章B节。在合并语义和实例预测后，得到了泛化的结果。图例：斜体：用于确定最佳检查点的指标，*：同一运行中的最佳结果，Lr：学习率，pre：在Hypersim上的额外预训练。

在阐述了合适的多任务参数后，我们还将我们的方法应用于更大的SUNRGB-D数据集。然而，由于SUNRGB-D中的实例更加稀疏，我们降低了实例解码器的权重，并使用mIoU来确定最佳检查点。结果列于表4。与单任务基线相比，我们的多任务方法在语义分割和场景分类方面的表现稍好。方向估计的结果仍然适用于现实世界的应用。如图5所示，即使注释更加稀疏，网络对实例分割的概括性也很好。请注意，全景质量并没有考虑到这些区域，因为它们在地面实况中被标记为无效类。然而，如最后一行所示，实例中心的缺失仍然会导致将遥远的像素分配给同一个实例，降低了合并后的PQ和mIoU。我们已经观察到，在训练过程中根据地面事实的实例掩码对中心进行掩码时，有很大的好处，正如第三章A节所提出的。对于现实世界的应用，我们进一步解决这个问题，在移位后对预测的偏移量进行阈值处理，如果它们离中心太远，则分配一个未知的实例标签。

图5. SUNRGB-D测试的定性结果，突出了面临的挑战（第五部分-E），即RGB图像、带有方向的地面实况全景分割，以及带有方向的预测全景分割。

F . 额外的模拟预训练

最后，我们研究了合成的Hypersim数据集的预训练如何影响我们为NYUv2和SUNRGB-D衍生的多任务设置的性能。关于预训练的进一步细节，我们参考了我们的实现。结果显示在表3（MT V）和表4（MT V）。事实证明，对于NYUv2来说，特别是mIoU和PQ大大受益于额外的预训练，而对于SUNRGB-D来说，只有与实例相关的任务的性能得到了提高。这可以推断为SUNRGB-D本身就比NYUv2大很多。图6显示了在Hypersim上进行预训练和在NYUv2上进行后续训练的定性结果。后者代表了我们对NYUv2的最佳网络。

图6. 定性结果为RGB图像与预测的全景分割、预测的场景类别，以及对于NYUv2，估计的方向的叠加。

G. 与技术现状的比较

将我们的方法与目前的技术水平进行比较是具有挑战性的，因为到目前为止，由于注释的缺失和类谱的偏差，相关工作中还没有考虑到方位估计或场景分类等任务。此外，在NYUv2或SUNRGB-D上还没有尝试过全景分割。因此，我们首先建立了全面的单任务基线（见图3），涵盖了从复杂的骨干网到更有效的骨干网的常见骨干网，这些骨干网也能实现移动应用。除此之外，我们还在NYUv2上进一步训练了著名的全景分割和场景分类方法，如表5所示。对于Panoptic DeepLab，我们应用了与第三章A节中描述的关键点非最大抑制的参数来对实例中心进行后处理。总而言之，我们提出的轻量级EMSANet取得了与其他方法相当甚至更好的结果。此外，更大的骨干网不一定能提高性能，但会大大增加资源需求。

表5：在没有测试时间增强的情况下，在NYUv2测试分割上与其他最先进的方法进行比较。图例：斜体：用于确定最佳检查点的指标，*：在我们丰富的NYUv2数据集上进行（重新）训练，†：在224×224下进行10次作物评估。预：在Hypersim上进行额外的预训练。

6.结论

通过培训和评估，我们丰富了常见的RGB-D室内数据集NYUv2和SUNRGBD的注释，我们也公开了这些数据集。据我们所知，我们是第一个为室内场景分析提供如此全面的多任务设置的结果。我们已经表明，所有的任务都可以用一个单一的多任务网络来解决。此外，各个任务在一起训练时可以相互受益。由于高效的设计，我们的方法能够实现快速推理，即24。FPS的NVIDIA Jetson AGX Xavier，因此很适合移动机器人应用。

REFERENCES

[1] D. Seichter, P . Langer, T. Wengefeld, B. Lewandowski, D. Höchemer,and H.-M. Gross, “Efficient and robust semantic mapping for indoor environments,” in Proc. of ICRA, 2022.
[2] D. Seichter, M. Köhler, B. Lewandowski, T. Wengefeld, and H.-M.Gross, “Efficient rgb-d semantic segmentation for indoor scene analysis,”in Proc. of ICRA, 2021, pp. 13 525–13 531.
[3] N. Silberman, D. Hoiem, P . Kohli, and R. Fergus, “Indoor Segmentation and Support Inference from RGBD Images,” in Proc. of ECCV, 2012.
[4] S. Song, S. P . Lichtenberg, and J. Xiao, “SUN RGB-D: A RGB-D Scene Understanding Benchmark Suite,” in Proc. of CVPR, 2015, pp. 567–576.[5] H. Zhao, J. Shi, X. Qi, X. Wang, and J. Jia, “Pyramid scene parsing network,” in Proc. of CVPR, 2017, pp. 2881–2890.
[6] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Y uille,“Semantic image segmentation with deep convolutional nets and fully connected crfs,” in Proc. of ICLR, 2015.
[7] L.-C. Chen, G. Papandreou, F. Schroff, and H. Adam, “Rethinking Atrous Convolution for Semantic Image Segmentation,” arXiv preprint arXiv:1706.05587, 2017.
[8] L.-C. Chen, Y . Zhu, G. Papandreou, F. Schroff, and H. Adam, “Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation,” in Proc. of ECCV, 2018, pp. 801–818.
[9] E. Romera, J. M. Alvarez, L. M. Bergasa, and R. Arroyo, “ERFNet:Efficient Residual Factorized ConvNet for Real-Time Semantic Segmentation,” ITS, pp. 263–272, 2018.
[10] M. Orˇsi´c, I. Kreˇso, P . Bevandi´c, and S. ˇSegvi´c, “In Defense of Pretrained ImageNet Architectures for Real-time Semantic Segmentation of Road-driving Images,” in Proc. of CVPR, 2019, pp. 12 607–12 616.
[11] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in Proc. of CVPR, 2016, pp. 770–778.
[12] C. Hazirbas, L. Ma, C. Domokos, and D. Cremers, “FuseNet: Incorporating Depth into Semantic Segmentation via Fusion-based CNN Architecture,” in Proc. of ACCV, 2016, pp. 213–228.
[13] X. Hu, K. Yang, L. Fei, and K. Wang, “ACNet: Attention Based Network to Exploit Complementary Features for RGBD Semantic Segmentation,”in Proc. of ICIP, 2019.
[14] A. V alada, R. Mohan, and W. Burgard, “Self-supervised model adaptation for multimodal semantic segmentation,” IJCV, 2019.
[15] S. Lee, S. J. Park, and K. S. Hong, “RDFNet: RGB-D Multi-level Residual Feature Fusion for Indoor Semantic Segmentation,” Proc. of ICCV, pp. 4990–4999, 2017.
[16] J. Cao, H. Leng, D. Lischinski, D. Cohen-Or, C. Tu, and Y . Li,“Shapeconv: Shape-aware convolutional layer for indoor rgb-d semantic segmentation,” in Proc. of CVPR, 2021, pp. 7088–7097.
[17] A. Kirillov, K. He, R. Girshick, C. Rother, and P . Dollár, “Panoptic segmentation,” in Proc. of CVPR, 2019, pp. 9404–9413.
[18] K. He, G. Gkioxari, P . Dollár, and R. Girshick, “Mask R-CNN,” Proc.of ICCV, pp. 2961–2969, 2017.
[19] A. Kirillov, R. Girshick, K. He, and P . Dollár, “Panoptic feature pyramid networks,” in Proc. of CVPR, 2019, pp. 6399–6408.
[20] Y . Xiong et al., “Upsnet: A unified panoptic segmentation network,” in Proc. of CVPR, 2019, pp. 8818–8826.
[21] T.-J. Yang et al., “Deeperlab: Single-shot image parser,” arXiv preprint arXiv:1902.05093, 2019.
[22] N. Gao et al., “Ssap: Single-shot instance segmentation with affinity pyramid,” in Proc. of ICCV, 2019, pp. 642–651.
[23] B. Cheng et al., “Panoptic-deeplab: A simple, strong, and fast baseline for bottom-up panoptic segmentation,” in Proc. of CVPR, 2020, pp.12 475–12 485.
[24] H. Wang, Y . Zhu, H. Adam, A. Y uille, and L.-C. Chen, “Max-deeplab:End-to-end panoptic segmentation with mask transformers,” in Proc. of CVPR, 2021, pp. 5463–5474.
[25] A. V aswani et al., “Attention is all you need,” Proc. of NeurIPS, vol. 30,2017.
[26] R. Mohan and A. V alada, “Efficientps: Efficient panoptic segmentation,”IJCV, vol. 129, no. 5, pp. 1551–1579, 2021.
[27] W. Hong, Q. Guo, W. Zhang, J. Chen, and W. Chu, “Lpsnet: A lightweight solution for fast panoptic segmentation,” in Proc. of CVPR,2021, pp. 16 746–16 754.
[28] C.-Y . Chang, S.-E. Chang, P .-Y . Hsiao, and L.-C. Fu, “Epsnet: efficient panoptic segmentation network with cross-layer attention fusion,” in Proc. of ACCV, 2020.
[29] R. Hou et al., “Real-time panoptic segmentation from dense detections,”in Proc. of CVPR, 2020, pp. 8523–8532.
[30] D. de Geus, P . Meletis, and G. Dubbelman, “Fast panoptic segmentation network,” RAL, vol. 5, no. 2, pp. 1742–1749, 2020.
[31] A. Mousavian, D. Anguelov, J. Flynn, and J. Kosecka, “3d bounding box estimation using deep learning and geometry,” in Proc. of CVPR,2017, pp. 7074–7082.
[32] L. Liu, J. Lu, C. Xu, Q. Tian, and J. Zhou, “Deep fitting degree scoring network for monocular 3d object detection,” in Proc. of CVPR, 2019,pp. 1057–1066.
[33] Y . Zhang, J. Lu, and J. Zhou, “Objects are different: Flexible monocular 3d object detection,” in Proc. of CVPR, 2021, pp. 3289–3298.
[34] Z. Cao, T. Simon, S.-E. Wei, and Y . Sheikh, “Realtime multi-person 2d pose estimation using part affinity fields,” in Proc. of CVPR, 2017, pp.7291–7299.
[35] L. Beyer, A. Hermans, and B. Leibe, “Biternion nets: Continuous head pose regression from discrete training labels,” in Proc. of GCPR.Springer, 2015, pp. 157–168.
[36] B. Lewandowski, D. Seichter, T. Wengefeld, L. Pfennig, H. Drumm, and H.-M. Gross, “Deep orientation: Fast and robust upper body orientation estimation for mobile robotic applications,” in Proc. of IROS, 2019, pp.441–448.
[37] T. Wengefeld, B. Lewandowski, D. Seichter, L. Pfennig, and H.-M.Gross, “Real-time person orientation estimation using colored pointclouds,” in Proc. of ECMR, 2019.
[38] D. Seichter, B. Lewandowski, D. Höchemer, T. Wengefeld, and H.-M.Gross, “Multi-task deep learning for depth-based person perception in mobile robotics,” in Proc. of IROS. IEEE, 2020, pp. 10 497–10 504.
[39] O. Russakovsky et al., “ImageNet Large Scale Visual Recognition Challenge,” in IJCV, 2015, pp. 211–252.
[40] J. Hu, L. Shen, and G. Sun, “Squeeze-and-excitation networks,” in Proc.of CVPR, 2018, pp. 7132–7141.
[41] M. Sandler, A. Howard, M. Zhu, A. Zhmoginov, and L.-C. Chen,“Mobilenetv2: Inverted residuals and linear bottlenecks,” in Proc. of CVPR, 2018, pp. 4510–4520.
[42] M. Tan and Q. Le, “Efficientnet: Rethinking model scaling for convolutional neural networks,” in Proc. of ICML, 2019, pp. 6105–6114.
[43] T. Standley, A. Zamir, D. Chen, L. Guibas, J. Malik, and S. Savarese,“Which tasks should be learned together in multi-task learning?” in Proc.of ICML. PMLR, 2020, pp. 9120–9132.
[44] S. V andenhende, S. Georgoulis, W. V an Gansbeke, M. Proesmans,D. Dai, and L. V an Gool, “Multi-task learning for dense prediction tasks:A survey,” TPAMI, 2021.
[45] S. V andenhende, S. Georgoulis, and L. V . Gool, “Mti-net: Multi-scale task interaction networks for multi-task learning,” in Proc. of ECCV.Springer, 2020, pp. 527–543.
[46] Z. Zhang, Z. Cui, C. Xu, Z. Jie, X. Li, and J. Yang, “Joint task-recursive learning for semantic segmentation and depth estimation,” in Proc. of ECCV, 2018, pp. 235–251.
[47] K. He, X. Zhang, S. Ren, and J. Sun, “Delving deep into rectifiers:Surpassing human-level performance on imagenet classification,” in Proc. of ICCV, 2015, pp. 1026–1034.
[48] P . Goyal et al., “Accurate, large minibatch sgd: Training imagenet in 1hour,” arXiv preprint arXiv:1706.02677, 2017.
[49] M. Roberts et al., “Hypersim: A Photorealistic Synthetic Dataset for Holistic Indoor Scene Understanding,” in Proc. of ICCV, 2021.
[50] A. Paszke et al., “Pytorch: An imperative style, high-performance deep learning library,” in Proc. of NeurIPS. Curran Associates, Inc., 2019,pp. 8024–8035.
[51] T.-Y . Lin et al., “Microsoft coco: Common objects in context,” in Proc.of ECCV, 2014.
[52] A. Kendall, Y . Gal, and R. Cipolla, “Multi-task learning using uncertainty to weigh losses for scene geometry and semantics,” in Proc. of CVPR, 2018, pp. 7482–7491.
[53] Z. Chen, V . Badrinarayanan, C.-Y . Lee, and A. Rabinovich, “Gradnorm:Gradient normalization for adaptive loss balancing in deep multitask networks,” in Proc. of ICML. PMLR, 2018, pp. 794–803.
[54] S. Liu, E. Johns, and A. J. Davison, “End-to-end multi-task learning with attention,” in Proc. of CVPR, 2019, pp. 1871–1880.
[55] V . R. Kumar et al., “Omnidet: Surround view cameras based multi-task visual perception network for autonomous driving,” RAL, vol. 6, no. 2,pp. 2830–2837, 2021.

本文含有隐藏内容，请开通VIP 后查看

【EMSANet2022】Efficient Multi-Task RGB-D Scene Analysis for Indoor Environments