【DeepLab v1】SEMANTIC IMAGE SEGMENTATION WITH DEEP CON- VOLUTIONAL NETS AND FULLY CONNECTED CRFS

用深度卷积网和全连接CRF进行语义图像分割

arXiv:1412.7062v4 [cs.CV] 7 Jun 2016
文章地址：https://arxiv.org/abs/1412.7062
代码地址：https://bitbucket.org/deeplab/deeplab-public

摘要

深度卷积神经网络（DCNN）最近在高水平的视觉任务中表现出最先进的性能，如图像分类和物体检测。这项工作汇集了来自DCNN和概率图形模型的方法，以解决像素级分类（也称为 “语义图像分割”）的任务。我们表明，DCNN最后一层的反应对于准确的物体分割来说是不够本地化的。这是由于使DCNN适合于高水平任务的不变性属性所造成的。我们通过将最后一层DCNN的反应与全连接的条件随机场（CRF）结合起来，克服了深度网络的这种不良的定位特性。从质量上看，我们的 "DeepLab "系统能够以超越以往方法的准确度来定位片段边界。从数量上看，我们的方法在PASCAL VOC-2012语义图像分割任务中创造了新的技术水平，在测试集中达到了71.6%的IOU准确性。我们展示了如何有效地获得这些结果。仔细的网络再利用和来自小波社区的 "洞 "算法的新颖应用，允许在现代GPU上以每秒8帧的速度密集地计算神经网的反应。

1导言

自LeCun等人（1998年）以来，深度卷积神经网络（DCNNs）一直是文档识别的首选方法，但直到最近才成为高水平视觉研究的主流。在过去的两年里，DCNN将计算机视觉系统的性能推到了广泛的高层次问题上，包括图像分类（Krizhevsky等人，2013；Sermanet等人，2013；Simonyan & Zisserman，2014；Szegedy等人，2014；Papandreou等人，2014）、物体检测（Girshick等人，2014）、细粒度分类（Zhang等人，2014）等等。这些工作的一个共同主题是，以端到端方式训练的DCNN比依靠精心设计的表征（如SIFT或HOG特征）的系统提供引人注目的更好的结果。这种成功可以部分归因于DCNN对局部图像变换的内在不变性，这支撑了它们学习数据的层次性抽象的能力（Zeiler & Fergus, 2014）。虽然这种不变性对于高层次的视觉任务来说显然是可取的，但它会阻碍低层次的任务，如姿势估计（Chen & Yuille, 2014; Tompson et al, 2014）和语义分割–在那里我们想要精确的定位，而不是空间细节的抽象。

在将DCNN应用于图像标记任务方面有两个技术障碍：信号降采样和空间 “不敏感”（不变性）。第一个问题涉及到在标准DCNNs的每一层进行的最大池化和下采样（“跨步”）的重复组合所引起的信号分辨率的降低（Krizhevsky等人，2013；Simonyan和Zisserman，2014；Szegedy等人，2014）。相反，就像Papandreou等人（2014年）一样，我们采用了最初为有效计算未定额离散小波变换而开发的’astrous’（带孔）算法（Mallat，1999）。这使得DCNN响应的高效密集计算，其方案比该问题的早期解决方案要简单得多（Giusti等人，2013；Sermanet等人，2013）。

第二个问题与以下事实有关：从分类器中获得以物体为中心的决策需要对空间转换的不变性，这从本质上限制了DCNN模型的空间准确性。我们通过采用全连接的条件随机场（CRF）来提高我们的模型对精细细节的捕捉能力。条件随机场已被广泛用于语义分割，将多向分类器计算的等级分数与像素和边缘的局部互动（Rother等人，2004；Shotton等人，2009）或超级像素（Lucchi等人，2011）捕获的低层次信息相结合。尽管人们已经提出了更复杂的工作来模拟层次依赖（He等人，2004；Ladicky等人，2009；Lempitsky等人，2011）和/或片段的高阶依赖（Delong等人，2012；Gonfaus等人，2010。Kohli等人，2009；Chen等人，2013；Wang等人，2015），我们使用Krähenbühl & Koltun（2011）提出的完全连接的成对CRF，因为它的计算效率高，而且能够捕捉到精细的边缘细节，同时也能满足长距离依赖。Krähenbühl和Koltun（2011）的研究表明，该模型在很大程度上提高了基于提升的像素级分类器的性能，而在我们的工作中，我们证明了当它与基于DCNN的像素级分类器结合时，会产生最先进的结果。

我们的 "DeepLab "系统的三个主要优势是：

速度：凭借’astrous’算法，我们的密集DCNN以8 fps的速度运行，而全连接CRF的平均场推理需要0. 5秒，
准确性：我们在PASCAL语义分割挑战中获得了最先进的结果，比Mostajabi等人（2014）的第二好的方法高出7.2%，
简单性：我们的系统是由两个相当成熟的模块、DCNN和CRF组成的级联。

2.相关工作

我们的系统直接在像素表示上工作，与Long等人（2014）类似。这与目前在用DCNN进行语义分割中最常见的两阶段方法形成了对比：这类技术通常使用自下而上的图像分割和基于DCNN的区域分类的级联，这使得系统对前端分割系统的潜在错误有所承诺。例如，Girshick等人（2014）和（Hariharan等人，2014b）将（Arbeláez等人，2014；Uijlings等人，2013）提供的边界盒建议和遮蔽区域作为DCNN的输入，将形状信息引入分类过程。同样，Mostajabi等人（2014）的作者也是依靠超级像素表示。这些工作的一个有名的非DCNN先驱是（Carreira等人，2012）的二阶集合方法，它也为（Carreira & Sminchisescu，2012）提供的区域建议分配标签。Cogswell等人（2014）了解到致力于单一分割的危险性，在（Yadollahpour等人，2013）的基础上，探索了一组不同的基于CRF的分割建议，也是由（Carreira & Sminchisescu，2012）计算的。然后，这些分割建议根据专门为该重新排序任务训练的DCNN进行重新排序。尽管这种方法明确地试图处理前端分割算法的易变性，但在基于CRF的分割算法中仍然没有明确地利用DCNN的得分：DCNN只是事后应用，而在分割过程中直接尝试使用其结果是有意义的。

朝着与我们的方法更接近的方向发展，其他一些研究者已经考虑使用卷积计算的DCNN特征来进行密集图像标记。其中最早的是Farabet等人（2013），他们在多个图像分辨率下应用DCNN，然后采用分割树来平滑预测结果；最近，Hariharan等人（2014a）提出在DCNN中连接计算的中间特征图来进行像素分类，Dai等人（2014）提出通过区域建议来汇集中间特征图。尽管这些作品仍然采用了与DCNN分类器的结果脱钩的分割算法，但我们认为分割只在后期使用是有利的，避免了对过早决策的承诺。

最近，（Long et al, 2014; Eigen & Fergus, 2014）的无分割技术直接将DCNN以滑动窗口的方式应用于整个图像，用卷积层取代DCNN的最后一个全连接层。为了处理介绍开头所述的空间定位问题，Long等人（2014）对中间特征图的分数进行了上采样和串联，而Eigen & Fergus（2014）通过将粗略的结果传播到另一个DCNN，将预测结果从粗略到精细地完善。

我们的模型和其他最先进的模型之间的主要区别是像素级CRF和基于DCNN的 "单项 "的结合。关注这个方向上最接近的作品，Cogswell等人（2014）将CRF作为基于DCNN的重新排序系统的提议机制，而Farabet等人（2013）将超级像素视为本地成对CRF的节点，并使用图切来进行离散推理；因此他们的结果可能受到超级像素计算错误的限制，同时忽略了长距离的超级像素依赖。相反，我们的方法将每个像素视为一个CRF节点，利用长距离的依赖关系，并使用CRF推理来直接优化DCNN驱动的成本函数。我们注意到，对于传统的图像分割/边缘检测任务，均值领域已经得到了广泛的研究，例如（Geiger & Girosi, 1991; Geiger & Y uille, 1991; Kokkinos et al, 2008），但最近Krähenbühl & Koltun（2011）表明，推理对于全连接的CRF来说是非常有效的，在语义分割的背景下尤其有效。

在我们的手稿的第一个版本公开后，我们注意到另外两个小组独立地同时追求一个非常相似的方向，即结合DCNN和密集连接CRF（Bell等人，2014；Zheng等人，2015）。各自的模型在技术方面有一些差异。Bell等人（2014）专注于材料分类的问题，而Zheng等人（2015）解开了CRF均值场推理的步骤，将整个系统转化为一个端到端的可训练前馈网络。

我们在最新的工作中更新了我们提出的 "DeepLab "系统，方法和结果都有很大的改进（Chen et al, 2016）。我们请感兴趣的读者参考该论文的细节。

3 密集图像标签的进化神经网络

在此，我们描述了我们如何重新利用和微调公开可用的Imagenetpretrained最先进的16层分类网络（Simonyan & Zisserman, 2014）（VGG-16），为我们的密集语义图像分割系统提供一个高效和有效的密集特征提取器。

3.1 用洞算法进行高效的密集滑动窗口特征提取

密集的空间分值评估对我们的密集CNN特征提取器的成功很有帮助。作为实现这一目标的第一步，我们将VGG-16的全连接层转换为卷积层，并在原始分辨率的图像上以卷积方式运行网络。然而，这还不够，因为它产生了非常稀疏的计算检测分数（跨度为32像素）。为了在我们的目标跨度为8像素的情况下更密集地计算分数，我们对Giusti等人（2013）和Sermanet等人（2013）之前采用的方法进行了修改。我们跳过Simonyan & Zisserman（2014）网络中最后两个最大集合层后的子采样，并通过引入零来增加其长度（最后三个卷积层为2×，第一个全连接层为4×）来修改后面各层的卷积过滤器。我们可以通过保持滤波器的完整性来更有效地实现这一点，而对它们所应用的特征图进行稀疏采样，分别使用2或4像素的输入跨度。这种方法，如图1所示，被称为 “洞算法”（“trous算法”），之前已经被开发出来用于高效计算未定额小波变换（Mallat, 1999）。我们在Caffe框架（Jia等人，2014）中实现了这一点，在im2col函数（它将多通道特征图转换为矢量斑块）中加入了对底层特征图进行稀疏采样的选项。这种方法是普遍适用的，并允许我们在任何目标子采样率下有效地计算密集的CNN特征图，而无需引入任何近似值。

图1：当内核大小=3，输入跨度=2，输出跨度=1时，一维的洞算法的说明。

我们按照Long等人（2014）的程序，对经过Imagenet训练的VGG-16网络的模型权重进行微调，使其直接适应图像分类任务。我们将VGG-16最后一层的1000路Imagenet分类器替换为21路。我们的损失函数是CNN输出图中每个空间位置的交叉熵项的总和（与原始图像相比再取样8次）。所有的位置和标签在整个损失函数中的权重是相等的。我们的目标是地面真实标签（按8次取样）。我们通过Krizhevsky等人（2013）的标准SGD程序对所有网络层的权重进行目标函数的优化。

图2：Aeroplane的得分图（softmax函数前的输入）和信念图（softmax函数的输出）。我们展示了每次均值场迭代后的得分图（第一行）和信念图（第二行）。最后一个DCNN层的输出被用来作为均值场推理的输入。最好以彩色显示。

在测试过程中，我们需要原始图像分辨率下的类分图。如图2所示，并在第4.1节中进一步阐述，类分图（对应于对数概率）是相当平滑的，这使得我们可以使用简单的双线性插值来将其分辨率提高8倍，而计算成本可以忽略不计。请注意，Long等人（2014）的方法没有使用洞算法，并在CNN输出处产生非常粗糙的分数（子采样32倍）。这迫使他们使用学习过的升采样层，大大增加了他们系统的复杂性和训练时间。在PASCAL VOC 2012上对我们的网络进行微调需要大约10个小时，而他们报告的训练时间是几天（都是在现代GPU上的计时）。

图3：模型图解。深度卷积神经网络（具有完全卷积层）的粗略分数图通过双线性插值进行上采样。一个全连接的CRF被应用于细化分割结果。最好以彩色观看。

3.2 控制感受野的大小和加速卷积网的密集计算

将我们的网络重新用于密集得分计算的另一个关键因素是明确控制网络的接受场大小。最近大多数基于DCNN的图像识别方法依赖于在Imagenet大规模分类任务中预先训练的网络。这些网络通常具有较大的感受野尺寸：就我们考虑的VGG-16网络而言，其感受野为224×224（带零填充），如果网络以卷积方式应用，则为404×404像素。将网络转换为全卷积网络后，第一个全连接层有4,096个7×7大空间尺寸的滤波器，成为我们密集得分图计算的瓶颈。

我们通过对第一个全连接层进行空间子采样（通过简单的抽取），使其达到4×4（或3×3）的空间大小来解决这个实际问题。这使网络的感受野减少到128×128（零填充）或308×308（卷积模式），并使第一层的计算时间减少2-3倍。使用我们基于Caffe的实现和Titan GPU，得到的VGG衍生网络非常高效。给定一个306×306的输入图像，它在网络的顶部产生39×39的密集原始特征分数，在测试期间的速度约为8帧/秒。训练期间的速度是3帧/秒。我们还成功地试验了将全连接层的通道数从4,096个减少到1,024个，大大地进一步减少了计算时间和内存占用而不影响性能，详见第5节。使用较小的网络，如Krizhevsky等人（2013年），甚至可以在轻量级的GPU上进行视频速率测试时间的密集特征计算。

4 详细的边界恢复：完全连接的条件随机场和多尺度预测

4.1 深度卷积网络和定位的挑战

如图2所示，DCNN得分图可以可靠地预测图像中物体的存在和大致位置，但不太适合精确指出它们的确切轮廓。卷积网络的分类精度和定位精度之间存在着自然的权衡。带有多个最大集合层的深层模型在分类任务中被证明是最成功的，然而它们的不变性增加和大的接受域使得从其顶部输出层的分数推断位置的问题更具挑战性。

最近的工作有两个方向来解决这个定位的挑战。第一种方法是利用卷积网络中的多层信息，以便更好地估计物体的边界（Long等人，2014；Eigen和Fergus，2014）。第二种方法是采用超级像素表示，本质上是将定位任务委托给一个低级别的分割方法。Mostajabi等人（2014）最近非常成功的方法就采用了这种途径。

在第4.2节中，我们追求一种新的替代方向，即把DCNN的识别能力和全连接CRF的细粒度定位精度结合起来，并表明它在解决定位挑战方面非常成功，产生准确的语义分割结果，并在现有方法无法达到的细节水平上恢复物体的边界。

4.2 用于准确定位的全连接条件随机域

传统上，条件随机场（CRFs）被用来平滑嘈杂的分割图（Rother等人，2004；Kohli等人，2009）。一般来说，这些模型包含耦合相邻节点的能量项，有利于对空间上近似的像素进行相同的标签分配。从质量上讲，这些短程CRF的主要功能是清理建立在局部手工设计的特征之上的弱分类器的虚假预测。

与这些较弱的分类器相比，现代DCNN架构，如我们在这项工作中使用的架构，产生的分数图和语义标签预测在质量上是不同的。如图2所示，分数图通常是相当平滑的，并产生同质化的分类结果。在这种情况下，使用短程CRF可能是有害的，因为我们的目标应该是恢复详细的局部结构，而不是进一步平滑它。使用对比敏感电位（Rother等人，2004年）与局部范围的CRF相结合，有可能改善定位，但仍会错过细小的结构，通常需要解决昂贵的离散优化问题。

为了克服短程CRF的这些局限性，我们将Krähenbühl和Koltun（2011）的全连接CRF模型纳入我们的系统。该模型采用了能量函数

$\sum\limits_i {{\theta _i}({x_i}) + \sum\limits_{ij} {{\theta _i}({x_i},{x_j})} } \tag{1}$
其中x是像素的标签分配。我们用 $θ_i(x_i)=-log P(x_i)$ 作为单项潜力，其中 $P(x_i)$ 是由DCNN计算的像素i的标签分配概率。成对潜力是 $θ_{ij}(x_i, x_j) = µ(x_i, _xj) \sum\nolimits_{m - 1}^K {} w_m · k^m(f_i, f_j)$ ，其中 $µ(x_i, x_j) = 1$ ，如果 $x_i \ne x_j$ ，则为零（即Potts模型）。图像中每一对像素 $i$ 和 $j$ 都有一个成对项，不管它们之间的距离有多远，即模型的因子图是完全连接的。每个公里是高斯核取决于为像素i和j提取的特征（表示为 $f$ ），并由参数 $w_m$ 加权。我们采用双边的位置和颜色项，具体来说，核是

${w_1}\exp \left( { - {{{{\left\| {{p_i} - {p_j}} \right\|}^2}} \over {2\sigma _\alpha ^2}} - {{{{\left\| {{I_i} - {I_j}} \right\|}^2}} \over {2\sigma _\beta ^2}}} \right) + {w_2}\exp \left( { - {{{{\left\| {{p_i} - {p_j}} \right\|}^2}} \over {2\sigma _\gamma ^2}}} \right)\tag{2}$

其中，第一个内核同时取决于像素位置（表示为p）和像素颜色强度（表示为I），第二个内核只取决于像素位置。超参数 $σ_α$ 、 $σ_β$ 和 $σ_γ$ 控制高斯核的 “规模”。

最重要的是，这个模型可以进行有效的近似概率推理（Krähenbühl & Koltun, 2011）。完全可分解的均值场近似下的消息传递更新 $\prod\nolimits_i {{b_i}({x_i})}$ 可以表示为与特征空间的高斯核的卷积。高维过滤算法（Adams等人，2010年）大大加快了这种计算的速度，导致该算法在实践中非常快，使用（Krähenbühl和Koltun，2011年）的公开实现，对Pascal VOC图像来说平均不到0.5秒。

4.3 多尺度预测

继Hariharan等人，2014a；Long等人，2014）近期取得的可喜成果之后，我们也探索了一种多尺度预测方法，以提高边界定位的准确性。具体来说，我们在输入图像和前四个最大集合层的每个输出上附加一个两层MLP（第一层。128个3x3卷积滤波器，第二层。128个1x1卷积滤波器），其特征图与主网络的最后一层特征图相连接。因此，送入softmax层的总特征图由5*128=640个通道增强。我们只调整新增加的权重，其他网络参数保持在第3节的方法所学的值。正如实验部分所讨论的，从细分辨率层引入这些额外的直接连接可以提高定位性能，但效果并不像全连接的CRF那样显著。

5 实验评估

数据集 我们在PASCAL VOC 2012分割基准（Everingham等人，2014）上测试我们的DeepLab模型，包括20个前景物体类和一个背景类。原始数据集包含1，464，1，449和1，456张图像，分别用于训练、验证和测试。该数据集由Hariharan等人（2011年）提供的额外注释增加，产生了10,582张训练图像。性能是以21个类别的平均像素交叉点（IOU）来衡量的。

训练我们采用最简单的分片训练形式，将DCNN和CRF训练阶段解耦，假设DCNN提供的单项在CRF训练中是固定的。

对于DCNN的训练，我们采用了VGG-16网络，它已经在ImageNet上进行了预训练。如第3.1节所述，我们通过对交叉熵损失函数的随机梯度下降，在VOC 21路像素分类任务中对VGG-16网络进行了微调。我们使用20幅图像的小批量，初始学习率为0.001（最终分类器层为0.01），每2000次迭代时学习率乘以0.1。我们使用0.9的动量和0.0005的权重衰减。

在对DCN进行微调后，我们按照Krähenbühl & Koltun (2011)的思路对公式（2）中的全连接CRF模型的参数进行交叉验证。我们使用w2=3和σγ=3的默认值，并通过在验证集的一个小子集上进行交叉验证（我们使用100张图像），寻找w1、σα和σβ的最佳值。我们采用从粗到细的搜索方案。

具体来说，参数的初始搜索范围是w1∈[5, 10]，σα∈[50 : 10 : 100]和σβ∈[3 : 1 : 10]（MA TLAB符号），然后我们围绕第一轮的最佳值细化搜索步骤。在所有报告的实验中，我们将平均场迭代的数量固定为10。

表1：（a）我们提出的模型在PASCAL VOC 2012'val'集上的表现（在增强的'train'集上训练）。通过利用多尺度特征和大视场达到最佳性能。(b) 在PASCAL VOC 2012 "测试 "集上，我们提出的模型（在增强的 "trainval "集中训练）与其他先进方法的性能比较。

对验证集的评估 我们对PASCAL’val’集进行了大部分的评估，在增强的PASCAL’train’集上训练我们的模型。如表1(a)所示。1 (a)，在我们的模型中加入完全连接的CRF（用DeepLab-CRF表示）会产生很大的性能提升，比DeepLab提高4%左右。我们注意到Krähenbühl和Koltun（2011）的工作将TextonBoost（Shotton等人，2009）的27.6%的结果提高到29.1%，这使得我们在这里报告的改进（从59.8%到63.7%）更加令人印象深刻。

图7：VOC 2012-val上的可视化结果。对于每一行，我们都显示了输入图像，DCNN（DeepLab）提供的分割结果，以及全连接CRF（DeepLab-CRF）的精确分割结果。我们在最后三行显示了我们的失败模式。最好以彩色观看。

谈到定性结果，我们在图7中提供了DeepLab和DeepLab-CRF之间的视觉比较。采用完全连接的CRF大大改善了结果，使模型能够准确地捕获复杂的物体边界。

多尺度特征 我们还利用了中间层的特征，与Hariharan等人（2014a）；Long等人（2014）相似。如表1(a)所示。1 (a)，在我们的DeepLab模型中加入多尺度特征（表示为DeepLab-MSc）可以提高约1.5%的性能，而进一步加入全连接CRF（表示为DeepLab-MSc-CRF）可以获得约4%的改进。

DeepLab和DeepLab-MSc之间的定性比较见图4。利用多尺度的特征可以稍微细化物体的边界。

图4：纳入多尺度特征改善了边界分割的情况。我们在第一行和第二行分别展示了DeepLab和DeepLab-MSc得到的结果。最好以彩色方式观看。表2：视场的影响。我们显示了在PASCAL VOC 2012 'val'集上的性能（CRF之后）和训练速度与（1）第一个全连接层的核大小，（2）astrous算法中采用的输入跨度值的函数关系。

Method	kernel size	input stride	receptive field	# parameters	mean IOU (%)	Training speed (img/sec)
DeepLab-CRF-7x7	7×7	4	224	134.3M	67.64	1.44
DeepLab-CRF	4×4	4	128	134.3M	63.74	2.90
DeepLab-CRF-4x4	4×4	8	224	65.1M	67.14	2.90
DeepLab-CRF-LargeFOV	3×3	12	224	20.5M	67.64	4.84

视野我们采用的 "trous算法 "允许我们通过调整输入步长来任意控制模型的视野（FOV），如图1所示。在表2中，我们在第一个全连接层试验了几种核的大小和输入步长。DeepLab-CRF-7x7方法是对VGG-16网的直接修改，其中核大小=7×7，输入步长=4。这个模型在’val’集上产生了67.64%的性能，但它的速度相对较慢（训练期间每秒1.44张图片）。我们通过将核大小减少到4×4，将模型速度提高到每秒2.9幅。我们试验了两个具有不同FOV大小的此类网络变体，DeepLab-CRF和DeepLab-CRF-4x4；后者具有大的FOV（即大的输入跨度）并获得了更好的性能。最后，我们采用内核大小为3×3，输入跨度=12，并进一步将最后两层的过滤器大小从4096改为1024。有趣的是，所得到的模型，DeepLab-CRF-LargeFOV，与昂贵的DeepLabCRF-7x7的性能相匹配。同时，它的运行速度快了3.36倍，参数也少了很多（20.5M而不是134.3M）。

几个模型变体的性能总结在表1中。1，显示了利用多尺度特征和大视场的好处。

沿物体边界的平均像素IOU 为了量化所提出的模型在物体边界附近的准确性，我们用一个类似于Kohli等人（2009）；Krähenbühl & Koltun（2011）的实验来评估分割的准确性。(2009); Krähenbühl & Koltun (2011)。具体来说，我们使用val set中注释的 "void "标签，它通常发生在物体边界附近。我们计算那些位于’空白’标签窄带（称为trimap）内的像素的平均IOU。如图5所示，利用中间层的多尺度特征，并通过全连接的CRF完善分割结果，大大改善了物体边界周围的结果。

图5：(a)一些截断实例(左上：图像。右上：地面实况。左下：2像素的截断。右下：10像素的截断)。所提方法在物体边界周围的分割结果的质量。(b) 按像素计算的精确度。(c) 像素平均IOU。

与先进技术的比较 在图6中，我们将我们提出的模型DeepLabCRF与两个先进的模型进行了定性的比较。FCN-8s（Long等人，2014）和TTI-Zoomout-16（Mostajabi等人，2014）在 "val "集上（结果摘自他们的论文）。我们的模型能够捕捉到错综复杂的物体边界。

图6：与最先进的模型在val集上的比较。第一行：图像。第二行：地面真相。第三行：其他最新模型（左：FCN-8s，右：TTI-Zoomout-16）。第四行：我们的DeepLab-CRF。最好以彩色观看。

可复制性 我们通过扩展优秀的Caffe框架（Jia等人，2014）来实现所提出的方法。我们在一个配套的网站https://bitbucket.org/ deeplab/deeplab-public上分享了我们的源代码、配置文件和训练好的模型，从而可以重现本文中的结果。

测试集结果 在验证集上设定了我们的模型选择后，我们在PASCAL VOC 2012官方 "测试 "集上评估我们的模型变体。如表3所示。3，我们的DeepLab-CRF和DeepLabMSc-CRF模型分别达到了66.4%和67.1%的平均IOU[http://host.robots.ox.ac.uk:8080/leaderboard/displaylb.php?challengeid=11&compid=6]性能。我们的模型优于所有其他最先进的模型（具体而言，TTI-Zoomout-16（Mostajabi等人，2014），FCN-8s（Long等人，2014），以及MSRA-CFM（Dai等人，2014））。当我们增加模型的FOV时，DeepLab-CRF-LargeFOV产生的性能为70.3%，与DeepLab-CRF7x7相同，而其训练速度更快。此外，我们最好的模型，DeepLab-MSc-CRF-LargeFOV，通过采用多尺度特征和大FOV达到了71.6%的最佳性能。

6 讨论

我们的工作结合了深度卷积神经网络和全连接条件随机场的思想，产生了一种新的方法，能够产生语义上准确的预测和详细的分割图，同时在计算上是高效的。我们的实验结果表明，在具有挑战性的PASCAL VOC 2012语义图像分割任务中，所提出的方法大大推进了技术水平。

我们打算对我们的模型进行多方面的完善，例如充分整合其两个主要组件（CNN和CRF），并以端到端的方式训练整个系统，类似于Krähenbühl & Koltun（2013）；Chen等人（2014）；Zheng等人（2015）。我们还计划对更多的数据集进行实验，并将我们的方法应用于其他数据源，如深度图或视频。最近，我们追求用弱监督的注释进行模型训练，其形式为边界框或图像级标签（Papandreou等人，2015）。

在更高的层面上，我们的工作在于卷积神经网络和概率图形模型的交叉。我们计划进一步研究这两类强大方法的相互作用，并探索它们在解决具有挑战性的计算机视觉任务方面的协同潜力。

ACKNOWLEDGMENTS

这项工作得到了ARO 62250-CS、NIH资助5R01EY022247-03、欧盟项目RECONFIG FP7-ICT-600825和欧盟项目MOBOT FP7-ICT-2011-600796的部分支持。我们还感谢英伟达公司的支持，捐赠了用于这项研究的GPU。

PAPER REVISIONS

我们要感谢匿名评审员的详细评论和建设性的反馈。

论文修订为了方便读者，我们在此列出了论文的主要修订清单。

v1 提交给ICLR 2015。介绍了DeepLab-CRF模型，该模型在PASCAL VOC 2012测试集上达到了66.4%的性能。
v2 对ICLR 2015的反驳。增加了DeepLab-MSc-CRF模型，它结合了中间层的多尺度特征。DeepLab-MSc-CRF在PASCAL VOC 2012测试集上获得了67.1%的性能。
v3相机可用于ICLR 2015。大视场的实验。在PASCAL VOC 2012测试集上，DeepLab-CRF-LargeFOV的性能达到了70.3%。当同时利用多尺度特征和大视场时，DeepLab-MSc-CRF-LargeFOV的性能达到了71.6%。
v4 参考了我们更新的 "DeepLab "系统（Chen等人，2016），结果大为改善。

【DeepLab v1 2016】SEMANTIC IMAGE SEGMENTATION WITH DEEP CON- VOLUTIONAL NETS AND FULLY CONNECTED CRFS