FlipCAM:一种用于从高分辨率遥感图像中弱监督建筑物提取的特征级翻转增强方法论文翻译

发布于:2025-02-11 ⋅ 阅读:(107) ⋅ 点赞:(0)

在这里插入图片描述


IEEE GEOSCIENCE AND REMOTE SENSING TRANSACTIONS, VOL. 62, 2024 4402917

FlipCAM: 一种用于高分辨率遥感图像中弱监督建筑提取的特征级翻转增强方法

Xueliang Zhang, IEEE会员, Qi Su, Pengfeng Xiao, IEEE高级会员, Wenye Wang, Zhenshi Li, 和 Guangjun He

摘要 —— 通过深度神经网络准确提取建筑物需要收集大量的像素级标注,这是非常耗时的。在类激活图(CAM)的支持下,带有图像级标注的弱监督语义分割(WSSS)方法是建筑提取的有效解决方案。然而,从高分辨率遥感图像中生成高质量的CAM热图是一个巨大挑战。一方面,图像级标签缺乏空间信息,导致建筑提取的部分完整性和空洞现象。另一方面,遥感图像中的复杂背景可能导致建筑边界提取不准确。在本研究中,我们提出了一种名为FlipCAM的新型弱监督建筑提取方法来应对这些挑战。基于特征级翻转增强的Flip模块被设计用来通过融合原始和翻转的特征图来提高CAM热图的完整性。此外,通过将Flip模块与基于一致性架构的切片和合并(SAM)模块结合,FlipCAM能够以端到端的方式生成具有边界精细度和内部完整性的高质量CAM热图,这也缓解了建筑提取的特殊困难,包括密集建筑中的粘连和背景及阴影的混淆,为训练分割网络提取建筑物提供可靠的像素级伪掩模。在三个高分辨率数据集上的广泛实验表明,FlipCAM在有效性和鲁棒性方面都取得了优异的性能,超过了其他弱监督方法。我们的代码已在 https://github.com/NJU-LHRS/FlipCAM-master 上公开。

关键词 —— 建筑提取,类激活图(CAM),特征级翻转增强,高分辨率遥感图像,弱监督深度学习。

I. 引言

随着高分辨率卫星和遥感技术的快速发展,从遥感图像中提取建筑物对于地理应用具有重要意义,如城市规划[1]、[2]、人口估计[3]和土地覆盖制图[4]。作为一个二元分割任务,建筑提取的主要目的是为遥感图像中的每个像素分配建筑或非建筑标签。随着建筑提取需求的增加和高分辨率遥感图像数量的增长,找到一种准确和自动提取建筑物的有效方法至关重要。作为数据驱动的方法,深度卷积神经网络(DCNNs)已被广泛用于提取建筑物,因为它们强大的能力可以处理大量数据[5]、[6]。在像素级标注的监督下,全卷积网络(FCNs)[7]可以充分利用像素之间的空间上下文信息,并通过CNN感受野提取多层次特征,这在建筑提取任务中非常有能力[8]、[9]。然而,为训练FCNs收集大量的像素级标签既昂贵又耗时[10],特别是在需要大量空间范围和高专业要求的遥感图像标注中。因此,提出了许多不完整的标注方法来提取遥感图像中的建筑物,如半监督方法[11]、自监督方法[12]和通过涂鸦[13]、边界框[14]、点标签[15]和图像级标签[16]的弱监督方法。在各种不完整标注方法中,图像级弱监督方法更实用且具有挑战性,因为图像级标注在它们之中是成本最优的。图像级标签只指示图像中建筑物的存在,没有任何先验的空间信息,如空间位置或边界信息,这使得弱监督方法难以达到与全监督语义分割(FSSS)方法相同的性能。

方法论:

作为一个图像级弱监督建筑提取方法,FlipCAM包含两个步骤(见图2):1)训练分类网络并生成伪掩模;2)训练分割网络并输出结果。在II-A节中,我们简要回顾了如何生成CAM。在II-B节中,我们描述了一致性架构的原理,并从理论上解释了它的工作原理。在II-C节中,我们描述了SAM模块的原理,并说明了它如何通过多尺度信息提高建筑提取性能。在II-D节中,我们详细描述了Flip模块的原理,并从理论上说明了它如何显著提高建筑提取的完整性。在II-E节中,我们详细阐述了如何将FlipCAM方法将CAM热图转换为分割网络训练的伪掩模。

在这里插入图片描述

A. 预备知识

CAM方法的核心是将图像级标签转换为粗略的像素级标签。首先,需要训练一个分类网络以生成CAM。为了增强分类网络的特征提取能力,我们使用二元交叉熵损失函数LBCE:
LBCE = -1/N ∑(yi log(pi) + (1 - yi) log(1 - pi)),
其中N是样本数量;yi表示第i个样本所属的类别;pi是第i个样本的预测值。由于CAM方法的极端通用性[78],在生成CAM时对分类网络的选择没有特别限制。然而,考虑到生成CAM需要使用全局平均池化(GAP)层,本研究选择带有GAP层的ResNet-50作为骨干网络。然后我们用f ∈ RC×HW表示最后一个卷积层的特征图,其中C、H和W分别表示特征图的总通道数、高度和宽度。GAP层将这些特征图压缩,以便与具有参数w ∈ R2C的全连接层轻松连接。全连接层用于计算建筑物分数,以确定图像中是否包含建筑物的概率。具体来说,建筑物的分数sb按如下方式获得:
在这里插入图片描述
由于本研究关注建筑提取,即二元分类,sb需要通过softmax激活函数归一化并处理为建筑的分类概率pb:
pb = exp(sb) / ∑(exp(Sc)),

其中exp(•)是指数函数;C包含两个类别,即建筑和背景;Sc表示在全连接层之后为每个类别计算的分数。然后,如图3所示,提取建筑的原始CAM Mb由下式给出:

在这里插入图片描述

其中ReLU(·)是修正线性单元激活函数。简而言之,生成CAM的原理是将建筑的预测值与最后一个卷积层生成的特征图进行线性组合。值得注意的是,Mb的大小与最后一个卷积层的特征图大小相同,因此需要通过双线性插值对Mb进行上采样,使其与输入图像大小相同,以便于后续处理。作为开创性的工作,CAM方法利用图像级标签实现粗略建筑提取。然而,仍有两个挑战:1)由于粗粒度标注、单一损失函数设置、卷积过程和池化过程的影响,分类网络在提取建筑特征时,建筑边界信息严重丢失;2)分类网络倾向于只关注类别的最具有辨识性特征区域以实现准确分类,导致CAM结果只关注建筑的局部区域。因此,有必要提高CAM结果的内部完整性。

在这里插入图片描述

B. 一致性架构

一致性架构被提出以更好地适应弱监督建筑提取任务中的物体边界。架构的核心思想是通过引入额外的监督来增强模型性能,通过一致性正则化。具体来说,我们的模型通过引入一个额外的输入分支实现一致性正则化,其中输入图像可以经历各种数据增强策略,如SAM、翻转、旋转、缩放等。通过在训练阶段最小化一致性损失,模型不断吸收额外的监督信息,特别是更细粒度的物体边界信息,通过缩小两个分支之间的输出方差,最终提高模型性能。CAM方法的建筑提取本质上是使用分类网络进行粗略语义分割任务。然而,分类网络和分割网络参数的优化方式存在巨大差异。在这种情况下,分割网络执行建筑物的像素级提取,当转换和反转建筑物图像时,理想情况下分割网络倾向于等效,并且可以实现以下效果:
在这里插入图片描述

其中 I b I_b Ib是建筑物图像样本;T和 T − 1 T^{-1} T1分别代表转换和反转; N i p N_{ip} Nip代表用于建筑提取的理想参数深度网络。我们将这种现象称为等效分割。与分割网络相比,分类网络更关注类别不变性而不是等效分割,这使得CAM结果中的建筑物边界不够精细。因此,我们添加了一致性架构,以实现更好的建筑物边界提取效果,如图4所示。一致性架构由两个分支组成,共享网络权重但输出不同的特征图。基于原始图像和反转变换特征图的特征图,我们可以建立以下一致性正则化损失函数:
在这里插入图片描述

其中N、I1、I2和|·|_1分别代表分类网络、两个分支的输入图像和L1正则化。在分类网络的训练过程中,Lconsistency不断优化,确保两个分支的输出激活图不断受到正则化,从而增强模型提取建筑物边界的能力。

C. SAM模块

为了提高分类网络在提取多尺度建筑方面的性能,设计并集成了SAM模块到一致性架构的一个分支中。与自监督等变注意力机制(SEAM)方法[42]中的缩放变换相比,SAM模块[见图4(b)]将不同尺度的遥感图像输入网络,这更适合多尺度遥感场景。具体来说,每个训练图像沿两个中心轴切成四块,每个块利用分类网络生成切片特征图。值得注意的是,我们发现在将这些切片上采样到原始图像大小之前输入到分类网络是不必要的。尽管图像大小的变化导致特征图尺寸的变化,导致展平特征图与分类网络的全连接层之间的尺寸不匹配,但SAM模块通过在特征图进入全连接层之前对切片特征图进行合并操作来解决这个问题。合并的特征图与原始图像产生的特征图尺寸相同。这种方法不进行重采样,具有显著降低内存消耗的优势。通过SAM操作,分类网络可以学习到另一个分支中缺乏的多尺度信息。通过Lconsistency与另一个分支的特征图连接,合并的特征图不断为网络贡献多尺度建筑信息。

在这里插入图片描述

D. Flip模块

一致性架构实现了优化建筑提取结果的边界,但提取结果的完整性仍然无法保证,这可能导致空心现象。因此,提出了Flip模块[见图4(a)]来消除不完整的提取问题。数据增强技术已经被成功应用于弱监督分割中,以提高CAMs的准确性[89]、[90]。然而,这些方法只通过随机掩模[89]或基于热图的掩模[90]增强原始图像,缺乏对网络提取的高维特征信息的进一步整合。与传统的弱监督图像增强方法相比,Flip模块通过在特征级别融合特征图来整合高维特征信息。这使得网络能够更深入地理解建筑的整体表示,从而增强建筑的完整性。与深度学习预处理中常见的数据增强不同,Flip模块旨在实现特征级增强。具体来说,它将翻转图像放入权重共享的分类网络中,并生成翻转特征图。它通过像素级融合原始和翻转特征图来增强原始CAM的完整性。

III. 实验结果

A. 实验设置

  1. 数据集:为了验证所提出的FlipCAM方法的有效性和鲁棒性,我们选择了包含各种类型建筑的三个数据集,包括ISPRS 2-D语义分割基准数据集(Potsdam数据集和Vaihingen数据集)[82],以及Aerial Imagery for Roof Segmentation (AIRS)数据集[83](见表I和图5)。具体来说,Potsdam数据集由四个波段(IRRGB)的TIFF文件组成。AIRS数据集和Vaihingen数据集分别由RGB和IRRG波段组成。Potsdam数据集包含38个原始航拍图像,大小为6000×6000像素,地面分辨率为5厘米/像素,其中24个用于训练,14个用于测试。由于注释错误,Potsdam数据集中名为“top_potsdam_7_10_RGB”的图像被移除。Vaihingen数据集包含33个不同大小的航拍图像,地面分辨率为9厘米/像素,其中16个用于训练,17个用于测试。AIRS数据集包含24个原始航拍图像,大小为10,000×10,000像素,地面分辨率为7.5厘米/像素,其中20个用于训练,4个用于测试。每个数据集中的原始图像被裁剪成256×256像素的图像块,相邻样本之间有50%的重复率。具体来说,用于训练的分类样本被标注为图像级标注“building”,当其像素比例大于25%时,以及“nonbuilding”当没有建筑像素时,这些样本被分为训练集和验证集,比例大约为8:1。对于建筑像素比例在0%到25%之间的图像块,将其作为正样本包含在训练阶段可能会对建筑特征提取的性能产生不利影响,因为它们的大部分区域仍然属于背景。因此,我们丢弃了建筑像素比例在0%到25%之间的图像,用于训练分类网络。为了测试方法在真实场景中的性能,从特定测试图像中得出了具有像素级注释的分割样本,没有进行任何筛选过程。数据集的详细组成见表I。

  2. 网络设置:作为分类和分割任务中有效的卷积神经网络骨干,ResNet[85]系列被采用作为我们的CNN骨干。在步骤1(见图2)中,ResNet-50被用作分类网络以生成FlipCAM,该网络通过ImageNet数据集[10]进行预训练。关于超参数设置,PolyOptimizer被用作训练阶段的优化器,动量为0.9,权重衰减为0.0005。初始学习率等于0.01,并在每个epoch中通过0.9的幂进行多项式衰减。此外,其他训练配置,如批量大小、epoch数量和种子,分别设置为32、100和0。在步骤2(见图2)中,ResNet-101和DeepLabv3+被用作我们的分割网络骨干和架构。分割网络的大多数训练设置与分类网络相同,除了批量大小和epoch数量分别为64和50。实验在PyTorch 1.10.1和Python 3.9.7上进行。分类网络和分割网络都在配备有Intel Core i7-11700K CPU、一块NVIDIA GeForce RTX 3080 GPU和64 GB内存的计算机上进行训练。

  3. 评估指标:选择了四个准确性指标来评估所提出的FlipCAM方法在建筑提取上的性能,包括精确度、召回率、F1分数和交集比(IOU),公式如下:
    精确度 = TP / (TP + FP) (9)
    召回率 = TP / (TP + FN) (10)
    F1分数 = 2 × (精确度 × 召回率) / (精确度 + 召回率) (11)
    IOU = TP / (TP + FP + FN) (12)
    其中TP(真阳性)、FP(假阳性)和TN(真阴性)分别代表正确预测为建筑的像素数量、错误预测为建筑的像素数量和正确预测为非建筑的像素数量。精确度和召回率分别代表委托和遗漏错误。F1分数是精确度和召回率的调和平均值,当建筑和背景像素数量不平衡时,能更好地反映提取性能。IOU描述了预测和真实之间的重叠程度,整体上代表了建筑提取的质量。

B. 与最先进方法的比较

在这一部分,为了展示所提方法的优越性,我们将FlipCAM与九种最先进的WSSS方法进行了比较,即CAM[17]、IRNet[28]、PuzzleCAM[39]、SEAM[42]、AdvCAM[43]、ReCAM[52]、CONTA[60]、AMR[67]和ACGC[77]。具体来说,CAM是WSSS的先驱和基本框架。IRNet通过在注意力图上训练像素间关系来优化提取边界。SEAM和PuzzleCAM的核心思想是通过一致性正则化创建额外的监督。AdvCAM以对抗性方式迫使最初被认为是非辨识性区域参与后续分类。AMR利用聚光分支和补偿分支获得加权CAM,可以提供重新校准监督和特定任务概念。ReCAM通过使用softmax交叉熵损失(SCE)重新激活已收敛的CAM。作为一种新的弱监督建筑提取方法,ACGC通过结合ACGC提高建筑提取性能。总之,这些方法在WSSS中具有多样性的创新和良好的性能。值得注意的是,由于ACGC没有开源代码,我们除了ACGC之外,都在三个数据集上复现了所有开源代码以获得实验结果。对于我们进行的所有比较实验,遥感图像在图像预处理阶段都经历了相同的数据增强方法,如随机水平翻转、随机裁剪和随机旋转。此外,我们采用了DeepLabv3+作为基准FSSS方法进行比较,因为WSSS和FSSS之间的性能差距是WSSS有效性的关键指标。

  1. 伪掩模性能评估:作为步骤2(见图2)中的像素级标签,伪掩模直接影响分割网络的建筑提取性能。三个数据集上伪掩模的比较结果见表II。结果表明,FlipCAM方法提取的伪掩模在弱监督方法中表现最佳,并在准确性和完整性之间取得了平衡。具体来说,一些弱监督方法如SEAM更注重提高伪掩模的前景信心,导致伪掩模的完整性降低,背景信息的不确定性增加。为确保有效的分割网络训练,需要额外采用忽略像素值和背景阈值的策略[16]。如图6所示,凭借一致性架构和两个子模块的卓越性能,FlipCAM有效地缓解了伪掩模中的图像噪声和背景误分类问题。

  2. 建筑提取结果性能评估:三个数据集上建筑提取的比较结果见表III。结果表明,所提出的FlipCAM也表现最佳。具体来说,从每种方法的精确度和召回率指标可以看出,平衡准确性和完整性的方法产生优越的提取结果,例如所提出的FlipCAM,而偏好特定能力的方法由于建筑类别特征信息提取不足而不够鲁棒,例如IRNet、CONTA和ReCAM。值得注意的是,一些具有一致性原则的弱监督方法,如SEAM和PuzzleCAM,在Potsdam和AIRS数据集上显示出低完整性性能。然而,随着Flip模块的加入,FlipCAM解决了低完整性问题,从而保持高准确性(见表III)。由于Vaihingen数据集包含更多密集建筑,SEAM和PuzzleCAM的准确性显著下降。在这种情况下,Flip模块和SAM模块为网络提供了更多建筑特征信息,使FlipCAM在复杂场景中保持出色的建筑提取性能。为了进一步了解FlipCAM的建筑提取能力,我们分析并比较了不同弱监督方法在各种场景下的表现。

a) 单建筑提取性能:单建筑提取指的是精确分割和描绘单个结构的内部形状和外部轮廓。这项任务主要面临的挑战是细粒度建筑形状和轮廓提取(见图7)。如图7(a)所示,由于建筑的复杂组成,大多数方法无法完全提取建筑形状。一些方法如PuzzleCAM可以提取完整形状,但同时,许多背景像素与前景混淆,导致建筑轮廓粗糙。作为一种在提取准确性和完整性之间取得平衡的弱监督方法,FlipCAM在描述建筑形状和轮廓时表现出色。建筑附件的委托是单建筑提取中的另一个挑战。与具有像素级标注的FSSS不同,弱监督方法只有图像级标注,因此与建筑频繁共现的建筑附件,如不透水表面或汽车[见图7(e)和(f)],容易被误分类为建筑。除了CAM、IRNet和CONTA导致遗漏现象外,其他方法在一定程度上将建筑附件作为建筑提取,但由于一致性架构和Flip模块的卓越协调,FlipCAM减轻了这个问题,并在这种场景中表现最佳。

b) 密集建筑提取性能:与单建筑提取不同,处理密集建筑对弱监督方法来说更具挑战性。首先,弱监督方法倾向于更多地关注遥感图像中最具有辨识性的区域,这使得在提取具有高类内异质性的密集建筑时,尤其是小规模的,特别容易忽略整个个体建筑。因此,这可能导致提取的建筑数量不准确。如图8(e)所示,除了AMR中严重的过分割现象外,大多数弱监督方法在提取特征时被左上角的大建筑吸引,忽略了图像下半部分的密集建筑,从而导致提取的建筑数量错误。相反,所提出的FlipCAM准确地提取了大型建筑和密集建筑,表明FlipCAM提取的建筑特征更加全面。其次,由于网络上采样引起的建筑粘连也是多尺度密集建筑场景中的常见现象。如图8(b)、©和(e)中的黄圈所示,得益于Flip模块和SAM模块丰富的监督信息,尽管牺牲了一点边界信息,FlipCAM方法仍然有效地避免了粘连现象和小建筑的遗漏。

c) 与背景混淆的建筑提取性能:由于建筑周围复杂的背景信息,准确从复杂的遥感场景中提取建筑极其困难。此外,由于缺乏像素级监督,弱监督方法更难区分具有低类间异质性的建筑和背景像素,因为这些像素具有相似的光谱和纹理信息。与建筑具有相似光谱特性的不透水表面对建筑提取造成很大干扰。然而,为了确保建筑提取的完整性,大多数弱监督方法更倾向于牺牲建筑提取结果的精确度,并将低异质性的不透水表面视为建筑[见图9(a)、©和(d)],这表明这些弱监督方法的建筑特征空间包含大量背景噪声,极大地抑制了网络性能。同样,在某些场景中,建筑被视为不透水表面[见图9(e)]。然而,FlipCAM整合了特征空间中的全面建筑信息,从而尽可能地消除了背景中的噪声,实现了在复杂背景上的出色建筑提取性能。

d) 受阴影影响的建筑提取性能:建筑物或树木产生的阴影影响建筑提取。由于阴影的存在,弱监督方法需要强大的鲁棒性,以区分阴影区域中是建筑还是背景,这主要基于地理对象的类别和位置信息。如图10所示,大多数弱监督方法将阴影视为背景,因为阴影的光谱和纹理特征与建筑不相似。然而,由于建筑物产生的阴影的特殊性,除了参考光谱和纹理特征外,网络准确提取阴影区域中的建筑的能力主要取决于对建筑宏观信息和阴影位置信息的深入理解。具体来说,具有强大鲁棒性的网络可以基于全面特征进行判断,即使部分建筑被阴影遮挡。FlipCAM消除了各种场景中的阴影干扰,无论是过滤背景[见图10©和(d)],还是在阴影下提取建筑[见图10(a)、(b)和(e)]。

C. 组件分析

  1. FlipCAM的消融研究:为了说明所提出的FlipCAM方法中两个主要模块的有效性,我们在三个数据集上设计了消融研究。首先,有必要测试基线,即原始CAM方法,在生成CAM热图方面的性能。其次,仅将SAM模块和一致性架构加入基线,以说明其有效性。最后,在先前设计的基础上加入Flip模块,形成所提出的FlipCAM方法。消融研究的定量结果见表IV。结果表明,FlipCAM方法中的每个模块都提高了生成热图的质量。此外,所提出的方法凭借两个有效模块在它们中取得了最佳性能。具体来说,加入SAM模块后,CAM结果的准确性在Potsdam、Vaihingen和AIRS数据集上分别提高了6.0%、7.0%和6.1%。从图11(a)-©中可以看出,基线提取的CAM热图几乎对建筑边界信息没有局部响应,对建筑内部的响应也非常零散。在一致性损失函数的约束下,建筑边界的精细度得到了极大的改善,并在一定程度上实现了建筑内部信息的整合,这意味着响应不再与基线相比在建筑区域内随机提取。SAM模块在Vaihingen数据集上表现更好,该数据集中有更多的密集建筑。因此,可以推断SAM模块可以有效处理图像中的密集建筑情况。例如,图11(d)中的小房子被SAM模块提取,但基线没有。尽管SAM模块显著提高了分类网络的性能,但热图仍存在一些缺点。首先,SAM模块更关注建筑边界的响应,导致建筑内部完整性不足[见图11(f)],甚至出现空心现象[见图11(d)]。其次,即使没有空心现象[见图11(e)],很明显SAM模块提取的建筑边缘的响应值大于建筑内部。因此,建筑内部在二值化过程中更容易被归类为背景,而不是边界。此外,空心现象导致CRF后处理后建筑内部的遗漏更严重,最终导致伪掩模的准确性显著下降。在SAM模块的基础上,当Flip模块加入时,CAM结果的准确性在Potsdam、Vaihingen和AIRS数据集上分别提高了4.9%、3.4%和5.1%。这是因为Flip模块利用特征级增强策略和像素级融合来增强建筑提取的完整性。具体来说,上层分支[见图4(a)]生成的特征图被原始特征图和翻转特征图融合的特征图替换。然后,分类网络在保持边界提取准确性的同时,大大改善了建筑提取的完整性[见图11(g)-(i)],这是通过一致性正则化策略训练的。正如预期的那样,空心现象也被消除了。此外,加入Flip模块后,CAM热图显示,建筑内部区域的响应值大于边界区域,混合像素包含建筑和背景的响应值较低,这更符合CAM热图的响应逻辑。通过这种方式,即使一些建筑边界像素在图像中二值化后被错误分类,这些像素也可以通过CRF后处理轻松补偿,从而进一步提高伪掩模的准确性。基于一致性架构,Flip模块可以有效地提高模型在提取建筑方面的性能。然而,没有一致性架构的Flip模块可能无法始终发挥作用。为了验证Flip模块在基线条件下的性能,我们进行了一组额外的消融实验,基线+Flip模块,结果见表IV。从结果中可以观察到,仅加入Flip模块的三个数据集的准确性并没有提高。这是因为Flip模块作为一个独立的模块,只能增强原始CAM热图的完整性。然而,如果没有一致性架构和SAM模块提供的边缘约束,建筑提取的精度和整体准确性并没有提高。因此,SAM模块和Flip模块的联合效应是实现建筑提取最佳准确性的必要条件。除了准确性优势外,FlipCAM在分类网络训练的稳定性和鲁棒性方面也表现最佳(见图12)。仅具有SAM模块的分类网络在训练过程中经常出现验证集准确性先增加然后减少的情况,甚至在Vaihingen数据集的第40个epoch左右出现准确性的急剧下降,这在没有验证集的真实遥感场景中会产生严重后果。随着SAM和Flip模块的加入,训练过程中每次迭代的运行时间逐渐增加。然而,它并不影响模型的推理时间。这归因于我们FlipCAM方法中采用的权重共享机制。虽然这些模块在训练过程中增加了额外的计算时间,但权重共享机制确保了在推理阶段只使用主分支来预测输入图像。这导致推理时间消耗没有额外增加,允许在相同的推理时间框架内获得更高的准确性。

  2. 关键参数(α)的评估:作为损失函数中的关键参数,α参数决定了一致性正则化的力量,并对FlipCAM在提取建筑方面的性能有显著影响。不同α值下FlipCAM方法在三个数据集上的性能见表V。结果表明,当α为0时性能最差,当α为0.25时性能最佳。然后,随着α值的增加,准确性趋于下降。通常,为了减少参数调整的工作量,α默认为1。然而,作为一个特定的下游任务,通过调整α来平衡多个损失函数是必要的。通过调整每个损失函数的权重,FlipCAM更加关注SAM模块和Flip模块带来的建筑内部完整性和多尺度信息的优化。相反,过多关注一致性正则化可能会导致边界信息抑制其他特征信息,反而会降低准确性。

  3. 不同特征级增强策略的评估:为了验证特征级翻转策略的有效性,有必要评估不同特征级增强策略在三个数据集上的性能。如表VI所示,可以观察到使用水平翻转和垂直翻转作为增强策略在三个数据集上获得了相似的实验准确性。由于我们已经在训练过程中使用了随机翻转作为图像增强策略,网络已经学会了对垂直和水平翻转的遥感图像的鲁棒视觉知识。因此,对于特征级增强策略,无论我们使用垂直翻转还是水平翻转,效果本质上是相同的。此外,表明特征级翻转策略的准确性远远领先于特征级旋转和缩放策略。此外,缩放策略在一定程度上优于旋转策略。原因是特征级翻转策略既不提供有限的监督,也不丢失与其他特征级增强策略相比的空间和位置信息。尽管缩放策略牺牲了部分空间信息,但由于两个分支中的不同分辨率图像,它仍然提供了有效的监督。因此,我们可以得出结论,不同分支之间的监督信息和空间信息越多,建筑提取性能就越好。

  4. 无分割网络步骤的评估:作为一个通用的弱监督方法,我们首先使用分类网络为训练样本生成伪掩模,然后使用分割网络生成建筑提取结果。然而,一些工作直接使用分类网络生成地理对象结果[69],这更有效。因此,我们比较了有无分割网络步骤的建筑提取性能,见表VII。结果表明,包含分割步骤的FlipCAM方法的性能明显优于不包含步骤的性能。对于弱监督建筑提取,我们确实需要分割网络来进一步细化提取结果。

IV. 讨论

从设计用于从高分辨率遥感图像中提取建筑的弱监督网络架构的角度,基于FlipCAM的优势和局限性,我们讨论了四个观点。在所提出的FlipCAM方法中,生成CAM热图是一个端到端的过程,具有同时优化。一种端到端的弱监督建筑提取方法可以同时优化边界精细度和内部完整性,而不会在优化步骤中造成任何损害。作为一种具有多个损失函数的多任务学习方法,分类网络随着平滑梯度下降逐渐提高边界和内部提取的性能[19]。相反,我们尝试考虑将多个单独的方法,如超像素分割[79]和对抗性攀登[41]作为分布式优化结合起来。第一步优化可以被第二步优化部分损害,因为分布式优化无法同时考虑两个指标的性能。在弱监督建筑提取任务的背景下,诸如相邻建筑、被阴影覆盖的建筑、低类间异质性和高类内异质性等现象的根本原因可以归因于监督信息不足。我们的FlipCAM方法从自监督学习领域的一致性正则化概念中汲取灵感,使网络不仅能够学习图像级标签信息,还能够学习图像本身固有的额外约束信息。这允许网络在训练阶段不断提高其提取细粒度建筑边界的能力。对于SAM模块,不同图像大小的输入允许弱监督网络学习多尺度信息。至于Flip模块,特征级增强策略使弱监督网络能够学习更多的内部完整性信息。因此,建筑边界变得更加精细,内部完整性更强,并在处理不同规模场景时表现出更大的鲁棒性。这最终提高了在涉及密集建筑、被阴影覆盖的建筑等场景中的提取能力。一致性架构引入的新分支的设计对提高建筑提取的影响很大。在FlipCAM方法中,我们使用了SAM模块,其中切片子图像的数量是4。这种切片方式在多尺度信息的丰富性和GPU计算能力之间取得了平衡,以便在添加一个分支的情况下,分类网络的批量大小仍然可以达到32。在具有更高GPU计算能力的情况下,遥感图像可以被分成16甚至64个子图像。如表VIII所示,我们进行了实验,研究了不同切片数量对SAM模块性能的影响。实验结果表明,较小数量(2×2=4个切片)的切片子图像倾向于比更大的切片数量获得更好的性能。因此,过多的切片可能不适合分割任务,因为这将导致上下文信息的显著丢失,这妨碍了遥感图像中建筑特征的提取。此外,与其他弱监督建筑提取方法相比,FlipCAM在训练过程结束时增强了与原始CAM的特征图的映射。具体来说,无论通过现有弱监督方法如何改进CAM,它们都使用原始CAM作为计算损失函数的最终映射之一。原因是其他映射作为原始CAM的补充存在。然而,在建筑提取任务中,原始CAM具有无法充分提取建筑内部特征和边界特征的巨大缺点。在FlipCAM中,Flip模块在将其作为最终映射之前,将原始CAM与翻转CAM逐像素融合,而不是直接将原始CAM作为单独的映射使用。通过这种方式,融合的特征图已经包含了原始CAM的表示和翻转特征图的额外信息。因此,如果一致性架构不起作用,就不需要担心建筑提取性能会回到原始CAM水平。实际上,我们的方法仍然存在一些局限性。首先,我们使用了三个分辨率在厘米范围内(0.05-0.09米)的建筑数据集。从较低分辨率的遥感数据中提取建筑将更具挑战性,建议将来更多关注这一点。其次,虽然我们的方法在提取建筑方面表现出色,但其在提取其他小规模人造地理对象(如汽车)或自然地理对象(如植被)方面的有效性仍然未知。需要进一步的研究来验证我们的方法在这些额外场景中的适用性。

V. 结论

在本研究中,我们提出了一种名为FlipCAM的新型弱监督建筑提取方法,用于高分辨率遥感图像。为了提高边界精细度的能力,设计了一致性架构,通过在分类网络中扩展新分支,不断通过一致性正则化原则在训练阶段细化边界信息。作为一致性架构的一个分支,SAM模块被用来提供丰富的多尺度信息。此外,设计了具有特征级翻转增强策略的Flip模块来提高内部完整性的能力,增强CAM热图的完整性。结合SAM模块和Flip模块,FlipCAM以端到端的方式同时提高边界精细度和内部完整性,与具有两个子步骤的其他建筑提取的弱监督方法不同。在三个代表性的高分辨率数据集上的图像级弱监督下,所提出的FlipCAM方法取得了有希望的伪掩模和建筑提取结果,并优于最先进的方法。此外,FlipCAM还缓解了建筑提取的特殊困难。在未来的工作中,我们将探索弱注释下建筑提取方法在不同类型遥感图像中的潜力,包括空间和光谱分辨率。


网站公告

今日签到

点亮在社区的每一天
去签到