Restormer: Efficient Transformer for High-Resolution Image Restoration 论文阅读

发布于:2025-06-24 ⋅ 阅读:(12) ⋅ 点赞:(0)

题目 (Title):
Restormer:用于高分辨率图像恢复的高效Transformer

摘要 (Abstract):
由于卷积神经网络(CNN)在从大规模数据中学习可泛化的图像先验方面表现出色,这些模型已被广泛应用于图像恢复及相关任务。最近,另一类神经架构——Transformer,在自然语言处理和高层视觉任务上展现出显著的性能提升。虽然Transformer模型缓解了CNN的缺点(即有限的感受野和对输入内容的不适应性),但其计算复杂度随空间分辨率呈二次方增长,因此难以应用于大多数涉及高分辨率图像的图像恢复任务。本工作中,我们通过在核心构建模块(多头注意力和前馈网络)中引入几个关键设计,提出了一种高效的Transformer模型,使其能够捕获长距离像素交互,同时仍能处理大尺寸图像。我们的模型命名为Restoration Transformer (Restormer),在多个图像恢复任务上实现了最先进的性能,包括图像去雨、单图像运动去模糊、散焦去模糊(单图像和双像素数据)以及图像去噪(高斯灰度/彩色去噪和真实图像去噪)。源代码和预训练模型可在 https://github.com/swz30/Restormer 获取。

1 引言 (Introduction)
图像恢复的任务是通过从退化的输入中去除退化(例如噪声、模糊、雨滴)来重建高质量图像。由于其病态性质,这是一个极具挑战性的问题,通常需要强大的图像先验才能进行有效恢复。由于卷积神经网络(CNN)在从大规模数据中学习可泛化的先验方面表现良好,它们已成为相较于传统恢复方法更优的选择。

CNN中的基本操作是“卷积”,它提供局部连接和平移等变性。虽然这些特性为CNN带来了效率和泛化能力,但也导致了两个主要问题:(a) 卷积算子具有有限的感受野,因此无法建模长距离像素依赖关系。(b) 卷积滤波器在推理时具有静态权重,因此无法灵活适应输入内容。为了应对上述缺点,一个更强大且动态的替代方案是自注意力SA机制 [17, 77, 79, 95],它通过所有其他位置的加权和来计算给定像素的响应。

自注意力是Transformer模型 [34, 77] 的核心组件,但具有独特的实现,即多头SA,它针对并行化和有效表示学习进行了优化。Transformer在自然语言任务 [10, 19, 49, 62] 和高层视觉问题 [11, 17, 76, 78] 上展示了最先进的性能。尽管SA在捕获长距离像素交互方面非常有效,但其复杂度随空间分辨率呈二次方增长,因此难以应用于高分辨率图像(这在图像恢复中很常见)。最近,已有少数努力尝试为图像恢复任务定制Transformer [13, 44, 80]。为了减少计算负载,这些方法要么在每个像素周围的 8 × 8 8\times8 8×8 小空间窗口上应用SA [44, 80],要么将输入图像划分为不重叠的 48 × 48 48\times 48 48×48 图像块并在每个块上独立计算SA [13]。然而,限制SA的空间范围与捕获真实长距离像素关系的目标相矛盾,尤其是在高分辨率图像上。

本文中,我们提出了一种用于图像恢复的高效Transformer,它能够建模全局连接性,并且仍然适用于大尺寸图像。具体来说,我们用具有线性复杂度的多头深度卷积“转置”注意力(MDTA)块(第3.1节)取代了原始的多头SA [77]。它跨特征维度而非空间维度应用SA,即MDTA不是显式建模成对像素交互,而是跨特征通道计算互协方差,从(查询投影后的)输入特征中获得注意力图。我们MDTA块的一个重要特征是在特征协方差计算之前进行局部上下文混合。这是通过使用 1 × 1 1\times 1 1×1 卷积聚合跨通道的逐像素上下文,以及使用高效的深度卷积聚合通道内的局部上下文来实现的。该策略提供了两个关键优势:首先,它强调了空间局部上下文,并在我们的流程中引入了卷积操作的互补优势;其次,它确保了在计算基于协方差的注意力图时,像素之间具有上下文信息的全局关系被隐式建模。

前馈网络(FN)是Transformer模型 [77] 的另一个构建块,它由两个全连接层组成,中间有一个非线性激活函数。在这项工作中,我们对常规FN [77] 的第一个线性变换层进行了重构,引入了门控机制 [16] 以改善网络中的信息流。该门控层被设计为两个线性投影层的逐元素乘积,其中一个层使用GELU非线性激活 [27]。我们的门控深度卷积前馈网络(GDFN)(第3.2节)也基于类似于MDTA模块的局部内容混合,同样强调空间上下文。GDFN中的门控机制控制哪些互补特征应向前传播,并允许网络层次结构中的后续层专门关注更精细的图像属性,从而产生高质量的输出。

除了上述架构创新,我们还展示了为Restormer设计的渐进式学习策略的有效性(第3.3节)。在此过程中,网络在早期阶段使用小块和大批量进行训练,在后期阶段逐渐使用大图像块和小批量进行训练。这种训练策略有助于Restormer从大图像中学习上下文,从而在测试时提供性能提升。我们进行了全面的实验,并在 16 16 16个基准数据集上展示了我们的Restormer在多个图像恢复任务上的最先进性能,包括图像去雨、单图像运动去模糊、散焦去模糊(单图像和双像素数据)以及图像去噪(合成数据和真实数据);见图1。此外,我们提供了广泛的消融实验以展示架构设计和实验选择的有效性。

本文的主要贡献总结如下:

  • 我们提出了Restormer,一种用于高分辨率图像上多尺度局部-全局表示学习的编码器-解码器Transformer,无需将其分解为局部窗口,从而利用了远距离图像上下文。
  • 我们提出了多头深度卷积转置注意力(MDTA)模块,能够聚合局部和非局部像素交互,并且足够高效以处理高分辨率图像。
  • 一种新的门控深度卷积前馈网络(GDFN),执行受控的特征变换,即抑制信息量较少的特征,只允许有用的信息在网络层次结构中进一步传播。

2 背景 (Background)
图像恢复 (Image Restoration)。 近年来,数据驱动的CNN架构 [7, 18, 92, 93, 105, 107] 已被证明优于传统的恢复方法 [26, 36, 53, 75]。在卷积设计中,基于编码器-解码器的U-Net架构 [14, 39, 80, 90, 93, 99] 因其层次化的多尺度表示且保持计算效率而被广泛研究用于恢复任务。类似地,基于跳跃连接的方法由于专注于学习残差信号 [24, 106, 48, 92] 而被证明对恢复有效。空间和通道注意力模块也被引入以选择性地关注相关信息 [93, 42, 43]。我们建议读者参考NTIRE挑战赛报告 [30, 57, 2] 和最近的文献综述 [8, 73, 42],它们总结了图像恢复的主要设计选择。

视觉Transformer (Vision Transformers)。 Transformer模型最初是为自然语言任务中的序列处理而开发的 [77]。它已被应用于众多视觉任务,如图像识别 [17, 76, 88]、分割 [78, 83, 108]、目标检测 [11, 50, 109]。视觉Transformer [17, 76] 将图像分解为一系列图像块(局部窗口)序列,并学习它们之间的相互关系。这些模型的显著特点是能够学习图像块序列之间的长距离依赖关系,并能适应给定的输入内容 [34]。由于这些特性,Transformer模型也被研究用于底层视觉问题,如超分辨率 [85, 44]、图像着色 [37]、去噪 [80, 13] 和去雨 [80]。然而,Transformer中SA的计算复杂度会随着图像块数量的增加而呈二次方增长,从而阻碍了其在高分辨率图像上的应用。因此,在需要生成高分辨率输出的底层图像处理应用中,最近的方法通常采用不同的策略来降低复杂度。一种可能的补救措施是在局部图像区域内应用自注意力 [44, 80],使用Swin Transformer设计 [44]。然而,这种设计选择将上下文聚合限制在局部邻域内,违背了使用自注意力替代卷积的主要动机,因此不太适合图像恢复任务。相比之下,我们提出了一种Transformer模型,它能够在保持计算效率的同时学习长距离依赖关系。

3 方法 (Method)
我们的主要目标是开发一种高效的Transformer模型,能够处理高分辨率图像以完成恢复任务。为了缓解计算瓶颈,我们对多头SA层和多尺度层次化模块引入了关键设计,其计算需求低于单尺度网络 [44]。我们首先介绍Restormer架构的整体流程(见图2)。然后我们描述所提出的Transformer块的核心组件:(a) 多头深度卷积转置注意力(MDTA)和**(b)** 门控深度卷积前馈网络(GDFN)。最后,我们提供了有效学习图像统计量的渐进式训练方案的细节。
在这里插入图片描述

整体流程 (Overall Pipeline)。 给定退化图像 I ∈ R H × W × 3 \mathbf{I}\in\mathbb{R}^{H\times W\times 3} IRH×W×3,Restormer首先应用一个卷积层来获得低级特征嵌入 F 0 ∈ R H × W × C \mathbf{F}_{0}\in\mathbb{R}^{H\times W\times C} F0RH×W×C;其中 H × W H\times W H×W 表示空间维度, C C C 是通道数。接下来,这些浅层特征 F 0 \mathbf{F}_{0} F0 经过一个4级对称编码器-解码器,并转换为深层特征 F d ∈ R H × W × 2 C \mathbf{F}_{\mathbf{d}}\in\mathbb{R}^{H\times W\times 2C} FdRH×W×2C。编码器-解码器的每一级包含多个Transformer块,为了保持效率,从顶层到底层,块的数量逐渐增加。从高分辨率输入开始,编码器层次化地减小空间尺寸,同时扩展通道容量。解码器以低分辨率潜在特征 F l ∈ R H 8 × W 8 × 8 C \mathbf{F}_{l}\in\mathbb{R}^{\frac{H}{8}\times\frac{W}{8}\times 8C} FlR8H×8W×8C 作为输入,并逐步恢复高分辨率表示。对于特征下采样和上采样,我们分别应用pixel-unshuffle和pixel-shuffle操作 [69]。为了辅助恢复过程,编码器特征通过跳跃连接 [66] 与解码器特征拼接。拼接操作之后是一个1×1卷积,用于在除顶层外的所有层级减少通道数(减半)。在第1级(最高分辨率),我们让Transformer块聚合来自编码器的低级图像特征和解码器的高级特征。这有助于在恢复的图像中保留精细的结构和纹理细节。接下来,深层特征 F d \mathbf{F}_{\mathbf{d}} Fd 在运行于高空间分辨率的精炼阶段得到进一步丰富。正如我们将在实验部分(第4节)看到的,这些设计选择带来了质量上的提升。最后,对精炼后的特征应用一个卷积层以生成残差图像 R ∈ R H × W × 3 \mathbf{R}\in\mathbb{R}^{H\times W\times 3} RRH×W×3,将其加到退化图像上即可获得恢复的图像: I ^ = I + R \hat{\mathbf{I}}=\mathbf{I}+\mathbf{R} I^=I+R。接下来,我们介绍Transformer块的模块。

3.1 多头深度卷积转置注意力 (Multi-Dconv Head Transposed Attention)
Transformer中的主要计算开销来自于自注意力层。在传统的SA [17, 77] 中,键-查询点积交互的时间和内存复杂度随输入的空间分辨率呈二次方增长,即对于 W × H W\times H W×H 像素的图像为 O ( W 2 H 2 ) \mathcal{O}(W^{2}H^{2}) O(W2H2)。因此,在大多数涉及高分辨率图像的图像恢复任务上应用SA是不可行的。为了缓解这个问题,我们提出了MDTA(见图2(a)),它具有线性复杂度。其关键要素是跨通道而非空间维度应用SA,即跨通道计算互协方差以生成隐式编码全局上下文的注意力图。作为MDTA的另一个基本组成部分,我们在计算特征协方差以生成全局注意力图之前引入深度卷积来强调局部上下文。

从一个层归一化后的张量 Y ∈ R H ^ × W ^ × C ^ \mathbf{Y}\in\mathbb{R}^{\hat{H}\times\hat{W}\times\hat{C}} YRH^×W^×C^ 出发,我们的MDTA首先生成富含局部上下文的查询 ( Q \mathbf{Q} Q)、 ( K \mathbf{K} K) 和 ( V \mathbf{V} V) 投影。这是通过应用 1 × 1 1\times 1 1×1 卷积聚合逐像素的跨通道上下文,然后应用 3 × 3 3\times 3 3×3 深度卷积编码通道内的空间上下文来实现的,得到 Q = W d Q W p Q Y \mathbf{Q}{=}W_{d}^{Q}W_{p}^{Q}\mathbf{Y} Q=WdQWpQY K = W d K W p K Y \mathbf{K}{=}W_{d}^{K}W_{p}^{K}\mathbf{Y} K=WdKWpKY V = W d V W p V Y \mathbf{V}{=}W_{d}^{V}W_{p}^{V}\mathbf{Y} V=WdVWpVY。其中 W p ( ⋅ ) W_{p}^{(\cdot)} Wp() 1 × 1 1\times 1 1×1 逐点卷积, W d ( ⋅ ) W_{d}^{(\cdot)} Wd() 3 × 3 3\times 3 3×3 深度卷积。我们在网络中使用无偏置卷积层。接下来,我们重塑查询和键投影,使得它们的点积交互生成一个大小为 R C ^ × C ^ \mathbb{R}^{\hat{C}\times\hat{C}} RC^×C^ 的转置注意力图 A \mathbf{A} A,而不是巨大的常规注意力图(大小为 R H ^ W ^ × H ^ W ^ \mathbb{R}^{\hat{H}\hat{W}\times\hat{H}\hat{W}} RH^W^×H^W^ [17, 77])。总体而言,MDTA过程定义为:
KaTeX parse error: Expected '\right', got '}' at position 118: …hat{\mathbf{V}}}̲\right)+\mathbf… (1)
其中 X \mathbf{X} X X ^ \hat{\mathbf{X}} X^ 是输入和输出特征图; Q ^ ∈ R H ^ W ^ × C ^ \hat{\mathbf{Q}}\in\mathbb{R}^{\hat{H}\hat{W}\times\hat{C}} Q^RH^W^×C^ K ^ ∈ R C ^ × H ^ W ^ \hat{\mathbf{K}}\in\mathbb{R}^{\hat{C}\times\hat{H}\hat{W}} K^RC^×H^W^;和 V ^ ∈ R H ^ W ^ × C ^ \hat{\mathbf{V}}\in\mathbb{R}^{\hat{H}\hat{W}\times\hat{C}} V^RH^W^×C^ 矩阵是通过将原始大小为 R H ^ × W ^ × C ^ \mathbb{R}^{\hat{H}\times\hat{W}\times\hat{C}} RH^×W^×C^ 的张量重塑得到的。这里, α \alpha α 是一个可学习的缩放参数,用于在应用softmax函数之前控制 K ^ \hat{\mathbf{K}} K^ Q ^ \hat{\mathbf{Q}} Q^ 点积的大小。类似于传统的多头SA [17],我们将通道数划分为“头”,并行学习单独的注意力图。

3.2 门控深度卷积前馈网络 (Gated-Dconv Feed-Forward Network)
为了变换特征,常规的前馈网络(FN)[17, 77] 在每个像素位置独立且相同地操作。它使用两个 1 × 1 1\times 1 1×1 卷积,一个用于扩展特征通道(通常扩展因子为 γ = 4 \gamma{=}4 γ=4),第二个将通道缩减回原始输入维度。在隐藏层中应用一个非线性激活函数。在这项工作中,我们对FN进行了两项根本性修改以改进表示学习:(1) 门控机制,(2) 深度卷积。我们的GDFN架构如图2(b)所示。门控机制被表述为两条并行线性变换层路径的逐元素乘积,其中一条路径使用GELU非线性激活 [27]。与MDTA类似,我们也在GDFN中加入了深度卷积,以编码来自空间相邻像素位置的信息,这对于学习局部图像结构以进行有效恢复很有用。给定输入张量 X ∈ R H ^ × W ^ × C ^ \mathbf{X}\in\mathbb{R}^{\hat{H}\times\hat{W}\times\hat{C}} XRH^×W^×C^,GDFN 定义为:
X ^ = W p 0 Gating ⁡ ( X ) + X , Gating ⁡ ( X ) = ϕ ( W d 1 W p 1 ( LN ( X ) ) ) ⊙ W d 2 W p 2 ( LN ( X ) ) , \begin{split}\hat{\mathbf{X}}&=W_{p}^{0}\operatorname {Gating}\left(\mathbf{X}\right)+\mathbf{X},\\ \operatorname{Gating}(\mathbf{X})&=\phi(W_{d}^{1}W _{p}^{1}(\text{LN}(\mathbf{X})))\odot W_{d}^{2}W_{p}^{2}(\text{LN}(\mathbf{X}) ),\end{split} X^Gating(X)=Wp0Gating(X)+X,=ϕ(Wd1Wp1(LN(X)))Wd2Wp2(LN(X)), (2)
其中 ⊙ \odot 表示逐元素乘法, ϕ \phi ϕ 代表GELU非线性激活函数,LN是层归一化 [9]。总体而言,GDFN控制着信息流经我们流程中相应的层次级别,从而使每个级别能够专注于与其他级别互补的精细细节。也就是说,与专注于用上下文信息丰富特征的MDTA相比,GDFN提供了一个独特的作用。由于所提出的GDFN与常规FN [17] 相比执行了更多操作,我们降低了扩展比 γ \gamma γ 以保持相似的参数量和计算负担。

3.3 渐进式学习 (Progressive Learning)
基于CNN的恢复模型通常在固定大小的图像块上进行训练。然而,在裁剪的小块上训练Transformer模型可能无法编码全局图像统计信息,从而在测试时对全分辨率图像提供次优性能。为此,我们采用渐进式学习,网络在早期阶段使用较小的图像块进行训练,在后期训练阶段逐渐使用较大的图像块。通过渐进式学习在混合尺寸块上训练的模型,在测试时(图像可能具有不同分辨率,这在图像恢复中很常见)表现出增强的性能。渐进式学习策略的行为类似于课程学习过程,网络从一个更简单的任务开始,逐渐过渡到学习更复杂的任务(需要保留精细的图像结构/纹理)。由于在大图像块上训练需要更长时间,我们随着图像块大小的增加而减小批量大小,以保持每个优化步骤的时间与固定块训练相似。

4 实验与分析 (Experiments and Analysis)
我们在基准数据集和实验设置上评估了提出的Restormer,涉及四个图像处理任务:(a) 图像去雨,(b) 单图像运动去模糊,© 散焦去模糊(单图像和双像素数据),以及**(d)** 图像去噪(合成数据和真实数据)。有关数据集、训练协议和更多可视化结果的详细信息在补充材料中提供。在表格中,评估方法的最佳和第二佳质量得分分别用粗体和下划线标出。

实现细节 (Implementation Details)。 我们为不同的图像恢复任务训练了单独的模型。在所有实验中,除非另有说明,我们使用以下训练参数。我们的Restormer采用4级编码器-解码器。从第1级到第4级,Transformer块的数量为[4, 6, 6, 8],MDTA中的注意力头数为[1, 2, 4, 8],通道数为[48, 96, 192, 384]。精炼阶段包含4个块。GDFN中的通道扩展因子为 γ \gamma γ=2.66。我们使用AdamW优化器 ( β 1 \beta_{1} β1=0.9, β 2 \beta_{2} β2=0.999, 权重衰减 1 e − 4 1e^{-4} 1e4) 和L1损失训练模型 300 300 300K次迭代,初始学习率 3 e − 4 3e^{-4} 3e4 通过余弦退火 [51] 逐渐降至 1 e − 6 1e^{-6} 1e6。对于渐进式学习,我们从块大小 128 × 128 128\times 128 128×128 和批量大小 64 64 64 开始训练。块大小和批量大小对在迭代次数 [92K, 156K, 204K, 240K, 276K] 时更新为[(160²,40), (192²,32), (256²,16), (320²,8), (384²,8)]。对于数据增强,我们使用水平和垂直翻转。

4.1 图像去雨结果 (Image Deraining Results)
我们使用YCbCr颜色空间的Y通道计算PSNR/SSIM分数,方式与现有方法 [32, 61, 93] 类似。表1显示,我们的Restormer在所有五个数据集上都比现有方法取得了持续且显著的性能提升。与最近的最佳方法SPAIR [61] 相比,Restormer在所有数据集上的平均提升了 1.05 1.05 1.05 dB。在个别数据集上,增益可达 2.06 2.06 2.06 dB(例如Rain100L)。图3显示了一个具有挑战性的视觉示例。我们的Restormer有效地保留了结构内容,同时再现了无雨滴的图像。
(表1和图3描述内容省略,详见原文)

4.2 单图像运动去模糊结果 (Single-image Motion Deblurring Results)
我们在合成数据集(GoPro [56], HIDE [67])和真实世界数据集(RealBlur-R [65], RealBlur-J [65])上评估去模糊方法。表2显示,我们的Restormer在所有四个基准数据集上都优于其他方法。在所有数据集上平均,我们的方法比最近的算法MIMO-UNet+ [14] 提升了 0.47 0.47 0.47 dB,比之前的最佳方法MPRNet [93] 提升了 0.26 0.26 0.26 dB。与MPRNet [93] 相比,Restormer的FLOPs减少了 81 % 81\% 81%(见图1)。此外,我们的方法比Transformer模型IPT [13] 提高了 0.4 0.4 0.4 dB,同时参数减少了 4.4 × 4.4\times 4.4×,运行速度快了 29 × 29\times 29×。值得注意的是,我们的Restormer仅在GoPro [56] 数据集上训练,但通过在其他数据集上设定新的最先进水平,展示了强大的泛化能力。图4显示,与其他算法相比,我们的方法产生的图像更清晰,视觉上更接近真实值。
(表2和图4描述内容省略,详见原文)

4.3 散焦去模糊结果 (Defocus Deblurring Results)
表3显示了在DPDD数据集 [3] 上,传统散焦去模糊方法(EBDB [33] 和 JNB [68])以及基于学习的方法的图像保真度分数。我们的Restormer在所有场景类别上,对于单图像和双像素散焦去模糊任务,都显著优于最先进的方案。特别是在组合场景类别上,Restormer比之前的最佳方法IFAN [41] 提升了约 0.6 0.6 0.6 dB。与Transformer模型Uformer [80] 相比,我们的方法提供了显著的 1.01 1.01 1.01 dB PSNR增益。图5说明,在去除空间变化的散焦模糊方面,我们的方法比其他方法更有效。
(表3和图5描述内容省略,详见原文)

4.4 图像去噪结果 (Image Denoising Results)
我们在用加性白高斯噪声生成的合成基准数据集(Set12 [101], BSD68 [52], Urban100 [29], Kodak24 [20], McMaster [104])以及真实世界数据集(SIDD [1], DND [60])上进行去噪实验。遵循 [54, 93, 99],我们使用无偏置的Restormer进行去噪。

高斯去噪 (Gaussian denoising)。 表4和表5分别显示了在不同基准数据集上,各种方法在灰度和彩色图像去噪方面的PSNR分数。与现有方法 [44, 99] 一致,我们在测试中包含了噪声水平15、25和50。评估方法分为两个实验类别:(1) 学习一个单一模型处理各种噪声水平,(2) 为每个噪声水平学习一个单独的模型。我们的Restormer在不同数据集和噪声水平下的两种实验设置下都实现了最先进的性能。具体来说,对于高分辨率Urban100数据集 [29] 上具有挑战性的噪声水平50,如表4所示,Restormer比之前最佳的基于CNN的方法DRUNet [99] 提高了 0.37 0.37 0.37 dB,比最近的基于Transformer的网络SwinIR [44] 提高了 0.31 0.31 0.31 dB。在表5的高斯彩色去噪中也可以观察到类似的性能提升。值得一提的是,DRUNet [99] 需要噪声水平图作为额外输入,而我们的方法仅输入噪声图像。此外,与SwinIR [44] 相比,我们的Restormer的FLOPs减少了 3.14 × 3.14\times 3.14×,运行速度快了 13 × 13\times 13×。图6展示了不同方法对灰度去噪(顶行)和彩色去噪(中行)的去噪结果。我们的Restormer恢复了干净清晰的图像。
(表4、表5和图6顶行、中行描述内容省略,详见原文)

真实图像去噪 (Real image denoising)。 表6显示,我们的方法是唯一一个在两个数据集上都超过 40 40 40 dB PSNR的方法。值得注意的是,在SIDD数据集上,我们的Restormer比之前最佳的CNN方法MIRNet [92] 和Transformer模型Uformer [80] 分别提高了 0.3 0.3 0.3 dB 和 0.25 0.25 0.25 dB PSNR。图6(底行)显示,我们的Restormer在不损害精细纹理的情况下生成了干净的图像。
(表6和图6底行描述内容省略,详见原文)

4.5 消融研究 (Ablation Studies)
对于消融实验,我们仅在大小为 128 × 128 128\times 128 128×128 的图像块上训练高斯彩色去噪模型,迭代 100 100 100K次。测试在Urban100 [29] 上进行,并针对具有挑战性的噪声水平 σ = 50 \sigma{=}50 σ=50 进行分析。FLOPs和推理时间在图像大小 256 × 256 256{\times}256 256×256 上计算。表7-10显示我们的贡献带来了性能提升。接下来,我们分别描述每个组件的影响。

多头注意力改进 (Improvements in multi-head attention)。 表7c表明,我们的MDTA比基线(表7a)提供了显著的 0.32 0.32 0.32 dB增益。此外,通过深度卷积将局部性引入MDTA提高了鲁棒性,移除它会导致PSNR下降(见表7b)。
(表7a-c描述内容省略,详见原文)

前馈网络改进 (Improvements in feed-forward network (FN))。 表7d显示,FN中用于控制信息流的门控机制比常规FN [77] 提高了 0.12 0.12 0.12 dB。与多头注意力类似,在FN中引入局部机制也带来了性能优势(见表7e)。我们通过引入门控深度卷积进一步增强了FN。对于噪声水平50,我们的GDFN(表7f)比标准FN [77] 实现了 0.26 0.26 0.26 dB的PSNR增益。总体而言,我们Transformer块的贡献比基线带来了显著的 0.51 0.51 0.51 dB增益。
(表7d-f描述内容省略,详见原文)

第1级解码器的设计选择 (Design choices for decoder at level-1)。 为了在第1级(最高分辨率)聚合编码器特征和解码器特征,我们在拼接操作后没有使用 1 × 1 1{\times}1 1×1 卷积(该操作会将通道数减半)。如表8所示,这有助于保留来自编码器的精细纹理细节。这些结果进一步证明了在精炼阶段添加Transformer块的有效性。
(表8描述内容省略,详见原文)

渐进式学习的影响 (Impact of progressive learning)。 表9显示,在训练时间相似的情况下,渐进式学习比固定块训练提供了更好的结果。
(表9描述内容省略,详见原文)

更深还是更宽? (Deeper or wider Restormer?)。 表10显示,在相似的参数量/FLOPs预算下,深而窄的模型比宽而浅的模型性能更准确。然而,更宽的模型由于并行化运行更快。在本文中,我们使用深而窄的Restormer。
(表10描述内容省略,详见原文)

5 结论 (Conclusion)
我们提出了一种图像恢复Transformer模型——Restormer,它在计算上高效,能够处理高分辨率图像。我们对Transformer块的核心组件引入了关键设计,以改进特征聚合和变换。具体来说,我们的多头深度卷积转置注意力(MDTA)模块通过跨通道而非空间维度应用自注意力来隐式建模全局上下文,因此具有线性复杂度而非二次方复杂度。此外,提出的门控深度卷积前馈网络(GDFN)引入了门控机制来执行受控的特征变换。为了将CNN的优势融入Transformer模型,MDTA和GDFN模块都包含了用于编码空间局部上下文的深度卷积。在16个基准数据集上进行的大量实验表明,Restormer在众多图像恢复任务上实现了最先进的性能。



网站公告

今日签到

点亮在社区的每一天
去签到