Learning Semantic-Aware Knowledge Guidance for Low-Light Image Enhancement 论文阅读-EW帮帮网

学习语义感知知识引导用于低光照图像增强

摘要

低光图像增强（LLIE）研究如何改善照明并生成正常光照的图像。大多数现有方法通过全局和均匀的方式改进低光图像，而没有考虑不同区域的语义信息。如果没有语义先验，网络可能会容易偏离一个区域的原始颜色。为了解决这个问题，我们提出了一种新颖的语义感知知识引导框架（SKF），该框架可以帮助低光增强模型学习封装在语义分割模型中的丰富多样的先验知识。我们专注于从三个方面整合语义知识：一种语义感知嵌入模块，它巧妙地将语义先验集成到特征表示空间中；一种语义引导的颜色直方图损失，它保持各种实例的颜色一致性；以及一种语义引导的对抗性损失，它通过语义先验产生更自然的纹理。我们的SKF作为LLIE任务的一般框架具有吸引力。广泛的实验表明，配备SKF的模型在多个数据集上显著优于基线，并且我们的SKF很好地泛化到不同的模型和场景。代码可在Semantic-Aware-Low-Light-Image-Enhancement获得。

在这里插入图片描述

图1：动机与优势。 (a) 没有语义先验的增强结果（底行）显示出颜色偏差（例如，黑色汽车变成灰色）。(b) 我们的SKF在LOL/LOL-v2数据集上在PSNR/SSIM指标上提供了显著的性能提升。

引言

在现实世界中，由于不可避免的环境或技术限制，如光照不足和曝光时间有限，低光成像相当常见。低光图像不仅对人类视觉可见性差，而且不适合后续设计用于高质量图像的多媒体计算和下游视觉任务[4, 9, 36]。因此，提出了低光图像增强（LLIE）来揭示低光图像中隐藏的细节，并避免在后续视觉任务中性能下降。主流的传统LLIE方法包括基于直方图均衡的方法[2]和基于Retinex模型的方法[18]。

最近，许多基于深度学习的LLIE方法被提出，例如端到端框架[5, 7, 34, 45, 46, 48]和基于Retinex的框架[29, 41, 43, 44, 49, 53, 54]。得益于它们在建模低光和高质量图像之间映射的能力，深度LLIE方法通常比传统方法取得更好的结果。然而，现有的方法通常以全局和均匀的方式改进低光图像，而没有考虑到不同区域的语义信息，这对于增强至关重要。如图1(a)所示，缺乏利用语义先验的网络很容易偏离一个区域的原始色调[22]。此外，研究表明将语义先验纳入低光增强的重要性。Fan等人[8]利用语义图作为先验，并将其融入特征表示空间，从而提高图像质量。而不是依赖于优化中间特征，Zheng等人[58]采用了一种新颖的损失来保证增强图像的语义一致性。这些方法成功地将语义先验与LLIE任务结合，证明了语义约束和引导的优越性。然而，他们的方法未能充分利用语义分割网络所能提供的知识，限制了语义先验带来的性能增益。此外，分割与增强之间的交互是为特定方法设计的，限制了将语义引导融入LLIE任务的可能性。因此，我们提出两个问题：1. 我们如何获取多样且可用的语义知识？2. 语义知识如何在LLIE任务中促进图像质量的提升？

我们尝试回答第一个问题。首先，引入一个在大规模数据集上预训练的语义分割网络作为语义知识库SKB（Semantic Knowledge Bank, SKB）。SKB可以提供更丰富、更多样的语义先验，以提高增强网络的能力。其次，根据先前的工作[8, 19, 58]，SKB提供的可用先验主要包括中间特征和语义图。在训练LLIE模型时，SKB产生上述语义先验并指导增强过程。这些先验不仅可以通过采用亲和矩阵（affinity matrices）、空间特征变换[40]和注意力机制等技术来细化图像特征，还可以通过显式地将区域信息纳入LLIE任务中来指导目标函数的设计[26]。

然后我们尝试回答第二个问题。基于上述答案，我们设计了一系列新颖的方法将语义知识整合到LLIE任务中，形成了一种新颖的语义感知知识引导框架（Semantic-aware Knowledge-guided Framework, SKF）。首先，我们使用在PASCAL-Context数据集[35]上预训练的高分辨率网络（High-Resolution Network, HRNet）[38]作为前面提到的SKB。为了利用中间特征，我们开发了一个语义感知嵌入（Semantic-aware Embedding, SE）模块。它计算参考特征和目标特征之间的相似性，并在异构表示之间进行跨模态交互。因此，我们将图像特征的语义感知量化为一种注意力形式，并将语义一致性嵌入到增强网络中。

其次，一些方法[20,55]提出使用颜色直方图来优化图像增强，以保留图像的颜色一致性，而不是简单地全局增强亮度。然而，颜色直方图仍然是一个全局统计特征，无法保证局部一致性。因此，我们提出了一种语义引导的颜色直方图（Semantic-guided Color Histogram, SCH）损失来细化颜色一致性。这里，我们旨在利用源自场景语义的局部几何信息和源自内容的全局颜色信息。除了保证增强图像的原色外，它还可以为颜色直方图添加空间信息，进行更细致的颜色恢复。

第三，现有的损失函数与人类感知不够一致，且未能捕捉图像的内在信号结构，导致视觉结果不悦目。为了提高视觉质量，EnlightenGAN [16]采用了全局和局部图像内容一致性，并随机选择局部块。然而，判别器并不知道哪些区域很可能是“假的”。因此，我们提出了一种语义引导的对抗（Semantic-guided Adversarial, SA）损失。具体来说，通过使用分割图来确定虚假区域，提高了判别器的能力，从而可以进一步提高图像质量。
我们工作的主要贡献如下：

我们提出了一种语义感知知识引导框架（SKF），通过联合保持颜色一致性和提高图像质量来提升现有方法的性能。
我们提出了三项关键技术，以充分利用语义知识库（SKB）提供的语义先验：语义感知嵌入（SE）模块、语义引导颜色直方图（SCH）损失和语义引导对抗（SA）损失。
我们在LOL/LOL-v2数据集和非配对数据集上进行了实验。实验结果证明了我们的SKF带来的巨大性能提升，验证了其在解决LLIE任务中的有效性。

2. 相关工作

2.1. 低光照图像增强

传统方法。 低光照增强的传统方法包括基于直方图均衡化（Histogram Equalization）的方法[2]和基于Retinex模型的方法[18]。前者通过扩展动态范围来改善低光照图像。后者将低光照图像分解为反射图（reflection）和光照图（illumination），并将反射分量视为增强后的图像。此类基于模型的方法需要显式先验来很好地拟合数据，但为各种场景设计合适的先验是困难的[44]。

基于学习的方法。 近年来基于深度学习的方法显示出有希望的结果[15, 29, 43, 44, 53, 54, 56]。我们可以将现有设计进一步分为基于Retinex的方法和端到端方法。

基于Retinex的方法使用深度网络来分解和增强图像。Wei等人提出了一种名为Retinex-Net[43]的两阶段基于Retinex的方法。受Retinex-Net启发，Zhang等人提出了两种改进方法，称为KinD[54]和KinD++[53]。最近，Wu等人[44]提出了一种新颖的基于深度展开（deep unfolding）的Retinex网络，以进一步整合基于模型和基于学习方法的优势。

与基于Retinex的方法相比，端到端方法直接学习增强结果[5–7, 27, 32, 34, 37, 41, 45, 46, 51, 57, 59]。Lore等人[30]首次尝试，提出了名为Low-Light Net (LLNet)的深度自编码器。随后，提出了各种端到端方法。为了提高模型可解释性并获得视觉愉悦的结果，提出了基于物理的概念，例如拉普拉斯金字塔[27]、局部参数滤波器[34]、拉格朗日乘数[57]、去拜耳滤波器[5]、归一化流[41]和小波变换[7]。在[16, 17, 48]中，引入了对抗学习来捕捉视觉特性。在[11]中，创造性地将光照增强表述为使用零样本学习（zero-shot learning）进行图像特定曲线估计的任务。在[20, 47, 55]中，利用3D查找表和颜色直方图来保持颜色一致性。然而，现有设计侧重于优化增强过程，而忽略了不同区域的语义信息。相比之下，我们设计了一个包含三项关键技术的SKF来探索语义先验的潜力，从而产生视觉愉悦的增强结果。

2.2. 语义引导方法

最近，语义引导方法证明了语义先验的可靠性。这些方法可分为两类：损失级语义引导方法和特征级语义引导方法。

损失级语义引导方法。 为了利用语义先验，一些工作专注于利用语义感知损失作为原始视觉任务的额外目标函数。在图像去噪[28]、图像超分辨率[1]、低光照图像增强[58]中，研究人员直接利用语义分割损失作为额外的约束来指导训练过程。此外，Liang等人[26]通过使用语义亮度一致性损失更好地保持了图像的细节。

特征级语义引导方法。 与损失级语义引导方法相比，特征级语义引导方法专注于从语义分割网络中提取中间特征，并在特征表示空间中引入语义先验以与图像特征相结合。类似的工作已在图像恢复[23]、图像去雨[24]、图像超分辨率[40]、低光照图像增强[8]、深度估计[10, 19]等领域完成。

现有的语义引导方法受限于语义先验与原始任务之间交互不足。因此，我们提出了一个语义感知框架，以在损失级和特征级上充分利用语义信息，包括两个语义引导损失和一个语义感知嵌入模块。具体来说，与LLIE任务中的语义引导方法[8, 26, 58]相比，我们的SKF作为一个通用框架具有吸引力。

3. 方法

3.1. 动机与概述

光照增强是通过调整光照、消除噪声和恢复丢失的细节使曝光不足的图像看起来更好的过程。语义先验可以为提高增强性能提供丰富的信息。具体来说，语义先验可以帮助将现有的LLIE方法重新表述为一个区域感知的增强框架。特别是，新模型将以简单的方式模糊平滑区域上的噪声，例如天空，而在具有丰富细节的区域（如室内场景）上则需谨慎处理。此外，结合语义先验，增强图像的颜色一致性将得到仔细保留。缺乏语义先验的网络很容易偏离区域的原始色调[22]。然而，现有的低光照增强方法忽略了语义信息的重要性，因此能力有限。
在这里插入图片描述

图2：我们的语义感知知识引导框架（SKF）概述。 借助预训练的分割网络（Segmentation Net），我们的SKF利用语义先验在两个方面改进增强过程：(a) 在特征级，多尺度语义感知嵌入模块实现了语义特征和图像特征在表示空间中的跨模态交互。(b) 在损失级，语义分割结果被引入颜色直方图损失和对抗损失的计算中作为指导。

在本文中，我们提出了一种新颖的SKF，联合优化图像特征、保持区域颜色一致性和提高图像质量。如图2所示，语义先验由SKB提供，并通过三个关键组件集成到LLIE任务中：SE模块、SCH损失和SA损失。

语义感知LLIE的问题定义

在这里插入图片描述
给定一个宽度为 $W$ 、高度为 $H$ 的低光照图像 $I_{l}\in\mathbb{R}^{W\times H\times 3}$ 。结合语义分割，LLIE过程可以建模为两个函数：首先：
$M=\mathbf{F}_{segment}(I_{l};\theta_{s}),(1)$

其中 $M$ 是语义先验，包括分割结果和具有多尺度维度的中间特征。 $\mathbf{F}_{segment}$ 代表预训练的语义分割网络，作为SKB， $\theta_{s}$ 在训练阶段是冻结的。然后 $M$ 被用作输入：
$\widehat{I_{h}}=\mathbf{F}_{enhance}(I_{l},M;\theta_{e}), (2)$

其中 $\widehat{I_{h}}\in\mathbb{R}^{W\times H\times 3}$ 是增强结果， $\mathbf{F}_{enhance}$ 代表增强网络。在训练阶段， $\theta_{e}$ 将在 $M$ 的指导下通过最小化目标函数进行更新，而 $\theta_{s}$ 固定：
$\widehat{\theta_{e}}=argmin\mathcal{L}(\widehat{I_{h}},I_{h},M),(3)$

其中 $I_{h}\in\mathbb{R}^{W\times H\times 3}$ 是真实值（ground truth）， $\mathcal{L}(\widehat{I_{h}},I_{h},M)$ 是语义感知LLIE的目标函数。

3.2. 语义感知嵌入模块 (SE)

在借助语义先验细化图像特征时，另一个需要特别考虑的挑战是两个来源之间的差异。为了缓解这个问题，我们提出了SE模块来细化图像特征图，如图3所示。SE模块就像分割网络（Segmentation Net）和增强网络（Enhancement Net）之间的桥梁（见图2），在两个异构任务之间建立连接。

在我们的框架中，由于其卓越的性能，我们选择HRNet [38]作为SKB，并进行了一些任务特定的修改。除了语义图，我们还将表示头（提取中间层的特征图）（representation head）之前的输出特征用作多尺度语义先验。为了进一步说明，图2中展示了三个SE模块，因此我们取三个空间分辨率（ $H/2^{4-b},W/2^{4-b}$ ）下的三组语义/图像特征（ $F^{b}_{s}/F^{b}_{t},b=0,1,2$ ），其中 $H$ 和 $W$ 是输入图像的高度和宽度。SE模块在 $F^{b}_{s}$ 和 $F^{b}_{t}$ 之间执行逐像素交互，并给出最终细化的特征图 $F^{b}_{o}$ 。学习过程的细节如下所述。

多尺度语义/图像特征（ $F_s^b / F_t^b$ ）
特征来源
$F_s^b$ ：来自HRNet（语义分割网络）的中间层特征。 $b = 0, 1, 2$ 分别对应HRNet的三个不同深度层级（浅层→深层）。层级越深（ $b$ 越大），特征图分辨率越低，但语义信息更抽象。
$F_t^b$ ：来自图像增强网络（Enhancement Net）解码器的特征。与 $F_s^b$ 空间分辨率对齐，便于跨模态交互。
空间分辨率公式： $H/2^{4-b}, W/2^{4-b}$
含义：输入图像尺寸为 $\times W$ ，特征图分辨率随层级 $b$ 变化：
$b = 0$ （最浅层）：分辨率 = $H /16, W /16$
（ $2^{4-0}=16$ 倍下采样）
$b = 1$ （中间层）：分辨率 = $H /8, W /8$
（ $2^{4-1}=8$ 倍下采样）
$b = 2$ （最深层）：分辨率 = $H /4, W /4$
（ $2^{4-2}=4$ 倍下采样）

在这里插入图片描述
SE模块通过跨模态相似性计算图像特征的语义感知度，并生成语义感知图（semantic-aware map）。我们首先应用卷积层将 $F^{b}_{s}$ 和 $F^{b}_{t}$ 变换到相同的维度。接着，受Restormer [50]的启发，我们采用转置注意力机制（transposed-attention mechanism）以较低的计算成本计算注意力图。
在这里插入图片描述

图3：语义感知嵌入（SE）模块架构。 在第 $b^{th}$ 个解码器层，SE模块使用语义特征图 $F^{b}_{s}$ 转换图像特征图 $F^{b}_{t}$ ，并产生细化的输出特征 $F^{b}_{o}$ 。

因此，语义感知注意力图描述如下：
$A^{b}=Softmax\left(W_{k}(F^{b}_{t})\times W_{q}(F^{b}_{s})/\sqrt{C}\right),(4)$

其中 $W_{k}(\cdot)$ 和 $W_{q}(\cdot)$ 是卷积层， $L N$ 是层归一化（Layer Normalization）， $C$ 是特征通道数。这里， $A^{b}\in\mathbb{R}^{C\times C}$ 表示语义感知注意力图，它代表了 $F^{b}_{t}$ 和 $F^{b}_{s}$ 之间的相互关系。然后我们使用 $A^{b}$ 来重构图像特征 $F^{b}_{t}$ ：
$F^{b}_{o}=FN(W_{v}(F^{b}_{t})\times A^{b}+F^{b}_{t}),(5)$

其中 $FN$ 表示前馈网络（Feed-Forward Network）， $F^{b}_{o}$ 是第 $b^{th}$ 个SE模块的最终细化特征图，并成为增强网络解码器第 $b+1)^{th}$ 层的输入。

3.3. 语义引导颜色直方图损失 (SCH)

颜色直方图携带了关键的底层图像统计信息，有利于学习颜色表示。DCC-Net [55]使用带有亲和矩阵的PCE模块在特征级匹配颜色直方图和内容，从而保留了增强图像的颜色一致性。然而，颜色直方图描述的是全局统计信息，不同实例(物体)之间颜色特征的差异被消除了。因此，我们提出了一种直观的方法来实现局部颜色调整，即语义引导的颜色直方图（SCH）损失，如图2所示。它侧重于调整每个实例的颜色直方图，从而保留更详细的颜色信息。
在这里插入图片描述

首先使用语义图将增强结果划分为具有不同实例标签（instance labels）的图像块（patches）。每个块包含一个具有相同标签的单一实例。因此，生成块的过程定义如下：
$\{ P^{0}, P^{1}, \dots, P^{class} \}, \quad P^{c} = I_{out} \odot I_{seg}^{c},(6)$

其中 $\odot$ 是点积（dot product）， $I_{out}$ 表示增强结果， $I_{seg}^{c}$ 表示独热编码（one-hot）语义图的第 $c^{th}$ 通道， $P^{c} \in \mathbb{R}^{W \times H \times 3}$ 表示第 $c^{th}$ 个图像块， $P$ 表示所有块的集合。

由于颜色直方图的离散性，我们受核密度估计（Kernel Density Estimation）[3]启发，近似其可微版本用于模型训练。考虑到语义结果的预测误差，靠近边界的像素不予考虑。我们将块组 $P$ 精炼为 $P^{'}$ （不含边缘像素），以减轻错误分类的影响。对于第 $c^{th}$ 个图像块 $P^{c'}$ 的 R 通道 $P^{c'}(R)$ ，估计过程定义如下：
$x_{ij}^h = x_j - \frac{i - 0.5}{255}, \quad x_{ij}^l = x_j - \frac{i + 0.5}{255}, (7)$

其中 $x_j$ 表示 $P^{c'}(R)$ 中的第 $j^{th}$ 个像素， $\in [0, 255]$ 表示像素强度。 $x_{ij}^h$ 和 $x_{ij}^l$ 分别表示上锚点（higher anchor）和下锚点（lower anchor），它们是估计直方图的关键变量：
$H_i^c = \sum\limits_{j} \left( Sigmoid(\alpha \cdot x_{ij}^h) - Sigmoid(\alpha \cdot x_{ij}^l) \right), (8)$

$H^c = \{\{i, H_i^c\}\}_{i=0}^{255},(9)$

其中 $H^c$ 表示 $P^{c'}(R)$ 的可微直方图， $H_i^c$ 表示估计的具有强度值 $i$ 的像素数量。 $\alpha$ 是一个缩放因子，我们通过实验将其设置为400以获得更好的估计。两个 $Sigmoid(\cdot)$ 结果之间的差异表示 $x_j$ 对强度值为 $i$ 的像素数量的贡献。具体来说，当 $x_j$ 精确等于 $i$ 时，差值为1，即 $x_j$ 向 $H_i^c$ 加1。

最后，我们应用 $l_1$ 损失来约束估计的可微直方图。因此，SCH损失可以描述如下：
$\mathcal{L}_{SCH} = \sum\limits_{c} \parallel H^c(\hat{I_h}) - H^c(I_h) \parallel _1,(10)$

其中 $\hat{I_h}$ 和 $I_h$ 分别表示输出和真实值， $H^c(\cdot)$ 表示直方图估计过程。

3.4. 语义引导对抗损失 (SA)

全局和局部判别器被用于鼓励图像修复（inpainting）任务中获得更真实的结果[14,25]。EnlightenGAN [16]也采用了这一思想，但其局部块是随机选择的，而不是专注于虚假区域。因此，我们引入语义信息来引导判别器专注于关键区域。为此，我们分别通过分割图 $I_{seg}$ 和第3.3节提到的图像块 $P^{'}$ 进一步细化了全局和局部对抗损失函数。最终，我们提出了语义引导的对抗（SA）损失。
在这里插入图片描述

对于局部对抗损失，我们首先使用精炼的块组 $P^{'}$ 作为输出 $I_{out}$ 的候选虚假块（candidate fake patches）。然后，我们比较 $P^{'}$ 中图像块的判别结果，最差的块最可能是“假的”，并被选择用于更新判别器和生成器的参数。因此，判别器可以合理地使用语义先验自己找到目标虚假区域 $x_f \sim p_{fake}$ 。而真实块 $x_r \sim p_{real}$ 每次仍然是从真实图像中随机裁剪的。局部对抗损失函数定义为：

在这里插入图片描述
其中 $MSE(\cdot)$ 表示均方误差（mean squared error）， $P^t$ 表示目标虚假块（target fake patch）。

对于全局对抗损失，我们采用了一个简单的设计，在判别虚假样本时实现语义感知引导。我们将 $I_{out}$ 和 $I_{seg}'$ （Softmax之前的输出特征）拼接起来，形成一个新的 $x_f$ 。具有真实分布的图像 $x_r$ 被随机采样。最终，全局对抗损失函数定义为：

在这里插入图片描述

因此，SA损失可以定义为：

在这里插入图片描述
我们将增强网络（Enhancement Net）的原始损失函数定义为 $L_{recon}$ ，它可以是 $l_1$ 损失、MSE损失、SSIM损失等，或者是根据每个选定方法的原始设置的组合。

因此，我们SKF的整体损失函数可以表述如下：
在这里插入图片描述
其中 $\lambda$ 是用于平衡损失项的权重。

4. 实验

4.1. 实验设置

数据集。 我们在来自不同场景的几个数据集上评估所提出的框架，包括LOL [43]、LOL-v2 [49]、MEF [31]、LIME [12]、NPE [39] 和 DICM [21]。LOL数据集[43]是一个真实拍摄的数据集，包含485对低光/正常光图像用于训练，15对用于测试。LOL-v2数据集[49]是LOL-v2的真实部分，比LOL更大更多样，包含689对低光/正常光图像用于训练，100对用于测试。MEF（17幅图像）、LIME（10幅图像）、NPE（85幅图像）和DICM（64幅图像）是包含非配对图像的真实拍摄数据集。

指标。 为了评估不同LLIE方法在使用和不使用我们SKF时的性能，我们使用了全参考（full-reference）和非参考（non-reference）图像质量评估指标。对于LOL/LOL-v2数据集，采用了峰值信噪比（PSNR）、结构相似性（SSIM）[42]、学习感知图像块相似度（LPIPS）[52]、自然图像质量评估器（NIQE）[33]。对于没有配对数据的MEF、LIME、NPE和DICM数据集，由于没有真实值，仅使用NIQE。

对比方法。 为了验证我们设计的有效性，我们将我们的方法与丰富的LLIE最先进（SOTA）方法进行比较，包括LIME [13]、RetinexNet [43]、KinD [54]、DRBN [48]、KinD++ [53]、Zero-DCE [11]、ISSR [8]、EnlightGAN [16]、MIRNet [51]、HWMNet [7]、SNR-LLIE-Net [46]、LLFlow [41]。为了真实地展示我们方法的优越性，我们合理地选择了几种方法作为基线网络。具体来说，选择了最具代表性的方法包括RetinexNet、KinD和KinD++，以及三种最新方法包括HWMNet、SNR-LLIE-Net和LLFlow。因此，我们的方法表示为RetinexNet-SKF、KinD-SKF、DRBN-SKF、KinD+±SKF、HWMNet-SKF、SNR-LLIE-Net-SKF、LLFlow-S-SKF和LLFlow-L-SKF（分别是LLFlow的小型和大版本）。

实现细节。 我们在NVIDIA 3090 GPU和NVIDIA A100 GPU上进行实验，基于基线网络的发布代码和相同的训练设置。具体来说，只有Retinex-SKF、KinD-SKF和KinD+±SKF的最后一个子网使用SCH损失和SA损失进行训练，而其他子网使用原始损失函数训练。此外，我们没有对LLFlow应用SA损失，因为其在训练阶段没有增强输出。另外，SE模块被合理地放置在所有基线网络的解码器中。

4.2. 定量评估

在LOL和LOL-v2数据集上的定量结果。 评估结果如表1所示。我们可以观察到，我们的SKF在每种基线方法上都实现了一致且显著的性能提升。具体来说，我们的SKF在LOL/LOL-v2数据集上分别提供了平均1.750 dB/1.611 dB的改进，这是通过引入抑制噪声和伪影以及保持颜色一致性的能力实现的。值得注意的是，我们的LLFlow-L-SKF在LOL/LOL-v2数据集上获得了26.798 dB/28.451 dB的PSNR值，建立了新的SOTA。此外，SSIM值也取得了类似的性能。我们的SKF在LOL/LOL-v2数据集上使SSIM值平均提高了0.041/0.037，这表明我们的SKF有助于基线方法恢复亮度和对比度，并保留带有细节的结构信息。此外，我们的SKF在LPIPS和NIQE上提供的显著增益合理地表明，通过引入我们设计中的语义先验，结果更符合人类直觉。

在MEF、LIME、NPE和DICM数据集上的定量结果。 在MEF、LIME、NPE和DICM数据集上的评估结果描述在表2中。总体而言，除了DRBN-SKF和HWMNet-SKF的三个较差情况外，每种带有SKF的方法在所有六个数据集上都获得了比基线更好的NIQE结果。RetinexNet-SKF在MEF数据集上表现最佳，NIQE为3.632，而KinD+±SKF在其他五个数据集上实现了最佳性能。总体而言，值得注意的是，我们的SKF在所有方法和数据集上平均带来了0.519的NIQE增益。更好的NIQE表明，使用我们SKF的方法可以产生具有更自然纹理的图像，并且在恢复低光照图像方面更有效。

表1：在LOL [43]和LOL-v2 [49]数据集上的定量比较。 $\uparrow$ ( $\downarrow$ ) 表示值越大（小）质量越好。+ ( $\downarrow$ ) 表示性能的提升（降低），对应于 $\uparrow$ ( $\downarrow$ )。加粗表示最佳值。
(注：表格内容为原始数据，此处仅翻译标题和说明，表格数据保留原文格式)

4.3. 定性评估

在LOL和LIME数据集上的定性评估分别如图4和图5所示。如图4所示，我们的SKF可以提高基线方法的增强能力，并生成具有更悦目感知质量的图像。具体来说，RetinexNet的结果由于明显的色差和严重噪声而不真实，而我们的SKF可以缓解这些问题。与KinD和KinD++的结果相比，KinD-SKF和KinD+±SKF解决了光照不一致和奇怪白色伪影的问题。对于其他结果，更一致的颜色和自然保留的颜色一致性和细节，并且SA损失通过产生更自然的纹理减少了虚假区域。

图4：在LOL数据集上基线方法使用和不使用SKF的视觉比较。 我们的SKF使基线方法能够生成噪声更少、颜色信息更丰富、细节更真实的图像。

表2：在LOL [43]、LOL-v2 [49]、MEF [31]、LIME [12]、NPE [39]和DICM [21]数据集上关于NIQE的定量比较，其中值越小质量越好。
(注：表格内容为原始数据，此处仅翻译标题和说明，表格数据保留原文格式)

消融研究。 我们在KinD++、DRBN和HWMNet上进行了消融研究，以调查SKF中三项关键技术的贡献。结果总结在表3和图6中。

SE模块。 如表3所示，将SE模块添加到基线网络会带来性能提升（例如，DRBN-SKF的PSNR提高了0.481 dB）。图6(a)显示SE模块有助于恢复更清晰的边缘和更自然的细节。这表明SE模块有效地将语义信息整合到特征表示中。

语义引导损失。 表4列出了不同损失设置的结果。w/o S 和 w/ S 分别表示计算全局直方图和我们语义引导的直方图。对于SA损失，w/o SA、w/o S 和 w/ S 分别表示不使用SA损失、经典的全局和局部对抗损失（如EnlightGAN [16]）和我们的SA损失。首先，带有SCH损失的HWMNet-SKF表现出更好的性能，PSNR平均提升了0.512 dB，表明SCH损失在保持颜色一致性方面具有显著能力。此外，通过添加经典的对抗损失，NIQE平均获得0.271的提升，这归因于判别器提高视觉质量的能力。最后，我们的SA损失相比基线在NIQE上提供了0.411的有利增益，并真实地证明了语义先验有助于找出虚假区域，从而产生更自然的图像。

语义先验的优越性。 我们选择HWMNet-SKF、LLFlow-S-SKF和LLFlow-L-SKF来研究性能的提升是受益于我们SKF提供的语义先验，还是我们SE模块的更多参数。如表5所示，Baseline、Large 和 w/ SKF 分别表示原始模型、具有更多层或通道的原始模型以及带有我们SKF的原始模型。我们的方法相比具有相似参数数量的大版本，在PSNR上平均实现了1.272 dB的显著提升。因此，我们证明了语义先验的优越性，而非额外参数。

5. 结论

本文提出了一种新颖的语义感知图像增强框架，名为SKF。SKF将语义先验纳入增强网络（Enhancement Net），通过SE模块、SCH损失和SA损失来保持颜色一致性和视觉细节。SE模块允许图像特征通过语义特征表示感知丰富的空间信息。SCH损失为保持颜色一致性提供了有效的语义感知区域约束。SA损失结合了全局和局部对抗损失以及语义先验来寻找目标虚假区域并生成自然的结果。大量实验表明，我们的SKF在所有六种基线方法的情况下都实现了卓越的性能，并且LLFlow-L-SKF优于所有竞争对手。然而，在处理未知类别时改进有限，这为通过SKB提高识别未知实例的能力提供了更多可能性。此外，我们也将探索我们的SKF在其他低级视觉任务中的潜力。

表3：对KinD+±SKF、DRBN-SKF和HWMNet-SKF的消融研究，以调查我们SKF关键技术的贡献。
(注：表格内容为原始数据，此处仅翻译标题，表格数据保留原文格式)

表4：损失消融研究结果。
(注：表格内容为原始数据，此处仅翻译标题，表格数据保留原文格式)

表5：消融研究，用于调查性能提升是来自语义先验还是更多参数。
(注：表格内容为原始数据，此处仅翻译标题，表格数据保留原文格式)

图6：DRBN-SKF的视觉比较，用于调查我们SKF关键技术的贡献。
(注：仅翻译标题)

Learning Semantic-Aware Knowledge Guidance for Low-Light Image Enhancement 论文阅读