面向真实场景的定制化图像降质模型设计方案
1. 核心思路:从真实图像中学习退化模型
1.1 问题定义:合成数据与真实数据的域差距
在超分辨率(Super-Resolution, SR)算法的实际应用中,一个核心挑战源于训练数据与真实测试数据之间的域差距(Domain Gap)。当前主流的SR模型训练流程通常依赖于人为合成的低分辨率(Low-Resolution, LR)图像。具体而言,这些合成LR图像是通过对高分辨率(High-Resolution, HR)图像应用一系列预定义的退化操作(如双三次插值下采样)生成的。然而,这种简化的退化模型无法全面、准确地模拟真实世界中复杂多变的图像退化过程。真实LR图像往往受到多种因素的复合影响,包括但不限于复杂的模糊核(如运动模糊、镜头像差)、非高斯噪声(如传感器噪声、量化噪声)、色彩失真、压缩伪影(如JPEG块状伪影)、紫边(Chromatic Aberration)以及色差等。由于训练集与测试集在退化特性上存在显著差异,导致在合成数据上表现优异的SR模型,在处理真实LR图像时性能会急剧下降,甚至产生明显的模糊和伪影,这极大地限制了SR技术在实际业务场景中的有效性和可靠性 。
1.2 解决方案概述:利用参考图像进行定制化降质
为了解决上述域差距问题,一个直接且有效的思路是使训练数据的退化过程尽可能地逼近真实场景。考虑到获取大规模成对的真实LR-HR数据集成本高昂且不切实际,本方案提出一种“定制化”的降质策略。该策略的核心思想是:针对每一张或每一类特定的HR图像,利用少数几张具有代表性的真实LR图像作为参考,从中学习并提取其独特的退化特征。通过这种方式,可以构建一个能够模拟特定场景或设备退化特性的“退化池”(Degradation Pool)。在训练SR模型时,从这个退化池中随机采样退化参数(如模糊核、噪声水平等)来对HR图像进行降质,从而生成与真实LR图像在视觉和统计特性上高度相似的合成LR图像。这种方法旨在缩小训练数据与真实推理数据之间的域差距,从而提升SR模型在真实场景下的泛化能力和重建质量。
1.3 技术路线:构建“退化池”以模拟真实退化分布
实现定制化降质的技术路线主要分为两个关键步骤。第一步是退化参数估计,即从提供的少数真实LR参考图像中,准确地估计出其内在的退化参数。这包括估计模糊核的形状和大小、噪声的类型和强度、以及可能存在的压缩伪影等。第二步是退化池构建与应用,将估计出的多样化退化参数进行汇总,形成一个针对特定场景的退化池。在SR模型的训练阶段,对于每一个输入的HR图像块,系统将从退化池中随机选择一组退化参数,并应用这些参数对HR图像进行降质处理,从而生成用于训练的LR-HR图像对。这种基于退化池的训练方式,使得SR模型能够接触到更广泛、更真实的退化模式,从而学习到更具鲁棒性的超分辨率映射关系。例如,可以结合KernelGAN等方法从单张LR图像中估计模糊核 ,并结合其他技术提取噪声特征,最终将这些参数整合到一个统一的降质框架中,如Real-ESRGAN所倡导的高阶退化模型,以实现更精细化的模拟。
2. 关键步骤一:从真实低清图像中估计退化参数
2.1 模糊核(Blur Kernel)估计
2.1.1 基于KernelGAN的模糊核估计方法
KernelGAN是一种创新的、无监督的模糊核估计方法,它利用生成对抗网络(GAN)的内部学习机制,仅从单张LR测试图像中估计出其对应的下采样模糊核 。其核心思想基于自然图像的跨尺度自相似性(Cross-Scale Recurrence) 原理,即图像中局部小块(patches)的分布在不同尺度下具有重复性 。KernelGAN的目标是找到一个模糊核,使得用该核对LR图像进行下采样后,生成图像的局部块分布与原始LR图像的局部块分布尽可能一致。
该方法的网络结构由一个生成器(Generator, G)和一个判别器(Discriminator, D)组成,二者在测试时针对单张LR图像进行训练,无需任何外部训练数据 。
- 生成器 (G) :被设计为一个深度线性网络,即由多个不含非线性激活函数的卷积层构成。这种设计旨在确保生成器仅执行线性变换,从而模拟图像的模糊和下采样过程。生成器的任务是对输入的LR图像进行下采样,生成一个更小尺寸的图像。其网络结构通常包含5到6个卷积层,前几层的卷积核较大(如7x7, 5x5),后几层为1x1卷积核,整体感受野可达13x13,能够生成一个13x13的模糊核 。
- 判别器 (D) :采用一个全卷积的Patch Discriminator,其感受野较小(如7x7),用于判断输入图像的每一个局部小块是真实的(来自原始LR图像)还是生成的(来自生成器的输出)。判别器输出一个概率图(heatmap),图中每个值代表对应图像块为真的概率 。
训练过程是一个对抗性博弈:生成器G试图生成能够欺骗判别器D的图像,而判别器D则努力提升其辨别真伪的能力。当判别器无法区分两者时,可以认为生成器G已经学习到了能够将LR图像正确下采样的模糊核。这个学习到的模糊核可以通过对生成器G的所有卷积核参数进行连续卷积运算来显式地提取出来 。为了约束估计出的模糊核符合物理规律,KernelGAN在生成器的损失函数中加入了多个正则化项,包括:
- 归一化损失 (Sum-to-One Loss) :确保模糊核所有元素之和为1。
- 中心化损失 (Centralized Loss) :鼓励模糊核的质心位于其几何中心。
- 边界损失 (Boundaries Loss) :惩罚模糊核边界的非零值,以促进其紧凑性。
- 稀疏性损失 (Sparsity Loss) :鼓励模糊核的稀疏性,防止过度平滑 。
通过KernelGAN,可以为每一张真实LR参考图像估计出一个独特的、符合其内在退化特性的模糊核,为构建定制化的模糊核退化池提供了强有力的工具。
2.1.2 基于深度学习的模糊核估计网络(BKENet)
除了KernelGAN这种基于内部学习的方法,还可以设计专门的监督式深度学习网络来估计模糊核。例如,在BESRNet(Blurred image blind super-resolution network via kernel estimation)中,作者提出了一个模糊核估计网络(Blur Kernel Estimation Network, BKENet) 。与KernelGAN不同,BKENet通常需要在一个包含成对LR图像和对应真实模糊核的数据集上进行预训练。一旦训练完成,该网络便能够直接从输入的LR图像中显式地估计出完整的模糊核。
BKENet的设计旨在捕捉LR图像中与模糊相关的复杂特征,并将其映射到一个固定大小的模糊核表示。其网络结构可能包含多个卷积层、池化层以及全连接层,以逐步提取从低级到高级的图像特征,并最终回归出模糊核的像素值。在BESRNet的框架中,BKENet估计出的模糊核随后被用作一个条件输入,指导后续的图像重建网络(SRNet)进行自适应的超分辨率重建。SRNet内部包含一个模糊核自适应特征选择模块,该模块能够根据输入的模糊核动态地调整网络各层的特征图,从而使重建过程能够适应不同图像的特定模糊退化 。
虽然BKENet需要预先准备带有真实模糊核标签的训练数据,这在某些场景下可能是一个限制,但它提供了一种更为直接和高效的模糊核估计方式。在实际应用中,如果可以获得少量带有真实模糊核的LR图像,就可以利用BKENet进行训练,然后将其应用于同一场景下的其他无标签LR图像,以快速估计其模糊核,从而构建退化池。
2.1.3 基于自然图像统计特性的模糊核估计
除了基于学习的方法,一些传统的、基于自然图像统计特性的模糊核估计算法也表现出了强大的性能,并且在某些场景下具有独特的优势。这类方法通常基于一个核心假设:自然图像的某些统计特性(如梯度分布、功率谱等)遵循特定的规律,而模糊操作会改变这些规律。通过分析模糊图像与理想自然图像模型之间的差异,就可以反推出模糊核的信息。例如,Goldstein和Fattal在2012年提出的方法就是一个典型代表 。该方法首先建立了一个精细的自然图像功率谱模型,该模型考虑了图像中边缘的方向性,比传统的各向同性幂律模型更为准确。
在估计过程中,该方法首先对输入的模糊图像进行“白化”处理,即通过一个特定的滤波器来消除自然图像本身功率谱的影响。理想情况下,如果图像是清晰的,白化后的图像功率谱应该是平坦的。然而,由于模糊的存在,白化后的功率谱会呈现出与模糊核功率谱相关的特征。通过分析这些残留的“不规则性”,就可以估计出模糊核的功率谱。最后,再利用相位恢复(phase retrieval)算法,结合对模糊核的非负性和紧支撑(compact support)等物理约束,从估计出的功率谱中重建出空间域的模糊核。这种方法的优点在于其坚实的数学基础和物理意义,它不依赖于大规模的训练数据,对噪声具有一定的鲁棒性,并且能够处理包含复杂纹理或植被等缺乏明显边缘的图像,这些场景对于基于边缘检测的方法来说往往是困难的 。
2.2 噪声(Noise)估计与提取
2.2.1 从真实图像中提取噪声块
在真实图像中,噪声的特性(如强度、分布)与合成数据中高斯白噪声的假设往往相去甚远。为了更真实地模拟噪声,可以从提供的真实LR参考图像中直接提取噪声样本。一种可行的方法是利用图像的自相似性和稀疏表示。具体步骤如下:
- 图像预处理:首先对真实LR图像进行预处理,如轻微的平滑操作,以去除部分高频噪声,得到一个相对“干净”的图像版本。
- 噪声残差计算:将原始LR图像与预处理后的“干净”图像相减,得到的差值图像即为噪声残差图。
- 噪声块提取:在噪声残差图上,通过滑动窗口的方式提取大量的小块(patches)。这些噪声块保留了真实噪声的统计特性。
- 构建噪声池:将提取出的所有噪声块收集起来,形成一个噪声池。在后续的降质过程中,可以随机从这个噪声池中选取一个或多个噪声块,并将其添加到经过模糊和下采样的HR图像上,从而模拟出与真实图像相似的噪声效果。
这种方法的优势在于它完全基于真实数据,能够捕捉到复杂的、非理想的噪声模式,而无需对噪声的分布做任何先验假设。
2.2.2 学习噪声的不确定性(USR-DU方法)
为了更精细地建模噪声,可以借鉴《Learning Degradation Uncertainty for Unsupervised Real-world Image Super-resolution》(USR-DU)论文中的思想 。该方法不仅学习生成LR图像的均值,还学习其对应的不确定性(即方差),从而能够对噪声等退化因素的多样性进行建模。其核心思想是,给定一张HR图像,退化过程并非确定性的,而是存在一个概率分布。通过学习这个分布的均值和方差,可以从该分布中采样出多个不同的LR图像,从而极大地丰富了训练数据的多样性。
在USR-DU框架中,通常设计一个退化表示网络(Degradation Representation Network) ,该网络以HR图像为输入,输出两个分支:一个分支预测“平均”的LR图像,另一个分支预测每个像素的不确定性图(uncertainty map)。这个不确定性图可以被视为对噪声强度或复杂度的度量。在训练时,通过最小化一个基于Kullback-Leibler (KL) 散度的损失函数,来约束网络学习到的分布与真实退化分布相匹配。在生成训练数据时,可以从学习到的分布中进行多次采样,得到一系列具有不同噪声水平的LR图像,这些图像共同构成了一个更具代表性的训练集。这种方法能够有效地模拟真实世界中退化的不确定性,从而提升SR模型对未知噪声的鲁棒性。
2.3 其他退化因素(压缩伪影、色彩失真等)的建模
除了模糊和噪声,真实图像中还存在许多其他复杂的退化因素,如压缩伪影和色彩失真。这些因素虽然难以用简单的数学模型精确描述,但同样对图像质量有显著影响,需要在退化模型中予以考虑。
压缩伪影,尤其是JPEG压缩带来的块效应(blocking artifacts)和振铃效应(ringing artifacts),是数字图像中非常常见的退化。为了模拟这种退化,可以在降质流程中加入一个模拟压缩的模块。例如,在生成合成LR图像后,可以将其保存为JPEG格式并设置一个较低的质量因子,然后再读取回来。通过这种方式,可以引入与真实JPEG压缩非常相似的伪影。更精细的做法是,可以训练一个神经网络来模拟压缩过程,该网络以未压缩的图像为输入,输出模拟压缩后的图像,从而能够更灵活地控制压缩强度和伪影类型。
色彩失真,如色差(chromatic aberration)和紫边(purple fringing),通常是由于镜头光学特性不完美导致的。这些失真表现为图像边缘出现彩色条纹。模拟这类退化相对复杂,一种可能的方法是通过分析真实图像中色彩失真的模式,然后设计相应的图像处理滤波器来近似这种效果。例如,可以设计一个空间变化的滤波器,在图像的高对比度边缘区域引入特定的颜色偏移。另一种更数据驱动的方法是,收集大量存在色彩失真的真实图像,然后训练一个生成模型(如GAN)来学习这种失真的映射关系。这个生成模型就可以被用作退化模型的一部分,为合成图像添加逼真的色彩失真。
将这些复杂的退化因素纳入统一的退化框架,是构建高保真定制化降质模型的最终目标。这通常需要一个多阶段的降质流程,例如,先进行模糊和下采样,然后依次添加噪声、压缩伪影和色彩失真。通过这种方式,可以生成在多个维度上都与真实LR图像高度相似的合成数据,从而极大地提升SR模型在真实场景下的性能。
3. 关键步骤二:构建与应用“退化池”
3.1 构建针对特定场景的退化池
3.1.1 模糊核退化池的构建
构建模糊核退化池是实现定制化降质的关键环节。该过程旨在收集并整理能够代表特定应用场景(如特定手机摄像头、监控设备等)退化特性的模糊核集合。具体步骤如下:
- 收集参考图像:首先,针对目标应用场景,收集一组具有代表性的真实LR图像。这些图像应涵盖不同的场景、光照条件和内容。
- 估计模糊核:对收集到的每一张真实LR图像,应用前述的模糊核估计方法(如KernelGAN或BKENet)来估计其对应的模糊核。KernelGAN因其无监督的特性,在此步骤中尤为适用,因为它无需任何成对的训练数据,可以直接对单张图像进行处理 。
- 核的验证与筛选:对估计出的模糊核进行必要的后处理和筛选。例如,可以剔除那些能量过于分散或不符合物理约束(如负值、未归一化)的核。同时,可以对核进行聚类分析,以识别出该场景下主要的几种模糊类型(如轻微模糊、中度运动模糊等)。
- 构建退化池:将所有经过验证和筛选的模糊核存储起来,形成一个模糊核退化池。这个池子中的每一个核都对应于一种真实的退化模式。
通过这种方式构建的退化池,能够高度概括目标场景的模糊特性,为后续的降质操作提供了丰富且真实的先验知识。
3.1.2 噪声池的构建
与模糊核退化池类似,噪声池的构建也是为了模拟真实场景中的噪声特性。其构建流程如下:
- 提取噪声样本:从收集到的真实LR参考图像中,按照2.2.1节中描述的方法,提取大量的噪声块(patches)。
- 统计特性分析:对提取出的噪声块进行统计分析,例如计算其均值、方差、直方图等。这有助于了解该场景下噪声的整体强度和分布特点。
- 构建噪声池:将所有提取出的噪声块直接存储,形成一个噪声池。或者,可以进一步对噪声块进行建模,例如用高斯混合模型(GMM)来拟合其分布,从而可以用更少的参数来表示整个噪声池。
- 参数化表示(可选) :为了更灵活地控制噪声水平,可以为噪声池中的每个噪声块或每个GMM分量关联一个噪声强度参数(如标准差)。在降质时,可以根据需要选择特定强度的噪声进行添加。
构建完成的噪声池,使得在合成LR图像时,可以添加与真实图像在视觉上和统计上都高度一致的噪声,从而进一步提升合成数据的真实性。
3.2 应用退化池进行定制化降质
3.2.1 随机采样退化参数进行降质
在拥有了针对特定场景的模糊核退化池和噪声池之后,就可以对HR训练图像进行定制化的降质。最直接的方法是随机采样:
- 模糊核采样:对于每一张用于训练的HR图像,从模糊核退化池中随机抽取一个模糊核。
- 应用模糊与下采样:使用抽取到的模糊核对HR图像进行卷积操作,然后进行下采样(如双三次下采样或最近邻下采样),得到初步的LR图像。
- 噪声采样与添加:从噪声池中随机抽取一个噪声块或根据噪声分布采样一个噪声图。
- 添加噪声:将采样到的噪声添加到初步的LR图像上,得到最终的合成LR图像。
通过这种方式,每一次训练迭代都会生成一组具有不同退化特性的LR-HR图像对。这种随机性使得SR模型能够接触到该场景下所有可能的退化模式,从而学习到更具泛化能力的超分辨率映射。这种方法简单有效,是实现定制化降质的基础。
3.2.2 结合高阶退化模型(Real-ESRGAN思想)
为了模拟更复杂的真实世界退化,可以借鉴Real-ESRGAN中提出的高阶退化模型(High-order Degradation Model) 。该模型将退化过程建模为多个基本退化操作的串联组合,例如:
LR = [ (HR * k1)↓s + n1 ] * k2 + n2
其中,k1
和k2
是两个不同的模糊核,n1
和n2
是两种不同水平的噪声,↓s
表示下采样。
在定制化降质的框架下,可以将高阶退化模型与退化池相结合:
- 多阶模糊核采样:从模糊核退化池中为
k1
和k2
分别随机采样一个模糊核。 - 多阶噪声采样:从噪声池中为
n1
和n2
分别随机采样一个噪声块。 - 执行高阶退化:按照高阶退化模型的公式,对HR图像依次执行模糊、下采样、加噪、再模糊、再加噪等一系列操作。
这种高阶退化模型能够更好地模拟真实图像中可能存在的复合退化效应,例如,图像先因相机抖动而模糊,再因压缩而产生块状伪影,最后又因传输而引入额外噪声。通过引入这种更复杂的退化流程,可以生成更加逼真的训练数据,从而训练出对真实世界退化更具鲁棒性的SR模型。
4. 模型训练与优化策略
4.1 基于生成对抗网络(GAN)的降质模型训练
4.1.1 High-to-Low GAN:学习从高清到低清的映射
High-to-Low GAN是一种专门用于学习图像退化过程的GAN模型 。其基本结构包括一个生成器G和一个判别器D。
- 生成器G:输入是一张HR图像,输出是一张合成的LR图像。生成器的目标是学习一个复杂的降质函数,使得生成的LR图像能够“骗过”判别器。
- 判别器D:输入是一张LR图像(可以是真实的,也可以是生成的),输出是一个判断该图像是“真实”还是“假”的概率。判别器的目标是尽可能准确地区分真实LR图像和生成器生成的LR图像。
训练过程是一个 minimax 博弈过程。生成器G努力最小化判别器D的判别准确率,而判别器D则努力最大化自己的判别准确率。最终,当判别器无法区分真假LR图像时,生成器G就成功地学习到了从HR到LR的退化映射。这种方法的优势在于,它不需要成对的LR-HR数据进行训练,只需要大量的HR图像和大量的LR图像(无需对应)即可。
4.1.2 判别器的设计:区分合成LR与真实LR
判别器的设计对于High-to-Low GAN的成功至关重要。一个强大的判别器能够提供更精确的梯度反馈,从而引导生成器生成更逼真的LR图像。
早期的GAN通常使用一个简单的卷积神经网络作为判别器,其输出是一个全局的“真/假”判断。然而,这种设计可能无法捕捉到图像的局部细节和纹理。为了解决这个问题,Real-ESRGAN采用了U-Net结构作为判别器 。U-Net判别器不仅能够输出一个全局的判断,还能输出一个像素级的“真实度”图,为生成器提供更丰富的、逐像素的反馈信息。此外,为了稳定GAN的训练,Real-ESRGAN还在判别器中引入了谱归一化(Spectral Normalization, SN)技术,这有助于防止训练过程中的梯度爆炸和模式崩溃问题。
4.2 基于参考图像的迁移学习
4.2.1 ReDegNet:从人脸数据学习退化并迁移到自然图像
ReDegNet(Learning Real Degradation for Blind Image Super-Resolution)提出了一种新颖的迁移学习范式,旨在解决真实世界退化建模的难题 。其核心洞察是:人脸图像由于其具有强烈的结构先验,可以被更鲁棒地恢复,因此可以利用真实世界的低质量(LQ)人脸图像及其通过先进算法恢复的高质量(HQ)图像对,来学习复杂的真实世界退化过程。然后,将这种学习到的退化表示迁移到自然图像上,从而合成其逼真的LQ版本。
ReDegNet框架主要包含两个子网络:
- DegNet(Degradation Network) :该网络以成对的LQ人脸图像和其恢复的HQ人脸图像作为输入,旨在学习一个退化表示(degradation representation)
Ω
。这个表示Ω
被设计为能够捕捉与内容无关的、纯粹的退化信息。DegNet通过比较LQ和HQ图像的差异,并将这种差异编码到一个紧凑的向量或特征图中,从而提取出退化模式。 - SynNet(Synthesis Network) :该网络以一张任意的HQ自然图像和一个从DegNet学习到的退化表示
Ω
作为输入,其任务是生成一张与输入HQ图像内容相同,但具有由Ω
所定义的退化特性的合成LQ图像。SynNet内部通常采用调制卷积(Modulated Convolution) 等技术,将退化表示Ω
作为条件,动态地影响生成过程中的特征图,从而实现对退化样式的精确控制。
通过这种方式,ReDegNet巧妙地绕过了直接获取大规模真实LR-HR自然图像对的困难。它利用人脸数据作为“退化探针”,学习到一个通用的、可迁移的退化模型。在推理阶段,可以从收集到的少量真实LR人脸图像中提取退化表示,然后用这个表示来降质大量的HR自然图像,从而构建出用于训练SR模型的、高度逼真的LR-HR自然图像对。这种方法为处理真实世界复杂退化场景提供了全新的思路 。
4.3 引入语义分割等先验知识进行约束
4.3.1 SSG-RWSR:利用分割损失指导降质过程
SSG-RWSR(Semantic Segmentation Guided Real-World Super-Resolution)提出了一种利用语义分割损失来指导SR学习的新颖框架 。虽然该框架主要用于SR任务,但其思想同样可以借鉴到降质模型的构建中。
其核心思想是:一个“好”的降质模型,应该能够生成这样的LR图像——当SR模型对其进行超分时,能够重建出具有清晰、准确语义边界的HR图像。因此,可以设计一个联合训练框架,包含一个降质模型、一个SR模型和一个预训练的语义分割网络。
训练过程如下:
- 降质模型将HR图像降质为LR图像。
- SR模型将生成的LR图像超分为SR图像。
- 语义分割网络对原始的HR图像和生成的SR图像分别进行分割,得到两个分割图。
- 计算这两个分割图之间的差异(例如,交叉熵损失),并将其作为一部分损失函数,用于优化降质模型和SR模型。
通过这种方式,语义分割损失作为一种正则化项,引导降质模型生成那些能够被SR模型“正确”恢复的LR图像,从而避免了生成一些过于模糊或包含不合理伪影的LR图像。这使得整个降质和超分的过程更加符合人类的视觉感知和语义理解。
5. 相关论文与开源资源参考
5.1 模糊核估计相关论文
5.1.1 KernelGAN: Blur Kernel Estimation using an Internal-GAN
- 论文标题: Blind Super-Resolution Kernel Estimation using an Internal-GAN
- 会议/期刊: NeurIPS 2019 (Oral)
- 核心思想: 提出一种图像特定的内部生成对抗网络(Internal-GAN),利用自然图像的跨尺度自相似性,在测试时仅通过单张LR图像进行无监督训练,从而估计出该图像的下采样模糊核。生成器为深度线性网络,判别器为Patch Discriminator,通过对抗训练使生成器学会正确的下采样操作 。
- 主要贡献:
- 首个从单张LR图像中估计未知SR-Kernel的深度学习方法。
- 完全无监督,除输入图像外无需任何训练数据。
- 估计出的核可插入现有SR算法,显著提升盲超分性能 。
- 代码链接: https://github.com/sefibk/KernelGAN
5.1.2 KMSR: Kernel Modeling Super-Resolution on Real Low-Resolution Images
- 论文标题: KMSR: Kernel Modeling Super-Resolution on Real Low-Resolution Images
- 核心思想: 提出一种结合真实核估计和GAN核扩充的数据生成策略。首先从真实LR图像中估计模糊核,然后使用GAN对估计出的模糊核进行扩充,最后利用扩充后的模糊核库来生成大规模的LR-HR训练对 。
- 主要贡献:
- 提出了一种结合真实核估计和GAN核扩充的数据生成策略。
- 通过构建更真实的训练数据集,提升了SR模型在真实图像上的性能。
5.1.3 ADKR: An efficient blur kernel estimation method for blind image Super-Resolution
- 论文标题: An efficient blur kernel estimation method for blind image Super-Resolution
- 核心思想: 提出了一种高效的、两阶段的模糊核估计方法。该方法首先在包含丰富信息的“锚点”像素处估计模糊核,然后通过轻量级的插值方法重建其余像素的模糊核,从而在保证性能的同时显著降低了计算量 。
- 主要贡献:
- 提出了“锚点检测与核重建”(ADKR)流程。
- 在保持与SOTA方法相当性能的同时,将FLOPs降低了约80%。
- 开源代码: https://github.com/xuyimin0926/ADKR
5.2 真实世界超分辨率与退化学习相关论文
5.2.1 Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure Synthetic Data
- 论文标题: Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure Synthetic Data
- 核心思想: 提出一种高阶退化模型,通过将多个不同的退化操作(如模糊、噪声、下采样、JPEG压缩等)以随机顺序进行串联,来模拟真实世界中多种退化因素叠加的复杂情况。通过使用这种高阶退化模型生成大量的合成训练数据,Real-ESRGAN能够学习到处理各种复杂退化的能力,并在真实世界的LR图像上取得出色的重建效果 。
- 主要贡献:
- 提出了高阶退化模型,极大地提升了合成数据的真实性。
- 引入了sinc滤波器来模拟振铃和过冲伪影。
- 使用带有谱归一化的U-Net判别器,提升了GAN训练的稳定性。
5.2.2 USR-DU: Learning Degradation Uncertainty for Unsupervised Real-world Image Super-Resolution
- 论文标题: Learning Degradation Uncertainty for Unsupervised Real-world Image Super-Resolution
- 核心思想: 提出在生成合成LR图像时,不仅要学习其均值,还要学习其不确定性(方差)。通过学习一个退化分布,可以从该分布中采样出多个不同的LR图像,从而丰富了训练数据的多样性,并提升了SR模型对未知退化的鲁棒性。该方法通过最小化KL散度损失来学习不确定性 。
- 主要贡献:
- 首次在退化建模中引入了不确定性学习。
- 通过采样多个LR图像,有效提升了训练数据的多样性。
5.2.3 ReDegNet: Learning Real Degradation for Blind Image Super-Resolution
- 论文标题: From Face to Natural Image: Learning Real Degradation for Blind Image Super-Resolution
- 会议/期刊: ECCV 2022
- 核心思想: 提出一种新颖的迁移学习框架,利用真实世界的低质量人脸图像及其恢复的HQ图像对来学习复杂的真实退化表示,然后将该表示迁移到自然图像上,以合成逼真的LQ图像。该方法包含DegNet(学习退化表示)和SynNet(合成LQ图像)两个子网络 。
- 主要贡献:
- 提供了一种利用人脸数据为自然图像建模真实退化的新途径。
- 通过显式学习退化表示,实现了对退化过程的可控生成。
- 实验证明,用其合成的数据训练的SR模型在真实场景下表现优于SOTA方法 。
- 代码链接: https://github.com/csxmli2016/ReDegNet
5.3 开源代码与工具
5.3.1 KernelGAN官方实现
KernelGAN的官方实现代码是学习和应用该算法的重要资源。通过研究其代码,可以深入理解其内部GAN的结构、损失函数的设计以及如何从网络参数中提取模糊核的具体实现细节。这对于希望在自己的项目中复现或改进该方法的工程师和研究人员来说至关重要。通常,官方实现会提供完整的训练和测试脚本,以及预训练模型(如果适用),极大地降低了使用门槛。在GitHub等代码托管平台上搜索 “KernelGAN” 通常可以找到相关的开源项目。
5.3.2 ADKR官方实现
ADKR的官方实现代码为研究者和工程师提供了一个高效估计空间可变模糊核的实用工具。该代码库通常会包含锚点检测模块(ADM)和核重建模块(KRM)的具体实现,以及用于训练和评估的完整流程。通过使用这些代码,用户可以在自己的图像数据上快速应用ADKR方法,估计出空间变化的模糊核,并将其应用于后续的盲超分辨率或其他图像复原任务中。根据论文 的信息,其官方代码已在 GitHub 上开源,链接为 https://github.com/xuyimin0926/ADKR
。