【LLIE专题】NTIRE 2025 低照度图像增强第一名方案解读

发布于:2025-06-23 ⋅ 阅读:(48) ⋅ 点赞:(0)

在这里插入图片描述


本文将对 FusionNet: Multi-model Linear Fusion Framework for Low-light Image Enhancement,这篇暗光增强算法进行讲解。参考资料如下:

[1]FusionNet文章


专题介绍

在低光照环境下,传统成像设备往往因画面昏暗、细节丢失而受限。LLIE(低照度暗光增强)技术应运而生,它通过提升图像亮度、对比度,减少噪点并恢复色彩细节,让暗夜变得清晰可见。

LLIE技术从传统方法如直方图均衡化、Retinex模型等起步,近年来借助深度学习,尤其是卷积神经网络(CNN),GAN模型,扩散模型实现了质的飞跃。这些算法能自动学习图像特征,精准处理低光照图像,效果显著优于传统技术。

本专题将聚焦LLIE技术的核心原理、应用案例及最新进展,让我们一起见证LLIE如何点亮暗夜,开启视觉新视界!欢迎一起探讨交流!

系列文章如下
【1】ZeroDCE
【2】HVI
【3】CLIP-LIT
【4】GLARE
【5】Retinexformer
【6】SG-LLIE
【7】GPP-LLIE


一、研究背景

1.低光图像增强的挑战:低光图像存在亮度低、对比度差、噪声高等问题,影响视觉感知和计算机视觉任务(如目标检测)。
2.现有方法的局限
- 深度学习方法(如CNN、Transformer)在单模型性能上有进展,但单一网络或颜色空间(如sRGB、HSV)难以兼顾全局与局部特征。
- 现有融合策略(如串行连接、多阶段训练)存在参数爆炸、训练耗时、特征错位等问题。
3. 研究目标:提出高效的多模型融合框架,结合不同网络和颜色空间的优势,提升低光图像增强的鲁棒性和性能。
该方法在CVPR2025的NTIRE低光增强挑战赛中获得第一名。

二、FusionNet方法

1.总体方案

用一句话来总结这篇文章可以概况为该文章提出了高效的多模型融合框架,结合不同网络和颜色空间的优势,来提升低光图像增强的鲁棒性和性能
在这里插入图片描述

2.详细方案

2.1. 核心架构

  • 多模型并行集成:整合三种互补模型,三个模型单独训练,最后把结果进行加权融合:
    • ESDNet(CNN-based):提取局部细节特征。
    • Retinexformer(Transformer-based):捕捉全局上下文。
    • CIDNet(HVI颜色空间):解耦亮度与颜色,减少色彩失真。
  • 线性融合策略:通过线性加权组合三模型输出,公式为 I H Q = ∑ k i F ( I L Q ) I_{HQ} = \sum k_i F(I_{LQ}) IHQ=kiF(ILQ),确保亮度稳定性( ∑ k i = 1 \sum k_i = 1 ki=1),其中每个模型对应的 k i k_i ki的值则通过实验确定,具体方法是求解使得测试集PSNR和SSIM最大的 k i k_i ki的值作为最终值。比如在本文中峰值信噪比(PSNR)和结构相似性指数(SSIM)在 k 1 = 0.16 k_{1}=0.16 k1=0.16 k 2 = 0.40 k_{2}=0.40 k2=0.40 k 3 = 0.44 k_{3}=0.44 k3=0.44这些特定值时达到峰值,这些值分别对应于RetinexFormer、CIDNet和ESDNet。

2.2. 融合方式对比

  • 串行连接网络:将多个网络串行连接并进行单阶段训练和测试,这种方式会使网络结构变深,参数数量大幅增加。这不仅提升了网络崩溃的风险,导致小的参数变化就能引发显著的性能波动,而且难以通过单阶段训练获得最优结果。

  • 多阶段串行网络:该方式同样按顺序连接不同方法,但在每个新训练阶段会冻结前一阶段的参数。虽然这样能在一定程度上缓解网络崩溃问题,但随着训练推进,后续阶段需要更多的迭代次数,使得训练过程愈发困难,时间成本剧增,并且无法保证后续阶段能收敛到更优的解决方案。

  • 并行 - 串行网络:先对多个方法进行独立的并行训练,再将输出串联起来输入到新网络进行特征提取和融合。然而,它本质上仍属于多阶段训练,没有解决训练时间过长的问题。

  • 线性融合方式的优点:

    • 结构独立,互不干扰:采用完全并行的执行结构,不同方法独立运行,彼此之间没有相互干扰。在训练时,各方法分别独立进行,这使得每个方法都能达到最优状态,仅通过调整最终的融合参数就能获得最佳结果。
    • 无需多阶段训练:消除了对多阶段训练的需求,多个方法可同时训练,不会产生额外的时间开销。
    • 理论保障,优化性能:基于希尔伯特空间理论,参与融合的基于CNN(ESDNet)、Transformer(Retinexformer)和HVI(CIDNet)的方法近似正交,通过凸组合可有效覆盖目标域,提高模型泛化性能,解决了网络崩溃和训练效率低的问题。

2.3. 理论支撑

基于Hilbert空间理论(希尔伯特空间是一个完备的内积空间(定义了内积运算的向量空间,内积可量化向量间的 “夹角” 和 “相似度”。),在数学和物理学中有广泛应用。),证明线性融合可最大化目标子空间投影,避免网络崩溃并降低训练成本。作者写的理论支撑我用更加通俗的语言总结了一下。咱们可以把图像增强这件事想象成“拼拼图”,不同的模型就像不同的人,各自擅长拼不同的部分。而作者提出的融合策略为啥靠谱呢?下面一步步拆开说:

问题1:模型如何在数学空间工作?

  • 每个模型都是“空间里的一条路”
    假设我们有一个超级大的“图像空间”(希尔伯特空间),里面装着所有可能的图像。每个增强模型(比如ESDNet、Retinexformer)就像从低光图像走到清晰图像的一条“路”(专业叫“映射轨迹”)。每个低光图像增强模型(如ESDNet、Retinexformer)可视为一个函数 f i f_i fi,其作用是将低光图像 x x x映射到增强后的图像 f i ( x ) f_i(x) fi(x)。比如:

    • ESDNet走的路擅长“捡局部细节”(像树叶的纹理);
    • Retinexformer走的路擅长“看全局光线”(比如把整个夜景的亮度调均匀);
    • CIDNet走的路擅长“调颜色”(比如把偏红的暗处恢复真实色彩)。
  • “路”和“目标路”的接近程度,能用数学算出来
    我们的目标是找到一条“最接近完美清晰图像”的路。数学上,我们可以计算每条模型的路和“完美路”的“相似度”(专业叫“内积”),就像测量两条路之间的“距离”,距离越近,说明模型效果越好。

  • “完美路”(理想映射):定义为理想情况下将低光图像恢复为真实清晰图像的最优映射 f t f_t ft,它代表了理论上的最佳增强效果,是所有模型期望逼近的目标。

  • 内积如何量化“相似度”:
    在希尔伯特空间中,两个函数 f i f_i fi f t f_t ft 的内积表示为:
    < f i , f t > H = ∫ X f i ( x ) f t ( x ) d μ ( x ) \left< f_i, f_t \right>_{\mathcal{H}} = \int_{\mathcal{X}} f_i(x) f_t(x) d\mu(x) fi,ftH=Xfi(x)ft(x)dμ(x)
    其中, X \mathcal{X} X 是所有低光图像的输入空间, μ ( x ) \mu(x) μ(x) 表示输入图像的分布概率。该积分本质上计算的是 f i ( x ) f_i(x) fi(x) f t ( x ) f_t(x) ft(x) 在整个输入分布上的“相关性期望”。

  • 内积的物理意义:模型效果的量化指标
    内积的大小直接反映了模型输出与真实图像的“相似程度”。例如:

    • 当模型 f i f_i fi 能准确增强低光图像时, f i ( x ) f_i(x) fi(x) f t ( x ) f_t(x) ft(x) 的像素值、结构、色彩等特征高度匹配,此时内积积分结果较大,说明模型效果好;
    • 若模型存在过曝、噪声残留等问题, f i ( x ) f_i(x) fi(x) f t ( x ) f_t(x) ft(x)差异显著,内积积分结果较小,模型效果较差。
  • 对融合策略的指导作用
    确定融合权重
    线性融合的目标是找到权重 k i k_i ki,使得 ∑ k i f i \sum k_i f_i kifi f t f_t ft 的内积最大化(即最接近完美路)。希尔伯特空间理论证明,当各 f i f_i fi近似正交时,其线性组合能有效覆盖目标域,此时通过调整 k i k_i ki可使融合模型的内积达到最优(大)

问题2:为啥这三条路能“组队”?而不是其他的路?

  1. 三条路“方向不同”,互不干扰
    传统的融合方法(比如把模型串起来)就像让三个人按顺序干活,第一个人干完活第二个人接,结果可能因为“风格冲突”(比如第一个人把图像调亮了,第二个人又调暗),导致效率低还容易出错。
    但作者发现:这三个模型走的路“方向几乎垂直”(近似正交,满足Hilbert理论),就像三个人分别往东南西北不同的方向走,各自解决不同的问题,互不干扰。比如:

    • ESDNet专注“局部细节”,Retinexformer专注“全局亮度”,CIDNet专注“颜色解耦”,它们的工作内容几乎不重叠,所以组队时能各干各的,最后把成果拼起来。
  2. “组队”的最优策略:按比例分配任务
    因为三条路方向不同,所以最好的融合方式不是让它们按顺序干活,而是让它们同时干,最后按“功劳”分配权重。比如:

    • 实验发现,当ESDNet贡献44%、CIDNet贡献40%、Retinexformer贡献16%时(即 k 1 = 0.16 k_1=0.16 k1=0.16 k 2 = 0.40 k_2=0.40 k2=0.40 k 3 = 0.44 k_3=0.44 k3=0.44),三条路的成果加起来最接近完美图像。这就像组队拼图时,擅长拼角落的人负责44%,擅长拼颜色的人负责40%,擅长拼整体结构的人负责16%,效率最高。

总结:理论的核心就像“组一个全能团队”

  • 每个模型都是“专才”,各自擅长不同维度(局部、全局、颜色);
  • 因为它们的“擅长领域”几乎不重叠(近似正交),所以组队时直接按比例汇总成果,比让它们按顺序干活更高效;
  • 希尔伯特空间理论证明了这种“组队方式”在数学上能最大化接近完美图像。

三、实验结果

1.定量实验

在这里插入图片描述

  • NTIRE2025挑战赛:FusionNet以综合排名第1的成绩超越其他团队,其中PSNR达26.24、SSIM达0.861,均位列第2名。
  • LOL数据集:在LOLv1、LOLv2-real、LOLv2-synthetic上,FusionNet的PSNR和SSIM全面优于14种SOTA方法。例如,LOLv2-synthetic中PSNR达26.50,比RetinexMamba高0.62 dB,SSIM达0.945。

2.定性实验

在这里插入图片描述

  • 整体视觉质量:FusionNet的增强结果在色彩鲜艳度、对比度、亮度均衡性上更接近真实图像(GT),无过曝或欠曝问题。
  • 细节保留能力:能清晰保留图像中的结构信息(如树叶纹理、文字边缘),而其他方法可能出现模糊或伪影。

3.消融实验

在这里插入图片描述

  • 不同融合策略对比: 线性融合策略PSNR达25.17,显著高于串行连接(23.25)和多阶段串行(23.50)。并行-串行策略虽提升PSNR,但LPIPS下降。
  • 单一模型与融合模型对比: CIDNet在SSIM和LPIPS上表现优异,但PSNR较低;Retinexformer的PSNR较高,但感知质量(LPIPS)较差。融合后FusionNet实现指标均衡,验证了多模型互补性。

在这里插入图片描述

  • 融合系数优化 : 当 k 1 = 0.16 k_1=0.16 k1=0.16 k 2 = 0.40 k_2=0.40 k2=0.40 k 3 = 0.44 k_3=0.44 k3=0.44时,PSNR和SSIM达到峰值,其中PSNR呈现单一全局最大值,SSIM形成局部最大值簇。

四、总结

本文提出FusionNet多模型线性融合框架,通过并行整合ESDNet、Retinexformer和CIDNet,利用希尔伯特空间理论保证的线性融合策略,解决了传统融合方法的参数爆炸与优化不稳定问题,在NTIRE2025挑战赛和LOL数据集上实现了优于SOTA的低光图像增强效果。


感谢阅读,欢迎留言或私信,一起探讨和交流。
如果对你有帮助的话,也希望可以给博主点一个关注,感谢。


网站公告

今日签到

点亮在社区的每一天
去签到