融合门控变换机制和GAN 的低光照图像增强方法

2024-02-29何银银胡静陈志泊张荣国

计算机工程 2024年2期

关键词：图像增强光照损失

何银银，胡静，陈志泊，张荣国

（1.太原科技大学计算机科学与技术学院，山西太原 030024；2.北京林业大学信息学院，北京 100083）

0 引言

低光照场景下拍摄的图像受成像环境影响，具有整体较暗、细节丢失和噪声干扰等质量问题，严重影响了物体检测、语义分割和图像分类等下游高级视觉任务的性能。为提高该类图像的质量，低光照图像增强算法变得尤为重要。

传统低光照图像增强算法主要归纳为两类［1-2］：

1）基于直方图均衡化（HE）的方法［3］。该方法通过对图像进行非线性拉伸，使得一定范围内的像素达到近似均匀化分布的状态，从而达到图像亮度和对比度提升的目的。但增强后的图像往往存在颜色失真现象。

2）基于Retinex 的增强方法［4］。该方法将图像分解为反射率和照度两个分量，其中反射率描述了物体的内在固有属性，照度表述了物体的亮暗程度。该方法通过消除光照对图像的影响提升图像的整体亮度，但增强后的图像会产生曝光不足、噪声明显的现象。

近年来，随着深度学习的蓬勃发展，越来越多科研人员将深度学习相关算法应用到低光照图像增强领域中，并展现其优越的性能。目前，基于深度学习的低光照图像增强方法大多需要大批量配对数据集进行网络的监督学习。WEI 等［5］将Retinex 理论与深度学习算法相结合，提出了低光照图像增强网络RetinexNet。该网络由分解、增强和重建三个步骤组成，分解网络将图像分解为反射率和照度，增强网络利用编码-解码框架提取多尺度全局上下文信息，最后对调整后的反射率和照度进行逐像素相乘输出增强图像，但增强图像容易出现颜色失真、噪声信息放大的现象。ZHANG 等［6］提出了一种简易高效的低光照图像增强网络KinD。该网络结合双分支结构，在亮度调节的同时抑制低光照图像增强过程中放大隐藏的退化，但增强图像会产生未知伪影。LV 等［7］提出了MBLLEN，通过特征提取网络提取不同尺度的细节特征，并通过不同子网进行增强，最后通过多分支结构融合输出增强结果，但增强后的图像仍存在颜色失真、伪影现象。REN 等［8］提出一种基于内容流和边缘流的混合神经网络架构，内容流用于增强低光照输入的可见性并学习场景内容的整体估计，边缘流基于改进的空间变换网络对边缘细节进行建模，并引入感知损失和对抗损失进一步提高增强图像的视觉质量，但增强后的图像存在过度增强问题。ZHANG 等［9］提出利用静态图像实现低光视频增强方法StableLLVE，通过光流来模拟全局和局部的动态场景运动，使用原始图像和变形图像对进行训练，并在输出图像对之间强制执行一致性，提高了时间稳定性，但增强图像整体偏白、模糊。上述基于深度学习的低光照图像增强算法均依赖于配对的低光图像和正常光图像数据集。然而在现实世界中，捕获同一场景下的低/正常图像对是非常困难的。现有的方法大多通过合成技术来获得低/正常光照图像对来解决网络训练时的配对数据需求，然而利用合成数据训练的网络，当用于真实世界的微光图像增强时，仍会产生未知伪影。

为了解决配对数据的依赖问题，LIU 等［10］提出一种基于最优加权多曝光融合机制的低曝光图像增强方法，以从单个低照度图像生成多曝光图像序列，并使用能量函数计算局部对比度、饱和度和曝光度的最优权重，增强图像虽然提升了亮度和对比度，且最大程度保留了细节信息，但仍存在明显的噪声伪影。GUO 等［11］提出Zero-DCE 网络。该网络采用无监督方式进行训练，通过设计深度曲线估计网络（DCE-Net）获得输入图像的最佳拟合光增强曲线（LE-Curves），然后通过迭代应用曲线映射输入RGB通道的所有像素，以获得最终的增强图像，但增强图像会出现细节丢失和未知伪影。JIANG 等［12］提出了一种基于生成对抗网络（GAN）［13］的无监督低光照图像增强网络EnlightenGAN，其中生成器采用注意力引导的U-Net［14］网络以得到增强图像，并通过全局-局部判别器以辨别增强图像和输入正常光图像的真伪，但增强后的图像易出现噪声放大现象。

目前，基于深度学习的低光照图像增强算法大多都需要配对的图像数据集，基于无监督的增强算法虽然解决了配对数据依赖问题，但噪声抑制能力较弱，甚至会出现图像细节丢失和色彩失真现象。基于以上分析，本文基于生成对抗网络，结合门控通道变换（GCT）单元［15］、注意力机制、卷积残差结构，提出一种无监督低光照图像增强方法AGR-GAN。首先，设计由多个基于GCT 单元的多尺度卷积残差模块（GCTRM）构成的特征提取网络，在此基础上，引入卷积残差结构，减少网络传播过程中的信息丢失，提取输入图像的全局上下文特征和多尺度局部特征信息，在特征融合网络中将提取的深浅层特征进行充分融合以获取丰富的细节信息，获得最终的增强图像；然后，使用双判别器结构改善低光照图像局部亮度分布不均的问题，避免过曝/曝光不足现象；最后，引入联合损失函数指导网络训练，抑制图像噪声，提升增强图像的色彩还原质量。

1 相关理论

GAN 由相互抗衡的生成网络G和判别网络D组成：G通过一系列非线性计算捕获真实数据的潜在分布，生成模拟图像；D是一个二元分类器，其目的是判断输入数据是生成图像还是正常光照输入图像。G和D相互博弈，当D无法判别输入图像的真伪时，说明G生成的图像分布最大程度相似于真实图像，即获得最优的生成图像。优化函数如式（1）所示：

其中：x～Pdata(x)源于真实图像分布规律；z～Pz(x)表示含噪声z的输入数据。目标函数的作用是使Pz(x)的数据分布与Pdata(x)尽可能相似。

2 本文模型

2.1 网络结构

为使增强后图像的细节信息最大程度保留，同时更好地抑制噪声和还原色彩，本文基于门控通道变换单元和GAN 结构提出无监督低光照图像增强方法（AGR-GAN），该方法由生成网络和双判别网络结构组成：生成网络主要包括特征提取网络（FAN）和特征融合网络（FFN）两部分，分别用于输入图像细节特征提取和深浅层特征充分融合；双判别网络结构用来改善低光照图像局部亮度分布不均的问题，避免增强后的图像出现局部曝光不足/过曝现象。AGR-GAN 方法的整体结构如图1 所示（彩色效果见《计算机工程》官网HTML 版，下同）。

图1 AGR-GAN 整体结构Fig.1 Overall structure of AGR-GAN

2.2 生成网络模型

U-Net 网络是一种完全对称的编码-解码结构，编码结构将输入图像的特征信息进行压缩，再经由解码结构恢复原始图像分辨率，获得最终增强图像。为了防止分辨率变化导致特征信息丢失，编码-解码的相对称层之间添加了横向连接，保留了丰富的图像纹理信息。借鉴U-Net 网络结构的设计思路，生成网络结构设计如图2 所示。

图2 生成网络结构Fig.2 Structure of generate network

2.2.1 特征提取网络

FAN 由GCTRM 和最大池化层构成，用以提取输入图像的全局上下文特征和多尺度局部特征信息。FAN 结构如图2（a）所示。

每个GCTRM 均由GCT 模块、卷积层、批量归一化层（BatchNorm）、LeakyReLU 激活函数和卷积残差结构构成。GCTRM 结构如图2（c）所示。由于卷积操作感受野受限，所有通道上提取的特征本质上都是局部的，导致增强后的图像存在严重的细节丢失问题。对此：首先，将GCT 模块放在首位以提取全局上下文信息并对通道进行建模，实现全局上下文信息的聚合和利用；其次，利用批量归一化层将数据压缩到［0，1］区间，加快网络的收敛速度；然后，利用LeakyReLU 非线性激活函数提升网络对图像特征的提取能力；最后，引入卷积残差结构抑制模型过拟合，并促进浅层提取的低频特征和较深层次高频特征的融合，避免网络前向传播过程丢失有用特征信息，保留丰富的细节特征。每个GCTRM 模块后接最大池化层实现降采样操作，将获取的特征进行压缩，降低特征图维度并保留有效信息。

2.2.2 特征融合网络

FFN 采用与FAN 完全对称的结构充分融合提取的浅层细节特征和高层语义特征，恢复图像原始分辨率，获得增强后的图像。FFN 由双线性插值算法、卷积残差块和横向跳跃连接结构构成。FNN 结构如图2（b）所示。双线性插值算法用以恢复特征图的原始分辨率，避免上采样过程中图像出现棋盘效应；卷积残差块用以促进低高层特征的充分融合，防止有用信息丢失，确保上下文信息的完整性。为了使图像恢复效果更好，在FAN 和FNN 的相对称层之间添加横向跳跃连接结构，进一步促进特征信息拼接融合，保留更丰富的细节特征。

受低光照图像成像环境的影响，采集的图像存在光照不均的问题，局部区域容易出现过亮现象，如果对这部分区域不做特殊处理，那么增强后的图像容易出现局部过曝、颜色失真问题。为了让生成网络重点增强图像中较暗区域，对局部较亮区域不做二次增强，本文借鉴EnlightenGAN 中的的自特征注意力机制，提取输入彩色低光照图像的照明通道，并将其归一化到［0，1］区间得到灰度图PGray［计算方法如式（2）所示］，再利用1-PGray作为自特征注意力图。最后，调整自特征注意力图大小，与特征提取网络得到的特征图逐像素相乘，促使生成网络在图像增强过程中重点关注图像中较暗区域，对于亮区域分配较少权重，使得最终增强图像整体色彩更匀称。

2.3 判别网络模型

判别网络采用双判别器结构，均使用PatchGAN［16］网络，如图3 所示。其中：全局判别器以整幅图像作为输入来改善图像的整体色彩强度，提升图像的整体亮度和对比度；局部判别器分别从增强图像和输入正常光照图像上随机裁剪5个等尺寸的图像块作为输入来改善增强图像局部光照不均的问题。采用双判别器结构能在提升低照度图像全局亮度的同时自适应增强局部暗光区域，避免增强图像出现局部曝光过度或曝光不足的现象。

图3 双判别器结构Fig.3 Structure of double discriminator

2.4 损失函数

AGR-GAN 将低光照图像输入生成网络G得到增强图像，使用判别网络来辨别增强图像和正常光照图像的真伪，通过生成网络和判别网络的多次对抗迭代，最终使得增强后的图像与正常光照图像分布尽可能相近。为了使增强后的图像质量更好，本文引入联合损失函数，包含生成网络损失LGen和判别网络损失LDis两部分，如式（3）所示：

2.4.1 生成网络损失

生成网络G的整体损失由对抗损失、感知损失、全变分损失（TV Loss）和颜色恒定损失（Col Loss）组成。

1）对抗损失。计算增强图像与正常光照图像的像素变化的损失，如L1 Loss、MSE，但较多关注像素之间的差异，增强后的图像容易产生模糊现象，故采用对抗损失使得增强图像和正常图像的分布尽可能相似，获得清晰的增强图像，如式（4）所示：

其中：Preal代表正常光照图像的特征映射；Pfake代表增强图像的特征映射；x和xf分别是抽样于Preal和Pfake的部分样本；Pfake-patches和Preal-patches分别代表从增强图像和正常光照图像中随机裁剪的图像块特征分布。

2）感知损失。感知损失［17］通过采用预训练的VGG［18］网络来建模增强图像和正常光照图像之间的欧氏距离，本文使用该损失来约束输入低照度图像与增强图像之间的特征距离，使网络关注图像内容，保证增强前后的图像细节特征近似一致，如式（7）所示：

其中：i表示第i个最大池化层；j表示第j层卷积层；Ci，j、Hi，j、Wi，j表示第i个最大池化后的第j层卷积提取的特征图的维度；IL代表输入的低照度图像；G(·)表示生成器输出图像；φi，j表示在ImageNet 数据集上预训练的VGG-16 模型提取的特征分布映射。

3）全变分损失。受成像环境影响，低光照图像含有的噪声信息容易在图像增强过程中被放大，严重影响增强图像的质量。本文采用全变分损失［19］在不丢失细节特征的基础上抑制图像噪声信息，如式（8）所示：

其中：C、H、W表示输入低照度图像的通道数、高度和宽度；∇x和∇y分别代表水平和竖直方向的梯度运算。

4）颜色恒定损失。低照度图像局部光照分布不均，本文使用颜色恒定损失［11］来控制局部亮度提升程度，从而校正增强图像潜在的颜色偏差，如式（9）所示：

其中：R、G、B代表输入图像不同颜色通道；Jp表示增强图像p通道的平均值；(p，q)代表通道对。

生成网络损失如式（10）所示：

其中：ωα、ωβ、ωχ、ωγ分别为损失Ladv、Lper、Ltv、Lcol的权重参数，取值均为1.0。

2.4.2 判别网络损失

判别网络损失由全局判别器损失和局部判别器损失组成。

1）全局判别器损失。全局判别器损失采用基于最小二乘GAN（LSGAN）［20］的相对论判别器［21］，用以估计正常图像比增强后的图像更真实的概率，如式（11）所示：

2）局部判别器损失。局部判别器损失采用LS-GAN作为损失函数，用以解决梯度消失问题，使得网络训练过程更加稳定，如式（12）所示：

3 实验结果与分析

3.1 实验数据集

训练集选用EnlightenGAN［12］算法提供的非配对图像数据集，包含914 幅低光照图像和1 016 幅不成对的正常光照图像。测试集选用国内外公共低光照数据集DICM［22］、MEF［23］、NPE［24］、VV［25］、Exclusively Dark［26］（下文简称ExDark），其中，ExDark数据集中只包含随机挑选的157 幅图像。为了验证所提方法在配对图像数据集上的性能，从获取训练数据所使用的数据集中，随机挑选148 对低光照/正常光照图像对，将数据集命名为Test-ImageSet 来验证本文所提方法，其中，所有图像尺寸均被调整为600×400 像素。

3.2 实验条件与训练细节

本文实验基于PyTorch 深度学习框架，CPU 配置为Intel®Xeon®Gold 5320，GPU 配置为RTX A4000，共训练200 个周期。在训练过程中，前100 次迭代学习率设置为0.000 4，后100 次迭代采用线性衰减策略，学习率逐步降低至0。生成网络和判别网络均使用Adam 优化器，batch size 设置为32。

3.3 评价指标

选用图像处理领域最常用的峰值信噪比（PSNR）、结构相似性（SSIM）［27］和无参考图像评价指标（NIQE）［28］作为增强图像质量评价指标。其中：PSNR 通过对各像素点间的差异进行评估，PSNR 值越大，表明增强图像的质量越高；SSIM 用来衡量两幅图像的相似程度，SSIM 值越大，说明增强后的图像更好地保持了原始图像的结构细节特征；NIQE不需要任何参考图像，其值越大，表示增强图像的质量越差，反之，图像质量越高。

3.4 结果分析

本文选择低光照图像增强领域中6 种经典的方法与本文所提AGR-GAN 方法进行对比实验，分别为RetinexNet［5］、KinD［6］、MBLLEN［7］、StableLLVE［9］、Zero-DCE［11］、EnlightenGAN［12］，从主观视觉效果和客观评价指标两方面评估各方法的增强图像质量。

3.4.1 主观视觉效果分析

在DICM、MEF、NPE、VV、ExDark 5 个数据集上使用上述各方法进行实验，主观视觉效果对比如图4 所示。通过观察增强图像可知：RetinexNet 和Zero-DCE 方法增强图像存在颜色整体偏黄、颜色失真问题；StableLLVE 方法增强图像整体泛白、内容模糊；MBLLEN 方法增强图像出现未知伪影；EnlightenGAN 方法增强图像出现未知伪影并存在细节丢失问题；其他方法增强效果较好，能够有效提升原始图像的亮度和对比度。

图4 不同方法在5 个低光照数据集上的增强效果对比Fig.4 Comparison of enhancement effects of different methods on five low-light datasets

在Test-ImageSet 数据集上应用上述各方法进行实验，主观视觉效果对比如图5 所示。通过观察增强图像可知：各方法的增强图像相比于原始输入低光照图像，亮度和对比度有了显著提升，但KinD 方法增强图像颜色整体偏白，图像色彩存在一定程度的失真；MBLLEN 和Zero-DCE 方法增强图像都存在画面颜色过深的现象；StableLLVE 方法增强图像细节丢失严重、整体泛白；RetinexNet 和EnlightenGAN 方法增强图像色彩不真实且存在噪声放大现象；本文方法增强图像的色彩更接近真实图像，细节恢复更好，极大程度减弱了噪声信息。

图5 不同方法在Test-ImageSet 数据集上的增强效果对比Fig.5 Comparison of enhancement effects of different methods on Test-ImageSet dataset

综上分析，AGR-GAN 在不同数据集上增强后的图像曝光程度适宜，图像色彩分布均匀，抑制噪声信息的同时保留了图像的细节纹理，增强图像与真实光照图像更为贴切。

3.4.2 客观指标评价

除了分析主观视觉效果之外，本文还使用PSNR、SSIM 和NIQE 3 种评价指标客观评估AGRGAN 方法的性能。

由于数据集DICM、MEF、NPE、VV、ExDark 中都只包含低光照图像，无同一场景下正常光照的配对图像，因此使用NIQE 来评价各方法的性能，具体结果如表1 所示（加粗表示最佳结果，下同）。可以看出，本文方法在DICM、NPE 和ExDark 数据集上的NIQE 值最低，在VV 数据集排名第二，均值第一，增强图像质量整体最高。

表1 不同方法在5 个低光照数据集上的NIQE 值Table 1 NIQE values of different methods on five low-light datasets

由于Test-ImageSet 为配对图像数据集，因此本文使用有参考图像评价指标PSNR 和SSIM 来评估各方法的性能，具体结果如表2 所示。可以看出，本文方法相较于其他方法PSNR 和SSIM 值最高，表明增强图像和真实图像分布最接近，增强图像质量最高。

表2 不同方法在Test-ImageSet数据集上的客观评价结果Table 2 Objective evaluation results of different methods on Test-ImageSet dataset

3.5 消融实验

本节分析FAN、FFN、TV Loss 和Col Loss 对实验结果的影响。消融实验具体设置如下：

F1：使用FAN+FFN+TV Loss+Col Loss；

F2：生成网络替换为U-Net 结构，其他不改变；

F3：移除Col Loss，其他不改变；

F4：移除TV Loss，其他不改变；

F5：移除TV Loss 和Col Loss，其他不改变。

上述各组合的主观视觉效果对比如图6 所示。可以看出：当使用U-Net 网络作为生成网络的主干时，增强图像明显存在未知伪影、曝光过度问题，如图6 中F2 所示；当移除Col Loss 之后，增强图像局部色差较大，明暗界限明显，如图6 中F3 所示；当移除TV Loss 之后，增强图像中的路面存在明显噪声信息，如图6 中F4 所示；同时移除上述两个损失函数之后，增强图像存在颜色失真和噪声放大现象，如图6中F5 所示；采用本文方法增强后的图像，原始亮区域未出现曝光过度问题，较暗区域亮度明显提升，同时增强图像边界清晰，未出现噪声放大现象，如图6中F1 所示。

图6 消融结果可视化对比Fig.6 Visual comparison of ablation results

定量结果如表3 所示，由实验F1、F2 可得，在DICM、MEF、NPE、VV 4个低光照数据集上AGR-GAN的NIQE 值最小，在ExDark 上排名第二，整体均值第一，验证了FAN 网络和FFN 网络能有效提高增强图像的质量。由实验F3、F4、F5 可得，缺少图像平滑函数和颜色一致性损失函数之后，NIQE 值明显增大，增强图像的质量降低。

表3 消融结果基于NIQE 基准的定量比较 Table 3 Quantitative comparison of ablation results based on NIQE benchmarks

4 结束语

针对低光照图像增强过程中存在的问题，本文提出低光照图像增强方法AGR-GAN。设计基于GCTRM 模块的FAN，以提取输入图像的全局上下文特征和多尺度局部特征信息，并在FNN 中将提取的深浅层特征进行充分融合以获取丰富的细节信息，获得最终的增强图像。在此基础上，改进网络的损失函数，起到图像降噪的效果，使增强图像色彩均匀且真实。在多个低光照图像数据集上与该领域经典的算法进行对比实验，结果表明，AGR-GAN 方法能有效提高低光照图像的亮度和对比度，减弱图像噪声信息，较对比方法增强图像更清晰、细节更丰富且色彩更真实，图像质量更高。下一步将把AGR-GAN低光照图像增强网络嵌入目标检测框架中，完成低照度场景下的特定目标识别定位任务。