一种用于红外耦合图像色彩校正的生成对抗网络*
2022-02-03彭扬帆
彭扬帆,马 龙
(西安工业大学 计算机科学与工程学院,西安 710021)
使用电荷耦合元件(Charge Coupled Device,CCD)与互补金属氧化物半导体(Complementary Metal Oxide Semiconductor,CMOS)作为传感器在图像采集过程中,红(Red,R)、绿(Greed,G)、蓝(Blue,B)三通道都会受到红外光线的串扰,导致所拍摄的照片呈现一种不正常的红色状态。现有的解决方法是在图像采集装置的镜头前端加入一个红外滤波片来消除红外光线对CCD/CMOS传感器成像的影响。这无疑增加了硬件成本和维修成本。因此,开发合适的色彩校正算法,通过软件方式解决红外耦合图像的色偏问题具有重要的应用价值。目前,色彩校正算法可以从物体的成像角度分为依赖与非依赖物理成像模型两大类。
依赖物理成像模型的色彩校正方法是指分析图像的退化过程及其原理,建立相应的数学模型,评估数学模型的基本参数。通过算法来消除图像中使其颜色退化的影响因素,从而使退化图像的色彩恢复到原有的自然状态。即图像中的事物呈现为未退化之前的特征状态。如文献[1]的暗通道先验去雾算法,在某个局部区域内,找出R,G,B通道中的最低值,利用该值来估计大气光成分和,实现去雾的同时恢复图片色彩。文献[2]发现在HSL颜色空间中,红外耦合图像中树木部分色相值较大,因此使用抠图技术先将树木提取出来,再在YCbCR颜色空间下利用对角模型进行局部色彩校正。该方法只能对局部区域进行处理,不能校正全局色彩。文献[3] 分别获取标准光照条件下与加入红外串扰光线后的24色卡图像,根据两幅图的特点利用最小二乘法构建合适的校正矩阵,对红外耦合图像进行色彩校正。该方法只能在特定光源下对红外耦合图像进行色彩校正,使用场景受限。
相对于依赖物理成像模型的色彩校正方法而言,非依赖物理成像模型的校正方法可以直接对偏色图像的数学特性进行处理,无需考虑物体的成像过程。非依赖物理成像模型的图像色彩校正方法又分为:传统色彩校正方法和基于深度学习的色彩校正方法。
传统的色彩校正方法是利用数字图像处理技术,通过调整和改变图像各通道的像素值来进行色彩校正,从而使偏色图像恢复其原有色彩。如Retinex算法[4]、直方图统计法[5]、Gray World[6]、白平衡算法[7]。由于使用传统的Retinex算法校正后的图片色彩存在失真现象。因此,文献[7]在传统Retinex算法的基础上加入了一个自动増强算法,减少了色彩失真现象的发生。传统校正算法虽然简单,但对场景限制过强,且恢复后的图像存在噪声增强过度、引入光晕等问题。文献[8]在RGB通道上减去不同比例的红外串扰光线后进行色彩校正和白平衡处理。该方法中减去红外串扰光线的比例难以确定,串扰光线去除不彻底,导致校正效果不佳。
随着计算机图像处理技术的快速发展,深度学习算法近年来被广泛应用在各大领域。基于深度学习的色彩校正算法是在给定训练集的条件下,通过深度卷积神经网络(Deep Convolutional Neural Network,DCNN)从庞大的训练样本中提取有用特征,以此来学习偏色图像与真实图像内在的非线性映射关系校正图像色彩。文献[9]将水下图片先送入所提出的双联卷积全连接网络的第一个网络模块,提取水下深度;再将第一个网络模块的输出送入第二个网络模块中校正颜色。由于该网络先进行深度估计,再进行颜色校正,因此深度估计的准确率会影响颜色的校正结果。文献[10]将颜色恒常性问题作为一个真实光源的分类问题来解决。将训练样本给予不同的光照条件,对其特征进行自动学习。输出是给定图像属于每个光照颜色的概率。训练结束后,结合深度卷积神经网络的输出,计算出测试图像的光照颜色,具有较高的计算精度。文献[11]提出一个由粗到细的深度神经网络模型。该模型使用拉普拉斯金字塔提取图像的多分辨率表示作为网络的输入。先校正存储在低频级的全局颜色,再恢复存储在中、高频级的细节特征,从而实现对欠曝光和过度曝光图片的色彩修复。文献[12]提出一种基于通道的颜色特征提取模块和密集残差特征提取模块相组合的深度神经网络模型。两个特征提取模块的作用分别是:提取色彩特征、降低光散射对图像模糊的影响。同时提出一种自定义损失函数保留细节信息并生成真实的边缘信息。文献[13]提出了一种基于反向神经网络(Back Propagation Neural Network,BPNN)的红外耦合图像色彩校正算法,利用BP算法寻找输入图像与对应目标图像之间的隐式关系,得到校正模型。该模型对训练集图像具有良好的校正效果,但是对非训练集内的图像校正效果不佳。
现有的基于深度学习的图像色彩校正算法大多都是针对雾霾图像、水下图像进行处理校正,对红外耦合图像色彩校正的研究较少。为此,文中将深度卷积神经网络应用在色彩校正算法中,提出一种用于红外耦合图像色彩校正的生成对抗网络[14]。该方法将红外耦合图像的色彩校正看作是一种图片到图片的转义行为。加入自定义的复合损失函数约束网络模型,进一步缩小校正图像与源图像之间的差距。实验结果表明,文中方法在合理有效的校正红外耦合图像色彩的同时保留了源图像的纹理细节,使其符合人眼的视觉感受,并且在峰值信噪比(Peak Signal to Noise Ratio,PSNR)、结构相似性(Structural Similarity,SSIM)、色差(Color Difference,CD)、平均梯度(Average of Gradient,AG)、自然图像质量评估(Natural Image Quality Evaluator,NIQE)的测量指标上均优于其他色彩校正算法。
文中从网络模型的构建、损失函数的设计和网络对抗学习过程三方面介绍所提出的用于红外耦合图像色彩校正的生成对抗网络。最后将文中算法与Gray World,Deep White-Balance[15],FC4[16],Coloring[17]进行对比实验,并对实验结果进行分析总结。
1 网络模型的构建
1.1 生成网络结构
文中将红外耦合图像的色彩校正建模为一种图片到图片的转义过程。图像到图像转义问题是将高分辨率的输入映射到高分辨的输出。尽管输入图片和输出图片给人的视觉感受有所不同,但由于它们具有相同的底层结构,所以输入结构和输出结构是相类似的。文中的生成网络就是基于上述考虑来设计的。如图1(a)所示,生成网络使用U-Net[18]模型结构。
图1 红外耦合图像色彩校正网络结构Fig.1 Structure of the correction network of infrared coupled image color
该模型结构在之前许多解决图像色彩校正问题的方案[5-10]中都得到了应用。这样的网络模型要求所有的信息都要经过所有的层,包括最中间的“Bottleneck”层。对于图像的转义问题,输入和输出之间存在大量的信息共享,因此希望这些信息可以直接通过网络层传递。为了给生成网络提供一种绕过“Bottleneck”层的方法来获取信息,文中在各层之间使用跳跃连接[19]。具体来说,就是将第i层和第n-i层的所有通道连接起来。其中,n为总层数。在文中所提出的方法中,输入数据为128×128大小的红外耦合图像。经过编码器进行特征提取,得到128×128和64×64大小的高分辨率特征图、32×32和16×16大小的中分辨率特征图以及8×8和4×4大小的低分辨率特征图。然后将提取到的中、高层分辨率的特征映射(16×16像素到128×128像素的特征图)与解码器部分对应的生成层连接起来。
在生成网络结构中,左边为编码器部分,右边为解码器部分。编码器对输入图像执行卷积、归一化、激活等操作,逐步下采样。在下采样过程中对红外耦合图像进行特征提取,同时增加通道数,弥补因特征图分辨率减小而造成的信息丢失问题。解码器经过卷积对提取到的特征进行校正重建,接着利用双线性插值对图像特征进行上采样,引导输入的随机信号c朝着目标数据类型的方向生成样本。最终得到和输入图片大小相同的校正图像。
为了避免生成的图像带有水滴状的伪影[20],解码器把对特征图的重建操作转化为对卷积权重的调制。如图2所示,对4×4大小的随机变量c的第一个卷积权重w1进行Mod操作,计算公式为
图2 解码器网络模型Fig.2 The model of a decoder network
(1)
式中:i为第i张特征图;j和k为进行卷积的特征图在空间中的坐标;si为第i张特征图的权重调制因子,该调制因子为编码器提取到的16×16到128×128特征图的权重。其中,4×4和8×8大小的调制因子设置为1。w和w′分别为原始权重和Mod操作后的权重。为了使输出恢复到单位标准差,对Mod操作后的卷积权重进行Demod,得到新的卷积层权重。计算公式为
(2)
式中为了避免分母为0,保证数值稳定性,加入极小常数ε,该常量取值1e-8。接着对4×4大小的随机变量c的第二个卷积权重w2以及随后由解码器上采样生成得到的8×8到128×128大小图像的所有卷积权重都执行同样操作。
1.2 鉴别网络结构
鉴别网络的结构由7个相同的Block块(最后一个Block块无下采样层)、卷积层、Flatten层和Linear层组成。如图1(b)所示,将128×128大小的真实图像或校正图像作为鉴别网络的输入。经过7个Block块对输入进行特征提取,再经一个3×3的卷积处理后由Flatten层将提取到的特征进行“压平”。即卷积输出的512个2×2大小的二维特征图被转化为1×2048大小的一维向量。最后经Linear层得到图像为真或假的得分。
2 损失函数设计
损失函数用来计算模型输出值与期望值之间的差距。输出值与期望值之间的差距越小,表明网络的训练效果越好。针对不同的网络模型,需要设置不同的损失函数来引导网络朝着目标方向进行训练。因此,文中为确保校正图像与真实图像在颜色、结构上的一致性,在生成对抗网络原有的对抗损失基础上加入了MSE(Mean Square Error,MSE)损失。经过改进损失函数后的网络可以在校正色偏的同时更好的保留源图像的纹理细节。
2.1 对抗损失
文中的对抗损失使用交叉熵损失函数。对抗损失函数公式为
LGAN(G,D)=EX,Y[logD(X,Y)]+
EX[log(1-D(X,G(X)))],
(3)
式中:E为分布函数的期望值;X为输入的红外耦合图像;Y为真实图像。网络通过优化该损失函数来学习红外耦合图像X到真实图像Y的映射。G(X)是由生成网络生成的色彩校正图像。logD(X,Y)表示鉴别网络将真实数据鉴定为真的概率。log(1-D(X,G(X)))表示鉴别网络将生成数据鉴定为假的概率。当生成网络试图最小化该损失函数时,鉴别网络试图最大化它,此时生成网络和鉴别网络处于对抗博弈的状态。
2.2 均方误差损失
MSE损失通过均方误差函数计算输出值与预测值之间的欧几里德距离。对于文中来说,是计算校正图像与真实图像相对应像素值的均方误差。MSE值越小,表示输出值越接近于期望值。因此以最小化MSE的值作为损失函数优化的方向,可以尽可能的恢复输入图像的像素级信息,生成与期望值差异较小的输出图像,确保校正后的红外耦合图像更好的对应真实图像。MSE损失计算公式为
(4)
式中:Y为真实图像;G(X)为生成图像;n为数据集总数;i为数据集中第i张图片。
文中提出的用于红外耦合图像色彩校正的生成对抗网络总损失函数为
Ltotal=LGAN+λLMSE,
(5)
其中λ为损失函数的可调节参数。为了确保MSE损失与对抗损失在网络模型训练过程中可以发挥同等的约束作用,需要维持二者在同一量级范围内,因此λ取值500。
3 网络对抗学习过程
如图1所示,文中针对解决红外耦合图像色偏问题所提出的生成对抗网络由两部分组成:生成网络和鉴别网络。生成网络的目的是对输入的数据样本进行特征提取、重构,输出和期望值相近的生成样本。在生成网络中,采用U-Net模型结构。该模型结构由解码器和编码器构成。解码器的第一层接收输入的红外耦合图像数据信号,中间的多个隐含层通过卷积对输入的数据信号进行特性“学习”。编码器对学习到的特征进行逆向求解,调节各层的权重大小,重构这些特征。最后一层将重构的特征结果进行输出,完成红外耦合图像样本数据从输入到输出的非线性映射过程,使生成数据的概率分布更加接近真实数据的概率分布。鉴别网络的目的是鉴别出输入的数据样本是真实的还是生成的。鉴别网络由Block块和全连接层组成。Block块中的卷积层提取输入图像的高维度特征,经过LeakyReLU线性激活,再以全连接的方式把提取到的特征映射到判别值域内,鉴别输入图像为真或假的得分。最后将鉴别结果传递给生成网络。为了生成质量更优的图片骗过鉴别网络,生成网络会根据鉴别结果不断进行升级。鉴别网络又会根据不断进化的生成网络提高自己的鉴别能力。通过这种对抗的训练方式,生成网络和鉴别网络不断调整、优化、更新各自的参数。两者在博弈中相互提升性能,最终达到一个纳什平衡。这时鉴别网络难以判断输入图像的来源,获得可以正确校正红外耦合图像色彩的生成网络。
在实际测试过程中,使用训练好的生成网络模型进行红外耦合图像的色彩校正。鉴别网络不参与测试。
4 实验及分析
4.1 训练数据
在生成对抗网络模型的训练过程中,可用数据集的质量也决定训练结果的好坏。目前为止,国内外使用深度学习技术校正红外耦合图像色彩的研究较少,无公开的相应数据集。因此,文中用于训练的数据集需要自行构建。构建过程分为两步:
1) 户外采集。使用图像传感器为CCD/CMOS的宽光谱相机采集红外耦合图像20 000张和正常图片10 000张。其中,红外耦合图像包括夜晚图像10 000张和白天图像10 000张。拍摄条件均为冬季晴天,且白天进行图像采集时光线充足。在20 000张红外耦合图中筛选出11 500张包含天空、草地、建筑等不同场景的图像,或原场景颜色信息较为丰富的图像。从中随机抽取9 500张图像以及在正常图像以同样标准选出9 500张图像共同作为训练集使用。将11 500张图中剩余的2 000张红外耦合图像作为测试集使用。
2) 使用公开的ImageNet数据集。在ImageNet数据集中随机抽取120 000张图像作为补充数据集。从120 000张图中再随机抽取60 000张图,调高R,G,B三通道中的R通道,降低G,B两通道的数值,得到红色偏色图像,作为红外耦合图像使用。得到的红外耦合图像与配对的正常颜色图像将用于训练成生成网络。剩下60 000张图未作处理的图像用于训练鉴别网络。从而达到可用于神经网络训练的数据量。
4.2 实验结果分析
为了对红外耦合图像的色彩校正结果进行科学合理的评判,文中同时使用主观评价法和客观评价法。将文中算法与Gray World(GW),Deep White-Balance(DWB),FC4,Coloring进行对比试验。实验结果表明,不论是使用主观评价法还是客观评价法,文中的方法都领先于其他同类算法,具有更好的色彩校正效果。
4.2.1 主观评价
主观评价法是根据观察者的视觉感受来评判图像质量的好坏。如图3所示,从上到下依次为偏色图像、真实图像和使用GW,DWB,FC4,Coloring和文中算法在调整RGB值得到的偏色图像上的色彩校正结果。其中,GW算法存在局部校正错误。如Image2中蛇皮颜色被校正为淡紫色。在白色区域中存在曝光过度的现象,导致较差的视觉效果。如Image1中猎豹的白色皮毛、Image3中的白色铅笔、Image4中人物的头发等都出现了过度曝光的问题。使用DWB算法校正后的图像对比度下降,整体颜色偏暗,趋于灰色调,与真实图像颜色不符,不能很好的让观察者分辨出原事物的真实色彩,丢失关键信息。如Image4中人物衣服的颜色、Image5中海水的颜色、Image6中天空的颜色等。FC4算法的校正结果仍存在明显的偏红现象,校正效果有限。Coloring算法校正结果与原图像色彩完全不符,校正效果最差。使用文中方法校正的图像色彩鲜艳,可明确辨认出原事物本身的色彩信息。不同色系的颜色区别明显,颜色更加自然,特征细节相较于其他模型更为突出,整体视觉效果最为出色。
为进一步验证文中算法的色彩校正效果,与实际采集的红外耦合图像进行了实验对比。对比结果如图4所示。可以明显地看出DWB算法的校正力度不够,仍存在明显的红色色偏。GW算法相对于DWB算法来说,能够对红色色偏有一定程度的校正效果,但校正力度不够,不足以辨认出原事物的真实色彩。如Image1,Image4的地面颜色,Image2的草坪颜色以及Image3,Image5的天空颜色。FC4和Coloring算法对真实的红外耦合图像基本无效。而使用文中算法不仅可以有效去除红色色偏,还原图片原有色彩,还保留了丰富的细节信息,使校正后的图像更加符合人眼的视觉感受。
图4 真实图像校正结果Fig.4 Correction results of the real-world images
4.2.2 客观评价
由于不同观察者对图片的亮度、颜色、清晰度、对比度、特征信息的理解不同,对图片质量的评估也会有所差异。因此,有必要引入客观评价法对校正后的图像进行评估,使校正结果更具说服力。文中的客观评价采用峰值信噪比、结构相似性、色差来评价有参考图像质量的好坏;采用平均梯度和自然图像质量评估来评价无参考图像质量的好坏。
1) 峰值信噪比
峰值信噪比是一种用来衡量图像失真程度的客观标准。PSNR值越大表示生成图像的失真越小,视觉效果越好。当两张图完全相同时,PSNR值为无穷大。PSNR的计算公式为
(6)
2) 结构相似性
结构相似性是被用来衡量两幅图像相似度的指标。该方法从图片的亮度、对比度、结构信息三个属性对真实图像和校正图像进行评估。当两张图完全相同时,其值为1。SSIM的计算公式为
(7)
3) 色 差
色差是一幅图像与其对应的标签图像在色相、两素、饱和度之间存在的差异。文中使用CIELab理论对校正图像和清晰图像之间存在的色彩差异进行评估。数学表达式为
(8)
其中ΔL,Δa,Δb分别为校正图像和标准图像的亮度差异、红/绿差异和黄/蓝差异。色差值越小,代表校正图像与标签图像的色彩差异越小、失真越小。
4) 平均梯度
平均梯度被用于表示图像的清晰程度。数值越大,则认为图像清晰度越高。计算公式为
(9)
式中:I为输入的评价图像; (i,j)为图像I中的某一像素位置。
5) 自然图像质量评估
自然图像质量评估方法是将一些从自然景观中提取出的特征拟合出一个多元高斯模型,用来评价待测图像是否与自然图像一样符合人眼的视觉感受。NIQE的测量值越小代表校正后的图像更加自然,人眼的视觉观感更优。其表达式为
D(v1,v2,Σ1,Σ2)=
(10)
式中:v1、v2与Σ1、Σ2分别表示自然图像与待测图像的多元高斯模型的均值向量与协方差矩阵。
5种算法在测试集上客观评价指标的平均测评值,见表1。其中,PSNR,SSIM,CD值是在拥有1 000张调整RGB值得到的偏色图像上的测评结果;AVG,NIQE值是在拥有2 000张实际采集的红外耦合图像上的测评结果。测试集图像均未出现在训练集内。由测试集可看出,文中算法在客观评价指标上远高于其他算法。说明使用文中算法校正后的图像在色彩、结构等方面更加接近真实图像,具有更好的清晰度,保留了原图中更多的信息量。
表1 客观测评指标平均测评值Tab.1 Average values of the objective evaluation index
5 结 论
为解决CCD/CMOS传感器在图像采集过程中的色偏问题,文中提出一种用于红外耦合图像色彩校正的生成对抗网络。该网络直接建立红外耦合图像与真实图像之间的映射关系,拥有自学习的特点。生成网络使用解码编码的模型结构,并在中、高级分辨率间加入跳跃连接,保护信息的完整性,解决特征信息提取不足的问题。把对特征图的重建操作转化为对卷积权重的调制。在自定义复合损失函数的约束下与鉴别网络进行对抗训练,进一步缩小校正图像与真实图像之间的差距。
实验结果表明,相较于Gray World,Deep White-Balance,FC4,Coloring算法,文中方法使得校正后的图像色彩更加自然真实,细节信息更加突出,整体视觉效果更为出色。并且文中方法具有更高的峰值信噪比(28.557 7 dB)和结构相似度(0.893 8);在CD,AVG,NIQE客观评价指标上也均优于Gray World,Deep White-Balance,FC4,Coloring算法,总体来说取得了较好的结果。然而,该算法训练时间过长,空间复杂度较高,对内存容量有较高要求。因此,如何优化网络模型,提高模型的训练速度,缩短训练时间,是日后所要研究的重点。