基于云计算平台加速的时频域结合图像增强方法
2023-03-07赵枳晴
潘 磊,田 俊,傅 强*,郑 远,赵枳晴
(1.中国民用航空飞行学院 计算机学院,四川 广汉 618307;2.电子科技大学 信息与通信工程学院,四川 成都 611731)
0 引言
图像是人们进行信息交流的重要媒介之一。随着相机以及图像处理技术的发展,人们已经可以获得质量非常高的图像[1]。然而,不充分的光照会使图像细节损失严重,降低图像质量,严重制约着下游任务的性能,因此低照度图像增强(Low Light Image Enhancement,LLIE)网络成为计算机视觉方向研究的热点。然而,现有的LLIE方法都是基于时域设计的,没有基于更接近人类视觉系统、信息表征能力更强的频域,增强效果有限。
现有低光照条件下的图像增强方法可以分为3类:
第1类是建立在直方图均衡化(Histogram Equalization,HE)[2-3]技术上的图像增强方法。HE是一种简单有效的图像增强技术,通过改变低照度图像像素的直方图分布来改变低照度图像像素灰度值,从而提升图像的对比度,主要用于增强对比度动态范围偏小的图像。该方法计算简单、速度快,但是这类方法的主要缺点是很少考虑真实的照明因素,增强的结果在主观视觉上与真实场景不一致,存在颜色失真和局部过曝光的现象。
第2类是基于视网膜大脑皮层(Retinex)理论[4]的方法。Retinex模型的理论基础是三色理论和颜色恒常性。基于Retinex理论可以将人眼感知到的图像S分解为反射分量R和光照分量L,即S=R×L。所以基于Retinex理论的图像增强方法本质上是图像分解与光照估计问题。基于此理论,Jobson等[5]进一步提出了单尺度Retinex(Single Scale Retinex,SSR)方法、多尺度Retinex(Multi-Scale Retinex,MSR)方法[6]以及带颜色恢复的Retinex(Multi-Scale Retinex with Color Restoration,MSRCR)方法[7]。Wang等[8]提出了一种名为NPE的方法,该方法可以同时增强对比度和保持光照的自然性。Fu等[9]提出了一种基于融合的LLIE方法。Guo等[10]使用结构先验估计照明并使用反射图作为最终的增强结果进而提出了2种加速优化光照图的方法:基于增广拉格朗日乘数法(ALM)的方法和基于权重策略的方法。Dong等[11]发现了低照度图像与含雾图像的相关性,提出了一种采用图像去雾算法的LLIE方法。将低光照图像反转后通过图像去雾算法进行还原,最后将图像重新反转得到增强后的图像。虽然上述基于Retinex理论的传统LLIE方法能够在一定程度上提升图像整体亮度,但是增强后的低照度图像往往伴随着噪声放大、颜色失真和亮度不均衡等现象,增强后的图像质量不高。
第3类是基于深度学习的LLIE方法。随着深度学习算法的快速发展,许多学者开始尝试利用深度神经网络来学习低照度图像到正常光照图像的映射关系。Lore等[12]提出了一种基于深度自动编码器的方法来识别弱光图像中的信号特征,并在不过度放大/饱和高动态范围图像的较亮部分的情况下自适应地使图像变亮。LI等[13]提出了一种端到端的多分支增强网络——MBLLEN,该网络通过特征提取模块、增强模块和融合模块提取有效的特征表示,提高了LLIE的性能。Li等[14]提出了LightenNet,该网络利用卷积神经网络来估计照度图,并结合Retinex理论实现LLIE。Zhang等[15]将图像增强问题转化为图像调节问题,并分解为2个部分:一部分负责光照的调节;另一部分负责退化的去除,以便网络更好地正则化,取得了较好的效果。Jiang等[16]提出了一种高效无监督的生成对抗网络(Generative Adversarial Network,GAN),称为EnlightenGAN,可以在没有低/正常光图像对的情况下进行训练,消除了对训练数据的依赖。随着深度学习在图像领域的成功应用,基于深度学习的低光照图像增强算法已经成为当前的主流技术。然而,现有基于深度学习的图像增强方法没有考虑频域,图像增强效果有限。
为了解决上述问题,本文基于频域,设计了一种全新的时频域结合的低照度增强网络,该网络首先将低照度图像在频域中分解为高频信息和低频信息,其中低频分量表征图像的全局结构,高频分量表征图像的细节纹理信息。然后将高、低频信息以及时域信息分别送入相应的增强模块,分别从低频、高频和时域3个方面对原低照度图像进行增强,以期学习得到正常照度图像。同时,为了加快上述深层网络的训练速度,本文提出了一种基于云计算平台的专有加速模块,从系统架构的角度对网络训练进行加速。
1 基于时频域结合的低照度增强网络
本文提出了一个频域增强模块(FDE Block),基于该模块,提出了一个基于云计算平台加速的时频域结合图像增强网络。该方法不但比其他方法拥有更好的主观视觉效果和图像细节、更优异的客观指标,同时也拥有与传统计算平台相比更快的训练速度。
1.1 频域增强模块
现有基于深度学习的低光照增强网络都是基于时域设计的,将特征图直接送入网络中学习,此时特征图同时包含低频分量和高频分量,没有基于更接近人类视觉系统、信息表征能力更强的频域,图像增强效果有限。
为此,设计了FDE Block,该模块设计的目标是有效地处理混合在特征图中的低频分量和高频分量,其中较高的频率通常对细节进行编码,较低的频率通常对全局结构进行编码。设X={XH,XL}为输入的高、低频特征图,Y={YH,YL}为相对应输出的高、低频特征图。YH=YH→H+YL→H表示输出特征图中的高频分量YH分别通过输入特征图中的高频分量XH和低频分量XL频率更新得到;YL=YL→L+YH→L表示输出特征图中的低频分量YL分别通过输入特征图中的高频分量XH和低频分量XL频率更新得到。
为了计算Y={YH,YL},本文所提出的频域增强子网络将卷积核W分成高频、低频2个分量,即W=[WH,WL],WH可进一步分解为WH=[WH→H,WL→H],负责与高频分量输入XH进行卷积运算;WL可进一步分解为WL=[WH→L,WL→L],负责与低频分量XL进行卷积运算,模块结构如图1所示。
图1 FDE Block结构Fig.1 FDE Block structure
网络具体细节如下:
YH=f(XH;WH→H)+upsample(f(XL;WL→H),2),
YL=f(XL;WL→L)+f(Avgpool(XH,2);WH→L)),
式中,f(X;W)表示与参数W的卷积;Avgpool(XH,2)是一个平均池化操作;upsample(f(XL;WL→H),2)是一个最近邻插值的上采样操作。
1.2 网络结构
本文提出了一种数据驱动的时频域结合低照度增强网络来学习低光照图像增强,该网络旨在调整图像亮度,增强图像细节,提升图像的整体效果。同时,考虑云计算平台架构,加速网络训练速度,整体网络可以分为边缘节点处理与中心节点处理2部分。整体网络结构如图2所示。
图2 时频域结合的低照度增强网络Fig.2 Low light enhancement network based on time frequency domain combination
① 基于云计算平台的专有加速模块
提出了一种基于云计算平台的专有加速模块。该网络旨在提升低照度图像整体亮度,增强图像细节,提升图像的整体视觉效果。网络分为2部分:边缘节点负责将采集到的低光照图像使用传统方法进行预增强,此时图像依然存在细节损失严重、视觉质量低以及噪声干扰等问题。然后,将预增强后的低光照图像通过离散小波变换分解为高频分量和低频分量。中心节点负责对边缘节点处理后的数据进行增强。中心节点网络包括频域增强子网络、时域增强子网络以及融合模块3部分。频域增强子网络将低频分量和高频分量分别进行增强,低频分量用来恢复图像的整体结构,高频分量用来恢复图像细节;时域增强子网络为全卷积神经网络,用来提升图像的整体亮度。最后,将频域增强子网络和时域增强子网络的增强结果拼接送入融合模块进行微调输出增强后的结果。
② 频域增强子网络
频率增强子网络主要用来对输入的预增强后的低光照图像的低频分量和高频分量进行增强。网络将边缘节点处理好的特征图送入1×1的卷积模块,将低频分量的通道数提升至128,高频分量通道数提升至32,此时低频分量分辨率降为高频分量的1/2,通道数为高频分量的4倍。随后,网络将高频分量和低频分量送入FED Block进行增强,高频分量和低频分量分别进行4次增强操作。FED Block由 3×3 的卷积核(步长为1,填充为1)组成,同时,模块中进行频率更新,即YH=YH→H+YL→H和YL=YL→L+YH→L。
③ 时域增强子网络
时域增强子网络从边缘节点读取预增强后的低光照图像,对输入的图像在时域上进行亮度增强,提升低光照图像的整体对比度。时域增强层由全卷积神经网络构成,所有卷积层都使用大小为3×3的卷积核(步长为1,填充为1)对输入图像在全分辨率上进行亮度增强,网络中特征图通道数均为32。
④ 融合模块
融合模块将频域增强子网络和时域增强子网络的增强结果作为输入,对增强后的图像进行微调。一般的LLIE算法增强后的图像会出现亮度不均等问题,亮度较低区域欠曝光,亮度较高区域过曝光。这是由于一般低照度增强算法是对低照度图像进行整体的亮度提升。本文在融合网络中采用了自注意力结构,该结构可以捕获低照度图像中跨像素的相关性,对低照度图像中不同亮度的区域进行定位,有效解决了亮度分布不均匀的问题,提高了增强后图像的视觉效果。融合层包括2个卷积层和2个自注意力结构。对于给定的输入特征图IF和IT,最终输出的Iy为:
Iy=f(IF,IT),
式中,IF为频域层增强后的输出;IT为时域层增强后的输出;f为融合网络。
1.3 损失函数
本文使用结构相似性(SSIM)损失函数和L1损失函数进行训练,X为经过网络增强后的图片,Y为与X对应的真实数据。
SSIM损失函数为:
L1损失函数为:
L1 损失对图像的灰度值分配相同的误差权重,因此能较好地保持图像的亮度和颜色特征,并能很好地收敛。
于是,总的损失函数为:
LTotal=γLSSIM(X,Y)+(1-γ)Ll1(X,Y),
式中,γ为平衡系数,γ∈[0,1]。
2 实验结果与分析
云计算技术是计算机领域广泛关注的热点技术之一[17]。随着大数据时代的到来,云计算以其动态可扩展、按需部署、灵活性高和可靠性高等特点很好地解决了本地服务器算力不足的问题,可以提升图像增强效果,减少训练时间,提升模型部署能力。基于云计算搭建了一个低光照增强服务器。在云计算环境下,采用云计算技术,首先将低光照图像采用传统方法进行一次预增强,然后将预增强后的低光照图像分解为高频分量和低频分量,分别存储至图像存储单元中。此时,中心节点可直接读取图像存储单元中的图像进行特征提取,增强图像质量,以减少训练时间,提高云计算中的图像处理效果。云计算可以说是较为安全、可靠的虚拟计算服务器与存储技术,通过云计算处理的图像可以最大限度地保证其安全、可靠性[18]。
2.1 实验环境与训练过程
基于Pytorch深度学习框架,在LOL数据集[18]上进行训练。LOL数据集是一个公开的低光照图像数据集,包括low和high两部分,分别表示低光照图片和对应的真实数据。LOL数据集通过改变曝光时间和感光度(ISO)来收集微光图像,共包含500对图像,其中485对图像为训练集,15对图像为测试集,每张图片的分辨率是400 pixel×600 pixel。为了进行优化,使用Adam优化器,其中β1=0.5,β2=0.999,批量大小为5。实验采用了峰值信噪比(PSNR)、SSIM以及学习感知图像块相似度(LPIPS)作为图像质量评价指标。
① PSNR是一种评价图像失真和噪声水平的客观标准。其值越高,表示受到的噪声影响越小,增强后的图像质量越高,失真程度也越小。
② SSIM是一种衡量2幅图像相似度的指标。其值越大,表示增强后的图像与正常光照图像越相似。
③ LPIPS用来度量标准学习生成图像到真实数据的反向映射,强制生成器学习从假图像中重构真实图像的反向映射,并优先处理它们之间的感知相似度。LPIPS的值越低表示2张图像越相似。
2.2 对比实验
为了验证本文低光照增强算法的优势,选取MSRCR[7],SRIE[9],LIME[10],DONG[11],MF[19],RetinexNet[20],Zero-DCE[21],KinD++[22]等算法进行对比实验。从LOL数据集中随机选取了2张图片,使用上述低照度算法和本文算法进行增强,分别从主观效果、客观数据、各模块的消融实验以及与单机平台的运行时间对比4个方面进行比较分析。
① 客观数据比较
为了比较性能,在实验过程中计算了各增强算法的PSNR,SSIM,LPIPS以作为客观评价标准,结果如表1所示。由表1可以看出,本文算法的PSNR值最高,SSIM值也最大,说明本文算法在对低照度图像进行亮度增强的同时对噪声也有很好的抑制,增强后的图像质量高,与真实数据更为接近。针对LPIPS值,本文算法也取得了最好的效果,说明本文算法相比于其他算法增强后的图片视觉效果好,更符合人类的感知情况。
表1 图像客观评价指标对比Tab.1 Comparison of image objective indexes
② 主观效果比较
2个具有挑战性的案例视觉对比如图3所示。
(a)测试图1实验结果对比
(b)测试图2实验结果对比图3 图像结果细节对比Fig.3 Detailed comparison of images
二者整体光线较暗且包含丰富的颜色细节信息。MSRCR算法与LIME算法相比,前者增强后的图像亮度较高但出现了颜色失真,后者增强后的图像整体偏暗,二者都在增强亮度的同时放大了噪声,导致图像整体不真实,增强效果不理想,与真实数据有很大差距。Dong算法图像整体色彩相较于LIME算法有很大提升,且相较于MSRCR算法,图像颜色细节也更加丰富,但增强亮度的同时依旧放大了噪声。MF算法增强后的图像整体亮度是所有算法中最低的,对低光照图像的色彩恢复能力也有限,同时也放大了噪声,导致增强后的图像产生大量噪点。RetinexNet算法增强后的图片亮度提升明显,色彩鲜艳,且图像较为平滑,但增强后的图像曝光过强,存在一定的噪声。Zero-DCE算法增强图像的同时对噪声抑制得较好,增强后的图像比较平滑,但亮度增强能力有限,对极低光照图像增强效果较差,色彩恢复能力较弱。KinD++算法对色彩过度增强,有明显的失真现象,但噪声抑制效果较好,没有在增强亮度的同时放大噪声。本文增强算法增强后的图像色彩恢复好,亮度提升明显且没有出现过度曝光或欠曝光的现象,在增强亮度的同时对噪声也有很好的抑制,图像整体自然,与Ground Truth最为接近,视觉效果最好。
图像细节信息对比效果如图4所示,展示了测试图2中的2处细节信息,对测试图2中的手杖边缘还原度以及衣架重叠处恢复情况进行了比较。可以看出,本文算法增强后的图片细节清晰,衣架及手杖轮廓明显,没有伪影产生。此外,本文算法对噪声抑制也较好,增强后的图像较为平滑,没有明显噪声,颜色层次更接近真实数据,视觉效果最好。MSRCR算法在增强图片整体亮度的同时忽略了手杖的颜色细节,导致增强后手杖颜色与真实颜色差别较大。LIME算法在增强图像整体亮度的同时对手杖颜色恢复较好,且衣架边缘轮廓较为清晰,但手杖边缘明显产生了伪影,影响视觉质量。Dong算法对2处细节颜色恢复较为良好,衣架边缘轮廓也比较清晰,但是2处细节在亮度增强的同时也放大了噪声,产生了大量的噪点。MF算法在2处细节处恢复均较差,手杖色彩恢复较差的同时产生了模糊,衣架边缘断裂且细节丢失严重,图像噪声也被放大。RetinexNet算法对手杖颜色恢复较好,没有出现伪影,衣架边缘处轮廓清晰,对细节恢复较好,但同样在提升图像亮度的同时放大了噪声。Zero-DCE算法增强的图像在2个细节处表现都比较好,没有产生伪影,对噪声抑制也比较好,衣架处边缘轮廓清晰,但细节处整体亮度不足,对比LLIE效果差。KinD++算法对2处细节恢复较好,衣架边缘轮廓清晰,手杖色彩与真实数据较为接近,但在手杖处产生了明显的伪影,影响视觉质量。
图4 测试图2细节对比Fig.4 Detailed comparison of Test figure 2
③ 消融实验
为了证明基于云计算平台加速的时频域结合图像增强方法每个组件的有效性,进行了消融实验,如表2所示。只有时域增强子网络时,低照度图像的恢复效果最差,此时增强后的图像噪声多,PSNR低,与真实数据结构相似度低。加入并行化频域增强子网络时,PSNR,SSIM,LPIPS均有较大的提升。本文提出的基于云计算平台加速的时频域结合图像增强方法取得了最好的效果,各项参数都达到了最优,此时增强后的图像更加真实,噪声更少且与真实数据最为相似。
表2 各模块的消融实验Tab.2 Ablation experiment of each model
④ 与单机平台的运行时间比较
为了体现基于云计算平台加速的时频域结合图像增强方法的优势,选择单机平台进行对比实验,计算它们平均每个Epoch的训练时间,实验结果如图5所示。由图5可以看出,云平台训练时间明显少于单机平台,本文提出的基于云计算平台的专有加速模块比单机平台减少了53.1%的训练时间。
图5 云计算平台和单机平台的运行时间比较Fig.5 Running time comparison between cloud computing platform and stand-alone platform
3 结束语
为了解决LLIE问题,提出了一种新的基于云计算平台加速的时频域结合LLIE方法。该方法同时兼顾时域与频域信息,边缘节点负责将采集到的低光照图像使用传统方法进行预增强,然后将预增强后的低光照图像通过离散小波变换分解为高频分量和低频分量。中心节点负责对边缘节点处理后的数据进行增强、融合,输出增强后的图像。经过主观效果比较分析,本文提出的低光照图像算法在亮度增强、色彩恢复、噪声抑制以及图像平滑方面均优于其他方法,增强后的图像质量更高,更符合人类感知情况。客观指标PSNR,SSIM以及LPIPS的值也表明本文算法优于其他方法。与单机平台相比,基于云计算平台的专有加速模块有效减少了53.1%的训练时间。但本文算法增强的低光照图片在细节恢复方面仍有很大提升空间,这也是今后主要攻克的问题。