APP下载

基于多通道GAN 的图像去噪算法

2021-04-09王洪雁杨晓姜艳超汪祖民

通信学报 2021年3期
关键词:残差损失像素

王洪雁,杨晓,姜艳超,汪祖民

(1.浙江理工大学信息学院,浙江 杭州 310018;2.大连大学信息工程学院,辽宁 大连 116622;3.五邑大学智能制造学部,广东 江门 529020)

1 引言

近年来,图像处理技术的快速进步,使其在医学影像、卫星遥感以及智能监控等应用领域获得持续关注。高质量图像是保证后续有效处理的前提,然而采集及传输过程中图像不可避免地被噪声所污染,从而影响后续图像分类、识别等任务完成的可靠性。因此,如何在不破坏图像原有特征的条件下最大限度地去除噪声以尽可能恢复原始图像是目前图像处理领域的热点问题之一[1]。

针对此问题,众多有效去噪算法相继被提出,常见去噪算法通常可分为以下2 类。1) 基于传统滤波器去噪。其基于图像及噪声的统计及结构约束设计滤波器实现去噪。其中,文献[2]首先提出用于去除低密度噪声的中值滤波器(MF,median filter),该滤波器对高密度噪声适用性较差。基于此,文献[3]提出可高效滤除高密度噪声的自适应中值滤波器(AMF,adaptive median filter),由于该滤波器使用固定窗口尺寸,对于具有不同噪声密度的图像无法自适应调整窗口阈值,因而导致图像模糊。需要注意的是,上述滤波器仅利用噪声统计信息而较少考虑图像自身相关结构及统计约束,且卷积核设置不同将导致卷积过程丢失部分有用信息[4]。针对此问题,文献[5]提出k 均值奇异值分解(k-SVD,k-means singular value decomposition)方法,利用离散余弦变换构造字典,并基于奇异矩阵更新字典参数。然而,该方法仅基于当前图像块恢复图像,没有考虑其他相关区域信息,从而导致纹理细节丢失。针对上述问题,基于图像非局域及稀疏性,文献[6]提出三维块匹配滤波(BM3D,block-matching and 3D filtering)方法,基于硬阈值及维纳滤波联合去噪,可较好地保留图像细节,然而其需要同时考虑多图像块匹配,因而计算复杂度较高。2) 基于特征学习去噪。此类方法通过学习含噪与去噪图像之间映射关系实现去噪[4]。其中,基于卷积神经网络(CNN,convolutional neural network)权值共享、稳健性强、特征有效表达等优势,文献[7]将CNN 用于图像去噪,然而其去噪效果严重依赖特征提取深度,即基于浅层网络则泛化能力较差,基于深层网络尽管去噪性能较好但计算复杂度较高。针对此问题,文献[8]提出的前馈去噪卷积神经网络(DnCNN,denoising convolutional neural network)将残差思想应用至图像去噪,在提取深度特征时将低级特征信息作为参考,并引入批量归一化(BN,batch normalization)调节网络以提升网络收敛速度,从而高效获取残差图像,显著改善去噪效果。2015 年,Ronneberger 等[9]提出利用U-net 实现有效语义分割,该网络由如下两部分构成:扩张路径用于精准定位;收缩路径用于获取上下文信息。基于此架构,U-net 可实现高效像素级分类,由此,文献[10]基于此网络实现图像去噪。此外,文献[11]通过并行训练多通道自编码器以估计各通道最优权重,从而实现自适应图像去噪。上述算法皆基于开环网络,为使输出结果可反馈调节网络,从而改善去噪性能,Divakar 等[12]于2017 年基于闭环思想提出利用对抗原理训练去噪网络,去噪模型包括生成及判别网络,通过将判别结果反馈至生成网络以改善去噪效果。文献[13]提出的去噪模型中生成及判别网络均采用浅层卷积网络,其损失函数建模为像素及对抗损失,相比上述学习模型,该方法去噪效果较好,然而直观可感知细节即主观信息仍有明显丢失。针对此问题,文献[14]联合感知及对抗损失,基于预训练几何组特征差异衡量去噪效果,该方法表明感知损失更利于提升主观感知。为进一步提升去噪性能,文献[15]采用如下复杂生成网络,包含收缩路径及具有短接连接的扩展路径,基于二维小波分解与重构实现上下采样,小波分解后接高通滤波器直接跳转至扩展路径,并连接收缩路径,从而尽可能地保留图像细节,然而上述结构在改善去噪效果的同时也使计算复杂度显著增加。

针对上述问题,本文提出基于生成对抗网络(GAN,generative adversarial network)的多通道图像去噪算法。所提算法首先分离彩色图像RGB 三通道;其次利用U-net 衍生网络及残差块构建生成模块以有效提取图像特征;再次基于全卷积神经网络构造对抗模块;最后基于均方误差(MSE,mean square error)损失、感知损失及对抗损失构建复合感知损失函数,以改善去噪性能同时有效保留图像的细节信息。

2 去噪相关工作

图像去噪的目的是由含噪图像恢复相应原始图像,具体地,令f∈RN×N和u∈RN×N分别表示含噪图像和对应的原始未污染图像,二者之间的关系为

其中,O为含噪空间至原始空间的映射函数。

传统去噪方法中映射函数通常基于空域或变换域构造。空域去噪直接作用于像素,常用去噪方法包括均值及中值滤波,其利用某像素邻域均值/中值替换此像素值。然而,空域去噪方法噪声普适性较差且图像细节易丢失。针对此问题,变换域去噪方法被提出,其基于傅里叶变换或小波变换等方法映射空域图像至变换域以利于有效分离噪声,从而提升去噪效果[16]。

相较于基于图像像素及其变换域的传统去噪方法,基于学习的去噪方法则利用训练所得模型获得图像及噪声统计信息,从而构造含噪图像至去噪图像的映射关系,进而实现去噪[17]。典型的基于学习的去噪模型包括基于BN 及残差学习以加速训练过程,从而提升去噪性能的DnCNN,以及融合编解码结构与跨层连接,以加速网络收敛的卷积编码器[18]。需要注意的是,上述基于学习的去噪模型皆为开环结构,因而无法将输出结果反馈至模型,以提升其去噪性能。针对此问题,基于闭环结构的对抗学习思想被引入去噪领域,以充分利用输出结果改善去噪模型有效性,进而提升去噪效果。

作为对抗学习模型的典型代表,GAN 广泛应用于去噪领域,其由生成器G 和判别器D 构成,结构如图1 所示。其中,生成器G 接收含噪图像,并对其预去噪以生成图像G(f) ;判别器D以原始图像u及G(f) 为输入,其输出赋予原始图像较高值、生成图像G(f) 较低值。基于所构造损失函数迭代训练G 和D,迫使G(f) 渐次逼近真实图像,最终使D 无法准确区分原始及生成图像,从而完成去噪。常用目标函数为二者极大极小值博弈,即

其中,E(·) 为期望算子,logD(u)为判别器D 正确识别真实图像的概率,log(1 -D(G(f)))为D 将生成图像识别为虚假图像的概率。基于此对抗损失,可反向调节生成器及判别器,以改善去噪性能。然而,此对抗损失易导致高频伪影,且无法保持主观特征信息。

图1 生成对抗网络结构

3 所提图像去噪算法

所提算法将含噪图像分离为RGB 三通道,各通道具有相同网络结构,以尽可能保持特征融合后分通道细节信息。以单个通道为例,所提算法框架如图2 所示。生成器G 以含噪图像为输入,输出为去噪图像;判别器D 以原始及去噪图像为输入,输出为[0,1],表征去噪与原始图像的相似性。基于所构造的复合感知损失交替迭代训练判别及生成网络,最后加权融合各通道输出,以获得最终去噪图像。

3.1 生成网络

图2 所提算法框架(以RGB 中单个通道为例)

生成网络是基于GAN 去噪网络的核心部分,图像去噪性能较大程度上依赖于生成网络。如前所述,U-net 为具有编码/解码器结构的全卷积神经网络。与普通编解码结构相比,U-net 的优势在于具有跳跃连接,能将编/解码器特征图按通道拼合,因而可保留具有不同分辨率的像素级细节信息[19]。此外,ResNet 由于残差块间跳跃连接可避免梯度消失,从而可显著提高网络收敛速度。由此,本节利用U-net 衍生网络以及ResNet 构建生成网络,在U-net 基础上引入部分具有跳跃连接的残差块,通过编码器、解码器及残差块的处理,尽可能地保留图像信息,同时不显著增加计算复杂度,最后通过损失函数迭代调整网络。生成网络结构如图3 所示,其中,k、n和s分别表示卷积核大小、滤波器数和卷积步长。

生成网络中,编/解码器采用对称卷积操作以保证图像输入/输出维度相同;第一层和最后一层卷积核尺寸为7 ×7,其他层卷积核大小为3 ×3,步长设置为1 以捕捉更多细节信息;各卷积层后接BN 以提升学习率,从而加快网络训练速度;各BN 后接激活函数ReLU[4];最后一层以tanh()· 为激活函数以缓解梯度消失效应,从而保证训练稳定性;此外,生成模块中还加入9 个残差块,在保证去噪效果的同时有效保留图像低阶特征。

3.2 判别网络

判别网络基于全卷积神经网络构建,其将传统CNN 中全连接层替换为卷积层,以消除输入图片尺寸限制。判别网络以生成网络产生的伪图像G(f)和原始图像为输入,判别网络结构如图4 所示。判别模块包含5 个卷积层,每层卷积核大小为4 ×4,步长为2 且滤波器个数依次为64、128、256 及512;除最后一层外,其他层皆后接BN 及非线性激活函数LeakyReLU,以避免ReLU 神经元“死亡”[20]。输出采用Sigmod 函数以便于概率分析并将判别结果归一化[21],此输出表征输入图像与原始未污染图像的相似程度,数值越高,表明输入图像越接近原始干净图像;反之,则接近生成图像。

3.3 损失函数

为训练所构建的生成及判别网络以改善去噪性能,同时尽可能保持原始图像细节特征,本节基于可度量生成对抗网络性能的对抗损失、表征主观信息的视觉感知损失和表述像素间一致性的MSE 损失[22]这3 类损失度量,构造可体现去噪效果、内容完整性以及主观视觉效果的复合损失函数。

3.3.1 对抗损失

基于训练数据集,最小最大化如式(2)所示的对抗损失,以获得最优生成及判别网络,从而提升生成网络的生成图像与原始图像之间的相似性,进而改善图像去噪性能。

图3 生成网络结构

图4 判别网络结构

3.3.2 MSE 损失

对抗损失虽然可有效调节生成及判别模块,但是易导致高频伪影。由于MSE 所具有的均值回归特性可保证像素间良好的一致性,因此可有效缓解细节平滑效应。MSE 损失可表示为

3.3.3 感知损失

图像处理中细节信息完整性尤其重要,然而基于上述MSE 损失训练网络易产生图像模糊,从而导致主观信息缺失[23]。由于感知损失可度量生成及原始图像在感知特征空间的距离,而不仅局限于像素空间[24]。因此,可基于如下感知损失有效保持主观特征信息

其中,φ为预训练VGG-19 网络的最后卷积层输出。通过将原始图像与去噪图像分别输入预训练VGG-19 网络,以获取各自图像特征,从而衡量二者感知特征损失。

3.3.4 复合感知损失函数

综上所述,基于GAN 构建的去噪网络的复合感知损失函数可表示为

其中,λ1、λ2和λ3分别表示各损失权重,其可基于实验设置。

3.4 融合模块

所构建去噪网络中的融合模块采用空域图像融合算法,即加权平均法。设三通道加权系数分别为wA、wB、wC,且满足w A+wB+wC=1,则融合图像像素F(i,j)可表示为

加权系数可通过诸如最大、最小、平均以及主成分分析(PCA,principal componentanalysis)等方法[24]设置。若令wA、wB和wC分别为δ(A(i,j) -max(A(i,j),B(i,j),C(i,j)))、δ(B(i,j)-max(A(i,j),B(i,j),C(i,j)))和δ(C(i,j) -max(A(i,j),B(i,j),C(i,j))),则表示三通道基于像素取大原则融合;类似地,若令δ(A(i,j) -min(A(i,j),B(i,j),C(i,j)))、δ(B(i,j) -min(A(i,j),B(i,j),C(i,j)))和δ(C(i,j) -min(A(i,j),B(i,j),C(i,j))),则意味着三通道基于像素取小准则融合,其中,max(·)、min(·)和δ(·)分别表示极大值算子、极小值算子和狄拉克函数。由于所构建的去噪网络无差别处理三通道信息,因此为了尽可能保持图像原有的细节信息,本文采用算术平均法融合三通道信息,即。

4 实验结果分析

基于2020 年阿里天池算法挑战赛所提供的图像数据集,本节通过将所提算法与 BM3D[6]、DnCNN[8]、RED-WGAN[11]、WGAN-VGG[14]、MSRResNet-GAN[25-26]及DUGAN[27]等算法进行对比,在人类主观感知及客观评价方面验证所提算法的有效性。所用数据集分为8 个类别,每个类别包含160 张图片,所采用图像均具有丰富的纹理及边缘特征,因而去噪难度较大。为充分验证所提算法的去噪效果,本节在训练图像中分别添加密度为15%、25%、35%的椒盐噪声。

4.1 实验环境配置

网络设置如下。生成器由15 层CNN 构成,如图3 所示,其中包含9 层残差网络,编/解码结构中卷积核大小分别设置为7 ×7、3 ×3、3 ×3、3 ×3、3 ×3、7 ×7 ;判别器基于全卷积神经网络构建,如图4 所示,卷积核大小设置为4 ×4 。训练过程中,批处理大小为64,采用Adam 算法更新梯度,学习率为0.001,动量值为0.9,权值衰减为0.000 01。为增加训练样本数,可对训练数据随机添加类别、密度各异的噪声以增加模型泛化能力。

实验硬件环境为处理器Intel Core i7-7700,主频3.60 GHz,内存12 GB,NVIDIA TITAN XP;软件环境为Window10 64 bit、Python3.6、TensorFlow。

4.2 评价指标

去噪效果主要从视觉主观感受及修复逼近程度2 个方面衡量。视觉主观感受表征人类视觉对去噪图像所感知主观信息的保留程度;修复逼近程度表征去噪与标准图像之间的偏差,偏差越小,表明逼近程度越高,去噪效果越好。通常采用峰值信噪比(PSNR,peak signal to noise ratio)和结构相似性指数测量(SSIM,structural similarity index measurement)作为定量指标。其中,PSNR 评估去噪与真实图像间像素差异,用于衡量整体去噪性能;SSIM 权衡图像间结构差异,用于表征细节相似程度[28]。PSNR、SSIM 数值越高,表明图像还原度越高。PSNR 可表示为

其中,MSE表示原始图像与去噪图像间的均方根误差。

基于指标亮度(L,luminance)、对比度(C,contrast)以及结构(S,structure),可计算SSIM 为

由式(7)可知,MSE 降低则PSNR 增加,表明图像修复程度越高,去噪效果越好。由式(9)可知,SSIM 从L、C、S三方面度量图像相似性,取值范围为[0,1],其值越大,表明图像失真越小。

4.3 实验结果

4.3.1 去噪效果

图5 为所提算法及对比算法的去噪效果,对应的PSNR 和SSIM 分别如表1 和表2 所示,其中,加粗字体表示最高值,下划线表示次高值。由图5(c)可知,BM3D 虽可有效去除噪声,但其在联合滤波及逆变换过程中易产生细节平滑,从而造成信息丢失,导致图像模糊;由于DnCNN 卷积中采用固定滤波窗口提取特征且无补充信息结构,因此易产生如图5(d)所示的部分高频信息丢失现象;相较于上述算法,MSRResNet-GAN 所得去噪图像边缘较锐化,然而由于其缺乏特征重建结构,从而导致如图5(e)所示的图像特征缺失;再者,WGAN-VGG基于对抗及感知损失调节模型参数,虽可较大程度地保留图像细节,但易产生部分高频伪影;此外,RED-WGAN 及DUGAN 分别采用典型编/解码结构及残差块构建去噪网络,因而可保持相对较完整的主观信息,但由于此二者均采用跨层连接融合像素,因此导致去噪效果易产生如图5(g)和图5(h)所示的模糊化现象;相较于上述模型,所提算法综合利用编解码结构及残差块的优势构建基于GAN 的去噪网络,且构造可体现去噪效果、内容完整性以及主观视觉效果的复合损失函数,因而可有效去除图像噪声,同时尽可能保持图像细节信息。

图5 不同算法去噪效果

表1 不同噪声密度下不同算法的去噪PSNR 值

表2 不同噪声密度下不同算法的去噪SSIM 值

由表1 和表2 可知,BM3D、DnCNN 的PSNR均值分别比所提算法低1.96 dB、1.84 dB,SSIM 分别低0.048 7、0.045 7,这可归因于BM3D 采用传统滤波器去噪,DnCNN 采用固定滤波窗口去噪;其次,MSRResNet-GAN 引入残差网络,因而在噪声密度为25%的Panda 图像中拥有次高值,PSNR均值比所提算法低0.55 dB,SSIM 均值比所提算法低0.026 2;再者,WGAN-VGG 由于采用完全卷积操作提取特征,其PSNR 均值比所提算法低0.6 dB,SSIM 均值比所提算法低0.022 7;由于RED-WGAN及DUGAN 利用自编码模型及残差网络提取特征,因而部分去噪性能优于所提算法,但所提算法PSNR 均值在噪声各异的条件下比RED-WGAN 和DUGAN 分别提高0.21 dB 和0.04 dB,SSIM 均值分别提高0.011 3 和0.004 6。综上所述,所提算法在视觉主观感受及图像修复逼近程度两方面皆有较好的去噪效果。

4.3.2 损失函数影响

图6 为所提算法基于如下损失函数的去噪效果:(a) L1 和感知损失(Percep);(b) 对抗(Wass)和感知损失;(c) 仅感知损失;(d) MSE 和感知损失;(e) MSE、对抗和感知损失。由图6(a)和图6(b)可知,基于L1 和感知损失以及对抗和感知复合损失虽可保持主观细节信息,但易导致图像高频信息丢失,如鸭爪部分高频特征明显缺失,此现象源于L1 损失仅衡量预测值平均误差且损失极小时梯度更新依旧较大,从而导致信息丢失;感知损失使网络训练更侧重于特征空间而忽略轮廓细节,且对抗损失仅保留噪声图像细节,易产生高频伪影。其次,由图6(c)可知,仅基于感知损失的去噪图像轮廓相比上述二者突出,然而由于其在输出图像特征抽取及表达时最小化组间差异,因而易导致部分高频伪影。再者,图6(d)基于感知损失保留主观特征信息可有效改善主观感知,然而其基于MSE 最小化生成去噪图像与原始图像差异易导致细节丢失。最后,由图6(e)可知,所提算法综合MSE、对抗和感知损失形成复合损失,从而可有效度量生成对抗网络去噪效果、表征主观信息、描述像素一致性,因此,所提算法可在有效消除噪声的同时保留图像主观细节信息。

图6 不同损失函数去噪效果对比(Duck)

表3 为不同损失函数去噪PSNR/SSIM 值。由于利用图像像素差异优化网络,因此基于MSE 损失调节网络易产生较高PSNR/SSIM 值。由表3 可知,综合MSE 和感知损失取得次高值,所提算法损失的PSNR 比其提升0.04 dB。综上所述,所提算法综合损失去噪效果优于其他组合损失。

表3 不同损失函数去噪PSNR/SSIM 值

4.3.3 运行时间

实验选取标准图像库中3 幅测试图像,并基于上述平台评估算法的平均运行时间,结果如表4 所示。由表4 可知,首先,传统去噪算法BM3D 速度明显快于基于深度学习的去噪算法,其原因在于BM3D 虽需存在图像块提取及搜索操作,然而代码经多次优化后计算复杂度显著下降,而基于深度学习的去噪算法则需要抽取图像深度抽象特征且迭代训练模型,以实现有效去噪,因而计算复杂度较高;其次,基于深度学习的去噪算法中,所提算法、RED-WGAN 运行速度快于DnCNN、MSRResNet-GAN、WGAN-VGG 和DUGAN,这主要是因为DnCNN、MSRResNet-GAN 和WGAN-VGG采用较耗时的常规特征提取操作,因而模型效率低下,而RED-WGAN 利用基于编/解码结构的高效生成模型抽取并整合特征信息,且所提算法结合U-net衍生网络及残差块实现跨层连接,从而保证提取高级特征的同时参考低级特征信息,进而可显著提升运行效率;再者,由表 4 可知,所提算法与RED-WGAN 运行时间较接近,然而由于所提算法采用多跨层连接的特征参考方法,因此平均耗时小于RED-WGAN;此外,上述算法中,DUGAN运行效率较低是因为其较大网络深度所导致的计算复杂度显著上升以及网络收敛性。

综上所述,所提算法基于U-net 及残差块互连的生成模块,以实现特征提取阶段细节信息的有效保持,同时提升模型运行效率,基于全卷积结构的判别模块可突破输入样本尺寸限制;其次,基于多通道GAN 模型并采用平均加权融合模块,以尽可能保持图像原有特征;再者,基于MSE、对抗和感知损失构造复合感知损失,以有效表征模型去噪损失,从而实现去噪效果的显著提升;此外,由于所提算法仅增加网络宽度而非深度,且引入可避免梯度消失提高收敛速度的残差模块,从而可显著缩小网络参数规模同时降低运行时间,进而可以较低计算代价获得较好去噪效果。

表4 不同算法的平均运行时间

5 结束语

针对传统去噪算法去噪性能不佳的问题,基于对抗学习模型,本文提出多通道融合图像去噪算法。所提算法利用U-net 衍生网络提取图像特征,并基于残差块跳跃连接融合像素级特征,进而有效保留图像细节信息;而后基于MSE、对抗和感知损失构建复合损失函数以迭代调节网络,使生成器与判别器达至纳什平衡,从而最大限度地去除图像噪声;最后基于算术平均加权融合三通道输出信息,以获得最终去噪图像。通过与BM3D、DnCNN、MSRResNet-GAN、RED-WGAN、WGAN-VGG 及DUGAN 这6 种主流去噪算法对比,验证所提算法的有效性。由客观评价可知,所提算法的PSNR/SSIM均值均高于对比算法,耗时高于BM3D,低于其他对比算法;由主观感受可知,相较于对比算法,多数场景下,所提算法主观视觉特征显著。

猜你喜欢

残差损失像素
赵运哲作品
像素前线之“幻影”2000
基于双向GRU与残差拟合的车辆跟驰建模
少问一句,损失千金
胖胖损失了多少元
基于残差学习的自适应无人机目标跟踪算法
“像素”仙人掌
基于递归残差网络的图像超分辨率重建
玉米抽穗前倒伏怎么办?怎么减少损失?
高像素不是全部