一种改进的多尺度融合并行稠密残差去噪网络

2021-04-12罗静蕊岳广德

小型微型计算机系统 2021年4期

王婕，罗静蕊，岳广德

1(西安理工大学自动化与信息工程学院，西安 710048) 2(西安交通大学数学与统计学院，西安 710049)

1 引言

在图像采集和传输过程中，原始图像往往受到系统设备和传输通道所引入的噪声影响，导致图像有效信息的丢失，进而影响后续的图像分析和处理，如图像分割，目标识别，边缘提取等.因此，图像去噪技术在获得更高质量的数字图像方面发挥着重要作用.传统的图像去噪技术根据噪声信号的统计和分布特性可以分为空间域方法和变换域方法.空间域方法用于处理二维空间域中的噪声，例如高斯滤波方法[1，2]，双边滤波方法[3，4]和中值滤波方法[5，6]等.变换域方法指的是使用一组正交函数将原始图像分解到变换域中进行分析，例如小波变换方法[7，8]，多尺度几何分析方法[9，10]和偏微分方程方法[11，12]等.上述方法在图像去噪领域发挥了重要作用，但需要手动调整参数以获得更好的结果；此外，随着图像噪声逐渐增大，会出现过拟合和自由度过大问题，造成去噪后图像纹理细节丢失，产生模糊效果[13].

近年来，神经网络得到迅速发展并广泛应用于图像处理领域，如图像分类[14-16]，目标检测[17，18]，动作识别[19，20]等.基于神经网络的图像去噪方法也得到迅速发展并取得了不错的效果.使用神经网络的图像去噪方法有很多种，比如基于脉冲耦合神经网络模型(PCNN)[21]、模糊神经网络模型(FNN)[22]、卷积神经网络模型(CNN).

最近，卷积神经网络(CNN)得到越来越多的发展和应用.文献[23]在多层感知机(MLP)的基础上提出了经典的CNN模型，在具有更好的性能的同时网络参数数量大大减少.CNN被广泛应用于目标检测[24，25]，人脸识别[26，27]和文本分类[28，29]等领域中.最近几年CNN也被广泛应用于图像去噪领域.文献[30]采用梯度学习的卷积网络来恢复含噪的图像.文献[31]提出了一种易于数值计算的基于卷积积分的图像去噪变分模型，该模型在提高图像信噪比的同时，可以更好地保持图像的细节信息.文献[32]提出生成对抗式卷积神经网络(GAN)应用于图像去噪，取得了不错的效果.文献[33]提出了一种具有残差块的残差网络(ResNet)结构，有效地解决了网络在训练过程中可能出现的梯度消失和梯度弥散问题.文献[34]采用9层卷积神经网络进行混合噪声的去除，对不同类型、不同强度的含噪图像进行了去噪处理，在主观视觉效果和客观指标上均取得良好的效果.文献[35]使用一种迭代非盲解卷积的完全卷积网络，可以保留图像的细节和纹理信息.文献[36]提出了一种由卷积子网和反卷积子网构成对称式网络结构，通过卷积子网学习图像特征，并通过反卷积子网根据特征图恢复原始图像.文献[37]提出了去噪卷积神经网络(DnCNN)，可用于处理未知噪声水平的含噪图像，与MLP以及三维块匹配(BM3D)等传统去噪方法相比大大提高了去噪性能.文献[38]在卷积神经网络的基础上引入残差优化，解决了卷积神经网络在层数较多时，梯度在传播过程中逐渐消失的问题，该方法在有效去除乘性噪声的同时，可以更好地保留图像的轮廓和纹理区域的信息.文献[39]提出了不同深度的多分支自编码器卷积网络，该网络在图像细节不明显的情况下可以更好地学习图像细节.文献[40]提出了一种多尺度扩张卷积神经网络(MDCNN)，该网络通过使用不同尺度的卷积核提取图像的有效信息，可以有效地恢复图像的轮廓和纹理信息.文献[41]提出了一种以原始三维数据为输入的端到端三维去噪卷积神经网络(3-D-DnCNN)，实验证明该网络可以有效地抑制高斯噪声.文献[42]提出了一种基于改进联合损失函数的卷积神经网络图像去噪算法，实验表明该算法可以有效地提高强噪声环境下的图像去噪能力.文献[43]提出深层残差神经网络(DRCNN)用于图像高分辨率重建，实验表明该网络可以恢复更多的图像细节.文献[44]利用尺度感知边缘保护滤波器对图像进行细节恢复处理以更好地保留高频信息.文献[45]提出了一种多尺度门控融合网络(MGFN)来进行图像去噪，该网络可以直接学习从损坏图像到真实图像的端到端映射，能较好地恢复图像纹理信息.

为了进一步提高对图像边缘和纹理信息的恢复，本文提出一种改进的多尺度特征融合稠密残差去噪神经网络框架.本文使用一种并行网络结构以结合不同深度的图像信息.网络中的每个分支由一些堆叠的残差稠密块构成，并且残差稠密块之间使用不同距离的远程跳跃连接以克服网络训练过程中出现的梯度消失和梯度弥散问题并提高网络训练性能.另外通过将图像的浅层特征和深层特征进行组合，并在每一分支内部各自接入多尺度特征融合模块以获取不同深度下的多尺度图像特征信息.最后，采用残差学习策略进一步增强网络去噪性能.本文首先介绍所提出的网络框架，然后通过不同方法的对比实验证明所提出网络的有效性.

2 基于多尺度融合的并行稠密残差网络结构

传统的卷积神经网络由多个卷积层构成，卷积层的数表示网络深度.理论上，随着网络深度的增加，对于噪声的抑制效果更好，但在实际中过深的网络会出现性能退化的问题，残差网络(ResNet)[33]的提出有效的解决了这一问题.ResNet网络结构如图1(a)所示，网络由连续多个残差块(RB)堆叠而成.文献[33]指出每个RB由一个或多个卷积层构成，通过加入跳跃连接使网络更易优化，如图1(b)所示为RB的结构示意图.每个RB可由公式(1)表示：

(1)

图1 (a)ResNet结构，(b)残差块(RB)结构Fig.1 (a)Structure of ResNet，(b)Structure of Residual Block(RB)

在传统ResNet网络的RB模块中，只有输入端与输出端之间引入了跳跃连接.为了进一步改善网络性能，以解决网络训练时出现的梯度消失和梯度弥散问题，本文首先使用改进的引入稠密连接的残差稠密块(RDB).RDB模块具体结构如图2放大部分所示，可以看到，RDB模块中不仅包含输入端与输出端之间的远程跳跃连接，而且在各卷积层之间引入不同距离的稠密跳跃操作.每个RDB可由公式(2)表示：

(2)

如图1(a)所示的ResNet网络是一个端到端的压缩-解压缩结构，残差块的数量反映了网络的深度，较深的网络可以更有力地抑制噪声，但是会导致原始图像信息的损失；较浅的网络可以保留更多的原始图像信息，但是不能很好地抑制噪声.为了解决上述问题，本文使用具有不同深度的并行分支，将图像的浅层特征和深层特征进行组合，使网络可以同时学习如何有效地抑制噪声以及如何保留更多有效的图像信息.

由于大多数复杂图像中存在轮廓和纹理的混合信息，这种情况下，使用单一尺度的卷积核往往不能提取不同尺度的图像信息，导致图像轮廓信息或者纹理信息的丢失.为了解决这一问题，本文使用多尺度特征融合的方法来提取不同尺度的图像特征.本文所采用的多尺度特征融合块(MFFB)结构如图2放大部分所示，包括4组卷积核，大小分别为1×1，3×3，5×5和7×7.每组由32个卷积核组成，通过合并操作后共有128个卷积核.MFFB通过处理来自前一层的特征图来提取图像的多尺度信息，之后将4组多尺度信息组合在一起以获得输出特征图.与传统的单尺度卷积运算相比，多尺度特征融合方法可以更好地对图像轮廓信息和纹理信息进行同时恢复.本文在使用具有跳跃连接与稠密连接残差块的并行分支基础之上，在每一分支内部接入上述 MFFB模块，以获取不同深度下的多尺度图像特征信息.最后采用残差学习策略进一步增强网络去噪性能.

通过上述操作，本文提出一种改进的多尺度特征融合并行稠密残差网络，网络结构如图2所示.网络输入为含噪声的彩色图像，被分成红(R)，绿(G)和蓝(B)3个通道.网络包括上下两个不同深度的分支，上分支包括3个RDB，下分支包括5个RDB，且各RDB模块之间使用不同距离的远程跳跃连接.两个分支经过连续多个RDB后各自接入一个MFFB，以获取不同深度下的多尺度图像特征.上下分支的起始层和末尾层均由一个卷积操作构成.随后，上下两个分支的输出通过合并操作后再次连接到另一个MFFB模块，以进一步提取图像的多尺度特征信息.输出的多尺度特征信息经过一个卷积操作，并且通过残差学习得到三通道的去噪图像.除MFFB模块之外，网络中的各卷积操作由相同数目的卷积核组成，本文设置卷积核的个数为64，大小为3×3.

图2 多尺度融合并行稠密残差网络结构(残差稠密块(RDB)与多尺度特征融合块(MFFB)见图中放大区域)Fig.2 Structure of parallel dense residual denoising network based on multi-scale fusion(The Structure of Residual Dense Block(RDB)and the structure of Multi-scale Feature Fusion Block(MFFB)were showed in the zoomed of the figure)

本文所使用的残差学习策略的网络损失函数可表示为：

(3)

式中xn和yn分别表示原始图像和含噪图像，(yn-xn)表示真实残差图像，f(yn；θ)表示网络的输出.网络的学习目标是xn和yn之间的差值，即噪声信号，因此网络输出是预测的噪声分布.最终的去噪图像可以通过含噪图像与残差图像的差值得到.本文使用Adam优化器来优化网络参数，通过求解公式(3)中的最小值问题，可以获得去噪图像的最佳预测结果.

ResNet采用标准整流器线性单元(ReLU)将整个系统转换为一个非线性系统，以提高网络的表达能力和梯度计算的稳定性.ReLU激活函数可表示为：

ReLU=max(0，a)

(4)

式中a表示网络中任意一层的输出向量.网络中输入数据在经过一系列非线性处理后，很容易导致数据分布的变化.因此本文对每个卷积层引入批量归一化操作(BN)以减慢内部协变量的传递并降低网络对初始化权重的敏感性，可以加速收敛并提高网络性能.

3 数值实验

本节通过数值实验说明所提出网络的性能，网络在Tensorflow环境中进行训练，安装环境为拥有Nvidia GeForce®MX250 GPU和Inter Core i5-8265U CPU的计算机.

3.1 数据集准备

本文所使用图像来自BSD300数据集，该数据集包含大小为256×256像素的彩色图像.选择其中200张图像来生成训练集，并加入高斯白噪声进行训练.在实际中，数据通常非常珍贵，因此需要充分利用有限的数据资源.本文使用数据增广操作，如裁剪，旋转和颜色亮度变化等达到增加图像数量的目的.首先对每幅所选图像进行1、0.9、0.8、0.7倍的放缩，然后使用滑动窗口将缩放的图像裁剪成尺寸为40×40像素的小块图像，滑动窗口在水平和垂直方向上的滑动步长均为20个像素点.随后将获得的小块图像依次进行垂直翻转、水平翻转、顺时针旋转90°、180°、270°的数据增广操作，为网络构建一个足够充分的训练集.

通过上述的数据增广操作得到38280幅不含噪声的原始图像，随后将高斯白噪声添加到原始图像中生成含噪图像.为了测试噪声强度对网络性能的影响，添加具有不同标准差σ的噪声来生成不同的训练集，即将σ= 10，20，…，60的高斯白噪声分别添加到原始图像中以生成不同噪声强度的训练集.在训练过程中训练图像被分批输入，以减少计算量并避免局部极值问题.在本文中将批量大小(即每一步训练的图像数量)设置为256，迭代次数为120次.每次迭代包含150步，因此共有18000步.

为了定量评估网络性能，使用彩色峰值信噪(Color Peak Signal to Noise Ratio，CPSNR)和结构相似性指数(Structrual Similarity Index，SSIM)作为衡量去噪结果的标准.CPSNR[46]定义为：

(5)

式中x(h，w，t)和z(h，w，t)分别表示原始图像x和去噪图像z的第t个颜色通道中坐标位置为(h，w)的像素值.H和W分别表示图像的长和宽.

SSIM[47]用于测量两个图像之间的相似性，定义为：

(6)

式中μx和σx分别表示原始图像x的均值和标准差，μz和σz分别表示去噪图像z的均值和标准差，σxz是x和z之间的协方差.C1和C2是用于保持方程稳定的两个常数，通常设置为C1=(K1×K)＾2，C2=(K2×K)＾2，其中K1=0.01，K2=0.03，K=255.

3.2 不同去噪方法的对比

本节通过对比不同去噪方法证明所提出网络的有效性.进行对比的方法分别有中值滤波方法、小波变换方法、维纳滤波方法、BM3D、DnCNN[37]、ResNet[33]、MDCNN[40]及DRCNN[43].其中，DnCNN、ResNet、MDCNN、DRCNN与本文方法属于神经网络方法.使用的测试图片(如图6所示)不包含在训练集中，测试图片大小为256×256像素.

表1和表2分别显示了在不同噪声强度干扰下，采用几种方法进行去噪的CPSNR(dB)指标和SSIM指标的对比结果.可以看出，本文所提出方法的CPSNR和SSIM指标高于其它几种方法，说明本文方法的去噪性能优于其它几种方法.为了进一步更明显的显示对比结果，图3和图4分别给出了当噪声标准差分别为30和50时，不同网络结构的CPSNR和SSIM指标随着迭代次数变化的情况.可以看出多尺度融合的并行残差稠密网络相比于其他两种网络CPSNR指标和SSIM指标更高，从而可以反映出改进的网络性能更优异.图5呈现了DnCNN、ResNet、MDCNN、DRCNN与本文方法的网络损失函数曲线随迭代次数的变化，图中网络损失值已归一化.从图中可以看出随着迭代次数的增加，本文方法相比于DnCNN、ResNet、MDCNN、DRCNN方法网络损失更小.

表1 不同方法的CPSNR(dB)对比结果Table 1 Comparison of CPSNR(dB)from different methods

表2 不同方法的SSIM对比结果Table 2 Comparison of SSIM from different methods

图3 标准差为(a)30和(b)50时5种网络结构CPSNR(dB)随迭代次数变化的对比结果Fig.3 Comparison of the CPSNR(dB)from five network structures with the number of iterations for(a)σ=30，(b)σ=50

图4 标准差为(a)30和(b)50时5种网络结构SSIM随迭代次数变化的对比结果Fig.4 Comparison of the SSIM from five network structures with the number of iterations for(a)σ=30，(b)σ=50

图5 网络损失随迭代次数变化的对比结果Fig.5 Comparison of the loss with the number of iterations

图6直观显示了在噪声标准差分别为30和50时，不同方法的去噪图像对比.图中将方框标记部分进行了局部放大，并在左上角显示了局部放大结果.另外，图中还展示了去噪图像与原始图像的残差图像.可以看出，本文方法对图像有效信息的损失更少，重建图像的视觉质感更好，且恢复的图像纹理和边缘信息更清晰，具有更好的去噪性能.

图6 不同噪声强度下不同方法去噪结果对比Fig.6 Comparison of denoised results from different networks for different noise

4 结论

本文提出了一种改进的多尺度融合并行残差稠密去噪网络架构，在具有不同深度的网络分支内部使用具有不同距离的跳跃连接和稠密连接的残差块，以解决网络梯度消失和梯度弥散的问题.对图像的浅层特征和深层特征进行组合，并在每一分支内部各自接入多尺度特征融合块以获取不同深度下的多尺度图像特征信息.此外，通过引入残差学习策略并添加BN操作以进一步提高网络性能.本文使用具有不同标准差的高斯白噪声创建训练集，利用CPSNR和SSIM值进行网络性能评估.数值算例证明了本文所提出方法的有效性，与各种不同的去噪方法相比，本文所提出的网络在恢复图像边缘信息和纹理信息方面具有更好的性能.在今后的工作中将着重研究混合噪声情况下的网络去噪性能.