一种利用改进深度图像先验构建的图像降噪模型

2022-08-13徐少平陈孝国陈晓军江顺亮

电子学报 2022年7期

徐少平，李芬，陈孝国，陈晓军，江顺亮

（南昌大学数学与计算机学院，江西南昌 330031）

1 引言

近十年来，深度学习因其强大的非线性映射、特征学习与表达能力被广泛地应用于图像降噪领域，并取得了巨大成功［1，2］.以DnCNN（Denoising Convolutional Neural Network）［3］、FFDNet（Fast and Flexible Denoising convolutional neural Network）［4］和VDN（Variational Denoising Network）［5］为代表的基于深度神经网络（Deep Neural Network，DNN）的有监督降噪模型在降噪效果上较传统经典方法体现出显著优势.然而，基于有监督DNN 降噪模型要想获得令人满意的降噪效果，必须确保有大量的训练数据集，而且这些训练图像集应与待降噪的噪声图像y在图像内容以及受噪声干扰程度上必须近似.对于任意给定的噪声图像y，如果用于训练模型的图像集与噪声图像在受噪声干扰程度和图像内容上相差较大，DNN 降噪模型很难获得最佳的降噪效果.尤其是在训练图像采集困难的情况下，甚至连降噪模型都难以获得.因此，DNN 降噪模型具有数据依赖（data dependency）缺陷.

近年来，Dmitry 等人［6］基于DNN 网络提出了一种被称为深度图像先验（Deep Image Prior，DIP）的新型降噪模型.DIP 模型采用U 型编码器-解码器（encoderdecoder）网络架构作为骨干网络［6，7］获取噪声图像y中的底层统计特征（low-level statistics），以随机生成的张量（tensor）z作为网络输入，将网络输出图像与噪声图像y（作为目标图像）之间的均方误差（Mean Square Error，MSE）定义为Loss 函数.以Loss 函数值最小化为优化目标，在在线训练模式下通过不断调整网络的参数值，并采用早停（early stopping）技术［6］适时终止网络训练从而完成降噪任务，即基于噪声图像y获得关于无失真图像x的最佳估计.DIP 降噪模型仅利用噪声图像自身的信息实现降噪，并不依赖于特定的图像训练数据集（实际上无需训练图像），属于无监督降噪模型.与主流有监督DNN 网络模型相比，DIP 降噪模型中的网络参数值是与特定噪声图像相匹配的，不是固定不变的.所以，DIP 降噪模型最大的优势在于它没有数据依赖问题，具有一定的生成能力，不会像有监督降噪模型那样因使用固定不变的网络参数值而在降噪后图像中引入幻影（hallucinant）结构，且图像中某些局部图像细节可以得到更好地复原和保护.然而，DIP 降噪模型的降噪效果在整个图像全局上并不高，其降噪效果甚至有时候差于BM3D 算法［8］.为全面提高DIP 降噪模型的降噪效果和执行效率，本文从网络结构、网络输入和Loss 函数三个方面对其进行改进从而获得一种改进的深度图像先验（Improved Deep Image Prior，IDIP）降噪模型.

2 IDIP降噪模型

2.1 改进措施

本文从以下3个方面对DIP模型进行改进.

（1）网络结构.原DIP 模型采用了Skip 连接建立编码器-解码器中相同层级特征之间的联系，虽然可以减少下采样操作所引起的信息损失［9］，但Skip连接过于简单、描述能力不强.为了实现编码器-解码器同层级之间更为有效信息传递，IDIP 降噪模型通过新增非线性特征路径构成复杂连接的方式，允许解码器在利用编码器提取的底层图像特征时，让图像特征能被更为复杂的非线性过程处理，使得解码器在解析图像特征时具有更大的灵活性，从而为提高网络整体的非线性映射能力打下基础.

（2）网络输入.原DIP 降噪模型的输入是随机生成的张量z，随机张量z并没有提供任何关于降噪的先验信息，这使得DIP网络模型中参数值调整到达收敛点所需要时间非常漫长（迭代次数多，训练时间长）.这启示本文将DIP模型的输入（即随机张量z）替换为初步降噪图像，初步降噪图像采用某个主流降噪方法处理给定的噪声图像后获得，具有较高的图像质量.这种改进将原DIP 模型中随机张量z与最佳估计图像的映射关系改变为初步降噪图像与最佳估计图像，使得模型映射难度降低.

（3）Loss 函数.原DIP 降噪模型采用噪声图像y作为目标图像构建Loss函数，导向能力有限.为解决该问题，一个自然的想法就是给Loss 函数中新增一个子项，增加一个图像质量较高的图像参与构建Loss 函数以改善其导向能力.具体地，利用某个降噪效果比较好的主流降噪模型先对噪声图像进行降噪，降噪后所获得图像质量大为改进的图像称为初步降噪图像（作为第二个目标图像）.初步降噪图像的图像质量较噪声图像显著得到改善，故利用它参与构建Loss 函数可调整IDIP 网络模型演进方向，使得网络输出图像在图像空间中朝着更为合理的方向演进（即无失真图像x）.基于上述改进措施，所提出IDIP 降噪模型的体系架构如图1所示.下文就具体实现细节进行详细介绍.

2.2 网络结构改进

如图1 中复杂连接图例所示，E 和C 分别表示扩展（expanding）和联接（concatenation）操作.为了建立同层m∈RC×H×W特征与∈RC×H×W特征之间的复杂连接，分为以下三个步骤：（1）通过式（1）提取每个通道的统计信息fpool(·)；（2）通过式（2）中的全连接层fFC(·)使用提取的mean来挖掘特征通道间相互的关系；（3）通过式（3）将式（2）提取的特征与原DIP 模型简单直通路径联合并经卷积层融合后建立复杂连接，式（1）～（3）的具体定义为：

其中，fpool(·)表示平均池化操作，fFC(·)表示完全连接层，E(·)表示将ρ的空间维扩展到m维，C(·)是连接操作，Conv(·)表示卷积层.从图1 中给出的复杂连接实现中可以看出：复杂连接实际上是在原来简单连接的路径之外，又拓展了一个非线性映射路径，是增强扩展版本.与原DIP 模型相比，在IDIP 降噪模型中使用复杂连接可以缓解特征尺度变化而导致的信息丢失问题，模型所需要参数数量仅需增加约2.4%.

图1 IDIP降噪模型框图

为了分析引入复杂连接技术对IDIP 降噪模型所带来益处，在10张测试图像集上完成了对比实验（图像受σ=30 中等严重程度噪声干扰），改进后的模型记为IDIP-1（网络的输入和Loss 函数的设置与原DIP 模型相同）.由表1 可知：IDIP-1 模型的降噪性能在9 张图像上的降噪效果都优于DIP降噪模型，尤其是在图像内容比较复杂的Barbara 图像上，性能提升达到0.41 dB.尽管如此，IDIP-1降噪模型在降噪效果上相对于对DIP 模型而言，在均值和标准差两项指标上总体提升幅度并不是特别大，这表明对网络结构的改进有一定的效果，为后续网络的进一步改进打下了很好的基础.

表1 骨干网络的改进对降噪性能的影响(dB)

2.3 网络输入改进

初步降噪图像在IDIP 模型中作为网络输入替换了随机张量z.为分析这种改进对IDIP降噪模型所带来的益处，在常用测试图像上完成了测试.改进后的模型记为IDIP-2（即网络的输入为预处理图像，骨干网络中采用复杂连接，Loss 函数与DIP 模型相同）.由表2 可知：IDIP-2 模型的降噪性能显著优于DIP 降噪模型，PSNR 均值提升了1 dB 以上，同时标准差指标也大幅度减少了；IDIP-2 模型的降噪效果已经达到稍优于主流FFDNet 降噪模型的水平（提升了0.08 dB），这充分说明了利用初步降噪后图像xˉ作为网络的输入可以有效提高降噪性能.

2.4 Loss函数改进

IDIP网络采用了以下混合Loss函数：

其中，表示迭代第i次时IDIP 网络的输出图像，y代表噪声图像（第一个目标图像），表示经过FFDNet 模型处理后所获得的初步降噪后图像（即作为第二目标图像）.为了分析混合Loss函数的改进对IDIP模型所带来益处，将网络输入设置为初步降噪图像，骨干网络采用复杂连接，Loss 函数采用混合Loss 函数（上述配置即为本文所提出的IDIP 模型，Loss 函数仅采用噪声目标图像的模型为IDIP-2模型）.由表2可知，IDIP降噪模型的降噪性能明显优于IDIP-2 降噪模型，PSNR 均值进一步提高了0.45 dB，标准差也减少了0.01，此时IDIP降噪模型的降噪效果已经显著超过主流FFDNet 降噪模型（作为对照模型），同时标准差也排名第二，表明使用初步降噪图像构造混合Loss函数能有效提高降噪效果.

表2 网络输入和Loss函数的改进对降噪性能的影响(dB)

3 实验结果及其分析

3.1 测试环境配置

测试图像集合分别为：（1）常用图像集.由各个文献中被广泛使用的10 张测试图像组成，包括House、Peppers、Barbara、Boat、Cameraman、Couple、Hill、Lena、Man 和Monarch；（2）BSD 图像集，由BSD 数据库［10］随机挑选中的50 张图像组成.所有算法都在相同硬件平台（Intel（R）Xeon（R）CPU E5-1603 v4 @ 2.80 GHz RAM 16 GB）和软件环境（Windows10）上运行.

3.2 网络输入的选择

IDIP 模型选择利用某个主流降噪方法对噪声图像降噪后所获得的初步降噪图像作为网络的输入来替换DIP降噪模型的随机张量z.同时，初步降噪图像也作为第二目标图像参与构建Loss 函数.为分析使用主流降噪方法的不同对IDIP 模型性能所带来的影响，本文选择了代表性的DnCNN［3］、BM3D［8］、NCSR［11］、WNNM［12］和FFDNet［4］5种主流降噪方法参与比较，各种情况下的模型记为IDIP（DnCNN）、IDIP（BM3D）、IDIP（NCSR）、IDIP（WNNM）和IDIP（FFDNet）.由表3 可知，IDIP 降噪模型使用不同的主流降噪方法获得初步降噪图像对最终的降噪效果会产生一定影响（最大差距可达0.18 dB，但是相对于网络输入和Loss 函数改进而言幅度要小很多）.根据实验数据，使用WNNM 和DnCNN 也能获得相近的降噪效果.但是，考虑到WNNM 算法自身执行效率偏低，而DnCNN 降噪模型的通用性存在一定的缺陷（相对于FFDNet而言），故本文最终选定利用FFDNet获得初步降噪图像.下文的实验数据均是在此配置条件下获得的.

表3 在噪声水平σ=30下不同初步降噪图像对降噪性能的影响(dB)

3.3 降噪效果

首先，在图2 所示的降噪效果视觉对比中，在所有参与比较的方法中，仅有IDIP 和DIP 降噪模型很好地保留了图像中较弱的边缘细节（框内箭头所指处），而其他对比方法几乎已经将Lena 图像中微弱的边缘细节模糊化了，这表明IDIP 和DIP 降噪模型这类基于深度图像先验构建的降噪模型更善于利用图像自身的内部结构信息实现更好的降噪效果，而从图像整体降噪效果而言，IDIP 降噪模型要远优于DIP模型.

图2 各对比方法在Lena图像上的降噪效果对比

其次，由表4 和表5 可知：在常用和BSD 测试图像集合上，IDIP降噪模型在各噪声水平值σ下的降噪效果均显著优于各对比方法，且总体上是稳健的.

表4 各对比方法在常用图像上所获得的PSNR均值比较（dB）

表5 各对比方法在50张BSD图像上所获得的PSNR均值比较(dB)

3.4 执行效率

由表6 可知：达到DIP 降噪模型所获得的最优PSNR 值（表6 中第一行数据，各图像受噪声水平值为σ=40 的高斯噪声干扰），IDIP 模型所需的迭代次数和执行时间均比DIP 模型减少了80%左右，远小于DIP 模型，执行效率得到显著提升.需要说明的是：相对于DIP 模型，尽管IDIP 模型的执行效率获得了显著提升，但是相对于当前主流的有监督降噪模型而言，由于网络参数值仍然需要较多次数的迭代更新才能调整到最佳值，IDIP降噪模型的执行效率仍然处于劣势.

表6 DIP与IDIP降噪模型执行迭代次数和执行时间的比较

4 结束语

本文对原DIP 降噪模型的网络结构、网络输入和Loss 函数三个方面进行了全面改进，所获得的IDIP 降噪模型在降噪效果和执行效率两个方面均显著优于原DIP 降噪模型.相对于其他当前主流的降噪方法来说，IDIP 降噪模型在降噪效果上有显著优势.对于IDIP 模型执行效率相对于主流降噪方法仍然偏低的问题，未来可考虑通过研究快速初始化网络参数值的方法，在Meta-Transfer Learning 技术［13］支撑下让IDIP 降噪模型经过少量迭代训练达到收敛，从而进一步提升执行效率.