基于拉普拉斯金字塔网络的融合降噪模块图像超分辨率算法
2023-11-25郭昕刚何颖晨
郭昕刚, 何颖晨, 程 超
(长春工业大学 计算机科学与工程学院, 吉林 长春 130102)
0 引 言
近年来,基于深度学习的超分辨率(Super-Resolution, SR)方法在PSNR值和视觉质量上都有显著提高。这些需要在高分辨率(High-Resolution, HR)和低分辨率(Low-Resolution, LR)图像进行网络训练学习,假设网络输入的低分辨率图像通过理想的双三次下采样得到,阻碍它们在现实环境中的使用。在现实场景中,SR问题通常具有两个特点:1)降尺度方法未知;2)输入LR图像含有噪声和模糊。
目前超分辨率重构网络中大多数都没有考虑到现实环境图像中的噪声对超分辨率重构结果的影响。为解决此问题,一种思路是将深度学习降噪网络与超分辨率重构网络直接串联使用解决输入图像带噪声问题,但直接连接两个网络必然会极大增加模型的体积,不符合当前模型轻量化、易用化的趋势;另一种思路是将图像降噪网络与超分辨率重构网络结合到同一网络,同时实现图像降噪与超分重构的功能,如刘哲等[1]提出一种基于双段深度残差卷积网的强噪声超分辨率重建算法。
在研究拉普拉斯金字塔网络时,受到网络中渐近式图像重构的启发,文中提出一种有效融合降噪模块的图像超分辨率重构网络,命名为LFDSR(Laplacian Pyramid Network Fusion Denoising Module For Super Resolution Reconstruction)。文中网络将降噪模块融入图像超分辨率网络的结构中,实现图像降噪和图像超分辨率同时进行,渐近式地完成图像降噪和图像超分辨率,达到了图像超分辨率网络抗噪声的效果;并且网络中采用了递归模块,同时引入TVLoss与降噪损失,保持模型的轻量性,提高输出图像的清晰度、还原度和网络的抗噪声能力。
1 相关工作基础
1.1 图像超分辨率重构
Dong C等[2]首次提出使用CNN(Convolutional Neural Networks)进行SR,并取得了目前最先进的性能,已有大量的CNN架构被研究用于SISR。当前,剩余连接和密集连接被广泛用于缓解基于深度CNN方法的前向信息流和后向梯度流。RED[3]、DRRN[4]、EDSR[5]、RCAN[6]和SAN[7]使用剩余连接(Residual-Connection)来连接全局、块或层,SRDense Net[8]和 NemNet[9]在一个块中的网络层之间或网络中不同块之间同样使用了密集连接。受到Image Net分类的VGG[10]网络启发,Li J等[11]设计了一个多尺度残差网络(MSRN)来检测不同尺度的特征,并将它们结合起来以提高性能。王金玲[12]通过对迭代反投影、稀疏正则化参数,以及特征提取算子进行改进,使其更适合遥感图像的重构。
1.2 递归网络
Kim J等[13]提出一种深度卷积网络(VDSR),可以学习残差图像,同时还提出DRCN[14],一种利用深度递归卷积网络。该网络由三个部分组成:
1)嵌入网络(Embedding Network)用来获取输入图像,并将其表示为一组特征图,相当于SRCNN[2]中的特征提取;
2)推理网络(Inference Network)是解决超分辨率任务的主要组件,由单个递归层来完成图像的分析;每个递归都应用相同的卷积,相当于特征的非线性映射;
3)重构网络(Re-Construction Network)从特征图像恢复最后的重建结果,即重建。DRCN通过递归、循环训练同一层卷积层,实现参数共享,达到加深网络但不增加网络参数的目的。
1.3 图像降噪
近年来,深度神经网络被广泛应用于图像降噪[15]。Xu Q等[16]提出DnCNN利用网络学习图像噪声残差图,即带噪声图像和无噪图像的差值,用带噪声图像减去噪声残差图得到无噪声图像。Zhang K等[17]利用残差学习构造一个20层前馈降噪卷积神经网络用于高斯降噪。Remez T等[18-19]对每个目标类别分别训练20层CNN,无论是进行高斯降噪还是泊松降噪,都表现出良好的性能。Zhang K等[20]提出采用正交正则化的FFDNet,以增强高斯降噪的泛化能力。Tai Y等[21]设计了Mem Net,利用Feature Map拼接和Skip-Connection构造一个用于图像超分辨率重构、图像高斯降噪的网络。
1.4 拉普拉斯金字塔网络
由于现有的超分辨率重构网络利用线性插值将输入图片转为指定尺寸,如VDSR网络,人为地增加了噪声,且此前的超分方法无法产生中间的输出结果。为解决此问题,Lai W S等[22]提出LapSRN模型,网络结构如图1所示。
网络结构见图1(a),网络中提出级联结构(金字塔结构)。网络有两个分支:1)特征提取分支,用于逐级提取残差图;2)图像重构分支。该网络通过逐层学习、逐步提取,最后输出不同尺寸的残差,与对应尺寸的上采样图像经重构模块得到对应尺寸的重构结果,得到最终结果。
2 融合降噪模块的图像超分网络
2.1 网络结构
受拉普拉斯金字塔网络启发,提出基于拉普拉斯金字塔网络(LapSRN)基本框架下融合了降噪模块的LFDSR网络结构,如图2所示。
图2 LFDSR网络结构
拉普拉斯金字塔网络在图像超分辨率重构的过程中会产生中间图像,将降噪模块融入LapSRN网络可以实现在各中间级结构中直接对中间图像进行图像降噪,将降噪后的图像输入图像重构模块,实现了网络抗噪声的效果,进而直接影响后续的图像超分辨率重构效果。
文中网络采用多段级联式结构设计,各级结构中使用了递归模块,网络有5个分支:1)降噪模块;2)空间注意力模块SAM;3)特征提取模块;4)递归模块;5)图像重构模块。
2.1.1 降噪模块(Denosing Module)
受DnCNN[16]启发,设计将LapSRN每一级的特征提取分支一分为二,一半设计为降噪模块,另一半设计为特征提取模块。降噪模块中,在递归模块里的三层连续残差块对输入递归模块的特征图进行噪声特征提取,然后将噪声特征图经过降维卷积得到噪声残差图,再与原图像结合得到纯净LR图像,用于后面的图像重构模块。降噪模块公式为
ds=D(fs),
(1)
(2)
(3)
式中:fs----输入第s级递归模块的特征图;
D(·)----降噪模块;
SRs----第s级图像重构模块输出图像,当s=0时,SR0为输入图像;
D′(·)----降噪模块的部分网络;
conv(·)----卷积层;
SAM(·)----空间注意力模块;
ds----第s级降噪模块后得到的噪声残差图;
LFDSR网络用相对纯净的图像作为图像重构模块的输入,有利于提高超分辨率重构后图像的清晰度,有效减轻图像噪声在超分辨率重构中对输出结果的影响。
2.1.2 空间注意力模块SAM(Spatial Attention Module)
LFDSR网络中加入空间注意力模块[23],使所有的特征图共享相同的注意力权重,对于单张特征图,不同的位置区分不同的注意力权重,从而区分不同区域的重要程度,提高递归模块对特征图中细节信息的关注度,有助于后续特征提取模块进一步的特征提取。该模块结构包含了Sigmoid激活函数、全局最大池化层(Max Pool)、全局平均池化层(Avg Pool)、一个特征融合模块和一个单层卷积层。
2.1.3 特征提取模块(Feature Extraction Module)
特征提取模块由三层连续残差块加上一个两倍亚像素卷积上采样模块组成。将输入递归模块的特征图和降噪模块中间层加单层卷积层输出特征图结合,增加特征图的信息量,再送入空间注意力模块,就得到更加注重图像细节信息的特征图,最后特征图输入特征提取模块进一步进行图像高频细节特征提取。
2.1.4 递归模块(Recursive Module)
为减轻网络模型的体积,整体的网络结构采用递归模块的形式,以提高LFDSR网络的轻量级性。
2.1.5 图像重构模块(Reconstruction Module)
在第s级,将LR图像与噪声残差图结合,生成纯净LR图像,再用亚像素卷积[24](上采样)层(Subpix Convolution)对纯净LR图像进行2倍的上采样,然后将上采样图像与特征提取模块的预测残差图像相结合,生成高分辨率的输出图像。将输出的s级HR图像送入s+1级图像重建分支。整个网络是由每一层结构相似的CNN级联而成。
2.2 损失函数
(4)
N----训练样本个数;
根据经验将ε设为1e-3。
2.2.1 TVLoss
文中添加了一个总变化损失(TVLoss)来增加空间平滑度。
(5)
2.2.2 降噪损失
用于最小化经过第s级降噪模块后得到的噪声残差图ds与标准噪声图n的误差损失。
标准噪声图n为预处理训练数据集中图像预添加的噪声。
(6)
总损失函数定义为
Ltotal=Lcontent+LTV+Ldenoise。
(7)
3 实验与结果分析
实验中用到的训练数据以及训练细节解析了提出网络不同组成部分的结构参数设置,在三个数据集上比较了文中提出的网络和近年来的深度学习超分重构网络,并演示了各网络在超分辨率重构真实世界照片上的效果。同时还对比了提出网络的降噪模块和已有图像降噪网络,进一步说明网络降噪功能的实现过程。
3.1 训练数据
实验使用三组不同的数据集进行对比,其中包括两组低分辨率图像未经添加噪声预处理的SET14与BSDS100数据集,以及一组低分辨率图像经过添加sigma为5的高斯噪声(Gaussian Noise)预处理的BSDS100{Gaussian[sigma(5)]}数据集(用BSDS100*代替表示)。未添加噪声的SET14与BSD100数据集根据现有方法的协议[25],使用双三次插值下采样生成LR训练图像,添加噪声预处理的BSDS100*数据集,先使用双三次插值下采样生成LR训练图像,再在LR训练图像中人工添加sigma为5的高斯噪声。文中增加含噪声数据集实验,以比较在待超分重构图像含有明显噪声的条件下,文中网络与已有的超分辨率重构网络在输出图像的清晰度、还原度与抗噪声效果上的区别。所有网络都使用BSDS100、BSDS100*数据集训练。在每个训练批次中,随机抽取大小为128×128的16个patch,一个epoch有30次反向传播迭代。我们以三种方式增加训练数据:1)缩放,在[0.5,1.0]之间随机降尺度;2)旋转,随机旋转图像90°,180°或270°;3)翻转,水平或垂直翻转图像,概率为0.5。
3.2 训练细节
在提出的LFDSR网络中,降维卷积层由大小为3×3的3个滤波器组成,递归模块中亚像素卷积上采样滤波器的卷积层由大小为3×3的256个滤波器组成,图像重构模块中亚像素卷积上采样滤波器的卷积层由大小为3×3的12个滤波器组成,其他卷积层由大小为3×3的64个滤波器组成,文中使用He K等[26]的方法初始化卷积滤波器。网络中每个激活函数ReLU的负斜率为0.2。所有特征图边界填充宽度为1。所有层的学习速率初始化为5×1e-4,每200个epoch下降2倍。文中训练LFDSR,直到学习速率下降到5×1e-7。
3.3 实验结果
将文中提出的LFDSR网络与经典LapSRN和递归型LapSRN(Recur)[22]两个网络,以及已有的SR算法(Bicubic、DRCN[14]和RSAN[27])进行比较。用两个常用的图像质量指标来评估SR图像PSNR和SSIM[28]。各网络2倍和4倍超分辨率重构结果的定量比较见表1。
表1 定量评价文件网络与已有的SR网络:2倍、4倍尺度因子的平均PSNR/SSIM
文中展示了各网络在SET14、BSDS100数据集,以及自建数据集BSDS100*中超分辨率因子为4的视觉比较,如图3所示。
图3 不同网络4倍超分辨率重构在BSDS100、SET14和BSDS100*数据集上的视觉比较
在SET14、BSDS100测试集下,相较于各对比网络,LFDSR网络超分辨率重构的图像更清晰,保留了更多LR图像的内容,使得重构图像更逼真,比如人像和老虎的头部、蝴蝶身体以及花朵的清晰度。通过观察可以发现,在BSDS100*的测试集下,各对比网络的输出结果带有明显的伪影[25]和噪点。相比之下,文中网络通过融合了降噪模块,同时加入了TVLoss与降噪损失函数,有效地抑制了噪声对输出图像的影响。实验结果表明,文中算法具有良好的表现。
定量评价文中网络降噪模块输出的中间图像与已有的降噪网络的平均PSNR/SSIM见表2。
表2 定量评价文中网络降噪模块输出的中间图像与已有的降噪网络的平均PSNR/SSIM
DnCNN的Scale×1降噪图像各质量评估指标均值由BSDS100数据集与BSDS100*数据集经过DnCNN后的降噪图像计算,Scale×2降噪图像各质量评估指标均值由以BSDS100测试集为输入的4倍超分辨率LapSRN的中间层超分因子为2的图像与该图像添加sigma为5的高斯噪声后,再经过预训练DnCNN得到降噪图像计算得到。LFDSR网络的Scale×1与Scale×2降噪图像的各质量评估指标均值由4倍超分辨率LFDSR网络在数据集BSDS100*与BSDS100的训练后,将两数据集对应测试集输入LFDSR网络得到各层级下对应的图像计算得到。在BSDS100*测试集上,LFDSR网络与DnCNN的Scale×2的图像降噪效果已十分相近,超分因子为2的降噪图像在BSDS100*数据集上的视觉比较如图4所示。
Input(PSNR,SSIM)
与同样使用递归方式的RIDNet[29]类似,LFDSR网络的递归降噪模块使得LFDSR网络随着网络层级的堆叠,可以逐步提高图像降噪效果。
3.4 消融实验
为了验证文中提出的LFDSR网络中降噪模块的有效性,设计了一个类似的网络结构LapSRN+进行比较。本次对比实验同样使用BSDS100*数据集训练。
对比的LapSRN+网络等于将文中LFDSR网络中的降噪模块、单层卷积层和空间注意力模块去掉,如图5所示。
图5 LapSRN+结构图
图中只留特征提取模块,且网络结构同样使用了递归模块。LapSRN+使用Charbonnier损失函数[22]最小化每一层网络预测图像与真实图像的误差,LapSRN+训练的参数和过程与文中LFDSR网络的训练设置保持一致。
超分因子为×4的BSDS100*测试集图像超分辨率重构结果如图6所示。
基于BSDS100*数据集的LFDSR模型的平均PSNR/SSIM定量评价见表3。
表3 基于BSDS100*数据集的LFDSR模型的平均PSNR/SSIM定量评价
LFDSR网络与LapSRN+对比,从表3和图6可以看出,在假设带高斯噪声的低分辨率图像的超分重构效果上,文中网络在重构图像的清晰度与还原度上要高于对比算法,在大树图像中的天空和云朵部分能明显看到LFDSR网络的降噪效果。
4 结 语
采用真实情况下的假设来研究单图像的超分辨率重构问题。现实环境中,LR图像通常带有未知的不可忽略的噪声。上述实验中可以看到,融合了降噪模块的LFDSR网络在处理含噪声图像时取得了不错的效果,在实验过程中,LFDSR网络显露出泛化性与鲁棒性不足的缺点,当使用含某一特定噪声预处理过的数据集进行网络训练后,再使用该训练完成的网络模型超分辨率重构带有其他噪声的图像,输出图像将无法达到最优效果。
在目前有监督的网络训练环境下,必须人为构造带有某种假设噪声的低分辨率图像与对应超分系数的高分辨率图像对来训练网络模型。针对此问题,可考虑将LFDSR网络与无监督学习网络进一步相结合,实现在任意低分辨率图像与非配对低/高分辨率图像对的情况下实现清晰逼真的超分重构图像,进而解决网络泛化性与鲁棒性不足的问题。