APP下载

基于多尺度特征融合的超分辨率重建算法研究

2022-11-01仝卫国蔡猛庞雪纯翟永杰

科学技术与工程 2022年26期
关键词:残差特征提取尺度

仝卫国, 蔡猛, 庞雪纯, 翟永杰

(华北电力大学控制与计算机工程学院, 保定 071003)

随着图像处理技术的发展,图像检索、目标检测、语义分割等处理过程中对图像质量的要求越来越高。图像超分辨率重建技术是一种从算法层面入手,利用一幅[1]或多幅[2]低分辨率(low resolution, LR)图像生成一个具有良好视觉效果和接近真实图像的高分辨率(high resolution, HR)图像的方法。图像超分辨率重建技术已经在许多领域中得到了广泛应用,如在投影成像[3]、医学影像报告[4]、航空航天监测[5]等都有着非常高的价值。

目前常用的超分辨率重建技术主要分为3类,分别为基于插值[6-7]、基于重建[8-9]和基于学习[10-13]的方法。其中,基于学习的重建方法为当前的主流方法。通过学习先验知识,利用LR图像和HR图像之间的映射关系,重建出高分辨率图像。Dong等[14]采用卷积神经网络对低分辨率图像进行特征提取,为了提高重建速度,在算法基础上又提出了FSRCNN(fast super resolution convolutional neural networks)。为解决实时超分辨率重建问题,Shi等[15]提出了亚像素卷积层网络(efficient sub-pixel convolutional network, ESPCN),将没有经过任何操作的低分辨率图片作为原始的输入,使特征图的尺寸得到了缩减。Kim等[16]提出了基于深度卷积神经网络的重建方法(very deep convolutional networks for image super-resolution, VDSR),在更深的网络多次使用级联小滤波器,有效利用了图像的下文信息,解决了网络退化问题。Kim等[17]采用共享参数的递归结构,提出了深度递归卷积神经网络(deeply-recursive convolutional network, DRCN)模型。Tai等[18]提出的深度递归残差网络(deep recursive residual network, DRRN),同时利用了局部残差结构、全局残差结构和递归结构。残差单元之间共享,增加少量参数,改进了VDSR和DRCN的性能,但仍存在着提取特征单一的问题,不利于对低分辨率图像信息进一步提取。

图像重建质量的好坏与模型的网络结构深浅以及卷积核感受野大小有着非常密切的联系,现在已有的深度网络模型,大多是直接增加卷积层来达到扩大网络感受野的目的,但是这样做不利于对图像信息的进一步提取。孙超文等[19]提出了多尺度特征融合反投影网络,在浅层特征提取层使用多尺度的卷积核提取不同维度的特征信息,然后构建多尺度反投影模块通过递归学习执行特征映射,放大倍数大时重建性能相比其他算法效果更好。刘遵雄等[20]提出了多尺度并联学习的生成对抗网络结构,对提取的低分辨率图像通过两个子网络的多尺度特征学习,融合不同尺度高频信息,最终生成高分辨率图像,在恢复低分辨率图像的细节纹理信息有更好的效果。

为了增加图像的细节语义信息提取,在DRRN的基础上,现提出一种融合了多尺度特征的网络模型,主要由多尺度特征提取模块、递归网络和密集连接网络三部分组成。采用多尺度特征提取模块代替原模型中的局部残差结构,提取更加全面的特征信息;同时引入递归学习,提高网络的收敛速度;添加密集连接结构,使特征传播得到增强,减少参数计算,减轻梯度消失问题。

1 深度递归残差网络

深度递归残差网络(DRRN)是深度卷积神经网络模型,其深度达到了52层。DRRN算法将ResNet(residual network)中的局部残差学习与VDSR中的全局残差学习相结合,不仅加深网络深度而且解决了梯度消失的问题,使图像细节得到了增强。在增加深度的同时,在递归块中递归地学习增强的残差单元结构,并且将递归块重复连接用来学习HR和LR图像之间的残差图像,控制模型参数。

ResNet、VDSR、DRRN结构简化示意图如图1所示,由图1可以看出,ResNet中采用的是局部残差模块,VDSR中采用的是全局残差模块,而DRRN同时采用了这两种结构单元,其中的绿色虚线框代表局部残差单元,由两个卷积层(conv)组成,红色虚线框代表递归块,每个递归块由两个残差单元组成,并且可以使用多个递归块进行连接,连接个数通常与具体要解决问题的实际情况相结合,DRRN中权重共享在残差模块中实现。

图1 ResNet、VDSR、DRRN结构简化示意图Fig.1 Simplified schematic diagram of structure of ResNet, VDSR and DRRN

与ResNet不同的是DRRN将批归一化层(BN)与线性修正单元(ReLU)放在权重层(weight)的前面,这种结构模式被称为预激活(pre-activation)。以第u个残差单元为例,预激活的网络结构如图2所示。

图2 DRRN第u层残差单元预激活网络结构Fig.2 u-th layer residual unit pre-activated network structure of DRRN

黑色虚线框表示残差函数F,残差函数F由两个卷积层组成,每个层由BN-ReLU-weight层堆叠而成。包含预激活结构的残差单元的输出公式为

Hu=F(Hu-1,W)+H0

(1)

式(1)中:Hu-1和Hu分别为第u层残差单元的输入和输出;F(x)为残差函数;W为在同一递归块内的残差单元共享的权重值;H0为递归块中第一个卷积层的输出结果。

DRRN整体结构的示意图如图3所示。

图3 DRRN整体结构示意图Fig.3 Schematic diagram of the overall structure of DRRN

由式(1)可知,第u层的残差单元输出为

(2)

因此,第b层的递归模块的输出xb为

=g[g(…{g[fb(xb-1)]}…)]

(3)

式(3)中:g(x)为残差单元函数。

然而,DRRN算法仅使用一种大小的卷积核对低分辨率图像进行特征提取,无法提取不同尺度对应的相关图像信息,不利于图像细节的恢复。

2 多尺度特征融合的递归网络

为了使提取的图像特征更丰富,本文在DRRN的基础上做出相应改进,提出一种融合了多尺度特征的递归网络模型,其主要由三部分构成:多尺度特征提取模块、递归网络模块和密集连接模块。模型的主要改进思路为:保留DRRN中的全局残差模块,用多尺度特征提取模块代替原来的局部残差模块,并且引入密集连接,整体算法模型结构如图4所示。

图4 模型整体结构示意图Fig.4 Schematic diagram of the overall structure of the model

多尺度特征提取模块相对于只使用单尺度的卷积核来说会对图像特征进行更完整的信息提取,对于不同的特征信息进行全面提取,防止信息不能进行有效传递,将信息传递最大化,最大限度的利用LR图像的浅层特征。

引入递归学习网络并在其基础之上引入密集连接网络,最后将提取得到的特征与LR图像相加进行全局残差学习。通过全局残差学习,对图像隐含的深层信息进行提取,充分利用前面卷积层提取出的底层特征,对图像的高频信息进行恢复,令重建后的高分辨率图像有更好的视觉效果,降低了训练模型的参数量,使网络收敛的速度得到加快。

2.1 多尺度特征提取

不同尺度的卷积核对图像提取出的特征信息不同,本文采用一种多尺度特征提取模块,使用3种不同大小的卷积核进行特征提取,具体卷积核大小为1×1、3×3和5×5。虽然多尺度特征提取单元利用不同尺寸大小的卷积核进行特征提取,若将不同卷积核提取到的特征进行简单叠加,可能会导致不同层信息利用程度下降,不利于将多种特征相互融合。Concat融合方式为通道维度上合并,图像本身的特征数增加了,而每一特征下的信息没有增加。如DenseNet(densely connected convolutional networks)[21]中采用了Concat融合,并取得了很好的效果,因此本文采用该方式来融合不同尺度的信息。此外,为了降低计算难度,在特征融合以后使用1×1的卷积核进行降维,加快重建速度。网络结构图如图5所示。

图5 多特征提取模块Fig.5 Multi-feature extraction module

具体的提取过程为:输入图像首先经过一个3×3的卷积层,然后把3×3的输出送到改进模块中,改进的模块是主要使用了1×1、3×3、5×5这3种不同大小的卷积核,因为卷积核大小不同,提取出的特征不同,然后将1×1与3×3的输出进行特征融合,1×1与5×5的输出进行特征融合,3×3与5×5的输出进行特征融合,再对这三个融合的特征进行1×1卷积,主要是为了降低特征融合后的维度,减少参数量。然后将1×1与5×5融合的特征经过3×3的卷积层,1×1与3×3融合的特征经过5×5卷积层,3×3与5×5融合的特征经过1×1卷积层,再将这三个输出特征进行特征融合,经过1×1卷积层降维后,作为改进模块的输出。

2.2 密集连接

自Huang等[21]提出DenseNet以来,密集连接已经被越来越多的用到各种任务中。假设模型有L层,传统的神经网络就会有L个连接,而在DenseNet中,会有L(L+1)/2个连接,所有先前层的特征映射都用作当前层的输入,当前层的特征映射也会用作所有后续层的输入。

密集连接网络中的某一层的输入为该层之前所有层的特征信息的融合结果,充分利用了前面卷积层提取出的底层特征,使恢复后的图像更加清晰,该网络训练不需要大量的参数,在网络进行前向传播以及反向传播的时候可以保持良好的性能,增加网络的训练层数,另外密集连接结构有正则化的效果,对训练集较小任务的过拟合有一定的抑制作用。密集连接结构如图6所示。

图6 密集连接结构图Fig.6 Dense connection structure diagram

本文中提出的多尺度特征融合的递归网络重建模型,在特征提取部分,使用不同大小的卷积核进行特征提取,将提取到的特征信息采用Concat的方式进行融合,加大了信息获取的能力。本文中以DRRN作为基线模型,在其模型的基础上进行相应改进,并结合密集连接的方法,将由多尺度特征提取模块构成的递归模块进行融合,最后将获取的深层特征与低分辨率图像的浅层特征进行全局残差学习。在加深网络结构的同时,减少网络的相关参数,对模型占用的内存空间进行了优化。

3 实验结果

3.1 实验环境

本文提出的算法所需要的实验环境为:Ubuntu操作系统,实验硬件设备配置为Intel©CoreTMi5处理器,8 GB运行内存,NVIDIA Geforce GTX 1 080(8 GB)显卡。

3.2 实验数据

训练数据集包含291张图片,其中91张图像来自Yang等[22],其他200幅图片来自Berkeley分割数据集。为了进行测试,本次实验使用了两个广泛使用的基准数据集,Set5和Set14,以及国家电网提供的部分电力巡检图片作为测试样本。

为了避免训练不充分,对训练数据集进行了数据增强,主要方式为对图像进行翻转和旋转。具体为,将原始图片分别进行90°、180°、270°和水平翻转。对于每个原始图片,相当于增加了7张不同的图片,因此,共有2 328个训练集图片。因为人眼对图像的Y分量更敏感,因此在实验之前,需要对实验过程中的图像进行YCbCr的颜色空间转换,只提取Y通道[23],使用大小为2、3、4的尺度因子分别对高分辨率图像进行下采样,得到低分辨率图像。

3.3 不同重建方法的实验对比

改进方法训练参数设置:初始学习率为0.1,前30个epoch中,每10个epoch使学习率下降为原来的一半,30 epoch之后,每10个epoch使学习率降为原来的1/10,batch size为64,训练轮数为100。

根据本文提出的改进方法,选取Set5与Set14中的测试图像验证改进方法的优越性,将其与双三次插值重建算法和DRRN进行对比实验分析。部分图像采用x2模糊后不同算法的重建图像结果展示如图7~图10所示。

图7 Baby重建结果对比Fig.7 Comparison of reconstruction results of baby

通过对比可以看出,本文所提出的改进方法的边缘清晰度相对来说表现更好,细节与低分辨率图像相比更加丰富,更加接近原图。在图8中,经过对原图中鼻子部分细节放大的对比发现,与其他算法相比,本文算法重建出的图像能够清晰地看出鼻子轮廓上的那些坑坑洼洼的细节,而且对于睫毛部分,重建出的图像睫毛更加清晰,有一种根根分明的感觉,跟原图相比更为接近。在图10中,基于Bicubic重建的结果中眼部轮廓比较模糊,眼珠部分与眼睛上部轮廓界限不明显,而且睫毛连成了一部分,不能清楚地观测到图像细节,DRRN重建结果较Bicubic方法有明显改进,图像更加清晰,重建细节也更多,本文方法的重建结果较其他两种方法与原始图像更为接近,视觉效果更好,细节更加丰富,睫毛层次更加分明,有一定改进效果。

图8 Head重建结果对比Fig.8 Comparison of reconstruction results of head

图9 Comic重建结果对比Fig.9 Comparison of reconstruction results of comic

图10 Lenna重建结果对比Fig.10 Comparison of reconstruction results of lenna

为了更加客观地对比不同方法重建的结果,经不同的放大因子X2、X3、X4生成低分辨率图像后,采用不同的算法重建以后得到的PSNR与SSIM的相关数据如表1和表2所示。

表1 不同方法重建图像的PSNR对比 Table 1 PSNR comparison of reconstructed images with different methods

表2 不同方法重建图像的SSIM对比Table 2 SSIM comparison of reconstructed images with different methods

经过实验对比,可以看出本文所提出的改进方法的PSNR与改进前方法的PSNR值相比平均提高了0.1~0.27 dB,SSIM平均提高了0.001~0.005。证明了本文所提算法能够对图像重建效果有一定提升。

3.4 在输电线路中的应用

部分输电线路图像采用X2模糊后经双三次插值算法、DRRN算法与本文改进算法的重建4图像结果展示如图11~图14所示。

由图11~图14可以看出,本文所提出的方法较其他方法能够更加清晰地重建出图像的轮廓,对于图像的锐化效果也比较好,与原高分辨率图像比较接近,在图11中,本文方法可以将杆塔上的螺丝进行较为清晰地还原,与其他方法相比,螺丝上的细节更加明显,有利于观察杆塔上具体细小部件的情况,在图13中,基于绝缘子的重建对比中,本文方法也同样恢复的图像细节程度更高,对于不同绝缘子之间的界限也较为明显,在图14中,Bicubic方法重建出的图像轮廓模糊,不能较为清楚地恢复出图像细节,应用本文方法重建出的图像,可以较为恢复更多的图像细节,清晰度也明显提高。为了进一步对比不同方法的重建效果,部分输电线路重建图像的客观评价指标如表3和表4所示。

表3 不同方法重建图像的PSNR对比Table 3 PSNR comparison of reconstructed images with different methods

表4 不同方法重建图像的SSIM对比Table 4 SSIM comparison of reconstructed images with different methods

图11 杆塔重建结果对比Fig.11 Comparison of reconstruction results of tower

图12 均压环重建结果对比Fig.12 Comparison of reconstruction results of ring

图13 绝缘子重建结果对比Fig.13 Comparison of reconstruction results of insulator

图14 防震锤重建结果对比Fig.14 Comparison of reconstruction results of damper

通过对表格数据进行分析对比,可以发现本文改进的方法相对于原方法,在PSNR与SSIM两个方面都进行了提升,这也进一步说明改进方法取得了一定的提升效果,在网络层数不断加深的基础上,通过对特征提取方式以及网络结构的调整,可以达到优化的目的。实验结果进一步说明,本文改进方法在输电线路场景中效果有提升并且可以进行应用。

4 结论

提出了基于多尺度特征融合的超分辨率重建算法,利用多尺度特征提取模块提取更多浅层信息;在网络中添加密集连接结构,使特征传播得到增强,用以解决现有的超分辨率重建算法存在的提取特征单一的问题。在基准测试集Set5、Set14以及电力巡检数据集上的实验结果表明,本文方法相较于其他几种方法,在客观评价指标和主观视觉效果上均获得了更好的表现。未来研究工作主要是增加算法实现的应用场景,验证不同场景,不同目标的重建性能,以及将传统方法与基于深度学习的方法进行结合,实现更优的超分辨率重建算法,进一步提升重建效果。

猜你喜欢

残差特征提取尺度
同步定位与建图特征提取和匹配算法研究
多级计分测验中基于残差统计量的被试拟合研究*
环境史衰败论叙事的正误及其评判尺度
基于残差-注意力和LSTM的心律失常心拍分类方法研究
用于处理不努力作答的标准化残差系列方法和混合多层模型法的比较*
融合上下文的残差门卷积实体抽取
基于MED—MOMEDA的风电齿轮箱复合故障特征提取研究
基于曲率局部二值模式的深度图像手势特征提取
以长时间尺度看世界
9