APP下载

基于自注意力网络的图像超分辨率重建

2019-10-23欧阳宁梁婷林乐平

计算机应用 2019年8期

欧阳宁 梁婷 林乐平

摘 要:针对图像超分辨率重建中纹理细节等高频信息恢复的问题,提出一种基于自注意力网络的图像超分辨率重建方法。该网络框架利用两个重建阶段逐步地将图像的精确度从粗到细进行恢复。在第一阶段中,首先将低分辨率(LR)图像作为输入通过一个卷积神经网络(CNN),并输出一个粗精度的高分辨率 (HR)图像;然后将粗精度图像作为输入并产生更加精细的高分辨率图像。在第二阶段中,使用自注意力模块计算特征之间所有位置的关联性,通过捕捉特征的全局依赖关系来提高纹理细节的恢复能力。

在基准数据集上的实验结果表明,与现有基于深度神经网路的超分辨率重建算法相比,所提算法不仅图像视觉效果最好,而且在数据集Set5和BDSD100上的峰值信噪比(PSNR)平均提高了0.1dB、0.15dB,表明该网络可以通过增强特征的全局表达能力来重建出高质量图像。

关键词:深度卷积神经网络;从粗到细;自注意力;全局依赖关系;超分辨率

中图分类号:  TP391.41

文献标志码:A

Self-attention network based image super-resolution

OUYANG Ning1,2, LIANG Ting2, LIN Leping1,2*

1.Key Laboratory of Cognitive Radio and Information Processing of Ministry of Education (Guilin University of Electronic Technology), Guilin Guangxi 541004, China ;

2.School of Information and Communication, Guilin University of Electronic Technology, Guilin Guangxi 541004, China

Abstract: Concerning the recovery problem of high-frequency information like texture details in image super-resolution reconstruction, an image super-resolution reconstruction method based on self-attention network was proposed. Two reconstruction stages were used to gradually restore the image accuracy from-coarse-to-fine. In the first stage, firstly, a Low-Resolution (LR) image was taken as the input through a Convolutional Neural Network (CNN), and a High-Resolution (HR) image was output with coarse precision; then, the coarse HR image was used as the input and a finer HR image was produced. In the second stage, the correlation of all positions between features was calculate by the self-attention module, and the global dependencies of features were captured to enhance texture details. Experimental results on the benchmark datasets show that, compared with the state-of-the-art deep neural networks based super-resolution algorithms, the proposed algorithm not only has the best visual effect, but also has the Peak Signal-to-Noise Ratio (PSNR) improved averagely by 0.1dB and 0.15dB on Set5 and BDSD100. It indicates that the network can enhance the global representation ability of features to reconstruct high quality images.

Key words: deep convolutional neural network; from-coarse-to-fine; self-attention; global dependency; super-resolution

0 引言

近來,深度学习在计算机视觉[1-3]方面的重大进展已经影响到超分辨率领域中[4-9]。单幅图超分辨率[10]是一个不适定的逆问题,旨在从低分辨率(Low-Resolution, LR)图像中恢复出一个高分辨率(High-Resolution, HR)图像。目前典型的方法是通过学习LR-to-HR的非线性映射来构造高分辨率图像。Dong等[4]首先引入了一个三层的卷积神经网络(Convolutional Neural Network, CNN)用于图像的超分辨率,提出了基于卷积神经网络的超分辨率重建(Super-Resolution using Convolutional Neural Network, SRCNN)方法,以端对端的方法学习LR到HR之间的非线性映射关系。得益于残差网络[4]的出现解决了训练深度网络的梯度爆炸/梯度消失等关键问题,应用于SR的网络也往更深更宽的趋势发展。Kim等[6]受深度神经网络(Very deep convolutional networks for large-scale image recognition, VGG)[11]启发提出了一种非常深的卷积网络重建精准的超分辨率(accurate image Super- Resolution using Very Deep convolutional networks,VDSR),该网络达到20层,为了提高收敛速度,使用非常高的学习率,运用残差学习与梯度裁剪来解决梯度爆炸问题;Ren等[7]提出了融合多个神经网络用于图像的超分辨率重建(image super resolution based on Fusing multiple Convolution neural Networks, CNF),由于各个网络的输出特征映射具有不同的上下文特征,将其融合来提升整体网络的精度。此外,Lai等[8]利用金字塔的结构提出了深度拉普拉斯网络来实现快速准确的超分辨率(deep Laplacian pyramid Networks for fast and accurate Super-Resolution, LapSRN),将LR图像作为输入来减少计算量,采用从粗到细的方式逐步预测子带的残差图。该方法在超分辨率中利用从粗到细的逐步优化方法,能更好地去尖锐和模糊。

将深度学习应用于超分辨率领域中,随着网络的加深,其感受野变得越来越大,使得网络不仅具备局部特征,且能捕捉到更加全局的特征,而全局特征的加入又更有利于超分辨率纹理细节的恢复。但一味地增加深度会带来巨大的计算量,甚至导致网络难以训练等问题。而且在层层卷积的网络中只能根据低分辨率特征图的空间局部点生成高分辨率细节,没能充分利用特征之间的全局依赖关系进行建模。另一方面,自注意力机制[12-13]在建模全局依赖关系以及计算效率上表现出良好的性能。Zhang等[13]对自注意机制捕捉模型内部的全局依赖关系进行了研究,可以使用来自所有特征位置的关联生成细节信息。自注意力机制的出现为超分辨率重建获取全局特征来恢复纹理细节提供了新思路。

本文提出一种基于自注意力网络的图像超分辨率(Self-Attention Network for images Super-Resolution, SASR-Net)重建方法,以获取全局特征及丰富的语义信息来恢复更多的高频细节。基于从粗到细的思想,本文的网络结构分为两个阶段来逐步提高高分辨率图像的精确度。

第一阶段,本文先用一个由残差单元组成的CNN来提取特征,以原始LR图像作为输入减少计算量,恢复出一个粗精度的HR图像。

第二阶段,为了获取更加全局的特征来进一步细化所获得的粗精度HR图像,设计了自注意力模块来探索任意两点特征之间的全局依赖关系,增强特征的表达能力,有助于恢复图像的纹理细节。本文的自注意力模块由自注意力支路和主干支路组成:主干支路利用卷积操作对特征进行提取,获取更高层的特征;自注意力支路被设计为明确地学习一个像素与所有位置之间的关系,使得相似的特征相互关联,有效地抓取特征的全局依赖关系。最后,将两个支路的特征进行相加融合,输出最终的细精度高分辨率图像。实验结果表明,与SRCNN[4]、VDSR[6]、LapSRN[8]、CNF[7]等相比,本文所提出的网络超分辨率重建效果不管是客观评价标准还是主观视觉效果上都要更好。

1 基于自注意力网络的超分辨率重建模型

本文所设计的模型是基于一种从粗到细的逐步优化图像精度的方法,使得图像的质量可以更好地重建边缘和纹理。本文的网络结构由两个重建阶段组成,如图1所示。第一阶段以原始的低分辨率图像作为输入,经过一个由残差单元构成的CNN进行初始预测,经过上采样操作输出一个粗精度的HR图像。

第二阶段以第一阶段的输出作为自注意力模块的输入,逐渐细化图像质量。其中,输入的图像分别进入到自注意力模块中的主干支路和自注意力支路,通过相加对两条支路进行融合,从而得到最终的细精度HR图像。

在第一阶段中,直接以LR图像作为输入,不需要插值放大的预处理过程,能减少计算量。CNN包含10个残差单元,每个残差单元包括2个卷积核大小为3×3的卷积层,每个卷积层产生64个特征图,然后紧接着修正线性单元(Rectified Linear Unit,ReLU)激活函数。采用反卷积层来实现上采样操作,反卷积层的核大小为5×5,通过设置不同的步长来实现不同尺度大小的上采样。

在第二阶段中,主干支路也由几个残差单元组成,以提取高层次的特征。自注意力支路首先应用卷积层来获得降维的特征,然后生成自注意力矩阵,该矩阵模拟特征的任意两个像素之间的依赖关系;接下来,在注意力矩阵和原始特征之间执行乘法运算,以获得反映全局背景的最终表示;最后,融合两支路的高层特征和自注意力特征,以获得恢复更多高频细节的重建图像。

2 自注意力模块设计

自注意力模块由自注意力支路、主干支路和特征融合组成。自注意力支路旨在探索特征之間的全局依赖关系,主干支路则提取更深层次的特征,然后将二者特征进行融合来增强特征的表达能力,实现图像高质量的纹理细节恢复。

2.1 自注意力支路

恢复出边缘和纹理等高频信息对超分辨率重建是至关重要的问题,旨在捕捉更加全局的特征。在特征表示中为了模拟丰富的上下文依赖关系,本文引入了自注意力机制[13]。自注意力支路将广泛的上下文信息编码为局部特征,使其更具全局性,从而增强特征的表达能力。因此,将自注意力模块引入网络中有望更好地恢复纹理等细节。

本文的自注意力支路的结构如图2所示。特征 F (x)∈ R C×H×W来自于第一阶段的输出,首先将其送入伴随着激活函数ReLU的1×1卷积层,分别生成三个新的特征图 A (x)、 B (x)和 C (x)。然后将通过一个转置矩阵的 A (x)与 B (x)进行矩阵乘法操作,并且应用一个softmax层来计算注意力特征 S (x):

Sj,i=exp(Ai,Bj) / ∑ N i=1 exp(Ai,Bj)

(1)

其中:N为整个位置空间,Sj,i表示第i个位置对第j个位置的影响。两个位置的特征之间越相似,其响应值越大,它们之间的关联性就越大。在此之后,将特征 C (x)与转置后的注意力特征 S (x)执行一个矩阵乘法操作,得到最终自注意力支路的输出 H (x)∈ R C×H×W:

H (x)= C (x) S (x)

(2)

从式(2)中可以知道,自注意力特征 H (x)表示所有位置的特征,因此,它具有全局上下文信息,当与主干支路输出的高层特征融合时,可以根据自注意力特征选择性地聚集上下文信息。总的来说,自注意力模块通过学习所有位置的特征之间的联系使得相似的特征相互关联,可以轻松捕捉到更加全局的特征,全局特征的加入能帮助恢复更多的纹理细节。

2.2 残差单元

本文所使用的残差单元结构,如图3所示。

该残差单元包括两个ReLU和两个核大小为3×3的卷积层,具有预激活结构的残差单元可以表示为:

x u= F ( x u-1, W u)+ x u-1

(3)

其中:u(u=1,2,…,U)是殘差单元的数量, x u-1和 x u分别是第u个残差单元的输入和输出, W 代表着权重, F 表示残差映射。预激活结构[14]在卷积层之前执行激活函数,预激活版本比激活后版本更容易训练并产生更好的性能。此外,不同于原始的残差网络中的残差单元,本文将批量归一化层移除[15],目的是为了保持网络之间的灵活性,避免得到的图像过于平滑。因此,所设计的残差单元有利于学习高度复杂的特征,并且在训练期间有助于进行梯度反向传播,不易产生过拟合。本文的残差单元随着网络层数的增加来提升性能,且与没有残差连接的网络相比更容易收敛。同时残差单元的设计也缓解了梯度爆炸/梯度消失等问题。

3 实验结果与分析

本文实验使用DIV2K数据集[16]作为训练集,它是一种新提出的高质量数据集。DIV2K数据集由800个训练图像组成,包括100个验证图像和100个测试图像。训练图像被分成41×41大小的子图像,步长为41。为了方便与其他算法比较,本文的测试集由Set5、Set14和BSDS100组成,分别有5、14、100张图片。

本文实验通过Adam优化方法对网络进行训练。利用“步长”(step)策略调整学习率,初始学习率权重base_lr为lE-5,调整系数gamma为0.5,最大迭代次数为1000000。此外,本文设置动量参数为0.9和权重衰退为lE-4。网络训练在双显卡为P4000 8GB的计算机上。

为了探究自注意力对SASR-Net网络的影响,本部分将与移除了自注意力支路的超分辨率网络(Network for images Super-Resolution, SR-Net)网络进行比较,实验结果如图4、5所示。图4是两个网络在重建倍数为3

的Set5数据集上的峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)比较,可以看出这两个网络都较快收敛,SASR-Net的峰值信噪比SR-Net大约高0.3dB。在图5中,SASR-Net和SR-Net的图像视觉效果比其他方法更清晰,而且SASR-Net的PSNR比VDSR高出0.16dB。从图5(h)中可以看出,与其他算法相比,SASR-Net在蝴蝶翅膀纹理上的处理更好,重建出更多符合原始图像图5(b)的细节。这也就说明了自注意力可以增强特征的表达能力,捕捉到更为全局的特征,恢复出更多的高频细节信息。

将本文提出的SASR-Net与现有的五种超分辨率方法如Bicubic[17]、SRCNN[4]、VDSR[6]、CNF[7]和LapSRN[8]进行对比,并利用峰值信噪比(PSNR)和结构相似度(Structual Similarity, SSIM)两种广泛使用的图像质量指标对重建结果进行评估,同时比较重建倍数分别为2、3、4等不同尺度的性能,结果如表1所示。从表1可以看出,SASR-Net在Set5和BSDS100上的PSNR、SSIM均超过了其他超分辨率方法;虽然CNF在Set14上PSNR的值比SASR-Net略高,但在SSIM上SASR-Net都比其他超分辨率方法高;而且从图6(e)中可以看出,与图6(d)的视觉效果相比,本文方法的整体视觉效果更好,花瓣上的点恢复得更为清晰。图7所示为BSDS100上重建倍数为4的视觉效果图,与其他算法相比,不仅PSNR提高了0.05~1.2dB,SSIM也提高了0.006~0.116;而且从图7(e)和图7(f)中可以看出,VDSR以及LapSRN重建结果过于模糊和平滑,与其他超分辨率方法相比,SASR-Net重建木桥上的条纹更为清晰。大尺度重建质量不佳,也是由于高频信息的不足引起的,而通过本文方法可以增强特征之间的全局依赖关系,恢复出更多纹理细节丰富的高质量图像。

4 结语

本文提出了基于自注意力网络的图像超分辨率重建方法,将图像精确度从粗到细逐步地恢复出高分辨率图像。第一阶段利用残差单元构建的CNN来提升网络性能,获取到粗精度的高分辨率图像;第二阶段利用自注意力模型抓取任意两点特征之间的关联来增强特征的表达能力,恢复出更多的纹理细节来进一步细化粗精度的高分辨率图像。实验结果表明,自注意力能有效地捕捉特征之间的全局依赖关系,重建出更多的高频信息。与其他超分辨率算法相比,本文方法不论是在主观重建效果还是客观评价标准上都有所提高的,重建出的图像具有更高的质量并显示更精细的细节。

参考文献

[1] DENTON E L, CHINTALA S, SZLAM A, et al. Deep generative image models using a Laplacian pyramid of adversarial networks [C]// Proceedings of the 28th International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2015: 1486-1494. [J]. Advances in Neural Information Processing Systems, 2015, 1(3): 1486-1494.

[2] ILG E, MAYER N, SAIKIA T, et al. FlowNet 2.0: Evolution of optical flow estimation with deep networks[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2017: 1647-1655.

[3] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 770-778.

[4] DONG C, LOY C, HE K, at al. Image super-resolution using deep convolutional networks [J]// IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(2): 295-307.

[5] DONG C, LOY C C, TANG X. Accelerating the super-resolution convolutional neural network [C]// Proceedings of the 2016 European Conference on Computer Vision, LNCS 9906. Cham: Springer, 2016: 391-407.

[6] KIM J, LEE J K, and LEE K M. Accurate image super-resolution using very deep convolutional networks [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 1646-1654.

[7] REN H, EL-KHAMY M, LEE J. Image super resolution based on fusing multiple convolution neural networks [C]// Proceedings of the 2017 IEEE Computer Vision and Pattern Recognition Workshops. Piscataway, NJ: IEEE, 2017: 1050-1057.

[8] LAI W, HUANG J, AHUJA N, et al. Deep Laplacian pyramid networks for fast and accurate super-resolution [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 5835-5843.

[9] ZHOU L, WANG Z, WANG S, et al. Coarse-to-fine image super-resolution using convolutional neural networks [C]// Proceedings of the 2018 International Conference on Multimedia Modeling, LNCS 10705. Cham: Springer, 2018: 73-81.

[10]  GLASNER D, BAGON S, IRANI M. Super-resolution from a single image [C]// Proceedings of the IEEE 12th Intermational Conference on Computer Vision. Piscataway, NJ: IEEE, 2009: 349-356.

[11] SIMONYAN K, ZISSEMAN A. Very deep convolutional networks for large-scale image recognition [J]. arXiv E-print, 2015: arXiv:1409.1556. [2018-02-11]. https://arxiv.org/pdf/1409.1556.pdf.

[12] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Proceedings of the 31st Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2017: 6000-6010. [J]. Advances in Neural Information Processing Systems, 2017, 30(1): 6000-6010.

[13] ZHANG H, GOODFELLOW I., METAXAS D, et al. Self-attention generative adversarial networks [J]. arXiv E-print, 2019: arXiv:1805.08318. [EB/OL]. [2018-02-11]. https://arxiv.org/pdf/1805.08318.pdf.

[14] HE K, ZHANG X, REN S, et al. Identity mappings in deep residual networks [C]// Proceedings of the 2016 European Conference on Computer Vision, LNCS 9908. Cham: Springer, 2016: 630-645.

[15] NAH S, KIM T H, LEE K M. Deep multi-scale convolutional neural network for dynamic scene deblurring [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 257-265.

[16] AGUSTSSON E, TIMOFTE R. NTIRE 2017 challenge on single image super-resolution: dataset and study [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Piscataway, NJ: IEEE, 2017: 1122-1131.

[17] KEYS R. Cubic convolution interpolation for digital image processing [J]. IEEE Transactions on Acoustics, Speech, and Signal Processing, 1981, 29(6): 1153-1160.

[18] 孙旭,李晓光,李嘉锋,等.基于深度学习的图像超分辨率复原研究進展[J].自动化学报,2017,43(5):697-709. (SUN X, LI X G, LI J F, et al. Review on deep learning based image super-resolution restoration algorithms [J]. Acta Automatica Sinica, 2017, 43(5): 697-709.)