APP下载

基于特征图注意力机制的图像超分辨率重建

2021-03-18甜,刘蓉,刘明,冯

计算机工程 2021年3期
关键词:分辨率注意力卷积

鲁 甜,刘 蓉,刘 明,冯 杨

(1.华中师范大学物理科学与技术学院,武汉 430079;2.华中师范大学计算机学院,武汉 430079)

0 概述

图像超分辨率(Super-Resolution,SR)重建由HARRIS 等人于20 世纪60 年代提出,其按照重建时输入所需低分辨率(Low-Resolution,LR)图像数量可分为单幅重建和多幅重建。单幅图像超分辨率(Single Image Super-Resolution,SISR)重建问题是一个不适定的逆问题,旨在将LR 图像通过一定的算法重建到视觉较好的高分辨率(High-Resolution,HR)图像上。

随着深度学习的快速发展以及高性能GPU 的出现,以卷积神经网络(Convolutional Neural Networks,CNN)为代表的学习方法[1-3]广泛应用于SR 图像中,通过学习LR 到HR 的非线性映射构造HR 图像。文献[1]将三层CNN 引入SR 图像中,并构建基于CNN的超分辨率重建(Super-Resolution using CNN,SRCNN)模型,该网络模型的3 个卷积层分别表示特征提取、非线性映射和图像重建,其可直接学习LR图像与HR 图像之间端到端的映射关系,取得相较传统方法显著的改进效果。文献[4]提出一种基于较深卷积网络的精准超分辨重建模型,其将网络深度增加到20 层,并通过残差学习和自适应梯度裁剪来降低深度网络的训练难度。为控制模型的参数数量,文献[5]提出一种通过递归监督和跳过连接的深度递归卷积网络(Deep Recursive Convolutional Networks,DRCN),其相比SRCNN 取得显著效果。在文献[6]提出残差网络(ResNet)后,很多研究人员将残差网络引入基于CNN 的图像超分辨率方法中。文献[7]利用多层连接CNN 实现低层次特征和高级特征的级联。文献[8]通过使用简化的残差块构建较宽网络EDSR 和较深网络MDSR(大约有165 层),EDSR 和MDSR 对超分辨重建图像性能的显著改进证明了网络深度对SR 的重要性。文献[9]提出一种深度递归残差网络(Deep Recursive Residuals Network,DRRN),采用权重共享策略满足较深网络中巨大的参数需求。为提升图像超分辨效果,对网络进行加深和扩大操作已经成为一种设计趋势,但仅通过加深网络层数会引起计算量大、消耗内存多以及训练时间长等问题,不适用于移动和嵌入式视觉应用场景。然而,基于CNN 的方法[7-9]对各信道特征进行处理时,其在处理高频信息和低频信息时缺乏灵活性。

由于注意力机制在建模全局依赖关系与降低无关图像域特征信息方面表现出良好的性能[10-12],因此本文结合特征图注意力机制,提出一种图像超分辨率重建模型。该模型由特征提取块、基于多特征图注意力机制的信息提取块和重建块3 个部分构成。利用特征提取块提取LR 图像中的特征,通过信息提取块逐步提取残差信息,重建块使用学习到的信息生成HR 图像输出。为更好地对特征图中的高低频信息进行处理,实现自适应地调整信道特征,在信息提取块中使用多特征图注意力机制来增强特征的表达能力。特征图注意力机制由一个全局平均池化(Global Average Pooling,GAP)层和两层全连接层构成的门控机制组成,GAP 可屏蔽空间上的分布信息,更加关注通道间的相关性,两层全连接层构成的门控机制通过对各通道特征图信息进行融合,利用通道间的相关性获得特征图权重值来自适应调整信道特征,以更好地恢复图像细节。

1 本文网络构建

本文设计的网络由特征提取块、多个基于特征图注意力机制的信息提取块和重建块3 个部分组成,具体结构如图1 所示。

图1 基于特征图注意力机制的图像超分辨率重建网络结构Fig.1 Super-resolution image reconstruction network structure based on attention mechanism of feature map

1.1 特征提取块

特征提取块用于从原始LR 图像中提取特征,本文设计的特征提取块由2 个3×3 的卷积构成,特征维度均为64。用ILR和ISR表示网络的输入和输出,特征提取过程可用式(1)表示:

其中,HFE表示提取特征的函数,F0表示提取的特征和下一阶段网络的输入。

1.2 基于特征图注意力机制的信息提取块

信息提取块用于逐步提取残差信息,它由4 个相同结构的特征图注意力机制的信息提取块组成。每个特征图注意力机制的信息提取块结构如图2 所示,其分为结合注意力的信息增强单元和压缩单元。该过程可用式(2)表示:

其中,Hk表示第k个信息提取函数,Fk-1和Fk分别表示第k个信息提取块的输入和输出。

图2 基于特征图注意力机制的信息提取块Fig.2 Information extraction block based on attention mechanism of feature map

1.2.1 特征图注意力机制

在图像的复原过程中,高频通道特征对HR 的重建更为重要,因此本文通过引入注意力机制来更加关注该信道特征。想要实现对每个特征通道分配不同的关注资源,则需关注以下2 个问题:1)LR 空间中的信息具有丰富的低频分量和有价值的高频分量,低频部分更为平坦,而高频分量通常是充满边缘、纹理和其他细节的区域;2)卷积层中的每个滤波器只能接收局部感受野信息,因此卷积后的输出无法利用局部之外的上下文信息。

针对上述问题,本文通过使用GAP 将空间上所有点的信息都平均为一个值,这样可以屏蔽掉空间上的分布信息,以更好地关注通道间的相关性,该通道统计有助于表达整个图像信息[13]。如图3 所示,X=[x1,x2,…,xc,…,xC]作为输入,C个特征图大小为H×W,经过全局平均池化后的结果呈现C个特征图之间的全局信息z,第c个特征图的全局信息zc计算方法如式(3)所示:

其中,xc(i,j) 是第c个特征图xc在位置(i,j) 处的值,HGAP表示全局平均池化功能函数。

图3 特征图注意力机制示意图Fig.3 Schematic diagram of attention mechanism of feature map

为了从全局平均池化的结果z中学习到每个特征通道的特征权值,需要做到以下3 点:

1)网络足够灵活,保证学习到的权值具有价值。

2)网络足够简单,不能增加网络的复杂性以致训练速度大幅降低。

3)网络要学习通道之间的非线性相互关系,激励重要的特征且抑制不重要的特征。

针对上述问题,本文设计两层全连接层构成门控机制,以融合各通道的特征图信息,门控单元s的计算方法可用式(4)表示:

其中:g和δ分别表示门控和ReLU 函数,W1乘以z表示一个全连接层操作,W1的维度为C/r,r为缩放因子,文中取值为16,经过一个ReLU 层后,输出的维度不变,再和W2相乘,这也是一个全连接层的过程,W2的维度为C,因此输出的维度为1×1×C;经过Sigmoid 函数得到特征图的权重值,最后将获得的特征图权重值s用于重新调整输入xc,具体如式(5)所示:

其中,sc和xc是第c个通道中的缩放因子和特征映射。这样通过特征图注意力机制可自适应调整通道特征,以增强网络的表征能力。

1.2.2 信息增强单元

信息增强单元是多个特征图注意力机制的信息提取块核心,其可以分为局部浅层网络和局部深层网络2 个部分。每个部分均包含3 个卷积层和3 个注意力模块,卷积核大小都设置为3×3,且每个卷积层的特征图维度如图2 所示。局部浅层网络的3 个卷积层的特征维度分别为48、32 与64,局部深层网络的3 个卷积层的特征维度分别为64、48 与80,每个卷积层后面都有一个非线性激活单元LReLU。为增加filter 之间的对角相关性并减少训练参数,其前后2 个部分的中间卷积层均采用分组卷积的方式。考虑到深层网络的表达能力更强,本文将第3 个注意力模块的特征图切分为2 个部分,假定该模块的输入为Fk-1,则模块输出可表示为:

其中,Fk-1是前一个信息提取块的输出,也是当前信息提取块的输入。Ca为链式卷积操作为第k个增强单元中前一部分卷积层的输出。由于本文的特征图注意力机制能自适应地调整通道特征,且不改变特征图维度大小,则的维度为64中经过s=4进行切分后,维度为16 的特征图和前一部分第一个卷积层的输入在通道维度上相连接,该部分可被看作是保留的局部浅层网络特征Rk,具体如式(7)所示:

其中,C和S分别表示连接Concatenate 操作和切片Slice 操作。

将剩下的维度为48 的特征图作为后续模块的输入,这主要是进一步增强浅层网络特征。相对于前一部分而言,该部分成为局部深层网络特征,具体如式(8)所示:

其中,,Cb分别为输出和后续模块的堆叠卷积操作。信息增强单元可用式(9)表示:

其中,Pk是增强单元的输出。局部深层网络特征以及局部浅层网络特征和未处理特征相结合的Rk都被压缩单元所利用。

1.2.3 信息压缩单元

信息压缩单元主要是压缩信息增强单元中特征的冗余信息。本文采用一层1×1 卷积层降维,并对增强单元中的特征信息进行融合。

1.3 重建块

重建块主要是利用上文卷积层学习到的信息,将LR 图像重建成不同尺度的HR 图像。通过比较反卷积层(也称为转置卷积)、最邻近上采样+卷积、亚像素卷积层ESPCN[14]这3 种可用的重建方法,结果发现ESPCN 在计算复杂度和性能方面均优于其他2 种方法。因此,本文网络可以用式(10)表示:

其中,HREC,U分别表示重建块和双三次插值运算,ISR表示最终输出。

1.4 损失函数

优化网络的损失函数是整个网络模型的调度中心,目前在图像超分辨率重建中广泛使用的损失函数是均方误差(Mean Square Error,MSE)。它用来衡量预测的HR 图像I^和相应的真实图像I之间的差异,计算方法如式(11)所示:

文献[8]通过实验证明MSE 损失训练不是最好的选择,而平均绝对误差(Mean Absolute Error,MAE)是另一种常用的损失函数,其计算方法如式(12)所示:

基于信息蒸馏网络快速准确的单幅图像超分辨率IDN[15]已经证明MAE 损失训练对图像超分辨有一定作用,因此本文先用MAE 损失函数训练,再用MSE 损失函数微调。

2 实验设置与结果分析

本文使用的平台是CentOS 7.4 操作系统,双核Intel 2.2 GHz CPU 64 GB 内存,Tesla V100 GPU,32 GB 内存和4 TB 硬盘,并在基于GPU 版本的Tensorflow1.13 深度学习框架下训练本文模型。本文采用文献[16]提出的方法初始化权重,偏差设置为0,并采用Adam[17]对网络进行优化,设置批量数大小为16,初始学习率为2e-4,每迭代训练2 000 次学习率降为原来的一半,总共迭代10 000 次。

2.1 数据集

实验选择用于图像超分辨率的标准数据集DIV2K[18]为研究对象,该数据集是新发布的用于图像复原任务的高质量图像数据集,每张图像具有2K的分辨率。DIV2K数据集包含800张训练图像、100张验证图像和100 张测试图像,但是测试数据集目前尚未发布,因此本文采用Set5[19]、BSD100[20]、Urban100[21]和Manga109[22]4 个广泛使用的基准测试数据集进行模型性能评估。在这些数据集中,Set5和BSD100 包含自然场景,图片个数分别是5 和100,Urban100 包含100 张具有挑战性的城市场景图像,其中包含不同频段的细节,Manga109 是由日本专业漫画家绘制的109 幅漫画组成。

2.2 数据集预处理

针对实际工程应用构建出有效训练集是目前图像复原中普遍存在的问题,当前主流的数据预处理方式有双三次插值算法和最邻近算法2 种。本文使用双三次插值算法生成训练LR/HR 图像对,且为了和基于GAN 的网络进行对比实验,本文使用最邻近算法进行预处理,2 种不同方式的预处理对基于特征图注意力机制的超分辨重建都有一定的效果。

为了充分利用训练数据,本文采用以下3 种方式对数据进行增强:1)将图片旋转90°、180°和270°;2)将图片水平翻转;3)以0.9、0.8、0.7 和0.6 的因子缩小图像。

2.3 实验结果分析

为了探究注意力机制对本文网络的影响,对本文网络与移除了注意力机制的超分辨网络(SR-Net)在放大4 倍后的DIV2K 验证集上的峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)进行对比,结果如图4 所示。从图4 可以看出,2 个网络都收敛很快,但本文网络的PSNR 比SR-Net 网络高出约0.15 dB。

图4 本文网络与SR-Net 的PSNR 对比Fig.4 PSNR comparison between SR-Net and the proposed network

将本文模型与Bicubic、SRCNN、VDSR、DRRN、IDN、SR-Net 模型在Set5 数据集上进行重建对比,结果如表1 与图5 所示。从表1 可以看出,虽然SR-Net的PSNR 值比IDN 低0.2 dB,但是本文模型的PSNR值比IDN 模型高0.32 dB,且图5(i)的轮廓比图5(g)更加清晰,更符合原始图像5(b)的细节,说明本文提出的基于特征图注意力机制的图像超分辨网络可以增强特征的表达能力,能够恢复出更多的高频细节信息。

表1 7 种模型在Set5 数据集上的PSNR 和SSIM 对比Table 1 PSNR and SSIM comparison of seven models on Set5 dataset

图5 7 种模型在Set5 数据集上放大4 倍后的重建效果对比Fig.5 Comparison of reconstruction effect of seven models on Set5 dataset after magnification of four times

将本文提出的基于特征图注意力机制的超分辨重建网络与SRCNN、VDSR、DRCN、DRRN、IDN 超分辨率模型进行定性和定量对比。表2给出了分别放大2倍、3 倍与4 倍这3 种不同尺度下,不同的图像超分辨模型利用图像的PSNR 和结构相似度(Structural Similarity,SSIM)这2 种广泛使用的图像质量评估指标的定量对比结果,其中,最优结果加粗表示。从表2 的数据可以看出,本文模型在Set5[19]、BSD100[20]、Urban100[21]和Manga109[22]数据集上的PSNR 与SSIM 多数都超过了其他超分辨率模型,虽然2 倍放大尺度下在Set5 上的结果略低于IDN 模型,但在其他数据集上的结果都优于IDN。随着放大倍数的增大,图片重建的难度也会随之增大,在放大倍数为4 的情况下,本文模型相比SRCNN 模型在Manga109 数据集上PSNR 提升了2.66 dB,与本文模型PSNR 值相比差距最小的是IDN 模型,在B100 数据集上比本文模型PSNR 值低0.1 dB。

表2 7 种模型在不同尺度下的PSNR 与SSIM 对比Table 2 Comparison of PSNR/SSIM of seven models at different scales

从图6 可知,多数重建模型沿水平线出现模糊伪影,图6(d)和图6(f)重建出的线条较模糊,而图6(g)的重建效果比前两者好,但窗户玻璃的边缘轮廓不清晰,且线条细节恢复不够,而本文模型重建出的图6(h)能重建出更多的细节,且线条和边缘轮廓更清晰。当缩放因子较大时,超分辨重建效果较差在很大程度上是由高频信息不足导致的,而本文模型利用特征图注意力机制能从LR 空间中获得更多有用的特征并产生较好的效果。

图6 6种模型在Urban100数据集上放大4倍后的重建效果对比Fig.6 Comparison of reconstruction effect of six models on Urban100 dataset after magnification of four times

由于人像图片中眼睛部分细节较多,因此本文对超分辨后的图像右眼部分进行放大对比。实验分别采用本文模型、Bicubic、VDSR、DRRN 和IDN 对实际图片进行超分辨重建,结果如图7 所示。从图7 可以看出:相较于原始图像7(a)而言,图7(d)DRRN 模型重建的高分辨图像视觉效果较差;图7(c)和图7(e)重建出的高分辨图像在视觉上有所提升,但放大后的图片边缘轮廓仍然模糊;本文模型重建出的高分辨图7(f)不仅在视觉上效果最佳,且放大后的眼睛部分具有较为锐利的边缘和比较清晰的纹理细度。因此,本文模型重建后的效果在视觉上优于其他模型,实用性更强。

图7 5 种模型在放大3 倍后的重建效果对比Fig.7 Comparison of reconstruction effect of five models after magnification of three times

基于对抗网络的图像复原是比较常见的,实验对本文模型与SRGAN[23]进行对比实验,结果如表3所示。从表3 可以看出,相比Bicubic 模型与SRGAN模型,本文模型的PSNR 更高。从图8 网络重建效果对比图可知,SRGAN 模型构建生成的图效果比本文模型好,该结果是通过10 个人对比观察重建效果图主观感觉得出,其中6 个人认为中间SRGAN 模型生成的图片8(b)和8(e)效果更好,3 个人认为本文模型生成的图8(c)和图8(f)更好,1 个人认为2 个模型效果相当。

表3 3 种模型在不同数据集下的PSNR 与SSIM 对比Table 3 PSNR and SSIM comparicon of three models in different datasets

图8 SRGAN 模型与本文模型在放大4 倍后的重建效果对比Fig.8 Comparison of reconstruction effect between SRGAN model and the proposed model after magnification of four times

文献[24]提出的图像超分辨重建的图像质量评价方法PSNR/SSIM 不能客观反映图像的主观效果,而图像超分辨重建的图像质量评价方法平均主观意见分(Mean Opinion Score,MOS)需要大量的人力成本且不能复现。因此,提出更加精确的图像质量评价方法十分必要。但是在新的评价方法提出之前,本文沿用主流的PSNR/SSIM 图像质量评价方法对模型进行评估,在该评估体系下,本文模型不仅在客观定量评价指标上有所提高,且能重建出更多符合原始图像的细节信息,这说明特征图注意力机制在图像超分辨重建中具有重要的作用。

3 结束语

本文设计一种基于特征图注意力机制的图像超分辨率重建网络模型,对彩色图像进行不同尺度的超分辨重建。该模型通过特征提取块从原始LR 图像中提取特征,再由多个基于特征图注意力机制的信息提取块自适应地调整特征通道信息,以增强特征的表达能力,有效恢复出更多轮廓纹理等细节信息。实验结果表明,本文模型可有效提升图像超分辨率重建效果。下一步将对基于CNN 和生成性对抗网络构建的模型重建效果进行分析与研究,实现更为精确的图像质量评估。

猜你喜欢

分辨率注意力卷积
让注意力“飞”回来
基于3D-Winograd的快速卷积算法设计及FPGA实现
EM算法的参数分辨率
从滤波器理解卷积
原生VS最大那些混淆视听的“分辨率”概念
基于傅里叶域卷积表示的目标跟踪算法
“扬眼”APP:让注意力“变现”
基于深度特征学习的图像超分辨率重建
一种改进的基于边缘加强超分辨率算法
A Beautiful Way Of Looking At Things