APP下载

基于生成对抗网络的图像超分辨率重建算法

2021-12-16刘郭琦刘进锋朱东辉

液晶与显示 2021年12期
关键词:残差分辨率注意力

刘郭琦, 刘进锋, 朱东辉

(宁夏大学 信息工程学院,宁夏 银川 750021)

1 引 言

在现代生产生活中,人们对图像质量的需求越来越高。由于低分辨率模糊图像不能满足应用需求,高分辨率图像逐渐成为了人们的刚需。虽然光学器件的发展对超分辨成像效果显著[1],但由于成本和应用环境的限制,算法层面的超分辨率重建技术仍然具有广泛的应用价值和市场前景。

图像超分辨率重建方法可分为传统方法和基于深度学习的方法。传统方法包括基于重建[2]和基于插值[3]两种方法。基于重建的方法主要包括迭代反投影法[4]和凸集投影法[5]等,这类算法操作方便、重建速度比较快,但是所引入的先验知识有限,在重建后会丢失很多图像细节,效果并不理想。基于插值的方法包括双三次插值法[6]、最近邻插值法[7]等,这类方法原理简单,重建速度快,但重建的图像比较模糊,实际应用价值不高。基于深度学习的超分辨率方法效果相比传统方法好很多,在研究发展过程中逐步提高了神经网络的性能,使超分图像具备了高频信息,变得十分清晰。

对于基于深度学习的图像超分辨率重建方法,通常如果学习的样本足够多,神经网络趋近最佳映射,重建的效果更好。目前基于深度学习的卷积神经网络算法是解决图像超分辨率问题的主流方法,该类方法重建图像质量高、受应用场景限制少。

2014年,Dong等人提出的超分辨率卷积神经网络(SRCNN)[8]是超分辨率问题中深度学习的首次应用。SRCNN网络结构包括3层:第一层提取补丁以低分辨尺度上的特征表示,第二层逼近非线性映射函数,第三层重构图像。SRCNN是超分辨率技术的一个里程碑。

后来Kim等人提出的VDSR[9]是一个非常深的残差网络。VDSR的网络结构共有20层,每一层都有一个小型滤波器。输入图像到输出估计间采用跳跃连接,使得卷积层学习估计与真实图像之间的残差。梯度裁剪策略允许使用高学习率来训练网络,对于庞大的架构,仍然可加快收敛速度。梯度裁剪的原理是截断单个梯度,以便将所有梯度限制在预定范围内,同时增加网络的深度,结果的准确性也得以提高。

深度递归卷积网络(DRCN)[10]采用了递归结构,在减少参数量的同时增加了网络的深度。递归结构通过重复使用相同的简单滤波器来提取图像特征,递归块的所有中间输出及网络的输入被馈送到卷积层用于生成输出预测。输出预测有4个,最终估计由输出预测的线性组合确定,并由均方损失优化。限制普通递归网络性能的因素主要是梯度爆炸或消失,它们导致网络的不稳定和学习能力的下降。DRCN采用两个策略来解决这个问题:递归监督和跳跃连接。递归监督是指递归块的所有中间输出都参与确定输出预测,且每个输出预测都接受均方损失的监督,输出预测之间的差异能够平滑参数的梯度。递归监督是消除梯度的一种补救方法,跳过连接可避免梯度爆炸。

随着网络深度的不断加深,增强型深度残差网络(EDSR)[11]应运而生。使用残差块(ResBlock)可以在低分辨率上增强结构信息,提升了图像质量,并在残差块中删除了批量归一化,引入了恒定的缩放层,减少了图像细节被忽视的可能,保留了更多图像的浅层信息,有利于图像的重建,减少了参数总量,并使用L1损失训练,扩大了模型的尺寸来提升图像质量。

随后Lai等人提出了拉普拉斯金字塔网络(LapSRN)[12],目的是逐步重建高分辨率图像的残差,以低分辨率特征图作为输入,预测高频残差。但该结构每次采样后计算量会成倍增加,所以在计算上会受到很大的限制,难以应用到深层网络。

Zhang等人提出了一个残差密集网络(RDN)[13]。该研究比较了不同的网络块:残差块、密集块、残差密集块,其中1×1卷积层用于减小维数,残差块强制滤波器学习残差信息;而密集块能提高网络描述复杂功能的能力;残差密集块兼具前两者的优点,可以提供更好的性能。

Ledig等人提出了超分辨率生成对抗网络(SRGAN)[14],它的创新在于改变了损失函数,从原来的均方误差(MSE)转为基于VGG的内容损失函数,利用生成网络和判别网络之间相互对抗的方法来提高图像的分辨率,将结果引入到生成网络的损失函数中,重建后的图像更加清晰,细节更加丰富,更符合人眼的主观感受。

综上所述,虽然超分辨率模型中神经网络层数越来越深,对模型性能有着更好的提升,但是在视觉感受上还有着些许欠缺。SRGAN模型是上述模型中比较经典的模型,适用范围很广,但是这个模型对于图像细节的恢复还有待进一步提升,为此本文对SRGAN模型进行了更深入的研究。受人类注意力机制的启发,本文在该模型的基础上引入了注意力机制,提出了改进优化模型,使其重建的图像更加清晰。

2 工作基础

2.1 SRGAN

基于深度学习的超分辨率技术有很多,但往往处理后的图像过于平滑且缺乏高频信息,生成对抗网络的出现大为弥补了这一缺点。GAN拥有出色的拟合能力,在计算机视觉领域起着非常重要的作用。SRGAN在基于残差网络的图像超分辨率重建方法的基础上加入了判别器网络,其主要改进有:(1)将均方损失函数(MSE)替换为对抗损失和内容损失;(2)引入了生成对抗网络,把传统像素空间的内容损失替换为对抗性质的相似性;(3)引入深度残差网络,用于提取更丰富的图像细节。SRGAN的生成器网络(Generator Network)结构和判别器网络(Discriminator Network)结构如图1所示。

图1 SRGAN生成器G和判别器D模型Fig.1 SRGAN generator(G) and discriminator(D)model

图1中,n代表特征图个数,s代表卷积步长。生成器中包含了多个残差块,以及批量归一化层(Batch Normalization,BN)和激活函数层;判别器包含8个卷积层,激活函数为Leaky ReLU函数,最后连接着全连接层。SRGAN目的是将超分辨率的放大因子增大,当放大倍数超过4倍时,能得到较好的效果。使用感知损失、对抗损失来实现图像超分辨率重建,增加了恢复图像的清晰度和逼真度,但SRGAN生成的图像存在伪影。

2.2 ECA通道注意力

近年来,随着深度学习的研究越来越深入,注意力机制(Attention Mechanisms)[15]逐渐成为了深度学习研究的热点问题之一,成为神经网络中的一个重要概念。注意力源于人类的视觉系统,在人们观察外界事物时,通常不会把外界事物看作一个整体,而是更倾向于选取事物中最重要的部分进行观察,把重要部分和相对不重要部分组合起来,形成一个观察的整体。注意力机制对网络输入的每个部分赋予不同的权重,提取所需的重要信息,辅助模型做出准确判断,与此同时并不带来更大的计算、存储开销,这也是注意力机制应用广泛的原因。

注意力机制可分为空间域注意力、通道域注意力、混合域注意力和时间域注意力。

通道域注意力机制不考虑每个像素之间的差值,对所有的特征进行了加权。在神经网络中,初始图像按(R,G,B)三通道进行表示,经过不同的卷积核运算之后,每个通道都会自动产生新的信号。例如我们在使用64核卷积提取通道图像特征时,都会自动产生64个新的通道矩阵(H,W,64),H和W分别表示其高度和宽度。每个通道上的信号都有一个权重,通道与通道之间具有一定相关性,如果权重越大,则相关性也就越高。

本文使用的ECA[16]通道注意力就是通道域注意力机制的一种。它是一种轻量级通道注意力,可以通过快速一维卷积有效地实现。此外,一个通道维数的函数就可以自适应地确定一维卷积的核大小,它代表了局域交叉通道相互作用的覆盖范围。ECA模块可以灵活地整合到现有的CNN架构中,与同类网络相比,ECA具有更高的效率。ECA通道注意力包含少量参数,显著降低了模型的复杂度,性能得到明显提升。

图2为ECA通道注意力模块示意图。ECA模型通过全局平均池化层(GAP)获得聚集特征,通过执行卷积核大小为k的快速1D卷积来生成信道权重,其中k是通过信道维度C的映射自适应所确定。

图2 ECA通道注意力模块Fig.2 ECA channel attention module

ECA模块可以适当地捕获本地跨通道交互,因此需要确定交互的覆盖范围。对于在不同CNN架构上具有不同频道的卷积块,可以手动调整交互的最佳覆盖范围。其中高维(低维)涉及固定组数的长距离(短距离)卷积。交互覆盖范围与信道维度C成正比,换言之,k与C之间可能存在映射关系φ:

C=φ(k),

(1)

最简单的映射是线性映射,即φ(k)=γ*k-b,但用线性函数刻画的关系过于有限。另一方面,信道维数C是滤波器的数量,通常设置为2的幂次。因此通常用线性函数φ(k)=γ*k-b扩展到非线性函数中解决更多的问题。

C=φ(k)=2(γ*k-b),

(2)

然后给定信道维度C,可自适应地确定卷积核大小k:

(3)

式中:|t|odd代表最接近t的奇数,γ和b分别代表简单线性映射的斜率和截距。显然通过映射ψ,高维通道具有较长的交互范围,而低维通道则需要使用非线性映射经历较短的范围交互。

3 本文提出的网络模型设计

本文提出的网络模型是在 SRGAN 模型的基础上分别优化生成器G和判别器D。将生成器中的残差模块的BN层去除,并引入注意力模型——ECA通道注意力。判别器则去除了步长为1的卷积层,从而构建运行速度更快的生成对抗网络的图像超分辨率模型。

SRGAN的生成器包含多个残差块,本文对这些残差块进行了改进,改进的残差块网络结构如图3所示。改进后的残差块去除了BN层。对数据进行BN处理能够加快网络收敛速度、防止梯度弥散。但在图像超分辨率重建问题中,批归一化操作会破坏卷积层所提取到的特征映射分布,导致色彩归一化、破坏原图像的空间表征等问题,直接影响图像重建效果;另一方面,BN层增加了计算的复杂度和内存消耗,因此本文移除了原SRGAN中的BN层。同时在残差模块中加入了ECA注意力模块(ECA-Net),由于其高效、轻量的模型特性,能更好地获取图像的高频信息。

图3 (a)SRGAN残差块;(b)改进的残差块。Fig.3 (a)SRGAN residual block ;(b)Improved residual block.

表1是生成器结构的相关参数。每一个卷积层依次命名为Conv_1,Conv_2,Conv_3,Conv_4,Conv_5,Conv_6;每一个反卷积层依次命名为Deconv_1,Deconv_2,…Deconv_6。所有卷积层和反卷积层的参数都列在表1中。对于Leaky ReLU根据文献[15]经验,统一α等于0.2。

表1 生成器卷积层结构相关参数

对SRGAN的判别器网络改进后的结构如图4所示。为了描述方便,将一个卷积层(Conv)和批归一化层(BN)和激活层(Leaky ReLU)称为卷积模块。在网络中,图像每经过1个卷积模块,特征图的尺寸减半,通道数扩大。因为池化层容易丢失有用的信息,本文采用步长为2的卷积层来代替原SRGAN中的池化层。经过4个卷积模块后,使用全连接层(FC)将输出的特征图映射为一个值,再使用Sigmoid层将该值映射到(0,1)区间内,得到最终的预测值,该预测值用于判断输入的图像是否为真实图像。

图4 改进后的判别器网络Fig.4 Improved discriminator network

判别器各层数配置如表2所示。

表2 改进后判别器卷积层配置

4 实验分析

4.1 评价指标

对于超分辨率图像重建技术的结果评价时,主观评价在不同的环境下,不同的人往往会有不同的主观感受,从而有不同的评价,并伴随着周围环境的变化而变化,因此评价往往不能统一,所以需要引入客观评价标准,以此更好地对超分辨率图像做出更真实和准确的评价。

本文采用的客观评价指标是峰值信噪比(Peak signal to noise ratio, PSNR)和结构相似性(Structural similarity, SSIM),这两个评价指标是目前基于深度学习图像超分辨率重建的主要评价指标。

PSNR是衡量图像重建质量效果的客观评价指标,它与生成图像的均方误差(MSE)的对数成反比。PSNR能反映图像的噪声水平,可以表征重建图像失真的大小,其值越大,表示重构图像的效果越好。

SSIM是衡量图像之间结构相似度的客观度量,它可以表示为亮度、对比度和结构比较的加权乘积。SSIM的范围为0~1,当两张图像一样时,SSIM的值越接近1,说明图像效果越好。

4.2 实验环境

为了保证数据实验的准确性和重建效果,本文提出的改进算法使用DIV2K、BSDS300、Set5、Set14高清数据集。

硬件平台配置如表3所示。实验使用的是Ubuntu操作系统,深度学习框架是Pytorch,在优化器为Adam的情况下训练了100轮。同时依据电脑性能,图像在输入前统一被裁剪为128×128大小的图像,训练的batch size设置为64,验证batch size设置为32,损失函数为L1。

表3 实验环境Tab.3 Experimental environment

4.3 实验结果

如图5所示,图(a)与图(b)、图(c)相比,在放大2倍和4倍的情况下,中间画框区域放大后,改进后模型的翅膀线条依然清晰,说明重建起到了一定效果,因此本算法对高频特征的恢复具有一定优势。

图5 不同放大因子下的超分辨率重建图像。(a)低分辨率图;(b)使用2倍放大因子;(c)使用4倍放大因子。Fig.5 Super-resolution reconstructed images at different magnification factors.(a) Low resolution image;(b) Under 2x magnification factor;(c) Under 4x magnification factor.

通过一系列实验,本文将在客观评价结果和主观评价结果两方面来表示优化后的模型重建能力。表4和表5给出在4倍放大因子下,Bicubic、SRCNN,SRGAN和本文提出的改进的模型(Ours)在4种数据集上,评价指标PSNR和SSIM的对比结果。

表4 4种网络模型PSNR对比

改进后的模型在各个数据集的PSNR指标都有了一定提升,说明改进后有了一定提高。

表5 4种网络模型SSIM对比

改进后的模型在各个数据集的SSIM指标都更高,说明改进后有了一定提高。

改进后的模型由于总参数量减少,在运行速度上也有了一定的提升。表6给出了SRGAN与本文改进的模型(Ours)总参数情况。

表6 改进前后模型的总参数量对比

由于总参数量的不同,改进后的网络模型总参数量明显小于SRGAN,因此运行速度也有了小幅的提升。

5 结 论

本文提出基于生成对抗网络的超分辨率重建算法的改进,在生成网络中加入了ECA通道注意力,在判别网络中改变了卷积模块,通过采用通用训练集DIV2K、BSDS300、Set5、Set14进行测试,实验表明改进的生成对抗网络重建算法在峰值信噪比(PSNR)和结构相似性(SSIM)上均有提升,参数量有所减少,运行速度有所提高。最后本文利用普遍采用的 PSNR 和 SSIM 评价指标, 对本文方法产生的超分辨率图像同其他方法进行了对比, 证明了本文方法的网络性能和重建图像在视觉质量上与数值评价上的优异表现。

猜你喜欢

残差分辨率注意力
基于双向GRU与残差拟合的车辆跟驰建模
让注意力“飞”回来
基于残差学习的自适应无人机目标跟踪算法
基于递归残差网络的图像超分辨率重建
EM算法的参数分辨率
原生VS最大那些混淆视听的“分辨率”概念
“扬眼”APP:让注意力“变现”
基于深度特征学习的图像超分辨率重建
一种改进的基于边缘加强超分辨率算法
A Beautiful Way Of Looking At Things