APP下载

基于多尺度递归密集网络的单图像超分辨率算法

2021-01-08徐石张莉季家欢

山西大学学报(自然科学版) 2020年4期
关键词:密集分辨率尺度

徐石,张莉,2*,季家欢

(1.苏州大学 计算机科学与技术学院,江苏 苏州 215006;2.苏州大学 江苏省计算机信息处理技术重点实验室,江苏 苏州 215006)

0 引言

单图像超分辨率(single image super-resolution, SISR)旨在从相关的低分辨率(low-resolution, LR)图像中恢复出令人满意的高分辨率(high-resolution,HR)图像,这是计算机视觉和图像处理中的一种重要应用。超分辨率(super-resolution, SR)技术可以有效地用于安全监控[1-2]、医学成像[3-4]和超高清内容生成[5-7]等各种场景,因此其具有巨大的实用价值。经过数十年的广泛研究,提出了不少解决SISR问题的方法。但是由于该问题为一个不适定逆问题,即给定一个LR图像,可能有许多HR图像对应于同一幅LR图像,所以SISR仍然是一个非常具有挑战性和开放性的研究问题。

近年来,深度学习已成功地解决计算机视觉的众多任务,包括SISR任务。Dong等人[8]首先提出了一种用于优化非线性映射和特征提取的三层超分辨率卷积神经网络(super-resolution convolutional neural network, SRCNN),其令人鼓舞的结果引起了极大的关注。许多关于SISR的最新工作表明,更深的网络模型会带来更好的性能[9-12],因为增加网络的深度或宽度可以扩大感受野,提供更丰富的特征信息,有助于提升SR图像的质量。

上述SISR方法取得了显著的成果,但是它们仍然存在以下缺点。首先,通过添加更多层来构建更深或更广的网络实现更好的性能,这需要更高的计算成本和更大的存储空间,而巨大的模型在实践中可能是无法接受的。其次,传统的卷积神经网络(convolutional neural network,CNN)倾向于采用前向网络结构。因此,Kim等人[13]提出了一种深度递归卷积网络(deeply-recursive convolutional network,DRCN),利用构造递归单元和共享权重参数来解决上述缺点。但是,DRCN在训练过程中还是会遭遇到梯度弥散或梯度爆炸问题,导致其不容易收敛。在DRCN的基础上,Tai等人[14]提出了深度递归残差网络(deep recursive residual network,DRRN),应用全局和局部残差学习来促进特征提取和梯度流动。但是,这些方法在训练之前,需要对LR图像放大至所需的尺寸。这会导致更高的计算复杂度,并使LR图像过度平滑或模糊。Tong等人修改了密集连接卷积网络(densely connected convolutional network,DenseNet)[15]的结构并提出了用于SISR任务的超分辨率密集连接卷积网络(super-resolution DenseNet,SRDenseNet)[16]。此外,SRDenseNet在网络末端使用转置卷积层进行上采样,这有助于恢复高频细节。但是,DenseNet的提出是为了解决更高层次的计算机视觉问题,例如图像分类和检测。因此,将该架构直接应用于低层次视觉问题(如超分辨率),可能不是最佳方案。

为了解决上述问题,本文提出了一种多尺度递归密集网络(multi-scale recursive dense network, MSRDN)。在训练过程中,MSRDN直接将LR图像用作输入,而无须使用预定义的上采样运算符将其放大到所需的尺寸。在MSRDN中,多尺度密集模块(multi-scale dense block, MSDB)作为其中的关键部分融合了不同尺度下的特征以获得更丰富和有效的信息,这有助于解决图像重建任务。重建模块将MSDB群的输出恢复成SR图像,然后通过多项L1损失函数训练网络。

本文的主要贡献如下:

1) 我们设计了一个MSDB群,其包含多个MSDB。在每个MSDB中,都有一个双旁路子网和一个通道注意力机制。双旁路子网的功能是将多尺度特征与密集跳跃连接融合在一起。通道注意力机制从通道中提取更多有用的信息。MSDB群在信息跨网络流动方面发挥了作用。

2) 在MSDB群的基础上,我们提出了用于SISR的MSRDN方法。首先,浅层特征提取模块用于获得MSRDN中的粗糙特征。然后,MSRDN将粗略特征传递到MSDB 群,并在高频空间中生成残差特征。在损失函数中考虑使用所有MSDB群重建的SR图像。

1 相关工作

目前,已经提出了许多用于SISR的方法,包括基于预测的方法[17]、基于边缘的方法[18]、基于统计的方法[19]、基于补丁的方法[20]、基于稀疏表示的方法[21]和基于CNN的方法。在这里,我们重点介绍基于CNN的方法。

近年来,随着深度学习技术的飞速发展,人们积极探索基于数据驱动的深度学习的SR模型。这些模型可用来还原所需的重建细节,并在各种超分辨率基准数据集上达到很好的重建性能。不同于在图像块空间中建模LR-HR的映射,Dong等人[8]提出的SRCNN可以用端对端的方式学习图像空间LR-HR的非线性映射,并优于传统的浅层方法。Kim等人[22]提出了一种非常深的超分辨率CNN模型,称为极深超分辨率网络(image super-resolution using very deep convolutional networks, VDSR)。 VDSR将网络深度从SRCNN中的3层增加到了20层,且在训练中利用梯度修剪和残差学习来使网络更精确地收敛。Tai等人[23]提出了一种非常深的端到端的新型持久性记忆网络(a persistent memory network for image restoration, MemNet)。 该网络可以分为类似于SRCNN的三个部分,其中堆叠的记忆模块在网络中起着至关重要的作用,由一个递归单元和一个门单元组成。每个递归单元的输出被级联,并通过额外的1×1卷积进行记忆和遗忘操作。密集连接这类结构有助于补偿中高频信号,并确保信息在记忆块之间充分流动。Shi等人[24]提出了一种有效的亚像素卷积网络(an efficient sub-pixel convolutional network, ESPCN),能在LR空间中提取特征。亚像素卷积运算可用于缩放输入特征图的尺寸,且只需要较低的计算复杂度。尽管可以通过添加更多层生成更深或更宽的网络,以此来获得更好的性能,但这样做也需要更高的计算成本和更大的存储空间。为了解决这个问题,Kim等人[13]提出了DRCN,该网络由三个较小的子网络组成,并多次应用相同的卷积层。该技术的优点在于,随着递归次数的增加,模型参数的数量依旧保持不变。此外,递归监督和跳跃连接可以进一步提高网络性能。Tai等人[14]通过引入更深的体系结构(包含多达52个卷积层)来设计了DRRN。通过利用全局和局部残差学习,DRRN有效地减轻了训练深度网络的难度,并将丰富的图像细节传递给后续层。Tong等人[16]提出了一种称为SRDenseNet的方法,其每个卷积层可以通过密集连接直接对其所有先前层的输出进行操作。 SRDenseNet改善了网络中的信息流动并减轻了梯度弥散与梯度爆炸的问题。

2 提出的方法

在本节中,我们首先描述了所提MSRDN模型的框架,然后介绍其核心部分MSDB。

2.1 网络框架

MSRDN的网络架构如图1所示,主要由三部分组成:特征提取(feature extraction, FE)模块,多尺度密集模块群和重建模块。

此处,设ILR和ISR分别为MSRDN的输入和输出。在浅层特征提取模块中,我们利用一个3×3的卷积层从原始LR输入图像中提取粗糙特征。此过程可以表示为

F0=fs(ILR),

(1)

其中,fs代表浅层特征提取函数,而F0表示粗糙特征并作为下一阶段的输入。

在MSDB群中,有多个MSDB生成精细特征,即

F1=R1(F0)

(2)

Fk=Rk([Fk-1,F0]),k=2,3,…,n,

(3)

其中,Rk表示第k个MSDB函数,Fk表示第k个MSDB的输出,n是总的MSDB函数的个数,[·]表示特征拼接,此处是用Fk-1和F0拼接后的特征作为第k个MSDB函数的输入。

最后,MSRDN使用重建模块还原由多个MSDB函数生成的残差图像,而不是学习从LR图像到HR图像的直接映射。因此,SR图像可以表示为

(4)

(5)

图1 MSRDN网络架构Fig.1 Architecture of MSRDN

图2 多尺度密集模块的基本结构Fig.2 Basic structure of the multi-scale dense block

2.2 多尺度密集模块

如前所述,MSDB群是MSRDN的核心部分,由多个MSDB组成,能有效地改善从LR图像到SR图像的信息流动,并在训练过程中促进梯度向后传播。图2给出了一个MSDB的基本结构。每个MSDB可以分为两个子网:双旁路子网和通道注意力子网。

MSDB的双旁路子网采用密集连接,不同的旁路采用不同大小的卷积核。在双旁路子网中,每个卷积层后面都接一个带泄露修正线性单元(leaky rectified linear unit,LReLU)作为激活函数。为了简化过程描述,在此将该单元省略。因此,双旁路子网可以表示为:

(6)

Ui=f3([H,U1,…,Ui-1,Di-1]),i=1,…,m

(7)

Di=f5([H,D1,…,Di-1,Ui-1]),i=1,…,m

(8)

(9)

在MSDB中的另一个部分是通道注意力子网,可以被描述如下

(10)

其中,Fk表示第k个MSDB的输出且fgp为全局池化函数。

2.3 重建模块

为了优化计算效率并充分利用深度学习技术来提高图像分辨率,我们在低维空间中执行MSRDN,而不是采用预定义的上采样操作先将其放大至所需大小。如图3所示,最终的重构模块采用一个亚像素卷积层[24]和两个3×3卷积层。因此,该重建模块可以表示为:

(11)

图3 重建模块的基本结构Fig.3 Basic structure of the reconstruction module

3 实验

我们在四个基准数据集上评估了MSRDN的性能。本节首先描述了相关的数据集与测量指标,然后介绍实验细节,最后将模型与其他先进方法的结果进行比较。

3.1 数据集

3.1.1 训练集

近年来,已有许多可用于图像超分辨率的数据集,它们在图像数量、质量和分辨率等方面有明显差异。这里,我们选择公开的高质量(2K 分辨率)数据集DIV2K[26]用于SISR任务,并使用其中指定的800张训练图像来训练MSRDN。为了充分利用训练数据,我们通过随机旋转或翻转图像来进行数据增强操作。

3.1.2 测试集

在评估过程中,我们分别在以下四个公共基准数据集上对所提方法进行了验证:Set5[27]、Set14[28]、BSD100[29]和Urban100[30]。在这些数据集中,Set5和Set14是SR的经典数据集;BSD100是来自伯克利图像分割数据集,由自然场景组成;Urban100是相对较新的数据集,有100幅充满挑战性的城市场景图像。我们采用MATLAB默认设置下的imresize函数(即双三次插值)生成用于测试的LR-HR图像对作为测试集。

3.2 评估指标

3.2.1 峰值信噪比

(12)

其中

(13)

通常,L的值为255.0或1.0(归一化后)。当L固定时,PSNR仅与图像之间的像素级MSE有关,它的范围一般在20到40之间,且值越高越好。

3.2.2 结构相似性

Wang等人[31]提出了用于衡量图像之间差异的结构相似性指数(structural similarity index,SSIM)。 该指数与亮度、对比度和结构有关,其定义如下:

(14)

其中,Cl、Cc和Cs分别对应亮度、对比度和结构的比较函数。

3.3 实验细节

在训练过程中,我们每次随机裁剪16幅低分辨率RGB图像,且每幅图像的大小为40×40,其相应的HR图像大小则为40s×40s,其中s(s=2,3,4)是缩放因子。本文,我们构建了一个称为MSRDN的51层卷积神经网络模型。该模型拥有4个MSDB,其每个旁路中都包含8个卷积层。重建模块中的两个卷积层分别由512个和3个卷积核构成,而网络中其他卷积层均为64个卷积核。

我们通过减去DIV2K数据集的平均像素值对所有输入进行预处理,在最后的重建环节中再对所有SR图像加上该平均值。本文提出的MSRDN应用Adam算法[32]对网络进行了优化,其中β1=0.9,β2=0.999和ε=1×10-8。我们使用He等人[33]描述的方法初始化权重,并将偏差设置为零。学习率最初设置为1×10-4,然后每训练200次衰减一半,共衰减4次。我们在TITAN V GPU上使用PyTorch框架实现了MSRDN。

3.4 实验结果与评价

我们将提出的MSRDN与其他SR算法进行了比较,包括Bicubic、VDSR[22]、DRCN[13]、DRRN[14]、MemNet[23]、SRDenseNet[16]和NLRN[9],其中除Bicubic外,其他方法均是基于深度学习的图像超分辨率方法。我们在四个测试数据集上分别计算平均PSNR值和平均SSIM值,具体结果如表1所示。与其他方法相比,我们提出的MSRDN表现出了其先进性。图4-图5显示了各个方法下的重建图像。从视觉效果上来看,MSRDN算法具有较好的重建效果,细节更加完善,更接近原始图像。

4 结论

在本文中,我们提出了一种基于多尺度递归密集网络的超分辨率算法。我们使用MSDB而不是单个卷积层作为递归单元,在没有引入大量参数的情况下获得更大的感受野。多尺度学习使模型能够从多个不同尺度提取图像特征,进一步提高了网络性能。相较于其他SR方法,本文提出的方法在四个基准数据集上的PSNR和SSIM值,取得了更好的结果,能够恢复更多的图像细节,具有更好的视觉效果。因此,本文的方法是可行且高效的。

表1 SR算法的定量评估

图4 MSRDN与其他方法在3倍比例因子下的视觉比较Fig.4 Visual comparison of MSRDN with other works on scale factor of 3

图5 MSRDN与其他方法在4倍比例因子下的视觉比较Fig.5 Visual comparison of MSRDN withother works on scale factor of 4

猜你喜欢

密集分辨率尺度
耕地保护政策密集出台
密集恐惧症
财产的五大尺度和五重应对
EM算法的参数分辨率
原生VS最大那些混淆视听的“分辨率”概念
基于深度特征学习的图像超分辨率重建
一种改进的基于边缘加强超分辨率算法
宇宙的尺度
欧盟等一大波家电新标准密集来袭
9