APP下载

用于图像超分辨率重构的深度学习方法综述

2019-09-09威,张彤,王

小型微型计算机系统 2019年9期
关键词:低分辨率高分辨率残差

王 威,张 彤,王 新

(长沙理工大学 计算机与通信工程学院,长沙 410114) E-mail:1214304762@qq.com

1 引 言

图像超分辨率重构是从一幅低分辨率图像恢复出一幅相应的高分辨率图像.由于图像超分辨重构技术能在一定程度上修正由成像设备或环境对图像造成的损坏,图像超分辨率重构技术被广泛应用于医学[1],卫星图像,安防监控[2]等领域.图像的超分辨率重构是一个病态的逆问题,从低分辨率图像重构得到的高分辨率图像结果并不唯一.早期的超分辨率重构方法主要是插值法,此类方法实现比较简单,但是重构效果不佳.传统图像超分辨率重构的方法主要有:基于图像先验信息的方法[3,4],内部块复用方法(internal patch recurrence)[5,6],传统的基于学习的重构方法[7-9].

近年来,随着深度学习网络模型展现出强大学习能力,一种更加有效的重构方法被广泛用于解决图像超分辨重构这一不适定问题:基于深度学习的图像超分辨率方法.通过训练端到端的网络模型,直接学习低分辨率图像与高分辨率之间的映射关系.

2 深度学习

深度学习的概念由Hinton等人[10]于2006年提出,是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络.随着深度学习各项技术的快速发展,目前深度学习被广泛用于领域,主要包括图像处理,自然语言处理,文本分析等.下面主要针对图像超分辨重构这一具体研究领域,介绍深度学习中相关关键技术和网络模型的发展改进.

2.1 卷积神经网络

传统的人工神经网络采用全连接的方式搭建网络,这使得随着网络的加深和每一层神经节点的增加,就会导致网络参数骤增,卷积神经网络通过卷积核的权值共享技术大大减少了神经网络的参数数量.除此之外,卷积神经网络还由于其较强的特征提取能力和抗位移形变等能力,被广泛用于图像处理等领域.卷积神经网络处除了卷积层,一般还有池化层和全连接层.卷积神经网络的主要结构如图1所示.

图1 卷积神经网络结构简图Fig.1 Schematic diagram of convolutional neural network structure

2.2 残差网络

卷积神经网络的学习能力常常受限于梯度爆炸或梯度消失等问题,随着 Nomalization[11]、Dropout[12]、Rectified Linear Unit(ReLU)[13]等技术方法的提出,卷积神经网络在训练时梯度爆炸或梯度消失问题有所改善.但是,随着网络层数不断加深,网络性能并不像我们期望的那样变得更好,反而会变得饱和,甚至下降,即出现了退化问题.Kaiming He等人针对这一问题首次提出了残差网络结构[14],残差网络通过恒等连接构建深度残差网络来克服退化问题,基本的恒等连接网络结构如图2所示,其中H(X)为我们想要学习到的最终映射关系,通过加入恒等连接,可知H(X)=F(X)+X.则恒等连接之间堆叠的非线性层需要学习的映射关系变为F(X)=H(X)-X.恒等连接的加入使得中间网络层只需要学习输入和目标之间的残差.随后,诸多基于残差学习思想的深层网络结构[15-17]被提出,应用到了各个领域中[18-20].

图2 残差学习:恒等连接Fig.2 Residual learning:identity connection

2.3 密集网络

图3 密集连接:密集连接网络结构Fig.3 Dense connection:structure of dense connection network

2.4 生成式对抗网络

生成式对抗网络[25](Generative Adversarial Networks,GANs)是蒙特利尔大学的Goodfellow Ian于2014年提出的一种生成模型.如图4所示,GANs中包含生成模型和鉴别模型.其中生成模型不断学习训练集中真实数据的概率分布.判别模型:判断输入的图片是否是真实图片,目标是能准确区分生成模型生成的图片与训练集中的图片.GANs在训练过程中通过相互竞争让这两个模型同时得到增强.由于判别模型的存在,使得在没有大量先验知识以及先验分布的前提下也能很好的学习逼近真实数据,最终让模型生成的数据非常接近真实数据.生成模型和鉴别模型可以根据需要灵活选择网络模型.虽然,生成式对抗网络时还存在难以训练和难以收敛等问题,但其在诸多领域优良的实际应用表现和价值,还是引起了诸多学者的关注和业界的重视.

图4 生成式对抗网络结构简图Fig.4 Structure of generative adversarial networks

3 基于深度学习的图像超分辨率重构模型

3.1 基于直连的浅层卷积神经网络的重构模型

基于卷积神经网络的超分辨率模型不同于一般的卷积神经网络模型,其中一般不包含池化层和全连接层.SRCNN[26]是首次被用于解决图像超分辨率重构问题的深度学习模型.ESPCN[27]和FSRCNN[28]在重构方法和计算效率对SRCNN进行改进.ESPCN通过引入了亚像素卷积层高效的完成重构时的上采样.FSRCNN是针对SRCNN的卷积层进行改进设计,并且引入了反卷积层[29]用来实现上采样.基于卷积神经网络的模型一般网络结构较浅,简单的加深卷积神经网络的深度,在训练时往往会变得难以收敛.其中SRCNN只包含了三层卷积层,网络感受野大小为13.较小的感受野会使得在重构时只有小部分区域的低分辨率图像信息可以作为参考信息,这在很大程度上制约重构效果.

表1 网络模型和对应的损失函数
Table 1 Network model and their loss function

网络模型 损失函数SRCNNL(Θ)=1n∑ni=1‖F(Yi;Θ)-Xi‖2EPSCNℓ(ω1:l,b1:l)=1r2HW∑rHx=1∑rWy=1(IHRx,y-flx,y(ΙLR))2FSRCNNL(θ)=minθ∑ni=1K‖F(Yis;θ)-Xi‖22

3.2 基于残差学习的重构模型

浅层的网络模型一般感受野都很小,这会制约重构效果,而深层的卷积神经网络又难以训练.由于在图像超分辨时,低分辨图像和高分辨率图像之间存在大量相同信息,同时残差网络具有一定的抗退化性能,所以基于残差学习的模型充分利用这些特点,使得网络只需要学习低分辨率图像和高分辨率图像之间的残差映射关系,这相比于直接学习低分辨图像到高分辨率图像之间的映射关系,降低了网络参数的复杂性,在一定意义上降低了学习难度,所以基于残差学习的模型[30,31]一般具有较深的网络结构.

VDSR[32]提出的网络结构中引入了全局残差学习,并通过结构可调梯度裁剪技术成功将网络层数加深至20层,其感受野增加到41×41(相比SRCNN的13×13).EDSR[33]通过堆叠多个残差单元加深网络,并在网络中引入了全局残差学习,最终搭建了针对某一特殊重构放大尺度的网络模型.同时,作者还在EDSR的基础上,通过在网络的前后两端加入不同重构放大尺度的处理模块构建了实现多尺度重构的MDSR网络.除此之外,DRCN[34]和DRRN[35]通过不断递归残差单元加深网络,通过递归的方式可以使得在加深网络的同时不增加网络参数,其中DRCN包含了16个递归层,整个网络的感受野达到41×41.DRRN通过不断递归残差网络块将网络结构加深至52层.几种主要的基于残差学习的模型结构如图5所示.

3.3 基于分层特征融合的重构模型

低分辨率图像相对于高分辨率图像丢失了很多图像高频信息,并且每一个像素点的修复都与其周边的图像像素信息密切相关,所以,在重构高分辨率图像时我们期望能尽可能多的提供低分辨率图像信息,这不仅需要网络具有更大的感受野,还需要充分利用网络中提取的分层特征信息.基于分层特征融合的模型通过在网络中引入密集跳步连接,充分融合利用网络中的分层特征信息,为重构高分辨率图像提供了更多更丰富的特征信息,这有助于网络进行更加准确的图像重构.

图5 基于残差学习的模型的结构简图Fig.5 Illustration of network structure based on residual learning

MenNet[36]以Memory block为网络单元,对网络中Memory block进行密集跳步连接,目的就是为了实现网络自适应学习的连续记忆功能,同样在Memory block中把每一个残差单元都连接到最后的Gate Unit,与前面的Memory block输出进行特征融合.SRDenseNet[37]以密集网络块作为网络的基本单元,在通过跳步连接将每一个密集单元的输出连接到后面的卷积层进行分层特征融合.RDN[38]在密集单元的基础引入残差学习,构建了残差密集网络作为网络的基本单元,最后同样地将每一个残差密集网络单元的跳步连接至一个1*1的卷积层进行全局特征融合.基于分层特征融合的模型针对特征信息在网络局部和全局进行融合,使得深层网络中各层的特征信息能更加充分的融合利用,为重构提供了更多的特征信息,这有助于网络实现更好的重构效果.

3.4 基于生成式对抗网络的模型

基于对一般的深度学习网络模型进行训练学习,建立的低分辨率图像到高分辨率图像之间的非线性映射关系,由于人为设置的基于均方误差的损失函数常常使得网络最后学习到的重构结果往往过于平滑,会丢失一些真实高分辨率图像中的细节和高频信息,虽然在PSNR指标评价取得了好的效果,但是却不一定能达到良好的人类视觉感受.生成式对抗网络通过生成器和鉴别器的相互博弈,可以使得生成器生成的图像更加接近真实的高分辨率图像,能更加准确的重构出图像的高频细节部分.

由于存在先天条件等多方面不足,小微企业普遍面临严重的融资约束(financial constraints)。其中,如何缓解信贷约束(credit constraints)成为学术研究的焦点。在企业成长理论中,金融资源是小企业最基础的资源,信贷约束及信贷可获得性必然影响小企业的生存和发展。首先,信贷约束会对小企业的正常经营产生直接影响,可能限制小企业正常支付、研发投入、新项目投资、经营规模扩大等经营活动,最终影响其生存。[2]此外,信贷可获得性对企业销售、资本及就业等也有重要影响。[3]

SRGAN[39]中通过堆叠多个残差模块构建了深层的生成网络,同时构建了包含8个卷积层的鉴别网络.整个网络通过生成器和鉴别器的博弈交替优化,最终实现两个网络的纳什平衡.整个网络的优化目标如公式(1)所示,其中GθG,DθD分别表示生成函数和鉴别函数,ILR,IHR分别表示训练图像对中的低分辨图像和相应真实高分辨率图像.

(1)

训练生成模型使其生成的图像能够混淆鉴别模型,使鉴别模型难以区分图像是真实图像还是生成图像.而训练鉴别模型的目的就是使其尽可能区分图像是否为真实图像.此外,作者针对生成器的损失函数进行了优化,提出了感知损失函数(perceptual loss),由三部分组成:内容损失(content loss),对抗损失(adversarial loss)以及正则化损失(regularization loss),这使得整个生成式对抗模型产生的图像更加接近真实图像.具体如表2所示,其中φi,j()表示在第i个池化层之前的第j层卷积层的特征图谱,Wi,jHi,j表示VGG网络中特征图谱的维度.

表2 感知损失函数
Table 2 Perceptual loss

AttnGAN[40]提出了细粒度图像生成,借助文本描述生成包含充分细节重构图像.利用多模态相似性为目标,协同优化特征提取,使得GAN性能得到提升.Adrian Bulat[41]等人针对训练时常常人为对高分辨率图像进行双线性下采样以获得用于训练的低分辨率图像-高分辨率图像对.这使得网络在处理真实低分辨率图像时难以取得良好的重构效果,提出了先利用未配对的高分辨率图像-低分辨率图像训练生成式对抗网络,经过训练学习到图像的退化和下采样方法.再把这个网络的输出用于训练进行重构的生成式对抗网络.这使得生成对抗式网络能更好的学习到真实图像的退化过程,能使重构结果更加真实.

3.5 不同处理模式的对比

基于深度学习的图像超分辨率重构模型在重构时的处理模式一般分为直接处理低分辨率图像和处理插值预处理的低分辨率图像.SRCNN,VDSR,DRCN,DRRN等模型,通过双三次插值对图像进行退化模糊处理,再通过插值处理对图像进行尺度变换,从而保持网络的输入和网络重构后的图像大小保持一致.在重构前通过插值预处理放大低分辨率图像尺寸,这会相地应增加计算代价.因此,有些网络模型[42,43]直接处理未经过预处理的低分辨率图像,通过在网络中引入ESPCN中的亚像素卷积层模块或反卷积层模块实现重构时的上采样过程,这使得网络可以直接对低分辨率图像进行尺度放大的超分辨率重构.

4 数据集及效果算法分析

本章将对几种主要得基于深度学习的图像超分辨率重构网络进行实验分析,通过PSNR,SSIM,MOS三个指标对比各个模型的重构效果,并对比分析了每个模型的重构所耗时间.

实验以image91作为训练数据集,其中包含291张图像,通过对数据集中的图像进行三个角度(90°,180°,270°)的旋转,将数据集人为扩充到1164张图像,其中1000张用作训练集,其余的164张用作验证集.测试数据集包括Set5,Set14,BSD100,三个数据集分别包含5张,14张,100张图像,图6给出了训练数据集的部分图示.

图6 训练数据集图示Fig.6 Diagram of training data sets

具体的实验环境配置如表3所示.实验对传统的重构方法和几种主要的深度学习框架在Set5数据集上的重构结果进行了可视化,如图7所示.其中可以见得.传统的基于稀疏编码的重构方法相比于基于深度学习的模型重构效果较差,包含三层卷积层的SRCNN网络的重构效果较传统方法有所提高,但是重构图像质量整体效果一般.随着网络层数的加深,基于递归残差学习的DRRN和基于密集连接的SRDenseNet重构效果都明显优于SRCNN,但是重构效果都过于平滑,重构图像中丢失了很多高频信息.SRGAN通过生成式对抗网络模型和对损失函数的改进,使得其重构效果更加接近真实原图.在几种方法中,SRGAN重构图像更加符合人眼视觉感受,重构效果最好,其次是DRRN和SRDenseNet,这表明:1)随着网络层数的增加和分层特征信息的融合可以重构网络提供更大的感受野和特征信息,有助于重构效果的提升;2)基于生成式对抗网络的模型和损失函数的改进使网络能学习到更加丰富的高频信息,从而使得重构图像更加接近真实图像.

表3 实验环境配置
Table 3 Experimental environment configuration

配置名称 配置参数操作系统Ubuntu 16.04CPUIntel i7 3.30GHzGPUGTX1080Ti(11G)RAM16G/DDR3/2.10GHzcuDNN版本CuDNN 7.0CUDA版本CUDA9.0深度学习框架Caffe

图7 不同方法在Set5数据集上重构结果可视化Fig.7 Reconstruct result of different methods visualization on Set5 dataset

此外,表4给出各个模型在Set14数据集上在原图进行四倍尺度变换的基础上进行重构时对于各个指标的定量分析.下面根据表中的各种指标进行具体的比较分析.

对于PSNR和SSIM而言,深层的网络模型明显优于浅层的模型,其中RDN由于结合密集连接和残差学习,充分融合利用分层特征信息,未重构提供了大量的参考信息,其PSNR和SSIM都为所有比较模型中的最高值,分别为28.92dB和0.7891.基于生成式对抗网络的SRGAN由于对目标函数进行了改进,其在PSNR和SSIM指标上值并不高,甚至其PSNR结果在几种模型中最低,仅有27.01dB.

表4 不同算法模型的定量分析
Table 4 Comparison of quantitative results of different algorithms

Set14(×4)BicubicSRCNNESPCNFSRCNNVDSRDRCNDRRNSRDenseNetRDNSRGANPSNR26.0127.5027.7327.6528.0328.0528.2128.5128.9227.01SSIM0.70250.75120.76110.75860.76750.76710.77210.77810.78910.7815MOS1.862.682.912.883.013.093.283.313.413.61Time0.023s0..237s0.038s0.059s0.301s0.313s0.3290.369s0.354s0.367s

对于MOS取值,也就是人眼视觉效果评价指标,该指标能反映各个模型的重构结果在人类视觉感官上的优劣.可以看出基于生成式对抗网络的SRGAN虽然在PSNR和SSIM指标上结果并不理想,但由于利用对抗训练和对损失函数进行了改进,SRGAN的重构结果更加接近真实图像,更加符合人类的视觉感受.取得的MOS值也是所有模型的最高值,高达3.61.

对于重构时间而言,深层的网络模型势必会导致更多的权值参数和计算量,所以深层结构的模型在重构时间上远大于浅层模型.在浅层模型中ESPCN和FSRCNN通过对网络结构和卷积层的改进较SRCNN重构更快,用时分别为0.038s和0.059s.

综上所述,随着网络层数的增加,通过残差学习和密集连接使得特征信息的充分融合利用,有利于为网络重构提供更多的参考信息和缓减学习难度,网络的重构效果也越来越好.其中,以残差密集网络为单元的RDN模型综合表现最优.然而,RDN虽然取得了较高的PSNR,SSIM和MOS值.但是其实际重构图像纹理细节过于平滑,很多细节高频信息不能得到很好的重构和修复.针对这一问题,SRGAN对损失函数进行改进,使得重构图像更加接近真实图像,对高频信息的重构更加准确.

5 总结与展望

图像超分辨率重构是计算机视觉领域重要的研究工作,可以促进计算机视觉领域的其他工作,例如图像识别,图像分割等等,具有相当重要的意义.基于深度学习的图像超分辨率重构方法自提出以来取得了较大的进步和发展,接下来将对其未来的发展趋势进行讨论.

1)更深更加融合的网络结构,对于重构网络来说,更大的深度意味着更大的感受野,同时利用残差跳步连接和密集连接重构融合网络中各个层的特征信息,都可以为重构提供更多的参考信息.网络的重构效果也会随之而提高.

2)改进损失函数,目前常见的损失函数基本上都是基于MSE,结果表明这种损失函数可以使得网络取得较高的PSNR.但是往往使得重构图像过于平滑丢失了细节的高频信息,通过研究真实低分辨图像的退化模型,改进损失函数,使得网络学习到能重构更加接近真实图像的参数模型.

3)优化生成式对抗网络,生成式对抗网络通过对抗学习可以使得网络的重构图像具有更多的高频细节信息,更加接近真实图像.但是,生成式对抗网络本身还存在诸多问题,比如难以训练,不稳定等问题.所以对生成式对抗网络进行优化将是接下来的研究热点.

4)更加科学准确的评价标准,目前主要的评价图像重构效果的指标多为PSNR和SSIM,但是有些PSNR和SSIM取值高的图像,质量并不一定高.所以PSNR和SSIM并不能很科学准确的评价图像质量,而已有的主观评价比较繁杂,且需要大量的人力,操作难度较大.通过对真实高分辨率图像的结构分布特点进行研究,得到更加准确的图像评价标准.这也将是图像超分辨率重构的一个研究重点.

猜你喜欢

低分辨率高分辨率残差
基于残差-注意力和LSTM的心律失常心拍分类方法研究
基于双向GRU与残差拟合的车辆跟驰建模
探讨高分辨率CT在肺部小结节诊断中的应用价值
基于残差学习的自适应无人机目标跟踪算法
基于边缘学习的低分辨率图像识别算法
高分辨率合成孔径雷达图像解译系统
基于深度卷积的残差三生网络研究与应用
树木的低分辨率三维模型资源创建实践
智能相架
关于为“一带一路”提供高分辨率遥感星座的设想