图像超分辨率深度学习研究及应用进展
2021-12-21吕宏峰
夏 皓,吕宏峰,罗 军,蔡 念
1.工业和信息化部电子第五研究所,广州511370
2.广东工业大学 信息工程学院,广州510006
图像超分辨率重建(Super-Resolution restoration,SR)是用低分辨率(Low Resolution,LR)图像重建出对应的高分辨率(High Resolution,HR)图像的过程。目前,图像超分辨率技术已经成功应用于卫星遥感图像[1]、医学图像[2]、生物特征识别[3]等计算机视觉和图像处理领域。
传统图像SR算法主要基于插值或基于传统机器学习实现超分辨率重建。基于插值的算法实现简单且已广泛应用,但是其高度依赖于小范围的邻域信息,重建图像往往较为模糊,甚至产生振铃现象,在放大倍数(如4倍、8倍)较大时尤为严重。基于传统机器的算法假设任意自然图像可以表示为字典元素的稀疏线性组合,通过对LR图像块字典和HR图像块字典的联合训练,学习LR图像到HR图像的映射。但是这类方法高度依赖于字典设计,且计算复杂、实时性不高。近些年,由于深度学习具有通过卷积操作在大量数据中进行特征自学习的优势而得到了大量研究和应用,尤其是在图像SR更是涌现了大量性能卓越的网络模型,并在众多领域得到了广泛应用。
1 用于图像超分辨率的深度学习模型
目前用于图像超分辨率的深度学习模型根据网络结构特点大致可以分为以下几类。
1.1 全卷积网络与类全卷积网络
全卷积网络为没有全连接层的卷积神经网络,可以支持不同大小的输入及全图端到端的训练。类全卷积网络则是级联卷积层和反卷积层的网络。
香港中文大学的Dong等[4-5]充分考虑深度学习和传统稀疏编码之间的关系,在2014年首次将卷积神经网络应用于单张图像超分辨率重建,提出超分辨率卷积神经网络(Super-Resolution Convolutional Neural Network,SRCNN)。尽管SRCNN重建的图像比传统算法清晰,且重建速度也有大幅度提升,但是SRCNN仍存在以下问题:(1)没有考虑任何的自相似性;(2)仅适用单放大因子的情况,对于不同的放大因子,则需要重新训练;(3)网络学习一直是在高分辨率空间中进行,计算资源消耗较多,且训练速度慢;(4)网络层数较少,感受野较小且固定为13×13,难以利用上下文信息。
为了让网络能够在低分辨率空间中进行学习,Dong等[6]和Shi等[7]直接采用原始低分辨率图像进行网络信息传递。即特征信息传递一直在低分辨率空间进行,这样可以进行快速特征学习,大幅度地降低网络计算量。他们研究指出,各自重建所需时间仅为SRCNN的1/5(Efficient Sub-Pixel Convolutional Neural Network,ESPCNN)和1/17(Fast Super-Resolution Convolutional Neural Network,FSRCNN)。
Dong等[6]首先通过在映射层的首部和尾部分别添加了一个收缩层和扩展层,使得LR图像到HR图像的映射一直被限制在低维特征空间。此外,他们考虑到非线性映射层中卷积核的数量和映射层层数对重建效果有巨大的影响,采用了更小卷积核和更多映射层。最后通过反卷积层重建出HR图像。
Shi等[7]引入亚像素卷积层,提出了ESPCNN。ESPCNN输入部分是原始低分辨率图像,经过三个卷积层处理后得到r2张(r为放大倍数)与输入图像大小一样的特征图,再将这r2张特征图中的每个像素重新排列,重建出一张高分辨率图像。
考虑到一些网络模型假定退化方式为双三次退化,处理其他的退化模式则效果较差,Zhang等[8]提出维数扩展策略,将不同组合的模糊内核和噪声水平引起的退化作为输入进行训练,实现了单个模型处理多种退化模式,大大提高了实用性。
虽然全卷积网络与类全卷积网络的网络层数较少,训练速度较快,能够快速收敛。但这些网络均为浅层网络,有限的网络容量难以学习复杂映射。此外,这些网络采用级联多层卷积层进行图像SR,因此随着网络层数逐渐加深,不可避免地导致梯度爆炸问题。
1.2 残差网络
一般来说,网络越深越宽,其感受野越大,能利用的上下文信息就越多,学习能力及层次特征表征能力也越强。近年来,越来越多的研究学者在加深网络的同时使用残差结构来增强网络的特征学习能力。
Kim等[9]借鉴了VGG-Net[10]网络的架构,加深了网络的深度并引入残差学习,提出了一个级联20层卷积层的残差网络VDSR。VDSR首先将LR图像进行双三次插值,然后进行残差学习获得残差图像,并与LR图像进行叠加获得HR图像。VDSR具有以下优点:(1)拥有更多的网络层数和更大的感受野。网络层数由SRCNN的3层增加到了20层。感受野的大小由SRCNN的13×13变成了41×41,因此能利用更多的上下文信息来预测图像细节。(2)首次将残差学习应用于图像SR,大大降低了网络的计算量,加快了收敛速度,应用梯度裁剪有效地缓解了梯度爆炸问题。(3)将不同放大倍数的图像混合在一起训练,一个模型解决不同放大倍数下的超分辨率问题。虽然VDSR成功地证明了增加网络深度能够显著提升重建的效果,但是当网络深度过大时,其输入的信息或梯度可能会消失,难以有效更新模型权重参数。
Lai等[11-12]提出一种基于拉普拉斯金字塔结构的网络LapSRN。网络首先通过级联卷积层直接提取LR图像特征信息,得到粗分辨率特征图。再采用反卷积向上采样,最后使用卷积层来预测子带残差上采样图像与真实HR图像间的差异。该网络具有以下优点:(1)网络输入部分是原始的LR图像,无需双三次插值进行预处理,降低了计算复杂度。(2)采用的Charbonnier损失函数可以有效解决L2损失所重建出的HR图像过于平滑的问题。(3)通过渐进式重建的方式在多个分辨率下生成中间SR预测结果,有效促进资源感知。与VDSR相比,LapSRN重建出的HR图像更加清晰。但该网络在较大放大倍数(如8倍)时的细节重建效果仍然不佳。此外,LapSRN网络参数较多,占用硬件资源较多。
Lim等[13]提出了EDSR,其网络结构仅仅将用于图像分类的残差网络[14](Residual Network,ResNet)中的每一个残差单元内部批处理归一化层和残差单元外部激活函数ReLU移除。在训练EDSR时,首先训练低放大倍数的模型,然后用预训练的低放大倍数模型训练高放大倍数模型。这种预训练策略不仅有效地减少了高放大倍数模型的训练时间,加快了训练速度还一定程度上提高了重建性能。然而,EDSR简单地将残差块堆叠成链而加深网络,不仅忽略了网络中每个部分(卷积层或特征提取块)的层次特征,还增加了网络的计算量。
Feng等[15]设计了一种多尺度分形残差网络MSFRN,其包含多个多尺度分形残差块MSFRB,充分提取LR图像的多尺度特征;利用多条路径将浅层特征和所有多尺度分形残差块输出的局部特征进行全局分层特征融合;最后通过亚像素卷积重建HR图像。MSFRN通过多条路径融合不同深度图像的多尺度特征,充分提取图像局部特征信息,实现不同路径信息共享,可以提升网络特征表达能力。在4倍的放大倍数下,MSFRN重建的HR图像具有较清晰的纹理、较丰富的细节和较高结构相似性。
针对现有的SR方法没有充分利用原始LR图像的层次特征,导致重建效果较差的问题,Lan等[16]提出一个包含多个局部共享组的级联残差网络CRN。CRN通过引入级联连接机制,不仅促进特征的融合和梯度的传播,还降低模型训练难度。此外,他们还提出了另一个增强残差网络ERN。ERN采用双全局路径结构,结合非局部操作从原始LR图像输入中捕捉长距离空间特征信息。与现有的基于CNN的模型相比,结合非局部操作从原始LR图像输入中捕捉长距离空间特征信息。CRN和ERN拥有较浅的网络深度,较少的模型参数,模型重建效果较好。
席志红等[17]提出一种基于深层残差网络的加速图像超分辨率重建方法DRSR。DRSR直接从LR图像中提取到特征信息,使用多路径模式的局部残差学习和多权重递归学习,再通过亚像素卷积层获得HR图像。该网络使用了多路径模式的局部残差结构,使所有的残差单元能够共享相同的输入,不仅加快了网络的收敛还提高了训练速度。
基于残差网络的SR算法应用了残差学习、梯度裁剪、参数共享等策略,可以解决深度网络参数量大、不易收敛以及梯度爆炸等问题。但其大多是通过增加残差块数目即增加网络深度来提升重建效果,而忽略了残差块本身的设计问题,往往制约了其性能的进一步提升及网络设计的合理性。
1.3 递归网络
深度网络通常存在过拟合和模型过于复杂的问题,为了有效缓解这一问题,递归网络应运而生。递归神经网络(Recursive Neural Network,RNN)能够对现有的参数进行学习,增加卷积神经网络的感受野,而无需引入新的参数。
Kim等[18]将RNN应用于超分辨率重建并提出拥有16个递归层的DRCN。DRCN主要由嵌入网络、推理网络、重建网络三个模块组成。网络通过从输入到重建层的跳跃连接,保证了输入LR图像和输出HR之间的信息共享,减少了网络参数。网络还结合了所有递归产生的特征图,对递归结果进行监督,缓解梯度爆炸问题,降低网络训练难度。但是,DRCN可能会随着递归次数的增加和模型复杂度的增加,导致递归监督的计算量大幅度增加。
Tai等[19]借鉴ResNet、VDSR和DRCN提出了递归残差网络DRRN。该网络包含25个残差单元一共52层,融入局部残差学习、全局残差学习和递归学习,不仅较好控制了模型的参数量,还降低了训练难度。与只有20层的VDSR相比,DRRN拥有更多的网络层数,计算量随之大幅度增加,训练速度变慢,但是重建效果并没有明显提升,PSNR均值仅提升约0.3 dB。
吴磊等[20]设计了一种多尺度递归网络,该网络级联了多个由特征提取层、特征融合层、特征映射层组成的多尺度特征映射单元。网络首先直接对原始低分辨率图像进行特征提取,再进行特征融合,最后通过亚像素卷积完成高分辨率图像重建。该网络能够较全面地提取LR图像特征,充分恢复图像的纹理信息。虽然该网络结构是对SRCNN和ESPCN进行改进,但其视觉效果并没有显著提升,PSNR和SSIM的数值提升也较小。
Jiang等[21]提出了一种分层密集递归网络HDRN。HDRN由多个分层密集残差块和一个全局融合模块组成。每个分层密集残差块(HDB)内部采用交错对角连接方式,将一维结构变成分层矩阵结构,不仅有助于特征融合和重用,同时可以减轻内存和计算负担。HDB采用共享方式相互连接,实现多尺度HDB特征全局融合,再通过亚像素上采样重建HR图像。HDRN通过递归分层残差块,充分捕捉了LR图像特征信息,纹理细节的重建效果较好,网络深度较浅,计算资源消耗较少。
Lin等[22]提出了一种高效递归深度卷积网络SCRSR,主要由下采样子网和上采样子网组成,每个子网包含几个具有相同权重的SCR块,降低了计算复杂度和内存消耗并扩大了感受野大小。与没有下采样层的其他网络相比,SCRSR节省了大约49%内存消耗。为了能够进一步减少网络的参数,SCRSR采用了两级递归学习机制,以增加深度而不增加任何权重参数。此外,还采用局部、半全局和全局残差学习,使网络能够稳定高效地学习图像细节信息,提高重建效果。
基于递归网络的图像超分辨率算法,采用了递归结构,在不引入新的参数前提下,可以反复地对已有参数进行学习。但随着递归次数增加和模型复杂度提升,递归网络的计算量也随之增加。
1.4 生成对抗网络
生成对抗网络(Generative Adversarial Network,GAN)[23-24]借鉴了博弈论的思想,网络由生成器和判别器两个部分组成。GAN网络的生成器用来生成超分辨率图像,当生成出超分辨率图像足够以假乱真,即判别器无法区分真实高分辨率图像和网络的超分辨率输出图像时,表明网络生成的超分辨率图像效果很好。
Ledig等[25]首次将GAN应用于图像超分辨率领域,提出了SRGAN。其生成网络主要由多个结构相同的残差块组成,每个残差块包含两层卷积层,每层包含64个3×3大小的卷积核,再通过两个亚像素卷积层进行上采样实现HR图像生成。判别网络用于判断输入图像是生成HR图像还是真实HR图像,其包含8个卷积层,卷积层的输出通道数由64递增到512,最后使用两个全连接层和Sigmoid激活函数获得样本的分类概率。SRGAN采用了对抗训练方式,生成的HR图像纹理细节更加丰富逼真,更符合人类的视觉效果。但重建的HR图像在PSNR和SSIM数值上并没有显著提升,PSNR均值与SRCNN相比甚至还降低了大约1 dB。此外SRGAN的网络结构较为复杂,需要训练两个子网络,因此训练时间较长,且难以收敛。
Wang等[26]在SRGAN的基础上删除批处理归一化层BN并合并密集块,提出了ESRGAN。ESRGAN通过引入没有BN层的残差密集块RRDB作为基本网络构建单元,每个密集块的输入连接到相应块的输出,确保在每个密集块上形成局部残差学习。此外,ESRGAN还采用全局残差连接进行全局残差学习。为了能够指导生成器恢复更丰富的纹理特征,ESRGAN使用了一种Relativistic GAN[27]的增强型判别器,即通过使用激活前的特征增强感知损失,提供强监督,使得重建HR图像拥有更好的亮度和更逼真的纹理细节,并以最佳感知指数取得了PIRM2018-SR挑战赛的第一名。
针对GAN直接应用于SR可能会出现输入和输出不匹配的情况,Gao等[28]提出了基于条件生成对抗网络(cGAN)的图像超分辨率网络。其生成器采用对称的编码器-解码器结构,应用跳跃式连接实现输入和输出之间低级信息的跨层传输。判别器是一个PatchGAN网络,以减少训练参数,使模型轻量化,容易训练。为了保护低频信息并恢复高频信息,他们还设计了一种将对抗损失项和L1损失项相结合的生成损失函数,充分利用了对抗损失有助于高频纹理细节恢复和L1损失项有利于学习LR输入的整体结构的优势。实验结果表明,他们提出的网络能够同时保持低频信息和恢复高频信息,生成具有逼真纹理和较少过度平滑的HR图像。但网络输入插值后的LR图像,会大大增加网络的计算量。此外,网络的解码器单元应用了dropout模块,可能会造成重建信息的丢失。
考虑到不同分辨率的图像可能携带不同特征信息,Ma等[29]构建了一个使用反投影和渐进式增长的网络,即通过渐进尺度因子构建投影单元,将多个投影单元组合成一个投影块,并在每个投影单元和投影块之间使用密集连接。与之前的反馈网络不同之处在于,该网络使用逐渐增加的比例因子构建上下投影单元,使网络可以学习到更丰富的特征信息。此外,他们采用了逐步训练方式,从单层网络结构开始,不断添加新的层,这样不仅可以保证训练的稳定性还能大大提升训练速度。
针对较大的放大倍数下纹理细节信息缺乏和视觉效果差的问题,彭晏飞等[30]在SRGAN模型的基础上,使用SVM算法中的hinge损失作为目标函数,在生成网络中使用Charbonnier损失函数代替L2损失,去解决使用L2损失重建图像带来的斑点伪影问题。此外,他们还去掉了残差块和判别器中的BN层,在生成器和判别器中使用谱归一化(Spectral Normalization,SN)来减小计算量,使模型能够稳定地训练。判别器使用了ELU激活函数代替LeakyReLU激活函数。网络重建出的图像无论在视觉效果上还是在PSNR和SSIM数值上均取得了提升。但网络仍采用双三次插值图像,使得网络计算量增加,训练速度减慢。
Zhou等[31]设计了一个具有23层编码器-解码器结构的多尺度特征映射网络,通过多尺度特征映射模块学习LR和HR特征之间的映射关系。该模块利用编码器中不同的卷积层提取LR图像特征信息,再将其映射为HR图像特征,最后通过解码器的卷积层处理进一步增加重建HR图像的信息量。与SRCNN中的单一卷积层相比,该网络可以提高LR图像信息的利用率。此外,他们提出了由MSE损失、感知损失和对抗损失组成的新型损失函数,可以更好地监督还原HR图像的低频内容、锐利边缘和高频纹理。
基于GAN的SR网络相比于基于CNN的网络能够重建出更加接近人眼真实感知的HR图像。但是,基于GAN的SR网络有时未能捕捉到训练数据的多样性,导致输入LR图像和输出HR图像出现不匹配的情况。此外,GAN网络在训练时需要生成器和判别器同时工作,交替优化,因而学习速度较慢,且训练难度很大,甚至难以收敛。
1.5 密集网络
密集网络[32]没有采用加深网络层数和加宽网络结构的方式来提升网络性能,而是从特征的角度进行考虑。
由于SR网络大多只考虑了单一尺度下图像空间的映射关系,Zhou等[33]提出了一个包含了密集卷积自编码器块的网络,由几个自编码器单元和一个挤压单元构成密集卷积自编码器块,通过成对的编码和解码层获取不同分辨率下的特征信息,通过挤压单元将当前密集卷积自编码器块和前一个密集卷积自编码器块中的特征结合起来,实现长时间特征重用。网络融入了多空间尺度和多时间特征学习,能够从不同时间范围、不同空间分辨率中提取特征信息,建立多层次特征重用机制,学习LR和HR图像之间的非线性映射。
针对很多SR深度网络没有利用不同通道信息的情况,Liu等[34]设计了一种使用多通道密集连接的残差注意力网络MCRAN,充分利用多通道之间的交互信息,使用多通道残差注意力模块合并多个不同通道的特征并应用注意力机制自适应调整通道特征。此外,MCRAN引入多源残差组结构以构建更深层次网络并简化网络训练。与多种SR深度网络相比,MCRAN更加关注通道信息,增强了特征学习能力。
考虑到不同的特征图中包含不同特征信息,Ma等[35]提出了一个由几个聚合模块组成的密集判别网络SRDDN。聚合模块逐步地将提取节点和聚合节点合并为树形结构,实现特征信息聚合。聚合节点中引入特征选择的注意力机制,增强判别学习能力。SDRRN通过在LR空间中放大浅层特征,在树结构中逐步聚合密集的分层特征,并通过全局残差学习将它们与深层特征融合进行重构。这不仅提高了非线性和判别能力,还减小了模型尺寸。
Zhang等[36]提出了一种全局-局部可调密集超分辨率网络GLADSR,主要由特征提取网络、基础网络、提纯网络和重构网络四部分组成。其中,基础网络和提纯网络具有相似的结构,均由嵌套密集组和可分离的金字塔上采样模块组成;每个嵌套密集组包含了多个全局-局部可调模块,通过模块中的局部选择块和全局引导块,GLASR实现了对计算资源的合理分配,增加了网络模型的容量。GLADSR还选用了可分离的金字塔上采样模块来代替常规的上采样操作,大大减少了网络参数,取得了较好的重建效果。
针对基于深度学习的SR算法在实际应用中通常面临着计算资源和内存消耗严重的问题,Song等[37]提出了一种具有多个目标的高效残差密集块搜索算法ESRN。与很多SR深度网络不同的是,ESRN引入池化来减少后续处理的计算量,同时将残差密集块中的局部残差学习和全局特征融合相结合来减少池化带来的信息丢失。为了进一步减少参数,ESRN引入了收缩残差密集块和组残差密集块,采用进化算法搜索SR的最佳网络架构。
与Li等[38]并没有盲目地增加网络深度以提升图像重建效果,而是通过挖掘图像特征和学习不同上采样因子之间的尺度间相关性,提出了由多尺度密集交叉块、分层特征蒸馏块和动态重建块组成的多尺度密集交叉网络MDCN。多尺度密集交叉块通过集成双路径密集网络和多尺度学习提取丰富的高频细节;分层特征蒸馏块引入维度变换和通道注意力机制,对通道的特征响应进行自适应地重新校准,以去除冗余的层次特征;动态重建块则是最大程度地重用模型参数,通过动态激活相应的上采样模块,学习不同上采样因子之间的尺度间关联性。实验结果表明,MDCN只需较少的参数和较少的运行时间便可取得较好的重建效果。
基于密集网络的SR算法不仅有效地缓解了梯度消失的问题,还能够通过密集连接使用少量卷积核就可以生成大量的特征,充分挖掘图像特征信息,在一定程度上减少了参数量。但密集网络采用反复的拼接(Concatenation)操作,将之前层的输出与当前层的输出拼接在一起,然后传给下一层,每次拼接操作都会开辟新的内存来保存拼接后的特征,因此在训练时十分消耗内存。
1.6 盲图像超分辨率
基于深度学习的图像超分辨率方法多数假设用于生成LR图像的模糊核已知的(例如,双三次插值)。然而,在实际应用中,模糊核通常更加复杂且未知,因此这些深度网络模型将受限于已知固定模糊核模式,从而导致SR重建性能较差。近年来,已有学者开始探索未知退化模式的盲图像超分辨率深度网络。
为解决盲图像SR中由模糊核不匹配带来的伪影问题(过度平滑或过度锐化),Gu等[39]提出了一种用于模糊核未知情况的模糊核估算法——迭代核校正(IKC)法。IKC法根据重建出的图像迭代地校正估计的模糊核。当输入的模糊核比真实的模糊核更平滑时,那么输出的图像将是模糊的,反之亦然。在此基础上,提出采用空间特征变换(SFT)层处理多个模糊核的图像超分辨率网络SFTMD。IKC法通过迭代校正退化,可以逐渐产生无伪影的HR图像。但由于IKC方法在测试时需要多次迭代,因此IKC法非常耗时。
考虑到由不同模糊核生成的LR图像的SR过程本质上是不同的但又具有一定的相关性,Wang等[40]提出了一种深度网络混合模型,将不同模糊核的SR任务聚类到几个小组中。每组由具有相似模糊核的相关SR任务组成,通过混合模型中特定网络组合进行处理。为了实现自动SR任务聚类和网络选择,他们通过编码器网络从输入图像推断出潜在变量,再使用潜在变量对模糊核进行建模。为了监督联合训练混合模型和编码器网络,进一步推导出似然函数的下界,从而规避了混合模型直接优化的难点。
由于直接对不成对的真实LR-HR图像学习不仅会在利用退化多样性方面受到限制,而且可能过拟合到真实的LR退化模型而不能很好地重建HR图像。为解决这个问题,Liu等[41]并没有从不成对的真实LR-HR图像或特定下采样器中学习,而是通过考虑模糊、噪声、下采样甚至JPEG压缩,从现实的参数退化模型中学习。与直接对HR图像进行盲重建相比,他们提出的CBSR网络采用级联架构进行噪声估计、模糊估计,可以从训练数据中进行端到端地学习并提升模型的泛化能力。但正因为CBSR专注于从现实的参数退化模型中学习,所以很难处理其建模范围之外的退化LR输入。
采用退化估计方式重建HR图像往往退化估计会很耗时且可能产生较大的估计误差而导致重建失败。为此,Wang等[42]假设同一图像任意区域的退化是相同的而不同图像的退化可能有所不同,基于该假设提出了一种无监督的退化表示学习机制他们提出的方法通过学习抽象表示来区分表示空间中的各种退化,而不是像素空间中的显式估计,更容易区分不同退化。基于该学习机制建立了退化感知网络DASR,该网络结合了退化信息,能够根据学习到的表征灵活适应不同的退化。
Kim等[43]提出了一种基于SR特征的自适应局部调节的盲SR网络KOALAnet。KOALAnet由下采样网络和上采样网络两个子网络组成,其中下采样网络用于预测空间变化模糊核,上采样网络则是将预测的模糊核映射到特征核空间进行进一步的融合。在随机各向异性的高斯退化环境下进行训练后,KOALAnet能够准确预测底层退化核并有效地利用此信息进行SR。
由于之前基于CNN的盲SR算法大多采用的是迭代优化的方式,这种方式通常需要消耗较多的计算资源,因此重建速度较慢。为解决该问题,Hui等[44]提出了一种用于多重退化SR的自适应调制网络AMNet。AMNet由多层自适应调制层组成,通过模糊核预测器在整个盲目的SR模型中进行训练,将深度强化学习融入到盲目的SR模型中,解决非差异性的优化问题。
盲图像SR深度网络拓展了深度学习在图像SR领域中的应用,尤其是在重建具有复杂退化类型的真实世界图像具有一定的优势。但正是由于缺乏有效的SR先验,其重建性能仍与真实HR图像具有一定的差异性,尤其是在重建具有复杂纹理和精细细节的HR图像时仍有待进一步提升。
2 应用领域
由于图像超分辨率技术能在一定程度上修正由成像设备或环境对图像造成的损坏,图像超分辨率重建技术已经被广泛应用于卫星遥感图像、医学影像、视频监控等领域。
2.1 遥感图像超分辨率
卫星图像的空间分辨率是衡量卫星遥感能力的一项主要指标,也是衡量一个国家航天遥感水平的重要标志,追求更高的分辨率已成为各国卫星的发展目标。
PSSR[45]通过反卷积对极化合成孔径雷达(Polarimetric Synthetic Aperture Radar,PolSAR)图像进行上采样并采用了一个复杂的结构块来容纳PolSAR数据结构。
Zhang等[46]将跳跃式连接中的元素加法全部替换为加权的通道级联,极大地促进了信息的流动。他们引入了高阶注意力模块来还原遥感图像中丢失的细节信息。最后,他们还引入了频率感知,实现了对分层特征的充分利用。
由于遥感数据的空间分布较为复杂,增加了重建的难度,因此DSSR[47]基于亚像素卷积的密集重采样机制,重用了升频器来对多级低维特征进行上采样,能够实现重建时多级先验信息的融合。为了增强网络的表示能力,网络引入了宽特征注意力块。
针对放大倍数较大时,高光谱图像会出现纹理模糊和光谱失真的问题,Li等[48]通过将频带注意力机制引入到生成网络中,再添加一些空间光谱约束来指导生成网络的训练,从而有效地缓解光谱失真和纹理模糊的问题。
CGAN[49]通过引入场景约束项来约束生成的特征,减少了场景变化带来的风险。然后,频谱归一化被集成到鉴别器网络中以稳定训练过程,并采用内容保真度来使训练过程稳定同时避免了梯度消失的问题。此外,边缘增强模块被设计为保留边缘细节并抑制噪声。
2.2 医学图像超分辨率
高分辨率的医学图像具有较高的像素密度,也就意味着可以提供更丰富的细节信息,这些细节信息往往在医疗诊断中能够起到关键作用。
CSN[50]能够将磁共振图像中的分层特征分为传递不同信息的两个分支,即残差分支和密集分支。残差分支能够促进特征重用,而密集分支则有利于新特征的探索。
FAWDN[51]借鉴了RNN(Recurrent Neural Network)的反馈机制,能够通过反馈连接将输出图像的信息发送到低级特征。为了减少密集块中的特征冗余,引入了自适应加权密集块来自适应地选择信息特征。
SNSRGAN[52]通过引入辅助标签信息来约束特征生成,从而保持病理不变性。此外,它还采用了光谱归一化来控制判别网络的性能。
SSSR[53]使用低分辨率PET图像、高分辨率解剖磁共振图像、空间信息(轴向和径向坐标)以及CNN提取到的高维特征集作为输入,使用配对的模拟数据集训练,摆脱了需要成对的低分辨率和高分辨率图像训练的困扰。
Xia等[54]直接从原始低分辨率磁共振图像获取到特征信息,通过多个跳跃式连接单元实现信息传递。考虑到不同的单元对高分辨率磁共振图像重建的贡献度不同,他们采用多单元上采样学习机制较好地完成了重建。
2.3 生物特征图像超分辨率
生物识别技术,通过计算机与光学、声学、生物传感器和生物统计学原理等高科技手段密切结合,利用人体固有的生理特性(如指纹、虹膜等)和行为特征(如笔迹、声音、步态等)来进行个人身份的鉴定。
由于现有的基于GAN的SR方法大多着眼于重建图像的视觉外观上,而不是图像中面部的细节信息。因此,He等[55]设计了一种灵活的堆叠GAN。该网络能够兼容不同的放大倍数,较好地完成面部细节图像的重建。
MSRCAN[56]通过将通道注意力机制与人脸先验信息结合起来,不仅增加了网络特征的利用率还提升了人脸先验的约束力。此外,采用了多尺度递进训练的方式,能够同时处理不同的放大倍数。
RBPNet[57]首先将重建的高分辨率特征图投影到原始的低分辨率特征空间,生成投影的低分辨率特征图。再将投影的低分辨率特征图减去原始特征图,得到低分辨率残差特征图。最后,将低分辨率残差特征图映射到高分辨率特征空间。网络通过迭代残差学习,逐步学习重构人脸图像与标准真实图像之间的残差,实现渐进残差反投影。
蒋文杰等[58]将SRGAN与WGAN[59]结合,并引入Wasserstein散度,提出了一个基于GAN的人脸超分辨率网络。网络通过最大化Wasserstein散度,得到最优化标量函数T,不仅去掉了Lipschit-z约束同时还较好地保留Wasserstein距离的优良性质。
2.4 工业图像超分辨率
缺陷检测是工业生产中一个重要环节,产品生产过程中,表面容易出现划痕、凹陷等外观缺陷。然而很多情况下,缺陷的尺寸很小,采集到的图像分辨率低,检测也就无法满足高精度的要求。因此需要获得高分辨率的工业图像。
范明明等[60]通过将迭代反投影法与卷积神经网络结合,在迭代过程中引入图像序列间的互补信息,较好地完成了芯片图像超分辨率重建。
Yuan等[61]通过将自适应频谱分解、基于深度学习的超分辨率算法、相干性计算三者结合起来,提出了一种能够自适应缩放的故障检测方法。该方法不仅可以自适应地识别随深度(或时间)变化的不同比例的故障,还提高了故障的连续性和分辨率。
针对电路板通常存在复杂度高,瑕疵尺寸小的问题,工业采集图像分辨率低的问题,SRDDM[62]使用拉普拉斯金字塔网络逐级重建,使用YOLO-v3算法提取特征。然后,使用K-Means聚类完成对特征图的多尺度检测。最后使用非极大值抑制完成定位瑕疵及分类。
Song等[63]提出了一种由两个全卷积网络组成的分层多尺度成像方法。第一个网络为全局检测网络,用于在原始的低分辨率图像中全局检测亚波长缺陷。第二个网络为局部超分辨率网络,用于解析检测到的亚波长的细节信息。
2.5 道路交通图像超分辨率
车牌在智能交通中发挥着重要作用,车牌的检测与识别广泛应用于停车场、高速公路收费站等监控系统中,为交通管理提供了极大的便利。在实际的监控视频中,由于成像设备分辨率的限制以及车牌与成像设备的距离等因素的影响,得到的车牌图像分辨率低,难以识别。因此,需要高分辨率的车牌图像。
Lee等[64]首先假定车辆和车牌的检测优先级为比字符更高,对车辆和车牌同时检测。然后将检测到的LR车牌图像输入到基于GAN的SR网络中,经过重建得到HR车牌图像。最后通过基于上下文信息处理分层对象信息的方法,实现了准确的车牌字符识别。
由于已有的SR方法主要关注自然图像的重建,通常不适用于数字和字母。直接使用GAN生成的高分辨率图像往往丢失车牌上的数字和字母的细节信息。因此,Bílková等[65]提出了一个基于GAN和OCR(Optical Character Recognition)的网络,它能够生成具有真实文本的高分辨率图像,而不再依赖于真实高分辨率图像训练。
与已有的超分辨率算法聚焦于产生逼真的图像不同,CSRGAN[66]聚焦于超分辨率图像中字符的可识别性,而不是像素的重构。其采用了一种基于字符的损失函数,因此比已有的算法具有更高的字符识别精度。
GBPN[67]首先对投影过程中较大倍数的采样层分解,通过逐级采样完成迭代反投影。然后在每个逐级反投影单元中采用跳跃式连接融合逐级采样的特征,实现了特征的反复利用。最后,根据逐级上投影单元产生的特征图重建高分辨率图像。
为了能够更直观地展示国内外基于深度学习的超分辨率算法的研究现状,总结了近三年国内外基于深度学习的应用于不同领域的图像超分辨率算法,如表1所示。
表1 近三年国内外基于深度学习的超分辨率应用研究一览Table 1 Overview of research on deep-learning-based natural image SR in past three years
3 结论
随着深度学习技术的迅速发展,目前基于深度学习的图像超分辨率方法已经代替了传统的图像超分辨率方法,渐渐地成为了主流。本文详细介绍了近5年来基于深度学习的图像超分辨重建算法,可以看出,随着网络层数的增加,以及网络模型愈来愈复杂,超分辨率重建的效果越来越好。此外,为了进一步增强视觉的重建效果,研究学者们将生成对抗网络应用到图像超分辨率领域中。尽管基于深度学习的超分辨重建效果已经有了大幅度的提升,但还有很多方面值得进一步研究:
(1)图像视觉效果的提升。虽然基于生成对抗网络的模型能够在一定程度上提升重建的视觉效果,但生成对抗网络仍面临训练时收敛困难和不稳定的难题,重建出的高分辨率图像中容易出现一些人为的痕迹和伪影。接下来需要研究的是如何引入一些图像先验或约束,从而使重建的图像既有较好的视觉效果,同时也不产生一些伪影情况。
(2)评价指标的增添。目前在超分辨率重建领域中,最常用的评价指标是PSNR和SSIM。但是仅有这些评价指标是远远不够的,将不能很好地对重建后的图像进行有效评价[72]。一些研究学者已经选用了新的评价指标,如Ledig等[25]选用了MOS、Gao[28]选用了LS。因此,需要进一步探索更加准确的评价指标。
(3)网络模型的设计。目前,很多SR算法选用的是深度网络,通常会大大增加模型的参数和计算量。此外,SR算法卷积核的大小大多是根据经验选择,理论基础较为薄弱。因此,可以引入自组织学习的理念,自动地选择合适的网络层数和卷积核大小来达到最佳的重建效果。
(4)实际场景中的超分辨重建。现有SR算法大多是采用固定的退化方式[73](如双三次插值)对真实HR图像处理,再将其缩小获得LR图像,然后通过算法重建出对应的HR图像。然而实际场景的图像超分辨率只有LR图像而没有对应的HR图像,因此无法评估重建出的HR图像的准确性。虽然已有一些盲超分辨重建算法,但距离实际应用还需要很长的时间,因此更具适用性的盲超分辨重建算法需要进一步研究。