基于元上采样的单幅图像任意尺度超分辨率重建

2022-02-19应凯杰冯玉田

计算机应用与软件 2022年2期

应凯杰冯玉田

(上海大学通信与信息工程学院上海 200444)

0 引言

单图像超分辨率(SISR)是从图像的低分辨率(LR)图像中重建一幅视觉自然的高分辨率图像。它在安全和监视成像[1-2]、医学成像[3]、卫星和航空成像[4-5]中有着非常广泛的应用。在现实场景中，SISR使用用户自定义的比例因子放大低分辨率图像是常见和必要的。与普通图像查看器一样，用户可以通过滚动鼠标滚轮来查看图像局部的详细信息，从而任意放大查看的图像。

同时，用于超分辨率的自定义比例因子不仅仅是某些整数，也可以是任何正数。因此，解决任意尺度因子的超分辨率问题，对于提高SISR的实用性具有重要意义。如果为每一个比例因子训练一个特定的模型，就不可能存储所有这些模型，而且计算效率很低。因此，能否用单一模型求解任意尺度因子的超分辨率是一个很重要的问题。

尽管如此，现有的SISR方法大多只考虑两倍(X2)、三倍(X3)、四倍(X4)这些整数倍的超分辨率，并且将不同尺度因子的超分辨率视为独立的任务。以往的工作很少讨论如何实现任意比例因子的超分辨率。比如目前先进的SISR方法，如ESPCNN[6]、EDSR[7]、RDN[8]和RCAN[9]，这些方法使用亚像素卷积[7]在网络末端放大了特征映射，并为每个比例因子设计一个特定的上采样模块，因此每个上采样模块只能放大固定整数的图像比例因子，且超像素卷积只适用于整数尺度因子。这些缺点限制了上述方法在真实场景中的使用。虽然可以通过适当地提升输入图像的尺度来实现非整数尺度因子的超分辨率，然而，重复计算和放大输入使得这些方法费时费力，难以投入实际应用。

为了解决这些缺点，使SISR更具实际应用价值，需要一种高效、新颖的单模型任意尺度图像超分辨的方法。如果要求解单个模型任意尺度的超分辨率，每个比例因子都需要一组对应的上采样滤波器的权重。本文基于元学习的理论，设计一个可以训练每个尺度因子的滤波器权重的网络，不再需要为每个独立的比例因子存储权重，与存储繁多的各尺度因子权值的滤波器参数相比，存储能自适应生成不同尺度滤波器参数的网络更为方便。

1 相关工作

1.1 单幅图像超分辨率

早期的SISR方法是基于样本或字典的超分辨率方法[9-11]。这些方法需要一个外部图像数据库，并通过传输数据库图像中的相关补丁来生成高分辨率图像。性能受到数据库或字典大小的限制。这些传统方法耗时长、性能有限，随着深度学习的迅速发展，人们提出了许多基于深度学习的方法，Dong等[12]首次提出了一种三层卷积神经网络SRCNN。SRCNN对低分辨率图像进行双三次插值后，再送入网络训练。Kim等[13]增加了网络的深度，利用残差学习进行稳定训练，首先将递归学习引入到SISR中，称为DRCN。Tai等[14]通过引入共享参数的递归块使训练稳定，提出了DRRN算法。Tai等[9]还引入了名为Memnet的内存块。然而，这些网络的输入与最终的高分辨率图像具有相同的大小，所以这些方法训练都非常耗时。

1.2 元学习

元学习或称学会学习，是观察不同的机器学习方法如何执行广泛的学习任务，然后从这种经验或元数据中学习的科学。元学习主要用于少样本或者零样本学习和迁移学习。对元学习更详细的调查可以参考文献[15]，本文只讨论与权重预测相关的工作。

权值预测是神经网络的元学习策略之一。神经网络的权值由另一个神经网络预测，而不是直接从训练数据中学习。Cai等[16]预测分类器的参数，以适应新的类别，而无须反向传播进行少样本学习。参数的预测是以支持集的记忆为条件的。在目标检测任务中，Hu等[17]提出了从方块权重预测掩模权重的方法。Yang等[18]提出了一种新颖灵活的目标检测锚定机制。锚函数可以从任意自定义的先前框中动态生成。在视频超分辨率中，Jo等[19]提出了一种动态上采样滤波器。动态上采样滤波器根据多个LR帧中每个像素的时空邻域进行局部和动态生成。与这些方法不同的是，Hu等[20]利用元学习来预测每个尺度因子的滤波器权重而不再需要为每个比例因子存储滤波器的权重。通过元采样模块可以训练出仅用一个模型来实现任意尺度的超分辨率。这种方法使用方便并且效率更高。

2 基于元采样的网络设计

在图像超分辨率任务中，考虑到图像降采样后低频与高频信息损失不同的特性，本文提出一种以RCAN作为特征提取模块、元模块作为上采样恢复高清图像的网络，网络结构如图1所示。

图1 基于元采样模块的网络结构

2.1 残差通道特征学习模块

近年来，基于卷积神经网络(CNN)的方法对信道特征采取同样的处理，这导致在处理不同类型的信息(例如低和高频信息)方面缺乏灵活性,并且浪费大量时间对低频特征进行不必要的计算，最终阻碍深层网络的表现力。为了避免这些问题，本文使用残差信道注意机制网络(RCAN[9])中提出的残差结构作为特征提取模块，在减少网络深度的同时也增加了特征之间的差异性。为了减少网络深度，在残差(RIR)结构中，将残差组(RG)作为基本模块，利用长跳连接(LSC)进行粗略的残差学习。在每个RG模块，如图2所示，RCAN[9]用短跳连接(SSC)叠加几个简化的残差块，通过长、短跳转连接以及残差块中的短跳转连接过滤冗余的低频信息，增强特征提取的效率。

图2 残差组模块结构

为了进一步提取有效特征，在RG模块中，RCAN使用了通道注意(CA)机制，通过建模各通道之间的相互依赖关系，自适应地重新调整各通道的特征。如图3所示，其中：H和W分别表示输入特征图的长和宽；C表示特征通道数；r表示比例因子。这样的CA机制使得特征提取模块能够集中在更多有用的特征通道上，增强辨别学习能力，提升网络训练的效果。

图3 通道注意力模块

2.2 元采样模块

对于一个给定的从原始HR图像中降采样得到的LR图像，SISR的任务是基于LR图像生成一个与原始HR图像对应的SR图像。在利用残差通道作为特征提取模块后，本文使用元采样模块作为上采样模块恢复图像。

假设FLR是由特征学习模块提取的特征且降采样尺度为r。对于SR图像上的每个像素(i,j)，Hu等[20]认为它是由LR图像上像素(i0；j0)的特征和相应滤波器的权重决定的，并给出公式如下：

ISR(i,j)=ϑ(FLR(i′,j′),W(i,j))

(1)

式中:ISRs(i,j)代表SR图像上(i,j)点位置处的像素值；FLR(i′,j′)代表LR图像上(i′,j′)点处的特征；W(i,j)代表在(i,j)滤波器的权重；ϑ(·)表示特征映射函数。由于SR图像上的每个像素点都对应于一个滤波器。对于不同的比例因子，滤波器的数量和滤波器的权重都不同于其他比例因子对应的滤波器。为了解决单一模型下任意尺度因子的超分辨率问题，提出基于尺度因子和坐标信息的用于动态预测权重W(i,j)的元采样模块[20]。

元采样模块有三个重要功能，即位置预测、权值预测和特征映射。如图4所示，位置投影将像素投影到LR图像上。权重预测模块预测SR图像上每个像素的滤波器的权重。最后，特征映射函数将LR图像上的特征与预测的权重映射回SR图像，计算像素值。

图4 整数比例因子r=2和非整数比例因子r=1.5 的特征图恢复示意图(为简化只展示一维)

2.2.1位置投影

对于SR图像上的每个像素(i,j)，位置投影的过程可以用式(2)来表示。

(2)

2.2.2权重预测

对于传统的上采样模块，它预先定义了每个尺度因子的滤波器数目，并从训练数据集中学习W。与之不同的是，元上采样模块使用网络来预测滤波器的权重如式(3)所示。

W(i,j)=φ(vij;θ)

(3)

式中：W(i,j)是SR图像上像素(i,j)的滤波器权重；vij是与(i,j)相关的向量；φ(·)是将vij作为输入的权重预测网；θ是初始的滤波器矩阵参数。对于像素位置(i,j)的φ(·)的输入vij，正确的做法是加上相对于(i′,j′)的偏移量，如式(4)所示。

(4)

(5)

2.2.3特征映射

首先从特征提取模块输出的FLR中提取出LR图像上(i′,j′)特征，然后利用权值预测网络对滤波器的权值进行预测，最后将特征映射到SR图像上(i,j)点的像素值。我们采用矩阵乘积的方式作为特征映射函数，具体可表示为:

ϑ(FLR(i′,j′),W(i,j))=FLR(i′,j′)W(i,j)

(6)

3 实验

3.1 数据集和评价标准

为了验证本文方法的有效性，本文选取了DIV2K数据集进行了训练，使用Set5、Set14、Urban100等数据集进行测试。

图像超分辨率的常用指标有峰值信噪比(PSNR)和结构相似性(SSIM)，峰值信噪比的计算基于均方误差(MSE)，它的表达式如式(7)所示。

(7)

式中：MAX代表图像灰度级数，例如8 bit图像可取到最大值为255；MSE为均方误差；MSE表达式如式(8)所示。

(8)

式中：SR为网络输出的超分辨率图像；HR为原始图像；(i,j)表示图像像素点坐标；m和n分别表示图像的高度和宽度。结构相似性指标(SSIM)对原图像和测试图像之间的亮度(luminance)、对比度(contrast)和结构(structure)进行比较来衡量恢复的结果。SSIM的表达式如式(9)所示。

(9)

式中：μx和μy是x、y图像的像素平均值；σx和σy是x、y图像的像素值方差；σxy是x、y图像的像素值协方差；c1和c2是常数，与图像的像素值范围有关。

PSNR值通常在20 dB～40 dB，值越大说明恢复效果越好，图像失真越小。SSIM的值在0～1范围内，越接近1说明图像恢复效果越好，与原图像越接近。

3.2 实验结果与分析

首先对于常用的超分辨率尺度(X2,X3,X4)，本文用SRCNN[12],以及目前效果最佳的两个网络RDN[8]、EDSR[7]对每个尺度分别进行了训练，并与本文方法在Set5、Set14、Urban100上进行对比，评价指标采用峰值信噪比(PSNR)和结构相似性指标(SSIM)，实验结果如表1-表3所示。相比Bicubic和SRCNN网络，本文方法都提高了1 dB至2 dB的PSNR值，对比目前最好的RDN和EDSR网络，差距在1 dB以内，这表明本文方法是非常有效的。

表1 Set5数据集对比

表2 Set14数据集对比

表3 Urban100数据集对比

接着对于非整数倍的超分辨率尺(X1.5,X2.5,X3.5)，本文用RDN、EDSR分别进行训练，在非整数倍比例因子的情况下先进行双三次插值再降采样，以获得整数倍降采样图片，并与本文方法在BSD100数据集上进行对比，评价指标采用峰值信噪比(PSNR)。实验结果如表4所示。需要注意的是，本文方法只需要训练一次即可，并且实验表明在大部分非整数倍尺度的情况下，本文方法相较RDN和EDSR网络都取得了更好的效果，这表明本文方法是可行且有效的。

表4 BSD100数据集测试峰值信噪比对比

续表4

4 结语

本文提出了一种以残差通道模块作为特征提取模块，元采样作为放大模块的图像超分辨率网络，该方法充分利用了每一层的特征，通过一个模型就得到了各尺度因子的超分辨率图像。在四个公共数据集上进行定量的实验，用常用的评价指标进行评价，实验结果表明，本文的方法很有效，相比其他近年来先进的方法，本文方法在保证了PSNR和SSIM评分指标的情况下，提高了图像恢复的效率，比起需要针对特定比例进行训练的网络更具实用价值。