APP下载

改进可逆缩放网络的图像超分辨率重建

2023-10-14莫太平黄巧人陈德鸿伍锡如张向文

电子科技大学学报 2023年5期
关键词:插值分辨率卷积

莫太平,黄巧人,陈德鸿,伍锡如,张向文

(桂林电子科技大学电子工程与自动化学院 广西 桂林 541000)

尺寸小的低分辨率(low resolution, LR)图像恢复成大尺寸或原尺寸的高分辨率(high resolution,HR)图像的过程叫图像超分辨率(super-resolution,SR)重建,可以在有限的硬件设备条件下提高图像品质恢复和复原的效果,该技术目前已成功应用在医疗诊断、红外遥感、虹膜识别和安防监控等领域。

近些年,卷积神经网络(convolution neural network, CNN)受到广泛的研究与应用,并在姿态估计、目标检测和图像增强等计算机视觉任务中获得了优异的效果,被不断尝试应用于新的视觉任务中。SRCNN[1]首次被用于图像超分辨率重建就获得了比传统算法更好的重建效果。在此基础上,文献[2]提出快速超分辨率卷积神经网络,去除输入图像预处理步骤,采用反卷积进行上采样操作,加快了模型的训练速度。

随着研究人员的深入探索,卷积神经网络的层数不断增加以提升图像重建质量。受ResNet[3]残差思想的启发,文献[4]提出更深层的超分辨率网络(very deep convolutional networks, VDSR),利用残差结构加深网络层数,通过自适应梯度裁剪策略来加快模型训练的收敛速度,同时解决梯度爆炸问题,获得了优于SRCNN 算法的图像质量评价。文献[5]整合残差块和密集块,提出残差密集网络(residual dense network, RDN),充分提取了特征信息。文献[6]提出超分辨率生成对抗网络(superresolution generative adversarial network, SRGAN),使用16 个残差块串联组成生成网络,利用VGG19[7]提出的感知损失优化函数提升了恢复图像的真实感。文献[8]提出增强深度残差网络(enhanced deep residual networks, EDSR),和SRGAN 相比去除了ResNet 上不必要的模块,如批量归一化层(batch normalization, BN)。EDSR 采 用L1Loss 函数,提高了图像超分辨率效果。文献[9]在SRGAN上也做了去除生成器中BN 的处理,同时加入高效通道注意力,从而获取更多的图像细节。

最近,一些研究使用编码器-解码器框架对降尺度和还原尺度过程进行联合建模从而实现图像超分辨率重建。在IRN[10]中,高频信息独立于LR 图像进行建模,性能上受到局限。HCFlow[11]考虑了高频信息与LR 图像关系,相比IRN 恢复了较丰富的高频细节,但没有充分利用高频信息与LR 图像之间的交互作用。文献[12]使用图像隐写的思想将高频信息嵌入到LR 图像中,提出一种用于单幅图像的可逆隐写缩放网络(invertible steganography rescaling network, ISRN),该网络有效提取和分离了视觉上难以察觉的隐写信息,从而更好地嵌入到LR 图像中,一定程度上提高了重建图像的质量。针对IRN 的图像降尺度不适定问题,文献[13]引入新的下缩放潜变量,结合原始潜变量形成一个具有双潜变量的DLV-IRN,在不同的测试集和测试尺度上都提高了生成的HR 图像的质量。文献[14]提出可逆任意图像缩放网络(invertible arbitrary rescaling network, IARN),利用位置感知尺度编码和抢占式信道分割等创新组件改进网络。结果表明,在双向任意缩放的情况下,该方法具有较好的性能。这些算法虽然提升了重建后的图像质量,但整个模型的复杂度较大,对承载的硬件要求较高。

针对上述问题,为了平衡模型复杂度和重建性能,本文提出一种改进的IRN 算法。通过对IRN 关键组件进行深入研究,发现IRN 的特征提取模块能提取足够的特征信息,但参数量较大,影响模型的计算速度;模型的潜变量嵌入信息不足,影响逆向训练捕捉边缘信息的能力。所以利用注意力机制和密集连接网络结构设计特征提取模块,并使用小波域高频子带插值设计网络的潜变量,网络参数量较少,计算量低,同时保证了网络的超分辨重建性能,使网络能够部署在硬件要求不高的场景,具有较高的实用价值。

1 IRN 介绍

IRN 是一种构造双射、有效可逆并且具有易处理雅可比行列式特点的神经网络。网络主要有两个任务:前向和逆向训练过程,如图1 所示。

图1 可逆神经网络示意图

假设X∈ ℝD,Y∈ ℝL,数据在前向过程中损失部分信息,所以Y的固有维度L一定小于X的固有维度D,为训练捕获损失的信息,引入潜变量Z调整逆向过程,表示为:

式中,θ 是网络参数;p(z)表示潜变量z的概率分布。相应的前向过程f(x;θ)可以表示为:

结合上述定义,X的模型分布可以表示为:

式中,JX是雅可比行列式

该神经网络由一系列的构建块组成,本文使用文献[15]的仿射耦合层构建神经网络,如图2 所示。输入被分成[J1,J2],经上/下三角的雅可比仿射变换:

图2 可逆神经网络构建块

式中,输出[K1,K2]连接下一个构建块,内部函数φ φ、 、η 代表任意的神经网络,当耦合层反转时,有:

2 改进后的网络模型

本文算法的网络结构如图3 所示。整个网络结构由两个相同的降尺度模块串联组成。降尺度模块由一个小波变换和若干个可逆构建块串联而成。小波变换作为第一层把图像x分解成高低频两部分并输入到下一层构建块,同理构建块的输出作为下一层构建块的输入。构建块中φ 、 φ、η 是图像特征提取模块,为了方便计算,三者使用相同的设计。

图3 网络模型结构图

2.1 特征提取模块

本文利用网络的密集连接结构和通道注意力设计特征提取模块,输入数据首先经过3 层密集连接的空洞卷积[16],其卷积核为3×3,扩展率分别为1,2,4,如图4 所示。然后每个卷积层再通过ReLU 激活函数激活后输出。前面所有层的输出作为后一层的输入实现特征复用,空洞卷积增大了感受野,保证3 层密集连接层能提取足够多的特征信息,同时减少模块的参数量。

图4 扩展率为1,2,4 的3×3 卷积核的空洞卷积

经过密集连接层后,引入卷积注意力模块[17](convolutional block attention module, CBAM)的通道域部分,聚合特征映射的空间信息,分配更多资源在关键特征信息上,整个特征提取网络如图5 所示。三层密集连接的空洞卷积层提取输入数据的多层密集特征信息,将其输入到注意力通道域,由通道域计算各特征通道的比例系数,最后加到输入的特征信息上,实现网络自适应关注特征信息的重点区域。

图5 特征提取模块

2.2 模型的潜变量

潜变量的引入是为了捕获图像的高频信息,提高模型图像超分辨率重建的质量。受文献[18]启发,本文采用一种基于离散小波变换的高频子带插值的潜变量,如图5 所示。

LR 图像经双线性插值上采样2 倍,再利用小波变换分解插值后的图像,通过LR 图像与低频分量LL 比值可获取修正系数:

式中,XLR和XLL分别代表LR 图像和低频分量LL。

如图6 所示,根据计算的修正系数α 调整HH、HL、LH 高频分量,将修正后的高频分量HH′、HL′、LH′通过concatenate 函数得到潜变量。该潜变量能嵌入图像高频信息,使模型在逆向训练过程捕捉更多的图像边缘信息,提升重建图像质量。修正系数针对重建效果可进行微调,最终选取2 时,效果最佳。

图6 模型潜变量

2.3 损失函数

本文算法使用L2和L1损失函数计算网络的前向损失和逆向损失,分别为:

式中,θ 代表网络的优化参数;N代表每次输入图像的数量;LR 和HR 代表低分辨率和高分辨率标签图像;Mf和MI代表模型的前向和逆向输出结果;yL和z代表前向训练产生的低分辨率图像和潜变量。整个网络的损失函数是前向损失和逆向损失之和,为:

通过最小化损失函数优化网络参数。

3 实验与结果分析

3.1 数据集介绍

本文使用DIV2K[19]数据集作训练集,对训练集图像进行随机平移、翻转90°和裁剪等操作实现数据增强,并且统一图像尺寸为480×480,满足训练需求。本文用超分辨率公开的基准数据集Set5,Set14,BSD100,Urban100 作测试集。

3.2 实验参数设置

实验平台配置为处理器Intel I5 10600KF,运行内存8 GB,显卡NVIDIA GeForce RTX2060。实验运行环境为Ubuntu18.04,深度学习框架为PyTorch,CUDA 加速版本CUDA Toolkit 7.6.5。模型总迭代次数5×105,初始学习率2×10-4,每迭代1×104次,学习率衰减一次,衰减率γ=0.5,使用Adam 不断优化网络参数直至模型收敛。

3.3 注意力机制选择

分别使用SE(squeeze-and-excitation)模块、CBAM 和残差注意力模块(residual attention module,RAM)3 种不同的注意机制来结合密集连接结构。SE 注意力机制将特征图放到全局池化中,然后提高和降低通道维数,最后与原特征图相乘,生成一个新的特征图[20]。CBAM 的通道域比SE 模块多一个全局最大池化层,将不同池化后的两个特征图相加后与原特征图相乘,得到输出结果。RAM[21]的通道域采用方差池化,后续步骤与SE 注意机制类似。对比分析以上3 种不同特征提取模块引入到采用基于小波域高频自带插值的潜变量的可逆缩放网络中的效果。实验结果如表1所示。从表中的结果可以得出,SE 和RAM 的加入降低了算法的性能,而CBAM 的加入在一定程度上提高了算法的性能。因此,CBAM 是本算法注意机制的最佳选择。

表1 不同注意力机制的对比

3.4 消融实验

为了测试和分析改进的IRN 网络的重建性能,本文设计消融实验来验证效果。以尺度因子×4 为例,在Set14 数据集上比较是否引入CBAM 和基于小波域高频子带插值的潜变量对图像超分辨率重建的影响。如表2 所示,其中:√代表采用,×代表不采用。可以发现同时采用CBAM和基于小波域高频子带插值的潜变量的模型效果最好。

为了进一步比较由高斯分布和小波域高频子带插值组成的潜变量的性能。使用Set14 数据集进行测试,提取网络在执行可逆构建块时产生的特征图。之后对所有特征图进行相同处理,如增加曝光度、锐度使图像对比更加明显。图7 均来自Img001,图7a 为从IRN 可逆构件块中提取的4 张特征图,图7b 为从本文模型可逆构件块中提取的对应特征图。明显看出由高斯分布构成的潜变量只能提取少量的高频信息,图像轮廓不够清晰。本文采用的小波域高频子带插值可以提取丰富的高频信息,较清晰地看到图像的轮廓。在其他网络组件和参数设置相同的情况下,对比采用高斯分布和小波域高频子带插值的网络在训练期间相同迭代的测试集的峰值信噪比。如图8 所示,使用小波域高频子带插值的潜变量比高斯分布的潜变量的网络收敛更快、更稳定。因此,基于小波域高频子带插值的潜变量比采用高斯分布的潜变量性能好。

图7 特征图对比

图8 不同潜变量在训练时PSNR 的对比

3.5 实验结果对比

本文从主观人眼感受和客观数据评价两方面来评价重建图像质量。主观人眼感受通过人的视觉评判图像的优劣,客观数据评价通过对峰值信噪比(PSNR)和结构相似度(SSIM)数值大小来评价图像的优劣,本文主要评价RGB 通道上的PSNR 和SSIM。

PSNR 基于图像间对应像素点的像素差值来评价图像质量,单位为dB,计算公式为:

式中,2n-1 表示图像像素范围;MSE 是高分辨图像IHR和超分辨率重建图像ISR的均方差。PSNR 的值越大则图像失真度越小。

SSIM 根据输入图像与重建后的图像的亮度、对比度和结构来计算图像的相似性,数值范围为[0, 1],值越大表示图像相似性越高、失真度越小。计算公式为:

式中,x为高分辨图像;y为超分辨率重建图像;μx和 μy分 别为x和y的均值;为x和y的方差; σxy为x和y的协方差;C1和C2为常数,通常取C1=0.01×2552,C2=0.03×2552。

本文算法与SRCNN、SRResNet、SRGAN、EDSR、RDN、IRN 等方法作对比实验,各算法分别在尺度因子×2 和×4 下计算图像质量指标,在数据集Set5、Set14、BSD100 和Urban100 下的测试结果如表3、表4 所示。数据加粗表示测试的最优值。 本 文 算 法 在Set5、 Set14、 BSD100 以 及Urban100 上均取得最高评价指标,客观说明本文算法重建的图像质量优异。

表3 测试集在尺度因子×2 的PSNR/SSIM

表4 测试集在尺度因子×4 的PSNR/SSIM

为了从主观上评价各方法的重建效果,在尺度因子×4 结果中随机选择2 张场景不同的图像,放大每张图像感兴趣的区域,其效果如图9 所示,其中HR 表示高分辨率参考图像。SRCNN、SRGAN、SRResNET 算法重建的图像存在严重的伪影,缺失大量的图像边缘信息,RDNS 和ESDN 算法重建的图像视觉效果较好,但在纹理细节上较模糊。本文方法和IRN 方法的视觉效果最好,两者难以分辨差异,说明本文方法重建图像的视觉效果较逼真。

图9 尺度因子×4 的方法重建图像视觉效果对比

4 模型性能比较

模型的大小影响硬件的计算速度和内存占用率。为检验算法的参数量和运行时间,在4 个测试集中随机选取50 张图像,尺度因子×4 进行测试,与SRCNN、SRResNet、SRGAN、EDSR、RDN、IRN 算法对比,结果如表5 所示。数据加粗表示最优值。从表中数据可知,本文方法的参数量排倒数第3,重建时间和计算量均为最低。说明本文方法的模型性能比其他算法更好。

表5 模型复杂度对比结果

5 结 束 语

本文利用注意力机制和密集连接网络结构设计特征提取模块,采用基于小波域高频子带插值的潜变量这种改进可逆缩放网络的图像超分辨率重建算法,减小了计算量和重建时间,提升了模型训练时对图像细节的注意力,同时解决了潜变量保存高频信息较少的问题。实验结果表明,本文算法的重建图像效果和模型的性能整体优于现有的几种方法。

致谢:本文工作还得到桂林电子科技大学研究生教育创新计划(2021YCXS125)的支持,在此表示感谢!

猜你喜欢

插值分辨率卷积
基于3D-Winograd的快速卷积算法设计及FPGA实现
EM算法的参数分辨率
从滤波器理解卷积
基于Sinc插值与相关谱的纵横波速度比扫描方法
原生VS最大那些混淆视听的“分辨率”概念
基于傅里叶域卷积表示的目标跟踪算法
基于深度特征学习的图像超分辨率重建
一种改进的基于边缘加强超分辨率算法
一种改进FFT多谱线插值谐波分析方法
基于四项最低旁瓣Nuttall窗的插值FFT谐波分析