矿井图像超分辨率重建研究
2023-12-06王媛彬刘佳郭亚茹吴冰超
王媛彬,刘佳,郭亚茹,吴冰超
(1.西安科技大学 电气与控制工程学院,陕西 西安 710054;2.西安市电气设备状态监测与供电安全重点实验室,陕西 西安 710054)
0 引言
矿井图像为井下安全监控、煤矸石运输、人员定位等提供重要参考依据。受井下特殊环境(粉尘大、照度低等)的影响及图像采集设备的限制,矿井图像往往分辨率低且细节模糊,阻碍信息表达[1-2]。因此,研究矿井图像超分辨率重建具有重要意义。
传统的图像超分辨率重建算法主要有基于插值的重建算法、基于重构的重建算法、基于传统学习的重建算法。基于插值的重建算法主要有最邻近插值法[3]、边缘导向插值法[4]、双线性插值法[5]、双三次线性插值法[6]等。该类算法操作简单,但重建效果有限。基于重构的重建算法包括非均匀内插法[7]、凸集投影法[8]、最大后验概率法[9]等。该类算法对先验信息的依赖性较强,且对边缘信息的提取能力不足。基于传统学习的重建算法包括样例学习法[10]、邻域嵌入法[11]、稀疏表示法[12-13]等。该类算法通过学习图像内部相关性来重建图像,但学习能力有限,不能很好地关注图像细节特征。
近年来,深度学习在图像处理领域得到广泛应用,许多学者尝试将深度学习用于图像超分辨率重建,取得了不错的效果。Dong Chao 等[14]提出超分辨率卷积神经网络(Super-Resolution Convolutional Neural Network,SRCNN)算法,首次将图像超分辨率重建算法与深度学习相结合,利用卷积神经网络进行特征提取,极大地提高了重建图像质量。为解决SRCNN 训练数据多、训练速度慢等问题,Dong Chao等[15]提出了快速超分辨率卷积神经网络(Fast Super-Resolution Convolutional Neural Network,FSRCNN),利用反卷积上采样层,在网络的最后进行上采样,直接将低分辨率图像作为输入,提高了网络训练速度。随着深度学习技术的发展,J.Kim 等[16]提出了极深超分辨率卷积网络,利用残差结构构建更深的网络,提取更多的特征图,使重建后的图像拥有更丰富的细节纹理。但随着网络的不断加深,可能出现训练偏向一些不重要信息的情况。对此,Zhang Yulun 等[17]将通道注意力机制与残差块相结合,抑制了低频信息的表达,使模型更专注于对重建有益的高频信息。程德强等[18]利用多尺度密集特征融合网络对图像进行特征提取,有效提取了丰富的图像特征,提高了图像重建质量。基于卷积神经网络的图像超分辨率重建算法重建的图像有较高的峰值信噪比(Peak Signal-to-Noise Ratio,PSNR),但通常缺乏高频细节信息,导致观感较差。C.Ledig 等[19]提出了超分辨率生成对抗网络(Super-Resolution Generative Adversarial Network,SRGAN)模型,采用跳跃连接的深度残差网络构成生成器,对低分辨率图像进行重建,利用判别器判断图像的真实性,采用感知损失代替原来的均方损失,使该模型重建的图像更加清晰自然。
虽然图像超分辨率重建技术得到了很好的发展,但在矿井图像重建上应用较少。程德强等[20]针对矿井图像边缘模糊不清的问题,对不同类型图像块训练不同的字典库,提出了多字典超分辨率图像重建算法。张剑英等[21]对非局部均值超分辨重建算法进行改进,通过对图像进行分区处理,实现了矿井视频图像的超分辨率重建。汪海涛等[22]利用在线字典学习优化多字典学习阶段的字典,提出了在线多字典学习的超分辨率重建方法,完成了矿井图像重建任务。程德强等[23]提出了基于卷积神经网络的矿井图像超分辨率重建算法,通过添加特征融合模块和坐标注意力机制来获取更多的高频信息,并构建了用于矿井图像超分辨率重建训练的数据集CUMID。上述方法针对矿井图像超分辨率重建问题取得了一定效果,但仍存在以下问题:①矿井图像尺寸大小不一,单一尺度的特征提取不能很好地提取不同尺度的图像信息。② 矿井图像有大量的背景信息,纹理、轮廓等细节信息含量较少,部分网络忽略了中间层的信息交流,导致重建后的图像出现细节丢失、边缘轮廓模糊等问题。③随着网络的加深,会引入一些多余的结构,使得重建图像出现伪影,且会导致网络参数过大,影响模型的重建速度。
针对上述问题,本文提出一种基于多尺度密集通道注意力SRGAN 的矿井图像超分辨率重建算法:构建了一种融合高效通道注意力(Efficient Channel Attention,ECA)机制[24]的多尺度密集通道注意力残差块(Multi-scale Dense Residual Channel Attention Block,MDRCAB)来代替SRGAN 原有的残差块,利用纹理损失[25]代替感知损失对网络训练进行监督,采用深度可分离卷积(Depthwise Separable Convolution,DSC)[26]进行特征提取。采用矿井数据集对该算法进行测试,通过主客观评价验证了该算法对井下图像的重建效果优于经典图像超分辨率重建算法。
1 多尺度密集通道注意力SRGAN
多尺度密集通道注意力SRGAN 是在SRGAN基础上对生成器进行改进。改进的生成器由浅层特征提取模块、多尺度密集残差通道注意力网络(Multi-scale Dense Residual Channel Attention Net,MDRCAN)和图像重建模块3 个部分组成,如图1所示。
图1 改进的SRGAN 生成器Fig.1 The generator of the improved super-resolution generative adversarial network(SRGAN)
1.1 浅层特征提取模块
采用1 个卷积核尺寸为9×9、输出通道数为64的卷积层对低分辨率矿井图像进行初步特征提取,得到浅层特征图a0作为MDRCAN 的输入。
式中:δ为PReLU 激活函数;F9×9为卷积层;ILR为输入图像。
1.2 MDRCAN
矿井图像含有大量低频信息,而反映图像结构的轮廓、纹理等高频信息较少,且矿井图像包含不同尺度的特征信息,普通的残差结构利用单一尺寸的卷积核对图像进行特征提取,难以捕捉到不同尺度的图像特征。另外,普通残差结构忽略了中间层的信息交流,不利于特征提取。针对上述问题,提出MDRCAN 进行深层特征提取。MDRCAN 由5 个MDRCAB 级联而成。MDRCAB 结构如图2 所示。其包含2 路卷积核大小分别为3×3 和5×5 的密集残差块(Dense Residual Block,DRB),当有图像输入时,2 路DRB 分别进行特征提取,并在通道方向进行拼接,完成不同尺度的局部特征融合,实现了对矿井图像的多尺度特征提取。同时DRB 加强了不同层的信息交流。以卷积核大小为3×3 的DRB 为例,其建立了前面层与后面所有层的连接关系,从全局角度挖掘深层次信息,实现特征在通道维度上的复用。在DRB 中设置瓶颈结构,利用卷积核大小为1×1 的卷积固定输出通道的大小,避免网络参数过大。在局部特征融合之后,采用ECA 模块来提高富含高频信息特征图的权重,增强图像重建质量。第n(n=2,3,4,5)个MDRCAB 的输出可表示为
图2 MDRCAB 结构Fig.2 Structure of multi-scale dense residual channel attention block(MDRCAB)
式中:E为ECA 模块;D3,D5分别为3×3,5×5 的DRB;*为拼接符号。
1.2.1 ECA 模块
矿井图像的边缘纹理等高频信息较少,利用注意力机制提高对高频信息的关注度有利于矿井图像重建。目前,大多数注意力模块在提升性能的同时,会使模型变得更加复杂。ECA 模块克服了性能和复杂性权衡的悖论,在只增加极少参数的同时带来极好的性能增益。ECA 模块结构如图3 所示。在不降维的通道全局平均池化聚合全局特征之后,将获得的特征向量输入卷积核大小为K的一维卷积中,对当前通道及邻近的K-1 个通道的信息进行捕捉,实现局部跨通道交互。K决定了局部跨通道交互的范围,可以通过与通道维度C的映射关系自适应确定。
图3 ECA 模块结构Fig.3 Structure of efficient channel attention(ECA)module
式中:|t|odd为离t的最近奇数;γ,b分别为权重系数和偏置系数,按经验分别取2 和1。
通过softmax 操作获得每一个通道权重,将生成的通道权重和与之对应的特征图相乘,得到加权特征图。
1.2.2 DSC
为降低网络参数,实现模型的轻量化,采用DSC 对图像进行特征提取。DSC 用2 种不同的卷积分步提取图像特征。先由逐通道卷积(Depthwise Convolution,DW)对所有通道进行特征提取,过程如图4 所示。
图4 逐通道卷积Fig.4 Depthwise convolution
DW 无法改变通道数,因此,还需进行逐点卷积(Pointwise Convolution,PW)操作,将提取的不同通道的信息交叉融合,得到新的特征图。PW 过程如图5 所示。
图5 逐点卷积Fig.5 Pointwise convolution
普通卷积的参数量为
式中:W,H分别为卷积核的宽和长;Cin为输入通道数;Cout为输出通道数。
DSC 的参数量为
假设Cin为4,Cout为5,卷积核尺寸为3×3,计算可得普通卷积的参数量为180,而DSC 的参数量为56。可见,对于相同的输入图像,得到相同数量的特征图,DSC 产生的参数量约为普通卷积的1/3。
1.3 图像重建模块
对矿井图像进行充分的特征提取后,采用亚像素卷积层对特征图进行上采样放大。放大后的图像为
式中:U为亚像素上采样层;Bn为由MDRCAN 提取的特征图。
将放大图像输入卷积核大小为9×9 的卷积层F9×9,得到重建图像:
1.4 损失函数
损失函数是影响矿井图像重建质量的关键因素之一。SRGAN 采用内容损失和感知损失相结合的损失函数来优化网络参数,以实现对高频细节的关注。虽然感知损失可以提高图像重建效果,但会引入多余的高频信息,从而产生伪影。对此,采用纹理损失代替原来的感知损失,整体损失函数为
首先采用预训练网络分别提取重建图像和高分辨率图像的深层特征图,然后计算深层特征图的Gram 矩阵,最后利用L2损失函数比较深层特征的Gram 矩阵,得到纹理损失。
式中:Ltex为纹理损失;G为 Gram 矩阵;ϕ为预训练网络;Igen为重建图像;IHR为高清图像。
Gram 矩阵可以捕捉图像的整体风格,有助于生成细节纹理。纹理损失的引入抑制了伪影的产生,使重建图像更符合人眼感官。
2 实验与结果分析
2.1 实验环境及所用数据集
软硬件实验环境:处理器为AMD Ryzen 76800H;16 GiB 系统内存;操作系统为Windows 10;显卡为NVIDIA RTX 3060,6 GiB 显存容量;CUDA 为11.7;深度学习框架为Pytorch1.13;编程语言为Python3.9。
实验所用数据集为CUMID。其包含600 张井下图像,根据图像编号顺序,每10 张图像选取1 张作为测试集,其余为训练集。为扩充训练样本,将训练集中图像随机旋转和水平翻转,最终将训练集扩充为1 620 张。
2.2 客观评价指标
为对算法性能进行客观评价,采用PSNR[27]和结构相似度(Structural Similarity,SSIM)[28]对图像重建质量进行评估。
式中:RPSN为重建图像PSNR;Pmax为像素点最大值;EMS为真实高分辨率图像与重建图像之间的均方误差。
PSNR 越大,则像素之间的均方误差越小,重建图像质量越好。
SSIM 主要从图像结构、对比度和亮度3 个方面对图像质量进行评价,相较于PSNR 更符合人眼的感官。
式中:S(x,y)为重建图像SSIM;x,y分别为真实的高分辨率图像和重建的高分辨率图像;μx,μy分别为x和y的平均灰度值;c1,c2均为常数;σxy为x和y的协方差;σx,σy分别为x,y的方差。
SSIM 与图像质量呈正相关,SSIM 越高,图像质量越好。
2.3 训练过程
训练过程中使用ADAM 作为优化器,初始学习率设置为0.001。训练周期(epoch)为200,批训练数据量(batch_size)设为16。对生成对抗网络进行训练时,首先将提取的高分辨率图像(High-Resolution,HR)裁剪为像素为88×88 的图像块,再将图像块进行4 倍下采样,得到低分辨率图像(Low-Resolution,LR)块。将LR 块输入生成器,得到一个假的HR块。将假HR 块和真HR 块输入判别器中进行打分,计算判别器的损失并将其反馈至生成器。生成器在获得判别器传来的对抗损失的同时,计算假HR 块与真HR 块之间的损失。生成器与判别器形成对抗,不断迭代优化,直至网络收敛。
2.4 实验结果与分析
2.4.1 客观评价结果分析
在相同的实验环境下,对本文算法与BICUBIC,SRCNN,SRRESNET,SRGAN 等经典超分辨率重建算法进行4 倍图像重建的训练与测试,并将各重建算法在测试集中的平均PSNR 与SSIM 进行对比,结果见表1。可看出本文算法与BICUBIC,SRCNN,SRRESNET,SRGAN 相比,重建图像的平均PSNR分别提高了2.638,0.182,0.095,0.142 dB,平均SSIM分别提高了0.194 7 3,0.004 97,0.005 85,0.008 77。PSNR 的提高得益于MDRCAN 的加入,在特征提取时保留了更完整的图像特征,使得重建后的图像与HR 的像素值更加接近。SSIM 的提高主要是由于ECA 模块的加入,提高了网络对高频信息的关注度,使得重建后的图像在结构上与HR 具有更高的相似度。
表1 不同超分辨率重建算法的客观指标对比Table 1 The comparison of objective indexes of different superresolution reconstruction algorithms
2.4.2 主观视觉分析
为更好地验证本文算法在井下图像重建方面的优越性,从人眼主观视觉的角度进行进一步验证。实验结果如图6 和图7 所示。对于场景1,本文算法重建图像中的“高压危险 严禁靠近”8 个字较对比算法更接近原图,细节纹理更丰富。相较于SRGAN,本文算法利用纹理损失能更好地匹配局部纹理信息,抑制了伪影的产生,使得重建图像边缘更清晰。对于场景2,本文算法利用MDRCAN 在灰暗模糊的图像中提取更多的细节纹理信息,相较于对比算法,更好地恢复了图像中工人头部的细节,同时铁链轮廓与HR 更相似。
图6 场景1 各算法重建4 倍的效果对比Fig.6 The comparison of 4 times reconstruction of different super-resolution reconstruction algorithms in Scene One
图7 场景2 各算法重建4 倍的效果对比Fig.7 The comparison of 4 times reconstruction of different super-resolution reconstruction algorithms in Scene Two
2.4.3 特征图可视化
为进一步验证本文算法在特征提取方面的优越性,将本文算法和SRGAN 算法提取的特征图可视化并进行对比,如图8、图9 所示。在场景1 中,本文算法提取的细节纹理和轮廓等高频信息更加清晰,表明本文算法对高频信息有更高的关注度。在场景2 中,本文算法对于灰暗模糊的图像能提取到更多的高频信息,边缘轮廓信息提取能力更强。
图8 场景1 特征图可视化Fig.8 Feature map visualization of Scene One
图9 场景2 特征图可视化Fig.9 Feature map visualization of Scene Two
2.4.4 公共测试集上的对比
选取公共数据集DIV2K 对模型进行训练,并分别在数据集Set5,Set14,BSD100,Urban100 上进行对比,结果见表2。可看出本文算法在Set5,Set14,BSD100 数据集上的PSNR 与SSIM 均取得了最优。对于Urban100 数据集,本文算法指标仅略次于SRRESNET。各算法对基准数据集图像的重建效果对比如图10 所示。可看出相较于对比算法,本文算法重建的图像拥有更清晰的纹理细节;相较于SRGAN,本文算法有效抑制了伪影的产生。可以得出,本文算法在公共数据集上具有明显的优越性。
表2 各算法在公共数据集上的PSNR 和 SSIM 对比(缩放因子为4)Table 2 The comparison of PSNR and SSIM of different super-resolution reconstruction algorithms in common data sets(scaling factor is 4)
图10 各算法对基准数据集的重建效果Fig.10 The reconstruction effect of different super-resolution reconstruction algorithms in the common data sets
2.5 消融实验
为了验证多尺度密集连接、ECA 机制、DSC 及纹理损失对算法性能及复杂度的影响,对这4 个点进行消融实验。不同组合的模型PSNR 和SSIM 对比见表3。其中模型a 表示原始SRGAN,模型b 表示加入多尺度密集连接,模型c 表示在模型b 的基础上加上DSC,模型d 表示在模型b 上加入ECA 机制,模型e 表示同时加入多尺度密集连接、DSC 和ECA 机制,模型f 表示在模型e 的基础上使用纹理损失进行训练。
表3 不同优化策略的消融实验结果对比Table 3 The comparison of ablation results of different optimization strategies
从表3 可看出,加入多尺度密集连接的模型较原模型在PSNR 和SSIM 方面分别提升了0.086 dB和0.005 21,但参数量上升了55.6%,说明多尺度密集连接可以提高网络的重建性能,但会大幅度增加网络的复杂度;加入DSC 后,模型c 较模型b 在PSNR和SSIM 上有所下降,但参数量减少了56.8%,说明DSC 可以极大地减少网络复杂程度,但伴随着一定的性能下降;加入ECA 机制后,模型d 较模型b 在PSNR 和SSIM 方面分别提升了0.059 dB 和0.004 71,参数量几乎不变,说明ECA 机制在提升网络性能的同时,几乎不影响网络复杂程度;比较模型f 和模型e 可看出,使用纹理损失对网络进行优化时,PSNR 的增长并不明显,但SSIM 增加了0.000 98,说明纹理损失能使网络更加关注图像的结构特征;模型f 较模型a 参数量减少了2.54%,但PSNR 和SSIM 分别提高了0.142 dB 与0.008 77,可见改进后的模型在性能提升的同时,有效抑制了网络参数的增加。
3 结论
1)针对矿井图像分辨率低、边缘细节模糊等问题,在生成对抗网络的基础上,提出了一种基于多尺度密集通道注意力SRGAN 的矿井图像超分辨率重建算法。
2)基于多尺度密集通道注意力SRGAN 的矿井图像超分辨率重建算法利用不同尺寸的卷积核对矿井图像进行特征提取,解决了单一尺度的特征提取不能有效获取不同尺度图像信息的问题;将密集连接网络和残差结构结合,加强了网络内部层与层的信息交流,融入ECA 机制提高了网络对高频信息的关注度,有效提升了矿井图像的重建效果;利用纹理损失对网络训练进行监督,有效避免了伪影的产生;利用DSC 进行特征提取,有效抑制了网络参数的增加。
3)在井下数据集上进行测试,提出的矿井图像超分辨率重建算法在主客观评价上均优于BICUBIC,SRCNN,SRRESNET,SRGAN 等经典算法,有效恢复了矿井图像的高频细节信息,提高了图像重建质量。