GMAC-EDSR:基于多类型卷积融合的图像重建方法研究
2023-12-14郭爱群
郭爱群
(南京多基观测技术研究院有限公司,南京 211500)
0 引言
图像超分辨率(Super-Resolution,SR)重建技术是计算机视觉领域中的一个重要研究方向,其主要目标是将低分辨率图像提升至高分辨率图像。在实际应用中,由于传感器分辨率、图像压缩等条件的限制,我们通常只能获得不太清晰的图像。这时候,需要通过SR 将其重建成HR 图像,以满足更高质量的视觉需求[1]。
SR 重建技术在多个领域都具有重要的研究意义,并得到了广泛应用。这种压缩技术可以显著减少传输所需的带宽和存储空间。一旦图像数据传输完成,接收端可以对压缩后的数据进行解码,并利用SR 重建技术恢复出高质量的图像序列。这种方法不仅能满足实时性要求,同时还可以节省带宽和存储空间,提高传输效率和数据利用率。在遥感成像领域,SR 重建技术能够应对难以获得HR 图像的挑战,提高观测图像的分辨率,而无需对探测系统本身进行改变[2]。基于深度学习的SR 重建技术由于其卓越的性能表现成为当前研究的潮流。这种技术的主要思想是通过训练神经网络模型,从大量的LR 图像和对应的HR 图像中学习到一个映射函数,将LR 图像映射到HR图像[3]。
然而,在实际应用中,基于深度学习的SR 重建技术也存在着一些问题,比如过拟合和计算量大。为了解决这些问题,我们提出了一种新的SR 重建技术,即基于多类型卷积融合的SR 重建技术。这种技术通过将不同类型的卷积操作融合起来,可以有效提高SR 重建的性能,并且能够在保证高质量重建的同时降低计算量。
1 图像超分辨率重建研究现状
国内有许多科研院所和大学等对SR 图像恢复进行研究,其中,一部分研究集中在频谱外推和混叠效应的消除,另一部分则主要是对国外SR 方法进行改进[4]。此外,还有基于小波域隐马尔可夫树(HMT)模型的改进方法,用于改善彩色图像的SR。同时,还有研究致力于改进SR 图像重构方法[5]。
2 基于幻影模块非对称卷积融合网络的SR 方法
2.1 总体框架
基于多类型卷积融合的图像SR 重建技术,是将多种类型卷积操作融合在一起。我们选择了EDSR 模型作为研究对象。在复现原始模型的基础上,进行了简化,并融合GhostModule 的卷积操作,然后再进一步融合ACNet 的卷积操作,对最终融合得到的模型进行了研究。
2.2 GhostModule
GhostModule,也即幻影模块,是一种用于深度神经网络中的卷积操作的设计思路,旨在通过更少的参数生成更多的特征图,从而减小计算复杂度和内存开销。幻影模块将普通的卷积层分为两部分,第一部分包含普通的卷积操作,严格控制卷积的总数。在给定第一部分的特征图的情况下,第二部分将应用一系列简单的线性操作来生成更多的特征图。幻影模块的作用是帮助减小计算复杂度和所需参数总数,同时不会影响输出特征图的大小。
2.3 ACNet
ACNet 是一种非对称卷积神经网络,其创新之处在于对卷积核结构进行了改进。该算法在CNN 模型中表现出优秀的性能,因此值得尝试应用于各种场景。虽然这种算法会增加训练阶段的时间和参数,但并不会增加推理阶段的时长和最终模型的参数。通过利用增强后的卷积核参数来初始化和部署原始模型,可不需要额外的计算成本的前提下提升原始模型的准确率。
2.4 GMAC-EDSR
将GhostModule 中普通卷积和线性运算中所用的BN层和其后的ReLU 激活函数删除,可以减少不必要的参数和计算量。这样得到的新的幻影模块可以替代简化版EDSR 残差块中的普通卷积操作,从而构建了GM-EDSR模型。可以预测,在训练参数相同的情况下,GM-EDSR 网络训练时长较简化版EDSR 网络会有明显的减少。再将ACNet 网络中的卷积ACConv 加入处理后的GM-EDSR,也即ACNet 与GM-EDSR 卷积融合得到GMAC-EDSR。ACNet 算法的代价是增加了训练阶段的时间和参数,所以最终GMAC-EDSR 与简化版EDSR 训练时长的长短并不确定。本文所设计的GMAC-EDSR,也即基于幻影模块非对称卷积融合网络的模型。它的最终模型结构图如图1 所示。图中左部为GMAC-EDSR 框架中的GM-EDSR 部分,其中方块GhostM 代表修改后的幻影模块。
图1 基于幻影模块非对称卷积融合网络
2.5 损失函数
在训练过程中,模型的目标是通过调整模型参数来最小化损失,从而提高模型的准确性。因此,通过观察模型在训练集和验证集上的损失曲线可以评估模型的学习效果和泛化性能,便进行相应的调整来提高模型的性能。
本文采用L1损失,如公式(1)所示:
3 实验结果与分析
3.1 实验参数
所有模型均训练400 组epoch,训练所用数据集为DIV2K,测试所用数据集为benchmark 数据集,具体有set5,set14,B100,Urban100 数据集。模型的放大因子(scale)为2 倍,残差缩放比例系数为0.1,训练所用图片序号的具体范围是1-800,测试所用图片序号具体范围是801-900。
3.2 图像评价指标
本文使用两个评估指标来衡量预测轨迹的准确性:
①峰值信噪比(Peak Signal-to-Noise Ratio,PSNR):反映了图像的像素级别的相似性。
给定一个干净图像和噪声图像,均方误差(MSE)定义为:
PSNR(dB)定义为:
②结构相似性(Structural SIMilarity,SSIM):SSIM 指标的取值范围在0 到1 之间,值越接近1 表示重建的图像质量越好。相比于PSNR 指标,SSIM 指标能够更准确和可靠地反映图像的质量和纹理细节。
SSIM 公式是从三个方面衡量两个图像和之间的结构相似度,分别为:亮度、对比度和结构,公式如下:
一般取c3=c2/2。μx为x 的均值,μy为y 的均值。为x 的方差,为y 的方差,σxy是x 和y 的协方差。c1=(k1L)2,c2=(k2L)2为两个常数,避免除零k1=0.01,k2=0.03 为默认值。L 为像素值的范围,2B-1,B 即每个像素点存储所占的位数。
3.3 消融实验
本文设计的网络GMAC-EDSR 的消融实验就可以做削减卷积的两个模型实验,即去除非对称卷积和去除非对称卷积和幻影模块的两个模型去做实验,用以测出多类型卷积融合对模型性能的影响。即消融实验做GM-EDSR 与简化版EDSR 的实验,加上本文所设计的模型实验。
将三个模型训练(DIV-2K 数据集)的PSNR 结果整合入表1。
表1 消融实验(DIV2K 训练集)
三模型测试(benchmark 数据集)的PSNR/SSIM 结果整合入表2。
表2 消融实验(benchmark)
根据局部放大效果来看,重建的SR 图像在GMACEDSR 模型中呈现出较高的清晰度。同样训练四百组DIV-2K 数据集,GMAC-EDSR 的PSNR 曲线峰值高于消融实验的两个模型,三组模型训练时的损失下降曲线也是GMAC-EDSR 下降得最多,通常PSNR 指标越高代表重建的图像质量越好,损失下降曲线的下降意味着模型的预测结果越来越接近实际结果,模型的性能逐渐提高。可以得出训练时GMAC-EDSR 保存了最好的训练模型。三组模型训练所得最好模型均采用benchmark 数据集测试,GMAC-EDSR 在四个测试集上PSNR 数值均最大,SSIM 均最接近于1。SSIM 指标的值越接近1,则代表重建的图像质量越好。GMAC-EDSR 在三组模型中表现最佳,可见基于多类型卷积融合可以有效地提高图像重建质量。
3.4 对比分析
本文在文献中寻找了部分主流模型使用相同测试方法(benchmark 数据集)的测试数据,并将之与GMACEDSR 的测试数据一起填入表3,并进行对比分析。
表3 对比实验结果表
通过与部分主流模型的测试结果对比,我们可以看出GMAC-EDSR 在PSNR 和SSIM 等评价指标上表现出色。GMAC-EDSR 在图像效果方面取得了不错的成绩。本文所设计的网络也是符合设计初衷的。
4 结论
随着计算机视觉技术的不断发展,基于多类型卷积融合的图像SR 重建技术逐渐成为了研究的热点,并具有广泛的研究价值和实际应用前景。
多类型卷积融合技术通过将多种类型的卷积操作结合起来,能够更准确地捕捉图像的细节和纹理特征。与传统的单一类型卷积相比,多类型卷积融合可以更有效地提高图像SR 的效果,同时也具有更好的鲁棒性和泛化性能。本文提出了GMAC-EDSR 模型。在消融实验中GMAC-EDSR 能够保存最好的模型,在测试中获得了最高的PSNR 和SSIM 指标。并与部分主流图像SR 模型对比,结果表现并不逊色。可以很好的为未来的研究和应用提供参考和支持。