基于融合残差与注意力机制的图像去雨网络
2022-09-21刘文进陶志勇徐光宪
刘文进,王 鑫,林 森,陶志勇,徐光宪
(1.辽宁工程技术大学 电子与信息工程学院,辽宁 葫芦岛 125105;2.沈阳理工大学 自动化与电气工程学院,辽宁 沈阳 110159)
户外雨天拍摄的图像容易受雨纹密度、形状和方向等干扰,影响其视觉质量,造成一些高级计算机视觉任务的退化,如目标检测[1]、图像分类[2]和图像分割[3]等.如何有效地从有雨图像中去除雨纹,同时保留图像的细节信息始终是去雨方向的研究热点.
近年来,学者们提出了许多图像去雨的方法,主要分为基于传统和基于深度的方法.基于传统的方法通过构建特定模型和各种先验信息的优化算法解决去雨问题.Kang 等[4]利用字典学习和稀疏编码实现去雨.Li 等[5]对背景和雨纹层均运用高斯混合模型,提出了一个背景结构恢复过程,用于检验不适当分配的雨纹层背景细节,进一步提高去雨质量.Wu 等[6]引入任意方向的梯度算子,提出一种基于约束的高效图像雨水去除模型.然而,这些方法只能提取图像中的浅层信息,不能完全恢复图像中纹理细节信息.随着深度学习的迅速发展,基于深度学习的方法已经广泛应用于去雨,并取得了显著的效果.基于深度学习的方法具有强大的特征提取能力,能更好地去除雨纹,从而减少了人工设计特征的复杂过程.Li 等[7]提出一种深度卷积网络与循环网络结合的去雨网络,将去雨过程分解成了多个阶段,每个阶段都运用扩展卷积增大感受野,然后用循环网络对前一阶段的有用信息加以存储,辅助下一阶段的雨纹去除.Ren 等[8]在阶段内使用递归计算共享阶段之间的网络参数,以达到减少参数的目的,利用循环层的跨阶段深度特征的依赖关系实现去雨.Chen 等[9]通过平滑的扩张卷积辅助消除广泛使用的扩张卷积产生的网格伪影以及运用门控网络技术融合来自不同层次的特征,完成图像去雨.Yang 等[10]使用卷积核尺寸不同的扩张卷积应对不同尺度的感受野,设计一个丰富上下文信息的循环网络,用于雨纹的循环检测和去除.Fu 等[11]将有雨图像利用高斯滤波分解为背景层和雨纹层,通过学习雨纹层减小映射范围,提高去雨效果.
基于深度学习的去雨算法虽然取得了一定的效果,但仍存在一些局限:部分去雨网络结构比较复杂,包含增加网络的宽度、深度和分支来提高网络的性能和表达力等;对空间,通道和像素信息关注较少,导致图像的特征信息未得到充分利用,不能较好地保留纹理细节信息.为了解决这些问题,本文提出基于融合残差结构与注意力机制的图像去雨网络(image deraining network based on Fusing Residuals and Attention Mechanisms,FRAM).本文主要贡献如下:
(1)提出端到端的融合残差与注意力机制的去雨网络,将残差结构与多注意力机制融合,并利用多注意力机制进行充分提取所有可用的特征,通道注意力(Channel Attention,CA)增强不同通道之间的依赖性,像素注意力(Pixel Attention,PA)更加关注高频图像区域的信息特征,空间注意力(Spatial Attention,SA)提取多尺度特征.
(2)在多注意力模块中,将通道注意力与像素注意力进行串联,再与采用多尺度融合的空间注意力并行.空间注意力在使用膨胀卷积增大感受野、适应不同形状的雨纹的同时,对不同尺度的特征进行逐步融合用以消除尺度不一致造成的信息丢失.
(3)利用残差结构[12]将多注意力模块和卷积层结合构成注意力残差块,可以避免浅层信息特征的丢失,使得图像的背景细节得以保留,同时提高网络训练的稳定性.
1 相关工作
1.1 图像去雨模型由于环境的复杂性,雨纹的积累可能导致光的散射与衰减.因此,文献[13]提出了一种基于大气散射模型的去雨方式,如下式所示:
式中,R为有雨图像,B为无雨背景图,St为一层中同一方向的雨条数,n为雨条总层数,M记录St的位置,A为大气光,T为大气透射率.基于去雨模型,许多学者提出了有效的去雨方法,但纹理细节过于平滑,且无法处理密集的雨纹.
1.2 注意力机制近年来,注意力机制已经是神经网络中重要组成结构,并在图像处理等领域有很多应用.研究者们开始在图像去雨网络中添加注意力机制,在去雨任务中取得了显著的效果.Qian 等[14]引入注意力生成网络,利用对抗性训练去除雨纹.Li 等[7]使用循环神经网络进行时序信息的提取以及逐步学习映射,运用通道注意力对不同通道的雨纹分配对应的权重.Hu 等[15]通过深度指导的注意力机制学习深度特征,设计一个端到端的神经网络,对残差图按照注意权值执行回归运算完成消除雨纹.Wang 等[16]提出从真实有雨的连续帧中生成无雨清晰图像,该方法结合时间先验和人类监督,提出空间注意力网络从局部到全局去除雨纹.Wang等[17]考虑到有关多尺度特征的重要信息,提出一个“尺度聚合”模块来学习具有不同尺度的特征,并引入“自注意力”模块使特征聚合适应每个通道,以解决单幅图像去雨问题.Wang 等[18]引入了一个端到端网络,该网络同时利用全局和局部注意力来有效地消除单个图像上的雨纹,在网络中用加法和乘法的术语重新解释了降雨模型,以及提出空间通道注意模块提取全局特征信息,这有效地解决雨纹去除任务.与这些方法不同的是,本文将通道注意、像素注意与空间注意相融合,建立不同通道之间的依赖关系,使网络更加关注像素信息特征,利用空间注意提取多尺度特征,更好地保留纹理细节和有效地去除有雨图像中的雨纹.
2 本文算法
2.1 网络模型为了更高效地去除雨纹,提出基于融合残差结构与注意力机制的图像去雨网络,该网络分为两部分:特征提取和重构.网络框架如图1 所示.特征提取分为两部分:浅层提取和深层提取.首先,通过对有雨图像提取浅层特征;然后,将提取的浅层特征输入到多个注意力残差块中进行深度特征提取,此外,考虑到浅层信息的丢失,引入全局跳跃连接[19]将浅层特征传递到深层网络中;最后,通过卷积计算对无雨图像进行特征重构.运用两个卷积运算对输入的有雨图像(R)提取浅层特征.
图1 本文网络框架图Fig.1 The network framework diagram of this paper
式中,HConv1(·)为 卷积运算,F0为浅层特征.然后利用F0进一步提取特征.
式中,HConv2(·)为 卷积运算,F1为F0的输出,并作为提取深度特征的输入.
式中,HAR(·)表示由7 个注意力残差块的深层特征提取模块,F2为F1进过深层特征提取模块的输出,F3为深层特征F2与浅层特征F0的融合,并作为重构模块的输入.
式中,B为无雨图像,HREC(·)为由3 个卷积块组成的重构模块,将提取的深层特征通过卷积运算映射到无雨图像中.
2.2 注意力残差块文献[11]中提到ResNet 可以有效地提高图像去噪的性能.但是,对残差块进行叠加会增加网络深度,降低训练速度.跳跃连接既不会生成多余的计算参数也不会增加计算的复杂度,因此在ResNet 中添加全局跳跃连接使得网络更容易训练[20].本文利用具有残差结构的注意力残差块可以避免浅层信息特征的丢失,使得图像的背景细节得以保留,同时作为网络的基本结构以提高训练的稳定性.注意力残差块由两个多注意块和一个3×3 卷积块组成,目的是将输入信息传递到更高的层次中学习,在输入和输出之间添加了跳跃连接.第一个注意力残差块可以定义为:
式中,F1为提取的浅层特征,Hj为多注意力模块,j为多注意力模块的个数,W为3×3 卷积的权值集,⊗表示元素乘法.本文利用注意力残差块提取深度特征,计算公式为:
式中,i为注意力残差块的个数,⊗表示元素乘法,为包含i个注意力残差块的深层特征提取模块,为对应第i个注意力残差块的3×3 卷积的权值集.
2.3 多注意力模块多注意力模块(Multi-attention Modules,MA)包括空间注意力、通道注意力和像素注意力,融合空间、通道和像素注意力对图像的特征信息进行充分提取,同时增加跳跃连接以增强网络中的信息传输,可以更好地保留边缘纹理细节信息.它的定义如下:
式中,fin、fout分别为多注意力模块的输入与输出,HMA表示多注意力模块,HSA表示空间注意力模块,HCPA表示通道注意力和像素注意力模块.多注意力模块的结构框架如图2 所示.
2.3.1 空间注意力 在图像中不同区域间的雨纹有很强的相关性.为了有效去除雨纹和保留纹理细节,利用空间注意力增大感受野,并提取雨纹的多尺度特征,建立远距离像素之间的相关性.空间注意力由许多分支所构成,而各个分支都有着不同的感受野.如图2 所示,使用分步融合的方法进行融合不同尺度的特征,先连接相邻的膨胀卷积,再采用1×1 卷积聚合来自不同块的特征.对所有的膨胀卷积重复此操作,直到不同尺度的特征被完全集成到一个单元中.
图2 多注意力模块结构框架Fig.2 The structure framework of the multi-attention module
式中,HDC1、HDC2、HDC5为膨胀系数分别为1、2、5的膨胀卷积运算,H1×1为1×1卷积运算,δ为PReLU 激活函数,cat为连接操作,f为连接膨胀系数是1、2 的膨胀卷积的输出,HSA为空间注意力模块的输出.
2.3.2 通道注意力 通道注意力主要是对不同通道特征包含完全不同的加权信息加以关注,对有雨图像提取重要的特征分配不同的加权信息.首先,运用全局自适应平均池化函数把信道的全局空间信息转换为信道描述符.
式中,GC为自适应全局平均池化的输出,XC(i,j)表示在 (i,j)位 置的第C个信道XC的值,H和W表示特征图的高和宽,Hp是自适应全局平均池化函数.特征图经过两个卷积层、sigmoid 以及ReLU 激活函数后,得到不同通道的权值:
式中,Conv为卷积运算,σ为sigmoid 函数,φ为ReLU 函数.
最后,将输入fin与 通道的权值ZCA进行相应元素相乘.
2.3.3 像素注意力 考虑到不同图像像素上的雨纹分布不均匀,采用像素注意力使网络更加关注有雨图像中的雨纹和高频区域的信息特征,更加注重保留图像中物体的纹理细节信息.将HCA输入到两个卷积层当中,包含ReLU 和sigmoid 激活函数.
式中,HPA为像素注意力模块的输出.对输入HCA与HPA使用元素乘法,HCPA为像素注意力模块输出.
2.4 损失函数本文采用混合损失函数优化网络,能够使去雨图像生成丰富的纹理特征和边缘信息,同时可以更好地保证去雨图像结构的完整性和像素的相似性,混合损失函数L由L1损失和LSSIM损失组成.计算公式如下:
式中,Y和YGT分别表示处理后图像和相应的背景真实图像,n为图像的总张数,m表示第几张图像,fSSIM表示Y和YGT之间的SSIM 值,δ1为避免分母为零的极小参数.
3 实验及分析
3.1 实验环境和数据集本文基于PyTorch 框架构建网络,在具有24 GB 内存的RTX3090 上进行训练.图像批处理的大小为8,运用Adam 优化器进行梯度优化,学习率为0.001,时期为100.由于很难从现实世界中获取大量的无雨和有雨图像对,本文使用3 个合成雨数据集Rain100H[10]、Rain-100L[10]和Rain12[5]训练和测试网络.Rain100H 中有用于训练的1 800 对大雨图像,100 对测试图像.Rain100L 有200 对小雨训练图像和100 对测试图像.Rain12 有12 对无雨和有雨的图像.
3.2 消融实验为了验证本文算法的有效性,进行了对注意力残差块数量以及不同的模块组合的消融实验.本文主要使用峰值信噪比(Peak Signal Noise Ratio,PSNR)[21]和结构相似性(Structural Similarity Index Measure,SSIM)[22]两个图像评价指标对图像质量进行定量分析.本文设置注意力残差块的初始数量为2、3、4、5、6、7、8,分别在数据集Rain100H 和Rain100L 上进行训练,PSNR 和SSIM 值分别如表1 和表2 所示.显然,增加注意力残差块的数量可以提高模型的性能.但当数量增加到8 个时,模型效应在Rain100H 上的SSIM 值和PSNR 值均达到饱和.同时,在Rain100L 上的SSIM值和PSNR 值都有降低.在Rain100H 上不同数量的去雨结果如图3 所示,从图3 可以看出7 个模块与8 个模块之间的主观视觉效果无显著差异,而且模块越多,网络训练难度越大,内存消耗越高.因此,本文选择注意力残差块的数目为7.
图3 注意力残差块的消融实验结果Fig.3 The ablation experiment results of attention residual blocks
表1 PSNR 指标定量评价结果Tab.1 The quantitative evaluation results of PSNR indicators
表2 SSIM 指标定量评价结果Tab.2 The quantitative evaluation results of SSIM indicators
本文进行了不同的注意力模块组合的消融实验.共包括如下6 个实验:(1)只包含通道注意力模块(CA);(2)只包含像素注意力模块(PA);(3)只包含空间注意力模块(SA);(4)包含通道和像素注意力模块(CA+PA);(5)包含通道和空间注意力模块(CA+SA);(6)包含像素和空间注意力模块(PA+SA).在数据集Rain100H 和Rain100L 上对6个实验进行测试,不同模块组合的实验结果如表3、表4 所示.实验结果表明,在未删减注意力模块的情况下,本文算法在两个数据集上的PSNR 和SSIM 值均高于其他模型,表明去雨效果最好,能有效地保留图像的细节和边缘信息.
表3 在Rain100H 上PSNR 和SSIM 指标定量评价结果Tab.3 The quantitative evaluation results of PSNR and SSIM indicators on Rain100H
表4 在Rain100L 上 PSNR 和SSIM 指标定量评价结果Tab.4 The quantitative evaluation results of PSNR and SSIM indicators on Rain100L
3.3 合成数据集测试结果为进一步验证本文算法的合理性,将本文方法与DDN[11]、DiG-Com[6]、GCANet[9]、JORDER[10]、RESCAN[7]、PReNet[8]等6 种经典与新颖的去雨算法,在不同复杂度和尺寸的数据集上进行了比较.实验结果分别如表5 和表6 所示,由表5、6 可知在测试集Rain100H、Rain100L 和Rain12 上,本文算法与其他算法相比,PSNR 平均值分别提高0.85~13.96、0.74~10.69 dB和0.35~5.36 dB;SSIM 平均值分别提高0.7%~34.6%、1.7%~6.7%和1.3%~2.9%.
表6 SSIM 指标定量评价结果Tab.6 The quantitative evaluation results of SSIM indicators
为了直观地展示所提方法的性能,给出了Rain100H 的结果如图4 所示.从图4 可以看出,DDN[11]、DiG-Com[6]和GCANet[9]的算法去雨能力有限,仍有雨纹残留,对大雨情况尤其严重;JORDER[10]的算法能去除部分雨纹,但容易产生明显的伪影;RESCAN[7]和PReNet[8]的算法虽能去除雨纹,但会丢失部分背景细节,在一定程度上导致质量退化.本文的算法不仅有效地去除雨纹,而且保留图像的边缘纹理细节.与标定的无雨图像比较,能够发现本文算法的结果与真实图像最接近.
图4 合成图像对比结果Fig.4 The comparison results of synthetic images
3.4 真实雨数据集测试结果为了更进一步证明本文算法的泛化能力,在真实世界的有雨数据集上进行了测试.由于真实世界中很难获得相对应的有雨和无雨图像对,因此没有任何无雨图像可以作为参考图像,需选用无参考图像质量评价指标,故采用自然图像质量评价指标(Natural Image Quality Evaluator,NIQE)[23],评价数值越小,图像越接近自然状态.在完成真实雨图像上的去雨任务中使用的是在 Rain100H 数据集上训练的模型.测试结果如表7 所示,表中数据为68 张真实世界有雨图像的NIQE 平均值,FRAM 算法的NIQE 值最小,说明本文算法处理的真实有雨图像更接近自然无雨图像.实验结果如图5 所示可以看出,DDN[11]和GCANet[9]依然存在大量雨纹残留.PReNet[8]和JORDER[10]去除大部分雨纹,但图像的细节恢复不佳,导致整体质量偏差.DiG-Com[6]虽有较好的去雨效果,但产生伪影造成图像模糊,视觉效果不好.相比之下,本文方法既较好地完成去雨工作,也保留更多边缘细节信息,使去雨图像与真实的无雨图像更加接近.
表7 NIQE 指标定量评价结果Tab.7 The quantitative evaluation results of NIQE indicators
图5 真实图像对比结果Fig.5 The comparison results of real images
4 结论
本文提出了一种融合残差结构与注意力机制的端到端去雨网络.为了有效去除雨纹以及更好地保留纹理细节信息,将多注意力模块融合到残差结构中进行更高层语义特征学习,可以避免浅层特征的丢失,同时充分提取图像的特征信息.空间注意力模块增大感受野,可以有效地去除雨纹.通道注意力模块创建不同通道间的依赖关系,并对更重要的特征进行权重分配.像素注意力模块用于网络对高频图像区域信息特征的关注.在合成数据集和真实数据集上展开实验,证明了本文网络的实效性.消融实验说明了网络中的各模块的必要性.在未来,本文提出的网络可以扩展到其他高级视觉任务,并进一步发展一个有效的视频去雨任务模型.