APP下载

双注意力门融合网络的水下图像增强方法∗

2022-02-01田生伟

关键词:置信度预处理注意力

刘 毅,田生伟†

(1.新疆大学 软件学院,新疆 乌鲁木齐 830091;2.新疆大学 软件工程技术重点实验室,新疆 乌鲁木齐 830000)

0 引言

水下图像处理在海洋生物研究、水下物体检测、水下航行器控制、海洋油气勘探等诸多领域发挥着基础性作用.水下图像的退化问题是制约准确获取水下图像信息的关键因素,改善水下图像质量十分迫切.造成水下图像退化的主要原因是由水中的悬浮微粒和溶解质对光的吸收和散射作用而产生的光衰减.光的吸收会导致水下图像亮度降低,散射则会引起与距离相关的加性噪声,从而降低图像对比度,造成图像模糊.此外,不同波长的色光在水中的衰减速率存在显著差异,随着距离增加,与波长相关的衰减会导致图像的全局色彩偏移.这使得水下图像处理成为一项具有挑战性的任务.

近年来,学者们提出了一系列改进水下图像质量的算法.传统的方法如Ghani等[1]、Fu等[2]、Zhang等[3]直接对图像的像素值进行修改,显著增强了图像的对比度和细节,但忽略了水下图像的退化程度与场景深度的关系,对水下图像的颜色和场景信息恢复不够完全;He等[4]、Wang等[5]虽然考虑了水下场景中光的衰减特点,但并不能灵活应对复杂的水下环境.基于深度学习的方法如Hou等[6]、Lu等[7]、Li等[8]通过训练使网络自主学习水下图像与增强图像的映射关系,取得了较好的效果,为改善水下图像质量提供了思路.为此,本文以Li等[9]方法为基线提出了基于双注意力门融合网络的水下图像增强方法,该方法采用U型置信度图生成网络(U-structure Confidence Map Generation Network,UCMG-Net)以提高网络对图像重要特征的提取能力并在特征转换网络(Feature Transformation Network,FT-Net)中使用残差网络(Residual Network,Res-Net)[10]以避免特征在传输过程中造成的重要信息丢失.针对水下图像存在的局部细节模糊、全局色彩偏移等问题,该方法采用双注意力机制,将空间注意力机制(Spatial Attention Mechanism,SAM)[11]和通道注意力机制(Channel Attention Mechanism,CAM)[12]分别加入到U型置信度图生成网络和特征转换网络中.通过消融实验证明了所提出结构的有效性,并在Zhou等合成数据集[13]和真实水下图像数据集UIEB[9]上试验,从主观评价和客观指标分析两方面与其它现有方法比较,证明了该方法的优越性.

1 相关工作

单目水下图像处理方法大致可分为基于图像恢复的方法、基于图像增强的方法和基于深度学习的方法三大类别.

基于图像恢复的方法利用水下光成像模型建模,将水下图像恢复的过程视为光水下成像的逆过程,通过合理地估计模型参数来反推未退化的清晰图像.水下光成像模型[14]可以表达为:

其中:IRAW是摄像机捕获的原始的水下图像,J是清晰图像,A是水下环境光,A(1−e−ηd)是反向散射光,d是物体到相机的距离,η是光的衰减系数.图像恢复的过程就是求J的过程,如式(2):

Wang等[5]将自适应的衰减曲线先验与水下光的传播特性相结合,进行水下图像恢复.Akkaynak等[15]改进了原有的光水下传播模型,有效地解决了色彩失真、对比度低等问题,取得了很好的效果.Peng等[16]提出了一种利用光吸收和图像模糊度模型估计场景深度,然后恢复图像的方法.这类方法依赖于水下成像过程的数学建模,建模通常建立在一定的假设先验基础上,具有一定的局限性,而且对参数估计的算法复杂度高.He等[4]基于对清晰图像的统计观测,提出了暗通道先验(Dark Channel Prior,DCP)方法.Drews等[17]指出水下图像的红色通道信息并不可靠,提出了水下暗通道先验模型(Underwater Dark Channel Prior,UDCP),取得了较好的处理效果.

基于图像增强的方法通过直接改变图像的像素值来改善图像的质量.Ghani等[1]提出通过按照Rayleigh分布对拉伸过程进行调整来减少过增强和欠增强.Iqbal等[18]提出利用拉普拉斯分解将图像分为高频和低频两部分,然后对低频部分作去雾和白平衡(White Balance,WB)处理、对高频部分放大以保持边缘细节,最后叠加高频和低频部分.Brainard等[19]基于颜色恒常性理论提出了Retinex方法,该方法指出色觉与综合反射率有关而与人眼接受的亮度值无关;Zhang等[3]提出了一种扩展的多尺度Retinex的水下图像处理方法,根据水下图像CIELAB空间的通道特点,对不同通道分别采用双边滤波和三边滤波进行多尺度Retinex处理(Multi-Scale Retinex,MSR).Jobson等[20]提出了一种具有颜色恢复的多尺度Retinex方法(Multi-Scale Retinex with Color Restoration,MSRCR),利用色彩恢复因子调节由于图像局部区域对比度增强而导致颜色失真.刘柯等[21]提出将MSRCR方法与引导滤波处理结合的图像增强方法,在提高图像对比度的同时有效地保留了图像的纹理细节和边缘信息.Sethi等[22]提出物理模型与非物理模型结合的处理方法,将分别经直方图均衡化和暗通道先验去雾后的水下图像通过拉普拉斯金字塔融合产生增强图像,取得了较好的效果.颜阳等[23]提出了一种自适应融合的方法,首先对水下图像做三级小波分解,然后对高频部分作基于l2范数的自适应融合,从而实现了自适应地修正不同水下环境所产生的色彩偏移和模糊,但对低照度的水下图像处理效果较差.基于图像增强的方法可以在一定程度上提高图像的视觉质量,但由于其并未考虑水下成像的光学特性,容易引入颜色偏差和伪影,也可能加重噪声.

基于深度学习的方法主要有两种:一种是与物理模型相结合,估计物理模型所需要的深度图、传输图等参数,进而求出清晰图像;另一种是直接构建端到端的训练模型,直接学习原始水下图像与清晰水下图像之间的映射关系.Hou等[6]提出一种联合残差学习的水下图像增强网络,将先验知识和数据信息整合在一起进行处理;这类与传统模型结合的深度学习方法存在的难点是难以准确获取构建训练数据集依赖的先验知识.Lu等[7]提出了端到端的基于深度学习的图像增强方法,该方法在图像的去雾、降噪等方面有很好的效果,但是在图像颜色增强方面效果不太理想;Li等[8]提出了一种基于生成对抗网络(Generative Adversarial Networks,GAN)的无监督水下图像生成方法,利用空气中的RGB图像和对应的深度图像生成逼真的水下图像构造训练集,但该方法的性能依赖于对深度图的准确获取.Li等[9]提出了一种门融合网络结构方法Water-Net,首先对原始输入作预处理,使用伽玛校正(Gamma Correct,GC)处理用于提高图像较暗区域的可见度、限制对比度自适应直方图均衡(Contrast Limited Adaptive Histogram Equalization,CLAHE)处理用于提高图像的对比度、白平衡处理用于改进水下图像的颜色失真;然后使用置信度图生成网络和特征转换网络得到置信度图和精化特征;最后将置信度图和精化特征融合得到输出图像.该方法有效提高了图像的对比度,且产生了较好的颜色恢复效果,但降噪效果较差,甚至加剧了部分图像的全局色彩偏移.

针对水下图像存在的问题和当前的研究现状,本文以Li等[9]提出的Water-Net方法为基线,提出了双注意力门融合网络的水下图像增强方法,采用U型结构的置信度图生成网络提高模型的降噪能力,引入空间注意力机制和通道注意力机制进一步提高模型对图像细节的处理能力和对图像全局色彩偏移的调节能力.

2 双注意力门融合网络的水下图像增强方法

本文提出的双注意力门融合网络的水下图像增强方法的总体结构如图1所示.首先将U型置信度图生成网络(UCMG-Net)产生的三个单通道置信度图分别与三个经过特征转换网络(FT-Net)处理的特征图按像素位置相乘得到三个加权特征图,然后将三个加权特征图按像素位置相加并作反归一化得到增强图像.本节将详细介绍U型置信度图生成网络、特征转换网络和损失函数设计.

图1 本文方法的总体结构

2.1 U型置信度图生成网络

U-Net[24]及其变体在图像分割、降噪等领域取得了优异的性能,这得益于其在上采样和下采样过程中对高频信息和低频信息的获取能力以及使用跳跃连接对降采样和升采样中各阶段信息的整合能力.受此启发,本文提出U型置信度图生成网络如图2所示,将原始水下图像IRAW及分别对其做GC预处理的图像IGC、做CLAHE预处理的图像ICE、做WB预处理的图像IWB在通道方向上拼接,并作归一化处理后输入网络,最终输出三个置信度图.

图2 U型置信度图生成网络

U型置信度图生成网络通过下采样和上采样过程来获取不同尺度的特征信息,保证了网络具有较好的非线性学习能力;使用跳跃连接将网络中处于同一高度的两个特征逐像素相加以整合远距离信息、防止由于特征长距离传输造成的重要信息丢失,提高网络对图像深层特征的处理能力.

本文方法在U型网络中使用空间注意力机制以提高网络对图像局部细节的处理能力.空间注意力机制[11]将输入特征图中的空间信息进行变换得到保留了图像局部关键信息的空间注意力矩阵,然后利用该置信度图对输入特征进行增益,进而解决图像细节丢失、物体边缘模糊等问题,其表达式为:

2.2 特征转换网络

针对水下图像存在的全局色彩偏移问题,本文方法在特征转换网络中加入了通道注意力机制[12].通道注意力机制显式地构建特征图各通道之间的依赖关系,使网络能够自主地对每个特征通道赋予增益系数,从而有效提高网络对图像全局色彩偏移的调节能力.通道注意力机制定义为:

注意力机制的引入可能引起特征转换网络的过拟合等消极影响,同时网络深度的加深也会带来网络恒等映射变差、特征的重要信息丢失等问题,为此,在特征转换网络中引入了残差结构.本文提出的特征转换网络结构如图3所示,将IRAW与预处理图像IX(IGC或ICE或IWB)在通道方向上拼接,并作归一化处理后输入网络,最终输出对应的精化特征.

图3 特征转换网络

2.3 损失函数

本文使用多个损失函数线性组合来指导网络训练,本节将详细介绍ℓ1损失、感知损失、结构相似度损失.

(1)ℓ1损失(ℓ1Loss).ℓ1、ℓ2损失定义如式(5)、式(6)所示,两者都可以有效地平滑图像的均匀区域,但ℓ2损失对每一个误差项进行平方处理,这可能导致过度惩罚大的误差,造成对离子噪声过度抑制[25],因此本文采用ℓ1损失.

(2)感知损失(Perceptual Loss)[26].感知损失用来表征增强图像͡I和清晰图像I经过预训练的VGG-19网络[27]处理后输出的高层特征之间的“距离”,感知损失越小则图像的高层特征越接近,其定义为:

其中:N为经VGG-19网络处理后输出特征图的像素个数,φ(·)表示经VGG-19网络的relu5_4层输出,I为清晰图像,为增强图像.

由于ℓ1损失通过将增强图像͡I与清晰图像I逐像素比较求均值计算忽略了图像的深层结构特征,这会导致输出的图像过度平滑进而产生伪影、模糊等现象,作为弥补,本文在损失函数中引入感知损失.

(3)平均结构相似度损失(Mean Structural SIMilarity Loss,MSSIM Loss)[28].SSIM是基于人眼视觉系统启发的图像度量,分别从亮度、对比度、结构三方面度量图像相似性,相似性越高的图像SSIM值越接近1,反之越接近0,其定义为:

MSSIM利用滑动窗口将图像分块,采用高斯加权方法计算每个窗口的SSIM值,然后取各窗口SSIM的均值来度量两幅图像的结构相似性,其定义为:

(4)总体损失函数.本文方法的总体损失函数由ℓ1损失、感知损失、MSSIM损失线性组合而成,表示为:

其中:α、β为权重系数.

3 实验与评价

为了验证本文方法的有效性,将所提方法在真实水下图像数据集UIEB[9]和Zhou等合成数据集[13]上进行试验,并与DCP[4]、IBLA[16]、UDCP[17]、MSRCR[20]、UGAN[29]、Water-Net[9]等主流水下图像处理方法的处理结果进行主观评价和客观定量分析,最后对所提方法作消融实验分析.

3.1 实验环境与参数设置

本文实验环境为Ubuntu 18.04,Intel(R)Xeon(R)CPU E5-2678 v3@2.50 GHz,NVIDIA Tesla K80,240.48 GB/s,8.0 GB RAM,CUDA 10.0.训练时batch_size为8,使用Adam优化器,初始学习率为0.001,每迭代1 250次学习率降低0.1.实验中α=0.1、β=0.01,GC预处理时采用的γ值为0.7.

Li等UIEB数据集[9]共包含890对水下图像,Zhou等合成数据集[13]含有1 449对水下图像,在使用时对图像进行了裁剪和划分,具体如表1所示.

表1 实验中使用的数据集信息

3.2 主观评价

为了从主观上更准确地评价本文方法与其它方法的性能,在Li等UIEB数据集[9]和Zhou等合成数据集[13]上进行了实验,限于篇幅,本节在Li等UIEB数据集[9]上进行实验,并选取绿色水环境、蓝色水环境和色彩较丰富的水环境这三种具有代表性的水下场景图片进行比较分析,实验结果如图4、图5和图6所示.

图4 绿色水环境

图5 蓝色水环境

图6 色彩较丰富的水环境

由图4可知,对于绿色水环境,DCP、UDCP、UGAN、Water-Net方法放大了图像噪声,IBLA、MSRCR方法和本文方法则具有较好的清晰度;DCP、UGAN方法加剧了图像模糊,UDCP、MSRCR方法和本文方法则较好地显示了图像细节;在对比度方面,MSRCR方法和本文方法具有更高的对比度;在色彩还原方面,DCP方法没有明显改善图像色彩,UDCP和Water-Net方法则加重了颜色偏差,MSRCR方法和本文方法具有更好的色彩还原能力.

由图5可知,对于蓝色水环境,UDCP和Water-Net方法加剧了图像的蓝色偏移,DCP、IBLA、UGAN方法没有明显改善图像的蓝色偏移;在对比度方面,UDCP、MSRCR、UGAN方法和本文方法显著提高了图像的对比度;在细节保持方面,MSRCR、UGAN方法与本文方法均较好地展示了图像细节,但本文方法更具优势;在色彩还原方面,本文方法具有更好的性能.

由图6可知,对于色彩较为丰富的水环境,IBLA方法和本文方法具有更高的清晰度,DCP、MSRCR、UGAN方法没有明显改善图像清晰度;Water-Net方法则加重了图像模糊,且引入了红色失真;IBLA、UDCP方法和本文方法具有较好的色彩还原能力,且本文方法处理后的图像色彩更为鲜艳;在对比度方面,本文方法表现更好.

综上所述,在对水下图像处理的视觉效果上,本文方法与其它方法相比具有明显优势.

3.3 客观评价

为了更客观地评价和分析本文算法的性能,采用峰值信噪比(Peak Signal Noise Ratio,PSNR)、结构相似度(Structural SIMilarity,SSIM)[28]两种全参考图像质量评价指标和平均梯度(Average Gradient,AG)[30]、水下彩色图像质量评价(Underwater Color Image Quality Evaluation,UCIQE)[31]两种非参考评价指标分别对本文方法和其它方法在Li等UIEB数据集[9]和Zhou等合成数据集[13]上的实验结果进行比较.

3.3.1 评价指标

PSNR是图像的最大信号量与噪声强度的比值,PSNR值越大表明图像所含噪声越少、清晰度越高,其表达式为:

SSIM分别从亮度、对比度、结构三方面度量增强图像与参考图像的相似性,其表达式见式(8),较高的SSIM分数表示增强图像在亮度、对比度、结构等方面具有更好的质量.

AG反映了图像在细节上的反差以及其纹理变换特征.AG越大,表明图像的细节层次越多、清晰度越高.AG的定义为:

UCIQE是一种通过线性组合CIELab的色度标准差、亮度对比度和饱和度均值的图像质量评价方法.UCIQE值越大,表明图像视觉质量越好,其定义为:

其中:σc为色度标准差,conl为亮度对比度,µs为饱和度均值,c1、c2、c3为常系数,取c1=0.468 0、c2=0.274 5、c3=0.257 6.

3.3.2 实验结果与分析

各方法在Li等真实水下图像数据集UIEB[9]和Zhou等合成数据集[13]上的实验结果如图7所示.

通过图7可以直观地看出,在Li等真实水下数据集UIEB[9]上的各项实验结果总体上优于在Zhou等合成数据集[13]上的结果,而对于AG和UCIQE两个非参考评价指标则更为明显,这与两数据集的图像质量差异有关,通过比较两个数据集上原始水下图像的各项评价指标可知,Zhou等合成数据集[13]中合成的水下图像的质量显著低于Li等真实水下数据集UIEB[9]的原始水下图像.本文方法在两个数据集上的客观指标值均保持较高水平,表明本文算法具有较好的性能优势.本文方法在两个数据集上的平均PSNR值达到了17.638 dB、16.729 dB,显著高于Water-Net[9]方法,这得益于本文方法采用的U型网络对图像噪声的过滤作用.本文方法与UGAN方法在两个数据集上的平均SSIM值和平均AG值接近且均高于其它方法,这表明与其它传统方法相比UGAN方法采用的生成对抗网络和本文方法采用的U型双注意力机制网络在处理水下图像的细节、纹理结构和对比度等信息方面更具优势.在Zhou等合成数据集[13]上,DCP、IBLA、UDCP、UGAN、Water-Net等方法与本文方法具有相近的平均UCIQE值,但在Li等真实水下数据集UIEB[9]上的平均UCIQE值则显著低于本文方法,这表明本文方法在图像的视觉质量处理方面较其它方法具有更好的泛化能力.

图7 在真实水下图像数据集[9]和合成数据集[13]上的实验结果

3.4 消融实验

为了证明本文方法的有效性,在Zhou等合成数据集[13]上进行实验,通过比较在测试集上的客观指标,讨论不同网络结构和预处理方法对性能的影响.

3.4.1 U型置信度图生成网络消融研究

验证了不同结构的置信度图生成网络对性能的影响.实验(I)为原始图像,实验(II)为Water-Net方法[9]原始网络结构且采用3*3卷积核的置信度图生成网络,实验(III)为卷积核为3*3的U型置信度图生成网络,实验(IV)为在(III)基础上加入了跳跃连接的U型置信度图生成网络.在测试数据集上的实验结果如表2所示.

表2 采用不同结构的置信度图生成网络的实验结果

通过表2中实验(I)、(II)的结果可知,卷积核为3*3的原始网络可以显著改善图像质量;从实验(II)、(III)结果可以看出具有U型结构的置信度图生成网络优于不改变特征分辨率的置信度图生成网络,实验(IV)在U型网络结构中加入跳跃连接后,结果的各项指标均有较明显的提升.由此可以证明采用具有跳跃连接的U型置信度图生成网络的有效性.

3.4.2 注意力机制消融研究

探究了在网络的不同位置使用不同的注意力机制对性能的影响.实验(I)∼(XII)分别表示在U型置信度图生成网络或特征转换网络加入通道注意力机制(CAM)或空间注意力机制(SAM),实验结果如表3所示.

表3 在网络的不同位置使用注意力机制的实验结果

由表3可知,在网络中加入注意力机制可以有效提高模型的性能.通过实验(I)∼(IV)可知,(II)、(IV)具有更高的UCIQE值,可见在UCMG-Net中加入CAM有助于提高图像的视觉效果,(III)、(IV)则比(II)具有更高的PSNR、SSIM值,可见SAM提高了网络对图像细节和对比度的处理能力.通过实验(V)∼(VII)可知,同时在FT-Net中加入CAM和SAM使模型取得了更好的降噪效果,但对SSIM和UCIQE指标没有明显提升.值得注意的是,实验(XI)取得了较高的AG和UCIQE值,但PSNR和SSIM值则显著低于实验(I)的值,可见同时在UCMG-Net和FT-Net中使用CAM和SAM未必可以带来更好的效果.实验(XII)在各项评价指数上取得了最优的性能,由此证明本文在UCMG-Net和FT-Net中分别加入SAM和CAM的有效性.

3.4.3 图像预处理消融研究

探究了使用不同的预处理图像作为本文方法的输入对性能的影响.实验(I)∼(VIII)分别表示使用原始图像(IRAW)、GC预处理图像(IGC)、CLAHE预处理图像(ICE)、WB预处理图像(IWB)及其组合作为模型输入.其中:UCMG-Net输出的置信度图数量与输入图像数量一致;FT-Net分别处理输入的图像,最后通过门融合(Gate Fusion)得到增强图像.实验配置及结果如表4所示.

表4 使用不同预处理图像作为输入的实验结果

由表4实验(I)∼(IV)可知,只使用原始水下图像作为输入,模型的处理性能处于较低水平,使用GC预处理图像作为输入,SSIM和AG值有较为明显的提高,而UCIQE值稍有降低,这说明GC预处理提高了模型对图像细节对比度的处理能力,同时也可能加剧了图像色彩偏移,造成图像视觉质量下降;实验(III)则明显提高了AG和UCIQE值,这表明对图像做CLAHE预处理可以有效改善增强图像的对比度和视觉效果;通过实验(IV)可以看出,使用WB预处理的图像作为输入具有较高的UCIQE值,这是由于WB处理有效校正了图像的色彩偏移.由此可见,对图像进行GC预处理、CLAHE预处理、WB预处理对模型性能的有效性.通过实验(V)∼(VII)可以看出,将原始图像与预处理图像共同作为模型输入基本上可以进一步提高模型性能,这是由于加入原始图像可以弥补预处理造成的重要语义信息丢失.实验(V)的PSNR值低于实验(II)是由于原始图像的加入同时引入了噪声;实验(VI)比实验(III)具有更低的AG值同样是由于原始图像本身具有较差的细节层次,降低了增强图像的细节可视度.实验(VIII)则将三个预处理图像与原始图像共同作为模型输入,使三种预处理图像优势互补,同时利用原始图像解决预处理可能造成的重要语义信息丢失的问题,取得了最优的实验性能,由此证明本文所采取的模型预处理方法的有效性.

4 结论

(1)提出了双注意力门融合网络的水下图像增强方法.该方法采用带有空间注意力机制的U型置信度图生成网络产生置信度图,采用加入了通道注意力机制和残差网络结构的特征转换网络产生优化了的特征图,最后采用门融合的方式得到增强图像.

(2)在合成数据集和真实水下图像数据集上进行了实验,并从主观评价和客观指标分析两个方面与其它方法作了对比.实验结果表明,本文方法可以有效地改善图像色彩失真、提高图像清晰度和对比度、纠正图像全局色偏、增强图像细节,图像处理效果优于其它方法并且具有更好的泛化能力.

(3)就所提出的U型置信度图生成网络结构、双注意力机制和图像预处理方式等做了消融实验,证明了所提方法的有效性.

猜你喜欢

置信度预处理注意力
置信度辅助特征增强的视差估计网络
求解奇异线性系统的右预处理MINRES 方法
一种基于定位置信度预测的二阶段目标检测方法
让注意力“飞”回来
硼铝复合材料硼含量置信度临界安全分析研究
高COD二噻烷生产废水预处理研究
正负关联规则两级置信度阈值设置方法
基于预处理MUSIC算法的分布式阵列DOA估计
“扬眼”APP:让注意力“变现”
A Beautiful Way Of Looking At Things