基于多尺度块级联的水下图像增强算法
2023-09-14郝骏宇杨鸿波
郝骏宇,杨鸿波,侯 霞,张 洋
(北京信息科技大学 自动化学院,北京 100089)
1 引言
水下机器人在海洋石油钻探、海底隧道、管道搭建和水产养殖等水下作业任务中,需要稳定清晰的水下图像予以辅助分析。由于红、绿、蓝3种光的衰减率不同,红色光在水下衰减最为严重,图像表现出严重的蓝绿色偏。此外,水下悬浮的微粒会使光产生散射作用,这会导致水下图像出现低对比度、模糊和有雾的现象[1-4]。
针对上述水下图像的特点,改善水下图像质量的方法一般分为两大类。一类是水下图像增强(Underwater Image Enhancement,UIE)算法。基于深度学习的UIE 算法侧重于调整图像对比度、清晰度和色彩以提高人体视觉感知质量,而不依赖于水下成像模型。2017 年,Perez 等人提出了一种基于卷积神经网络[5]的水下图像增强方法,第一次将深度学习方法应用于水下图像增强领域。该方法采用简单的卷积层堆叠构成整个增强网络,难以有效解决色偏问题,且对比度较低[6]。2019 年,Nan Wang 等人提出的UWGAN 采用3 次下降的UNET 网络来进行水下图像的增强,但是无法去除局部雾化的情况,且增强后的图像存在亮部曝光过度的问题[7]。2021 年,Jiang 等人的两步域水下图像增强算法,首先用CycleGAN 生成拥有地面风格但有一定雾化情况的中间域图像,接着用去雾算法对其进一步增强到目标域。此算法经过两个阶段的增强,生成图像具有模糊现象[8]。2021 年,李微对UWGAN 进行了改进,首先用改进JM 退化模型建立GAN 网络,接着在UNET 网络中加入一个注意力机制,从而提高网络的鲁棒性[9]。2021年,Deep-WaveNet使用UIEB 的成对数据集,通过在其3 层波浪式结构中加入CBAM 注意力模块构建了一个增强网络。该方法采用卷积和注意力机制融合的方法进行增强,但单一的卷积核尺寸和上下采样结构使得网络无法泛化到其他风格的图像[10]。2022 年,Qi 等人提出了以语义分割引导的卷积神经网络增强方法,通过嵌入不同的特征提取块进行图像增强。该方法同样因为使用单一的卷积核尺寸和上采样和下采样结构,从而难以解决水下图像局部雾化的情况[11]。另一类是水下图像恢复(Underwater Image Restoration,UIR)算法。基于深度学习的UIR 算法[12-15]主要是根据水下图像建立退化模型,将水下图像根据建立的退化公式恢复到未退化状态。这类算法只能估计一种水下风格的参数,无法对其他风格的图像进行恢复,通用性较差,水下机器人等设备在不同风格的水下环境中无法直接使用。
综上所述,目前基于深度学习的UIE 网络一般采用单一的卷积尺寸和上下采样方式,导致增强后的图像存在色偏、雾化和细节丢失等质量较低的问题。针对这一问题,本文借鉴大气图像降噪的SOTA 算法[16-18]中通过构建特征提取块进行级联的思想,构建了基于3 个多尺度特征提取模块,并据此提出了完整的UIE 网络水下图像增强框架,从而实现了水下图像端到端的增强任务。为进一步增加网络的特征提取能力,在网络高维特征空间中添加了CBAM 注意力机制[19]。实验结果表明,本文算法可以有效解决水下图像的色偏、雾化和细节丢失的问题,在对增强结果的主观分析和客观指标评价中均优于其他算法。
2 本文方法
针对现有基于深度学习的算法特征提取较为单一的问题,本文借鉴特征提取块级联的思想,在编解码网络的基础上构建出3 个功能模块,并以级联的方式构建出整个增强网络。
2.1 整体框架
网络整体框架如图1所示,包括4种主要组件,分别是下采样模块(Downsampling Module,DM)、上采样模块(Upsampling Module,UM)、特征提取模块(Feature Extraction Module,FEM)和CBAM模块。网络以尺寸为256×256 的水下RGB 图像作为输入,使用两个DM 模块、两个UM 模块、一个CBAM 注意力模块和4 个FEM 模块构建整个编解码网络。此外,为降低图像信息损失进行了两次跳跃链接,第一次将输出特征F1 和输出特征U1进行通道合并后输入FEM3 模块,第二次将输入图像和输出特征U2 进行通道合并后输入FEM4模块进行特征提取。在训练时,输出图像与清晰的参考图像计算损失。在训练完成后,可以端到端地对水下图像进行增强。
图1 算法整体框架图Fig.1 Overall framework of the algorithm
2.2 DM 模块
在视觉任务中,为提高特征感受野和降低网络参数量,需要对图像进行下采样。卷积下采样在训练过程中的参数需要学习,生成的缩略图能提取更加符合网络任务的特征,最大值池化下采样注重图像纹理特征的提取。均值池化下采样偏向于保留图像的全局特征,所以不同的下采样方式对特征提取的侧重点不同,如果能使用不同的下采样方式对特征进行下采样,就可以得到更丰富的特征信息。
为解决图像下采样过程中特征提取不充分和信息损失较大的问题,我们采用融合3 种不同方式的方法构建了DM 模块对图像进行下采样。如图2 所示,DM 模块首先分别采取步长为2×2的卷积、最大值池化和均值池化3 种方式对图像进行下采样;其次对最大池化特征和均值池化特征进行通道合并,并经过一层批量归一化层(Batch Normalization,BN);然后合并卷积下采样和上一步的输出特征;接着经过一层3×3 的卷积层;最后经过一层LeakRelu 激活层进行非线性激活。
图2 DM 模块结构图Fig.2 DM module structure diagram
2.3 UM 模块
如图3 所示,UM 模块和DM 模块原理相同。为获取多层次的图像特征,我们采用转置卷积和线性插值两种不同的上采样方式对特征进行上采样。输入特征首先分别经过转置卷积和线性插值对特征进行上采样,其次对线性插值后的特征进行批量归一化,接着对转置卷积通道和线性插值通道进行通道合并,最后经过一层3×3 的卷积神经网络,并经过一层LeakRelu 输出特征。
图3 UM 模块结构图Fig.3 UM module structure diagram
2.4 FEM 模块
不同大小的卷积核可以提取不同细粒度的图像特征,在图像增强领域,往往会因为图像特征提取不充分而导致图像细节丢失严重。如图4 所示,FEM 模块首先使用3×3、5×5 和7×7 的卷积层分别对输入特征进行特征提取,并经过LeakRelu进行非线性激活;其次对3 个尺度提取的特征进行通道合并;接着经过一层卷积核为3×3 的卷积把通道降维到和输入特征一样,经过一层LeakRelu激活层;接着把输入特征和上一步的多尺度提取完的特征进行通道合并;最后再经过一层3×3 的卷积层,并经过BN 层和LeakRelu 层输出特征。
图4 FEM 模块结构图Fig.4 FEM module structure diagram
2.5 CBAM 注意力机制
为进一步提高网络特征提取能力,本文在图像高维特征空间中引入CBAM 注意力机制。如图5 所示,CBAM 注意力机制从通道(Channel)和空间(Spatial)两个维度对输入特征进行注意力集中。通道注意力模块通过对输入特征的每个通道进行特征筛选,输出每个通道的注意力图。空间注意力模块通过对输入特征进行空间特征融合得到空间注意力图,然后将获得的注意力图与输入特征相乘以进行自适应特征集中。
图5 CBAM 注意力机制结构图Fig.5 Structural diagram of CBAM attention mechanism
2.6 损失函数
目前,大部分基于深度学习的任务都是基于经验风险最小化(Empirical Risk Minization,ERM)进行有监督训练,损失函数对任务的最终结果至关重要。所以在基于深度学习的水下图像增强研究中,损失函数对图像增强结果的影响也非常重要。经过大量实验分析,我们使用公式(1)~(3)中的LALL作为损失函数。
其中:L1为平均绝对误差(Mean Absolute Error,MAE),简称L1损失。E(x)为输出图像,T(x)为参考图像,N为图像三通道像素总数。LSSIM为结构相似性(Structural Similarity Index,SSIM)损失,简称SSIM 损失,SSIM(x,y)表示图像亮度、对比度和结构组成的结构相似度数值。
3 实验结果
3.1 实验设置
本实验采用UIEB[20]公开数据集,此数据集共有890 张原始水下图像以及相对应的清晰参考图像。此数据集包含丰富的水下场景,涵盖大部分水下退化风格,有利于验证本文结果的有效性。在模型训练中,我们将batchsize 设置为8,一共100 个epoch,图像输入和输出大小均为256×256,学习率设置为0.000 1,最优化下降方法使用Adam算法。
3.2 结果分析
本文使用UIEB 公开数据集进行对比实验。为充分展示图像增强效果,我们对增强后的图像从主观分析、客观指标分析和应用分析3 个角度进行实验分析。
3.2.1 主观分析
UIEB 数据集为混合风格的水下图像数据集,包含海洋生物、水下设备、水下建筑和海底风貌等风格迥异的水下图像。为验证所提算法框架的直观增强效果,我们将本文方法与UDCP[21]、Deep-WaveNet[10]、CycleGAN[22]、CLAHE[23]、IBLA[24]和ICM[25]算法进行比较。
图6(a)~图6(e)为5 组不同场景的原始水下图像及增强结果,图6(f)为图6(d)中方框的局部放大图。通过主观分析可以看出,UDCP 算法对水下图像具有一定程度的去雾效果,但难以解决水下图像的色偏问题。在UDCP 算法的增强结果中,图6(a)~图6(d)的增强结果有明显的红色色偏现象,由图6(f)可以看出偏暗的区域细节信息丢失严重,但存在严重的红色色偏现象。Deep-WaveNet 算法对水下图像的去雾和纠正色偏均有一定的效果,但整体效果低于本文算法。在其增强结果中,图6(a)和图6(c)的背景色存在增强过度的现象,图6(b)、图6(d)和图6(e)的亮度较低,由局部放大图6(f)可以看出细节损失较大,雾化程度较高。CycleGAN 算法的增强结果存在模糊失真的现象。在其增强结果中,图6(a)有严重的伪影,图6(b)~图6(d)的雾化程度较高,由图6(f)可以看出细节信息丢失严重。CLAHE 算法去雾能力较差,由其增强结果可以看出,图6(a)、图6(b)和图6(e)存在明显的雾化现象,由局部放大图6(f)也可以看出存在一定程度的模糊现象。IBLA 算法存在严重的色偏和亮度失衡现象,由其增强结果可以看出,图6(a)和图6(b)增强程度较小,图6(c)~图6(f)整体偏暗且均存在色偏问题,由图6(f)可以看出偏暗的区域细节信息丢失严重。ICM 算法去雾能力较差,由其增强结果可以看出,图6(a)~图6(e)均存在大量的雾化现象,由图6(f)观察可知图像存在细节丢失现象。本文算法具有良好的去雾和纠正色偏能力,由增强结果可以看出,图6(a)~图6(d)的去雾效果最佳,且颜色最为均衡,没有色偏现象,图6(e)的前景对比度最高,颜色较为自然,由图6(f)可以看出,本文算法能最大程度地保留了图像的细节信息。
图6 (a)~(e)不同场景的实验效果对比图;(f)图6(d)中方框的局部放大图。Fig.6 (a)~(e) Comparison of experimental results of different scenes;(f) Partical enlarged drawing of Fig.6(d).
综上所述,现有的水下图像增强算法在去雾、纠正色偏和细节信息保留方面存在一定程度的缺点。相比之下,本文提出的算法最大程度地修正了水下图像的色偏和雾化现象,结果图具有真实的颜色特点,并且较好地保留了图像细节信息,具有良好的视觉效果。
3.2.2 客观指标分析
本文采用峰值信噪比( Peak Signal To Noise Ratio,PSNR)[26]、结构相似度(Structural Similarity Index Measure,SSIM)[26]、视觉信息保真度(Visual Information Fidelity,VIF)[27]和水下图像质量估计(Underwater Image Quality Measure,UIQM)[28]4 种客观评价指标对增强结果的质量进行量化分析。
PSNR 指标为图像最大可能功率和影响它的表示精度的破坏性噪声功率的比值,PSNR 值越大说明图像噪声越小,保留有更多有价值的图像信息。SSIM 指标可以量化图像的亮度、对比度和结构保留度等方面的图像质量,SSIM 值越大说明增强后的图像亮度、对比度和结构保留度越好。VIF 指标通过量化增强后的图像和标注图像之间共享的香农信息,从而定量表示图像的质量,VIF 值越高表示图像质量越高。UIQM 指标是一种基于人类视觉成像系统的无参考水下图像质量评价指标,UIQM 值越高说明图像的色彩平衡度、清晰度和对比度越高。以上4 种评价指标的值越大,表示图像的整体质量越高。
由表1可以看出,本文所提算法在PSNR、SSIM、VIF 和UIQM 指标上均远高于其余算法。与其他客观指标最高的算法相比,本文算法的PSNR指标提高了6.9%,说明本文算法去雾(噪声)能力好于其他算法。本文算法的SSIM 指标提高了8.0%,说明本文算法增强后的图像在亮度、对比度和结构保留度等方面优于其他算法。本文算法的VIF 指标提高了8.5%,说明本文算法增强后的图像整体质量高于其他算法。本文算法的UIQM 指标提高了7.7%,说明本文算法增强后的图像在色彩平衡度、清晰度和对比度优于其他算法,可以最有效地纠正水下图像的色偏现象。结合主观评价结果,本文算法的增强效果最为显著,在去雾、纠正色偏和细节保留等方面具有最佳增强效果。综合主客观分析可以得知,本文算法增强后的图像质量最高。
表1 不同算法的客观评价对比Tab.1 Comparison of objective evaluation of different algorithms
3.2.3 应用分析
在水下机器人等水下设备中,图像增强算法一般为其他视觉任务的前置算法,可以为后续的图像处理提供高质量的图像输入。
为进一步验证本文算法和其他算法对其他视觉任务性能的提升效果,我们使用SIFT 特征点检测和Canny 边缘检测算法对增强效果进行对比分析。SIFT 特征点检测是视觉处理中获取图像特征的一种常用方法,图像特征越多代表图像内容信息越丰富。Canny 边缘检测是为了寻找图像像素变化最剧烈的区域,检测结果可以直观地反映图像所包含的结构信息,越多的边缘信息代表越丰富的细节信息。
如图7 所示,其中(a)组图像为原始水下图像及各种算法的增强结果,(b)组图像为SIFT 特征点检测结果图,(c)组图像为Canny 边缘检测示意图。通过观察图7(b)发现,本文算法增强后的图像在SIFT 特征点检测中可以检测到更多的特征点。在圆圈内,本文算法可以检测到3 个特征点,UDCP 和CycleGAN 算法可以检测到2 个特征点,CLAHE 算法和IBLA 算法可以检测出1 个特征点,原图和DeepWaveNet 算法检测出的特征点数为0。通过观察图7(c)发现,本文算法增强后的图像在Canny 边缘检测中可以检测到丰富的轮廓,在圆圈内,本文算法可以检测到最多的轮廓信息,UDCP 算法、Deep-WaveNet 算法和CLAHE 算法可以检测到少量轮廓,其他算法检测不到轮廓。
图7 SIFT 特征点检测与Canny 边缘检测效果对比图。(a)原始水下图像及各种算法的增强结果;(b) SIFT 特征点检测结果;(c) Canny 边缘检测示意图。Fig.7 Comparison of SIFT feature point detection and Canny edge detection effect.(a) Original underwater images and enhancement results of various algorithms;(b) SIFT feature point detection results;(c) Schematic diagrams of Canny edge detection.
为进一步对上述观察结果进行量化,我们对特征点数和边缘检测结果图的轮廓数进行统计。如表2 所示,本文算法检测出的特征点数和边缘检测图轮廓数远高于原始图像和其他算法,其中特征点数和其他算法相比提高了8.44%,边缘检测图轮廓数和其他算法相比提高了11.43%。
表2 不同算法的对比Tab.2 Comparison of objective evaluation of different algorithms
由此分析可知,本文提出的算法可以检测出更多的特征点和图像边缘信息。与其他算法相比,本文算法增强后的图像可以最大程度地提高其他视觉任务性能,即图像质量高于其他算法。
3.3 消融实验
为验证本文所提框架中每个模块的有效性,我们对DM 模块、UM 模块、FEM 模块和CBAM 注意力机制分别进行了消融实验。在DM 模块只保留最大池化下采样方式进行对比,在UM 模块只保留转置卷积上采样方法进行对比,在FEM 特征提取模块的并行卷积部分只保留3×3 的卷积通道。此外,我们也对CBAM 注意力机制模块进行了消融实验。
消融结果如表3 所示,在PSNR 指标中,DM模块提升了27%,UM 模块提升了11.4%,FEM模块提升了33.0%,CBAM 模块提升了7.6%,表明所有模块均有去雾效果,其中FEM 模块的去雾效果最为显著;在SSIM 指标中,DM 模块提升了13.8%,UM 模块提升了10.6%,FEM 模块提升了26.6%,CBAM 模块提升了8.51%,表明所有模块对图像亮度、对比度和结构保留度均有明显的质量提升效果,其中FEM 模块提升效果最显著;在VIF 指标中,DM 模块提升了20.2%,UM 模块提升了18.0%,FEM 模块提升了20.2%,CBAM 模块提升了7.87%,表明所有模块对图像整体质量的提升均有明显作用,其中DM 模块和FEM 模块的提升作用最显著;在UIQM 指标中,DM 模块提升了17.86%,UM 模块提升了11.90%,FEM 模块提升了22.6%,CBAM 模块提升了1.19%,表明所有模块对图像的色彩平衡度、清晰度和对比度均有提升,可以有效纠正图像的色偏问题,其中FEM 模块的提升作用最显著。
表3 消融实验的指标对比Tab.3 Comparison of objective evaluation of ablation experiments
综上所述,对4 个评价指标的对比结果表明本文算法中的4 个模块都可以有效提升图像质量,对整体网络的去雾和纠正色偏能力均有较大的贡献。
4 结论
针对现有算法处理后的图像存在色偏、对比度低、细节丢失严重和局部雾化等难以解决的问题,本文采用多尺度特征提取的方式构建了基于多尺度特征融合思想的DM 模块、UM 模块和FEM 模块,并在此基础上提出了一个水下图像增强框架。为进一步提高神经网络的鲁棒性和对图像的特征提取能力,我们在网络高维特征空间中添加了CBAM 注意力机制。结果表明,本文算法有效校正了水下图像的色偏和雾化问题。主观分析、客观指标分析和应用分析结果均说明本文算法优于其他算法。