基于多尺度残差注意力网络的水下图像增强

2024-02-18陈清江王炫钧

应用光学 2024年1期

陈清江，王炫钧，邵菲

（西安建筑科技大学理学院，陕西西安 710055）

引言

随着陆地资源的枯竭与科技的不断发展，寻找、勘探、开发海底资源，已然成为各个国家关注的重点。通过水下机器人获取水下光学图片是进行海洋研究重要环节，但因为光在水下传播的过程中会受到水介质的吸收和散射[1]，以及水下成像环境的影响，使得传回的水下图像不可避免地出现模糊、色偏、对比度低的情况，这样退化严重的水下图像不仅影响了视觉美感，而且严重降低了海底地质研究[2]、海洋生物检测[3]、水下考古[4]等一系列海洋研究的准确性。

为了获取高质量的水下图像，众多学者们提出了诸多水下图像增强方法，根据图像增强方式的不同可分为两类：传统方法和基于深度学习的方法。传统方法：如ZUIDERVELD K 等人[5]于1994 年提出的限制对比度自适应图像增强算法(contrast limited adaptive histogram equalization,CLAHE)，该方法将图片分为多个子模块，在每个子模块中进行直方图均衡操作，降低了增强图像的噪声；IQBAL K 等人[6]于2010 提出的无监督色彩校正(unsupervised color correction method,UCM)法，在增加了图片颜色饱和度的同时有效地消除了蓝色色偏和绿色色偏；DREWS P L J 等人[7]提出的水下暗通道先验法(Underwater Dark Channel Prior，UDCP)，在传统的暗通道先验的基础上进行改进，将其与波长相关算法结合，增强了在水下图像增强任务中的鲁棒性；PENG Y T 等人[8]提出图像模糊和光吸收算法(image blurriness and light absorption,IBLA)，该方法利用图像的模糊性和光吸收来估计背景光、场景深度和透射图，从而达到增强图像的目的。基于深度学习的方法：SUN X 等人[9]提出了用于水下图像增强的深度像素到像素网络模型(pixel to pixel)，该模型采用编码解码框架，并在模型中引入了跳跃连接，对退化图像进行增强；LI C 等人[10]提出了UWCNN(underwater image enhancement fully convolutional neural network)模型，该模型利用端到端自动数据驱动训练机制，直接重建清晰的水下图像。

上述增强方法虽然在一定程度上增强了图像质量，但增强过后的图片还是存在些许颜色失真、对比度不强、细节信息丢失等问题，为了解决上述问题，本文提出了基于多尺度残差注意力的水下图像增强网络。本文的主要贡献如下：1）提出了一个端到端的多尺度残差注意力水下图像增强网络，通过编码器-解码器结构、密集连接、注意力机制的结合，避免了单个尺度下的网络特征提取不充分问题；2）提出了多尺度稠密特征提取模块(multi-scale dense feature extraction module,MDFE)与残差注意力恢复模块(residual attention recovery module,RAR)，可在多个尺度上获取丰富的空间信息与位置信息，在增强图片的同时很好地避免了颜色失真问题，并保留了丰富的细节信息；3）本文建立了由Charbonnier loss 和边缘损失(edge loss)构成的联合损失函数，在恢复色彩的同时也使边缘信息得以保留，避免了边缘模糊；4）实验结果表明，本文方法在峰值信噪比和结构相似度的指标上均超过其他对比方法，增强过后的水下原始图片拥有了令人愉悦的色彩和较高的对比度。

1 基本原理

1.1 卷积运算

卷积运算[11]通过具有一定间隔的滑动滤波器，将各个位置上的滤波器元素与输入数据对应的元素进行乘积累加运算，并将运算结果保存到相同位置，以得到卷积运算输出。计算过程如式(1)所示：

式中：S(i,j)是第i行第j列元素卷积运算结果；X(i,j)为输入二维图像；*为卷积运算；K(i,j)为二维卷积核；x(i+h,j+n)为输入二维图像中第i+h行j+n列的元素；k(h,n)为第h行n列的二维卷积核元素。卷积运算过程如图1 所示。

图1 卷积运算Fig.1 Convolution operation

1.2 池化操作

池化操作一般设置在卷积运算之后，池化操作通过缩小长、高方向上的空间运算以达到对特征进行降维的目的，对于卷积层在特征提取过程中的特征维数过高的问题有一定的缓解作用。池化层具有以下特点：没有学习的参数、通道数不发生变化、对微小的数据偏差具有鲁棒性。池化层一般分为两种，分别是平均池化、最大池化，其含义分别是计算目标区域的平均值和最大值。池化操作过程如图2 所示。

图2 最大池化与平均池化操作Fig.2 Maximum pooling and average pooling operations

1.3 残差结构

在神经网络设计过程中，随着网络层数的加深，往往会出现网络准确性达到饱和后迅速下降的问题，这并不是由于过拟合导致的，这种情况称之为退化。为了解决网络退化问题，HE K 等人[12]提出了残差网络。残差网络是由一系列的残差模块组成，残差模块如图3 所示。

图3 残差结构Fig.3 Structure diagram of residual module

该模块是在两个基本模块之后增加了一个恒等映射，将原本的输出F(x)变为F(x)+x，其中F(x)+x通过快捷连接和按元素添加来执行，使得输出结果增加了一项，这样该层网络在反向传播对x求偏导时，增加了一个常数项，避免了梯度消失和梯度爆炸的问题，这样的结构可以使卷积神经网络向更深层发展。

2 多尺度残差注意力网络

本文所提出的多尺度残差注意力网络由多尺度稠密特征提取模块(multi-scale dense feature extraction module,MDFE)和残差注意力恢复模块(residual attention recovery module,RAR)组成，总网络结构如图4 所示。其中多尺度稠密特征提取模块用于提取图片的高级语义特征与低级详细特征，结合稠密连接，使网络可学习到丰富的语义信息，并且避免产生过多的参数，之后将特征图传入残差注意力恢复模块，进一步恢复图像细节与颜色。残差注意力恢复模块将注意力机制与残差结构巧妙结合，使得网络得以更加关注有价值的特征信息，同时也避免了在网络学习过程中由于网络层数的加深，导致丢失原始图像信息的问题。

图4 多尺度残差注意力网络结构Fig.4 Structure diagram of multi-scale residual attention network

2.1 多尺度密集特征提取模块

水下图像由于受光在水下传输介质的影响，往往存在不同程度的色偏色弱问题，并且因为水下人工光源的照明范围有限，使得处于不同场景深度的物体所保留的信息均不相同，因此需要在多个尺度上对图片进行特征提取，使得网络尽可能多地学习到图片的特征信息。多尺度密集特征提取模块(MDFE)将改进的UNet3+-Avg 网络结构与密集连接块相结合，使网络得以在多尺度上提取不同的特征信息，并且密集块的加入增加了特征信息在网络中的传播，避免了特征丢失。该网络模块结构如图5 所示。

图5 多尺度密集特征提取模块Fig.5 Multi-scale dense feature extraction module

UNet3+网络[13]最有特点的是它所提出的全量程跳跃连接与全尺度深度监督，该网络中每个解码器层都合并了编码器中的小尺度和同尺度的特征映射，以及解码器中的大尺度特征映射，有效解决了UNet 网络[14]的平面连接和UNet++[15]嵌套密集连接所存在的全尺度信息探索不全面的问题。根据水下图像增强任务的需要，在设计本文网络时去除了UNet3+网络中的全量程深度监督模块，并且将网络中的最大池化操作变为平均池化操作，使其更适合于图像颜色的恢复任务。该网络的编码部分共有5 层，分别进行了4 次下采样，得到5 种尺寸的特征图，每一层都通过核数为64 的3×3Conv 及Relu 激活函数，再通过平均池化(Avg-Pooling)对特征图进行2 倍下采样后送入下一层。解码部分与编码部分层数相同，进行了4 次上采样，使得图像恢复为原始尺寸，并通过全量程跳跃连接，使得每层解码器都可获得前层的特征图，这种结构可将全尺度特征映射的低级细节与高级语义结合起来，同时也拥有更少的参数。UNet3+-Avg模块结构如图6 所示。

图6 UNet3+-Avg 模块Fig.6 UNet3+-Avg module

在UNet3+-Avg 之后加入了3 层并行连接的密集连接模块[16](dense block)，每个密集连接模块由5 个基本卷积块构成，基本卷积块结构由核数为64 的 3×3Conv、批量归一化(BN)、Leaky Relu 激活函数组成。每个块之间进行密集连接，使每一层的输出都可作为输入传入到后面的卷积层，并将前面所有层获得的特征与本层特征按通道相连接一同传递到下一层，这样的结构缓解了特征图在卷积层间传递时产生的梯度消失。由于密集连接模块模块的加入，提高了整个网络的信息流和梯度的传递，从而使得网络在学习图片特征的同时增加了可训性。

为了详细说明UNet3+-Avg 提取特征的过程，以特征图为例说明该网络构造特征图的方式，构造如图7 所示。

图7 第3 层解码器特征图构造过程Fig.7 Construction process of layer-3 decoder feature map

2）同尺度的编码器，将该层编码器得到的特征图直接通过核数为64 的 3×3 Conv、批量归一化(BN)、Relu 激活函数；

2.2 残差注意力恢复模块

网络在通过多尺度稠密特征提取模块之后学习到了丰富的特征信息，为了使网络可以学习到更具有价值的信息，本文提出了注意力残差恢复模块(RAR)。该模块首先通过一个核数为64 的3×3Conv，Leaky Relu 对传入特征图进行初始化，接着将传入特征图与之进行残差连接后传入注意力模块(convolutional block attention module,CBAM)当中，以捕捉特征图中有价值的信息。为了减少梯度消失的问题，在CBAM 模块之后也与传入特征图进行残差连接，最后通过核数为64 的3×3Conv、批量归一化(BN)及Leaky Relu 得到输出。该模块结构如图8 所示。其中CBAM 模块由通道注意力模块(channel attention model)与空间注意力模块(spatial attention module)串连构成，接着将注意力模块得到的权重与输入特征图进行特征细化，实现从通道到空间的顺序注意力结构，结构如图9 所示。

图8 注意力残差恢复模块Fig.8 Attention residual recovery module

图9 CBAM 模块Fig.9 CBAM module

通道注意力模块首先对特征图同时进行最大池化与平均池化操作，对输入特征图的尺度进行压缩，以得到具有不同维度信息的特征图，接着将得到的特征图送入信息共享网络(MLP)进行信息共享，MLP 通过具有不同核数的1×1 Conv 对输入特征图进行先降维再升维操作，降维升维的倍数设置为16，待共享完成后，对特征图进行元素相加。计算过程如式(3)所示：

式中：F为传入特征图；AvgPool 为平均池化操作；MaxPool 为最大池化操作；MLP 为多层感知器；σs为Sigmoid 激活函数。

空间注意力模块对输入特征图沿通道进行最大池化与平均池化操作，接着将得到的特征图进行通道维度堆叠后，通过一个核数为64 的1×1 Conv调整通道数，最后得到输出特征图。计算过程如式(4)所示：

式中：F为传入特征图；AvgPool 为平均池化操作；MaxPool 为最大池化操作；σs为Sigmoid 激活函数。

3 损失函数

为了更好地恢复图像色彩和细节，本文根据所提出网络的独特性，构造出一个由Charbonnier 损失[17]和边缘损失(edge loss)相结合的联合损失函数，以弥补单一损失函数在水下图像增强任务中的局限性。

Charbonnier 损失可看作是改进的l1损失，在l1损失的基础上添加了一个可变的微小变量ε。该损失函数可以缓解生成图片像素过于平滑的问题，使生成的图片更符合人肉眼的感官认知，如式(5)所示：

式中 ε的值设置为1e-3。

高质量的图片不止具有令人愉悦的色彩，其图片内部的物体还应具有较为清晰的边缘特征，边缘损失函数的加入可以使图片中的物体保留更多的边缘细节信息，如式(6)所示：

式中：X为网络输出的图像；Y为对比图像；Ei,j为求得的边缘特征。

为了使增强图片具有较好色彩和丰富细节信息的同时加快网络训练速率，本文将以上两种损失函数进行联合，联合损失函数如式(7)所示：

式中 λ为0.05。

4 实验结果与分析

为了说明本文所提网络模型的有效性，设计实验1，将本文所提方法与其他经典方法(传统算法与深度学习算法)进行对比实验，比较的算法包括CLAHE[5]、UCM[6]、UDCP[7]、IBLA[8]、UWCNN[10]、CycleGAN[18]、MSRA-Net[19]、AttR2U-Net[20]。为了验证本文各模块设计的有效性，设计实验2，对本文所提网络模型中不同的模块进行对比实验分析。实验中，为了明确了解各个方法的优劣性，本文采用主观评价以及客观评价指标对实验结果进行评价分析。

4.1 数据集

本文所使用的数据集来自于UIEB dataset，该数据集包含了890 张在自然光、人造光或自然光和人造光混合下拍摄的水下图像，同时也提供了与之对应的高质量参考图像。在本文中，以8∶2的比例将数据集的图片数据划分为训练集与测试集，并在进行训练前将训练集中的图片进行左右翻转以扩充训练集。最后，随机挑选出具有以下场景的水下图像，如海床、海洋生物、珊瑚作为测试图像，以说明模型的泛化性与有效性。原始水下图像与其对应的高质量对比图像如图10 所示。

图10 水下图片示例Fig.10 Underwater image example

4.2 实验条件及参数设置

实验条件：本文采用pytorch2.8 深度学习框架进行训练和测试。所使用的计算机硬件配置如下：GPU 为 Nvidia GeForce 3060(6 GB)；CPU 为 Intel Core i7-11800H，内存为 16 GB，主频为 2.30 GHz。

参数设置：本文网络中输入图片统一为长、宽均为 256 像素的 RGB（red-green-blue）图像，优化器为AdamW，使用余弦退火学习率，使学习率由4e-3 逐渐缩小至1e-6，批量大小(batch size)为 16，迭代次数(epoch)为 1 000。

4.3 实验分析

4.3.1 实验设置及评价指标

为了说明本文所提网络模型与各模块的有效性，将分别进行2 次实验。对比实验，将本文所提模型与基于非物理模型的水下图像增强方法(CLAHE[5]、UCM[6])、基于物理模型的水下图像增强方法(UDCP[7]、IBLA[8])、基于深度学习的水下图像增强方法(UWCNN[10]、CycleGAN[18])和同样使用多尺度残差注意力网络的水下图像增强方法(MSRANet[19]、AttR2U-Net[20])进行对比实验。此外，对所提网络进行消融实验，分别验证多尺度稠密特征提取模块、残差注意力恢复模块及损失函数的有效性。

本文采取主观评价与客观评价相结合的评价方法，分别通过人的主观评价与客观数据全方位分析本文所提模型对于水下图像的增强效果。主观评价通过找寻10 位志愿者(其中5 名志愿者有图像处理经验，其余5 名无图像处理经验)，让其在同一显示器下观察使用不同方法增强的图片，并单独对每幅图片进行打分(分值范围为1 至5)。客观评价选取两种全参考图像质量评价指标：峰值信噪比(PSNR)与结构相似度(SSIM)。

峰值信噪比(PSNR)是峰值信号的能量与噪声的平均能量比。PSNR 是基于对应像素点间的误差，即基于误差敏感对图像进行质量评价。PSNR的值越大，图像质量越好。

结构相似度(SSIM)分别从图像的亮度、对比度与结构3 方面共同衡量图像的相似度，取值范围为 [0，1]。SSIM 值越大，图像失真越小。

但因人眼对亮度对比差异的敏感度比色度高，且易受周围区域颜色的影响，因此峰值信噪比(PSNR)得出的结论有可能和人的直观感受不一致，因此本文加入了由人肉眼直接观察的主观评价。

4.3.2 实验结果

4.3.2.1 对比实验

本文的对比实验结果图如图11 所示。CLAHE 算法[5]可以较好地改善图像的对比度，使得图像色偏问题得到改善，但在光斑区域存在对比度过强的现象，并且对于图像中较暗区域增强效果不佳，导致图像颜色不自然。UCM 算法[6]可以较好地去除色偏现象，增强过后的图像整体颜色也较为自然，但存在丢失图像中较暗区域的细节信息的问题。UDCP 算法[7]存在过度增强现象，使得经处理过后的图像整体颜色偏暗，加深了色偏，并且物体细节信息丢失严重。IBLA 算法[8]并没有改善图像色偏的问题，甚至造成了更严重的色偏。经UWCNN 算法[10]增强过后的图像引入了新的色偏。CycleGAN 算法[18]可以较好地改善图像的色偏问题，但增强后图像整体色彩亮度偏暗。MSRANet[19]算法可以有效改善图片存在的色偏问题，但增强后的部分图片存在区域性的颜色不均。AttR2UNet[20]算法对于色偏问题有着较好的改善，但会造成图片颜色淡化的问题。与前8 种模型相比，本文所提模型可以有效去除绿色色偏，在光斑区域也拥有较好的对比度，并且也可以很好地保留水下物体的细节信息，更加接近参考图像。表1 展示了实验中9 种模型的主观评价平均得分。表2 展示了实验中9 种模型的评价指标平均得分。通过观察两种评价的得分情况，发现相同方法的主观评价与客观评价的得分存在一定差异，通过询问10 名志愿者，发现造成这种情况的原因是由于具有丰富色彩和较高对比度的图片更受他们的青睐。

表1 9 种实验模型主观评价平均得分Table 1 Average scores of subjective evaluation of nine experimental models

表2 9 种实验模型评价指标平均得分Table 2 Average scores of evaluation indexes of nine experimental models

图11 不同增强方法结果比较Fig.11 Comparison of results of different enhancement methods

4.3.2.2 消融实验

为了证明本文所提模型中各模块及损失函数的有效性，本文设置如下消融实验：1) 去除多尺度稠密特征提取模块(MDFE)；2) 去除残差注意力恢复模块(RAR)；3) 无Charbonnier 损失函数；4) 无边缘损失函数(edge loss)。所进行消融实验结果如图12 所示。由图片对比结果可以看出，模型a、b、c、d 均存在不同程度的色偏、色弱以及图片物体边缘模糊的问题，因此确定本文所提模型为最优模型。不同模型消融实验评价指标如表3 所示。

表3 消融实验评价指标平均得分Table 3 Mean scores of evaluation indexes of ablation experiments

图12 消融实验结果比较Fig.12 Comparison of results of ablation experiments

5 应用测试

为了说明本网络增强后的水下图像对后续视觉任务的激励作用，在此采用Canny 边缘检测[21]，用以对比原始图像与经本文设计网络增强后图像的边缘检测结果。因为图像中物体的边缘往往是局部像素变化最显著的区域，图像中可提取的边缘信息越多，表明图像中保留的细节信息越丰富，对后续的高层语义信息获取有很大帮助。边缘检测结果如图13 所示。可以明显看出，经过增强后的图片相较于未增强的图片提取到的物体边缘更加丰富。

图13 边缘检测结果Fig.13 Edge detection results

6 结论

针对水下图像增强问题，本文提出了一个多尺度残差注意力网络，该网络通过多尺度稠密特征提取模块(MDFE)和残差注意力恢复模块(RAR)的巧妙设计，在融合图像多尺度特征信息的基础上，结合注意力机制对退化的水下图像进行增强。在数据集UIEB 上的大量实验表明，本文所提网络相较于其他几种主流方法有着更好的指标与主观视觉感受，并且在恢复退化图像颜色的同时，还可保留图像中大量的边缘细节信息，有效提高了后续边缘检测任务的准确性，但在个别场景下的水下图像经本文所提网络增强后会存在对比度过强的问题，所以未来将就该问题提出新的网络模型，进一步提高模型的泛化性。