基于生成对抗网络的轻量级全局-局部水下图像增强算法
2023-05-15王金康何晓晖邵发明卢冠林李金鑫
王金康,殷 勤,何晓晖,邵发明,卢冠林,李金鑫
(陆军工程大学 野战工程学院,江苏 南京 210007)
0 引 言
由于复杂的水下环境,水下图像处理技术一直是具有挑战性的任务。水下拍摄的图像会因光在水中的散射、悬浮物等原因导致图像质量退化,出现色偏、低对比度、细节丢失和噪声等问题。这些问题极大地影响了水下图像的后续处理,包括水下图像的目标检测、语义分割等[1]。因此,在预处理阶段对水下图像进行增强处理是非常有必要的。现有的图像增强方法直接应用于水下图像也不能达到理想的增强效果。不加选择地对图像进行全局增强会导致计算量过大,浪费计算资源,而简单的图像局部增强会导致全局图像效果不佳,甚至出现局部舍弃整体的情况。因此,研究一种兼顾全局和局部的图像增强算法非常重要。
随着CNN 方法在水下图像领域的深入,卷积神经网络的发展带给学者启发。文献[2]提出UWCNN 模型,轻量化网络结构,将模型推广到水下视频增强领域,该方法取得了良好的泛化效果,但仍然无法解决水下图像的后向散射问题。文献[3]基于全卷积网络,提出了改善水下不均匀光照影响的NUICNet 网络,将原始图像分为理想图像和光照层的叠加,改善效果明显。文献[4]创造性地设计了双层残差注意网络RTFAN,采用通道注意力和非局部注意力进行特征融合,去噪效果突出,但是会在一定程度上引入伪影。文献[5]基于注意力机制提出UDA-Net 网络,融合不同信息来提取通道,进而自适应地关注水下图像中劣化斑块的特征区域并进行改善,这大大减小了计算复杂度。
近年来,生成对抗网络的运用成为图像增强研究的热点。文献[6]基于生成对抗网络提出一种水下图像增强算法,但其合成的水下图像模拟的环境较单一,不能覆盖非均匀光照、浑浊水体等退化问题。文献[7]在生成对抗网络的基础上融合全卷积,提出了FUnIE-GAN 网络,并设计了一个新的损失函数来评估图像主观质量。文献[8]提出了UGAN,将图像增强问题转化为原图像到生成图像的转换问题,增强效果比较好,但是用于实验的数据集太小,网络通用性遭到质疑。文献[9]提出弱监督颜色迁移模型,使用结构损失代替对抗损失,保证在图像内容不变的情况下实现颜色校正。文献[10]提出一种新的模型,通过解码不同领域水类型的干扰来对抗学习图像的内容特征,很好地处理了增强过程中水的多样性。文献[11]设计了Local-Cycle GAN,创造性地提出局部判别器,对图像增强效果有很大的提升,但这种方法容易产生奇异的纹理。文献[12]基于CA-GAN 提出了一种新的水下图像增强算法,引入注意力机制的同时,设计了多对一的映射函数,取得了不错的增强效果。文献[13]制作不同色偏的水下图像数据集,并提出Cast-GAN 网络,改进损失函数,水下图像色偏现象得到很好的改善。总的来说,基于生成对抗网络的水下图像增强效果更好,因此也越来越成为图像增强的主流研究方向。
1 算法设计
为了有效提高水下图像的质量,本文提出一种基于生成对抗网络的融入注意力机制的水下图像增强算法,结构示意图如图1 所示。首先,原始水下图像通过Grad-CAM 方法得到激活的热力图像作为注意力图像,与原始图像共同输入到生成器得到生成图像;然后,分别对生成图像和真实图像进行判别,全局判别器负责对整个图像进行判别,而局部判别器对经过注意力机制裁剪后的目标区域进行有重点的判别,2 个判别器共同作用,决定生成图像是否有效。判别为真的生成图像直接输出,判别为假的生成图像则重新返回网络进行进一步的增强处理。
图1 轻量级全局-局部水下图像增强算法结构图
1.1 生成器
为了对原始水下图像在视觉上进行初步的可视化解释,帮助网络学到更多不同信息之间隐蔽、复杂的映射关系,在图像输入到生成器之前使用Grad-CAM 方法得到每个目标类别所对应的特征图所占的权重,将得到的权重与对应的特征图进行加权求和,能得到一个激活的热力图,将其与原始图像一起输入到生成器中。生成器结构采用对称编解码器结构,并在U-NET[14]上添加跳跃连接以提取不同层次的特征,这样的设计使得多尺度信息得以很好的保留和运用,对语义分割[15]、图像修复[16]等性能提升较大。
生成器的设计基于U-NET 结构,其示意图如图2所示。网络的输入设置为256×256×3,先通过4 次卷积操作实现图像下采样,再通过Inception-Resnet 模块克服深层网络的梯度消失问题,这有助于找到滤波器大小的最优组合,之后进行连续的4 次反卷积操作完成特征图的上采样。卷积操作过程中嵌入可变形卷积网络,对目标尺度大小进行自适应,提高网络的泛化能力。此外,将原始水下图像与注意力图像同时下采样,提高模型处理速度的同时对水下图像的增强效果也有较大的提升。
图2 基于U-NET 结构的生成器改进
1.2 全局-局部判别器
全局判别器(见图3a))判断整张生成图像的真假,对水下图像实现整体的增强。而当生成图像的局部区域需要特定增强的时候,全局判别器不能发挥明显作用。因此,设计了全局-局部判别器结构[17],在原先判别器的基础上增添了一个局部判别器(见图3b))。在局部判别器之前,为了对生成图像的特定局部区域进行自适应增强,引入CBAM[18],它结合了空间注意力和通道注意力实现对局部区域的聚焦,然后裁剪生成图像和真实图像的局部区域,之后输入局部判别器来判断真假。
图3 全局判别器与局部判别器结构
LCBA 模块的结构如图4 所示。通过结合空间和通道注意并行学习特征图面向目标的注意权值,并根据注意权值对输入图像进行局部裁剪。全局-局部判别器的设计在保证图像整体增强效果的同时,对局部区域进行特定增强,图像增强效果更加明显。
图4 基于双重注意力的局部裁剪
全局判别器采用了5 个卷积层,局部判别器采用了4 个卷积层,其结构均类似于马尔科夫判别器[19]结构。全局判别器以生成图像和真实图像作为输入,而局部判别器以生成图像块和真实图像块作为输入,对应位置的像素差异小的值判定为1,差异大的值为0,以此区分局部图像的真假。
1.3 损失函数设计
本文通过优化损失函数使输出图像更贴近真实图像,具体分为生成器损失、判别器损失、MS-SSIM 损失和L1损失。
在对抗损失里运用相对判别器[20]。其中,全局判别器和局部判别器的损失函数可以分别表示为:
式中:xr、xf分别代表真实图像分布和生成图像分布;Pr、Pf分别代表真实图像和生成图像的概率分布;Prp、Pfp分别代表真实图像块和生成图像块的概率分布;E为期望值;σ代表Sigmoid 函数;Dra(xr,xf)代表真实图像比生成图像更真实的概率;Dra(xf,xr)代表生成图像比真实图像更不真实的概率。
本文采用MS-SSIM loss 来改善图像的视觉质量,较好地保持高频信息。对于中心像素为p的图形块来说,SSIM loss 可以表示为:
式中:x为原始水下图像块;y为生成图像块;μx是x的平均值;σx是x的标准差;μy是y的均值;σy是y的标准差;σxy是x、y的协方差;令C1=0.02,C2=0.03。
然而σG的大小制约着图像增强效果的提升,为解决这个问题,采用MS-SSIM 定义如下:
对于全局判别器,其全局结构相似性损失为:
对于局部判别器,其局部结构相似性损失为:
生成图像常常存在潜在的异常像素值,而L1loss 绝对误差损失受异常值的影响较小,同时,MS-SSIM 对图像亮度和色彩的变化不敏感,而L1则在色彩变化方面存在优势,因此它们互相补充,获得更好的增强效果。
全局L1loss 可表示为:
式中:Ig为无失真图像;E为分布函数的期望值。
局部L1loss 可表示为:
将上述损失函数按照一定的权重线性组合,得到总的损失函数如下:
根据训练数据和实验结果,设置权重λ1~λ6的值分别为0.5、0.3、0.6、0.4、0.6、0.4,δ设定为0.5,此时水下图像增强效果最好。
2 实验分析
2.1 数据集制作
训练水下图像增强网络需要大量的水下样本,同时图像样本要满足水下场景多样、退化特点多样、图像内容多样的要求,所以将RUIE[21]、habcam UID[22]、SQUID[23]、UIEBD[24]4 个公开的数据集合并为一个覆盖多种水下场景、多种退化特点、多种内容范围的多分辨率水下图像数据集,命名为CUOID(Comprehensive Underwater Original Image Database)。将CUOID 中的图像质量退化特点划分为四类,分别为色偏、对比度下降、细节模糊和斑点噪声,其中有的水下图像同时包含几种退化特点。图像质量退化特点的统计数据如图5 所示。
图5 不同退化特点的真实水下图像的占比分布
2.2 实验结果分析
为了直观地表现提出算法的增强效果,将本文算法与引言提到的8 种经典水下图像增强算法在数据集CUOID 上做对比实验,实验结果如图6~图9 所示。
图6 存在色偏的水下图像增强效果对比
图7 对比度降低的水下图像增强效果对比
图8 细节模糊的水下图像增强效果对比
图9 存在斑点噪声的水下图像增强效果对比
由于水中光线的吸收和散射,水下图像会呈现色偏现象。图6 展示了在解决色偏问题上各种算法的增强结果。UWCNN、RTFAN、NUICNet 算法处理后的图像增强效果不明显,色偏未明显消除,NUICNet 处理后的图像甚至还出现了过饱和、图像亮度衰减等问题。FUnIEGAN、UDA-Net、CA-GAN 算法局部视觉效果不够自然,对比度低。Local-Cycle GAN 算法处理后的图像整体偏暗。Cast-GAN 算法处理后的图像色偏基本去除,与前几种算法相比增强效果最好,但是就图像整体来看对比度较低。
本文算法修正了图像色偏,整体亮度提升,视觉效果更为清晰自然。从视觉效果来看,以CNN 为基础网络算法的增强效果不如以GAN 网络为基础的图像增强算法,提出的算法图像增强效果最好。
图7 展示了在解决水下图像对比度不强问题上各种算法的增强结果。UWCNN 处理后的图像对比度没有太大改观,RTFAN、NUICNet、FUnIE-GAN 算法处理后的图像并没有很好地去除远景色偏,UDA-Net、Local-Cycle GAN 算法处理后的图像整体偏暗,且Local-Cycle GAN 出现局部过饱和的现象。相比上述算法而言,CAGAN、Cast-GAN 算法处理后的图像效果不错,但是也存在远景对比度没有得到改善的问题。本文算法有效地增强了全局和局部的对比度,图像饱和度显著提升。
图8 展示了在解决水下图像细节模糊问题上本文算法与UDA-Net、CA-GAN、Local-Cycle GAN、Cast-GAN四种以GAN 网络为基础模型的算法的增强效果比较。实验结果表明,其他4 种算法对细节增强没有很好的体现,所以展示细节增强时只对比UDA-Net、CA-GAN、Local-Cycle GAN、Cast-GAN 这4 种算法。从图8 可以看出,UDA-Net 和CA-GAN 处理后的图像细节有所增强,但是效果不大,Cast-GAN 算法处理后的图像雕塑人头面部细节增强效果不错,但是水草细节没有得到明显改善,Cast-GAN 只注意到了中心目标的细节问题,没有整体做出相应的改善。Local-Cycle GAN 算法处理后的图像整体偏暗,且依然存在色偏问题。相比上述算法而言,本文算法有侧重地增强了前景目标的细节,从视觉效果来看,提出的算法在雕塑人头和水草的细节处理上增强效果最明显。
图9 展示了在解决水下图像存在斑点噪音问题上,本文算法与UDA-Net、CA-GAN、Local-Cycle GAN、Cast-GAN 四种以GAN 网络为基础模型算法的增强效果比较。从视觉效果来看,UDA-Net 去噪效果不错但是色偏问题没解决,CA-GAN、Cast-GAN 算法处理后的图像色彩饱和度不高,且去噪效果并不好。Local-Cycle GAN算法处理后的图像色彩饱和度有所提升,但整体亮度偏暗。相比上述算法而言,本文算法去噪效果强,而且对比度提升较大,增强效果明显。
本节的客观评价指标使用UCIQE、UIQM、PCQI、PSNR、SSIM 五个常用的图像质量评价指标。其中,UCIQE 和UIQM 是目前较为公认的2 种综合性水下图像质量评价指标,UCIQE 的值大表示图像色度均匀、亮度适中、饱和度平衡;较大的UIQM 值表示图像的清晰度和对比度更好;PCQI 值越大,表示图像对比度越高;PSNR 是最普遍的评价图像质量的指标,其值越大,图像质量越好;SSIM 值越大,表示增强后的图像越接近真实图像,增强效果越好。
表1 展示了不同方法在CUOID 数据集上测试的客观指标对比。其中,所有指标值均为测试的平均值,黑色加粗表示最优结果。
从表1 中可以看出,本文方法在CUOID 数据集上测试后的指标只有UCIQE 位列第二,UIQM、PCQI、PSNR、SSIM 等指标都高于其他算法。这说明本文算法在图像对比度、亮度、色度、饱和度的平衡效果最好,同时,图像综合增强效果最好,这与主观评价基本一致。
表1 不同方法对水下图像的增强效果客观指标对比
2.3 消融实验
本节中,在CUOID 数据集上验证了本文方法中每个模块对算法性能的影响。
表2 显示了在生成对抗网络框架上不同模块的消融实验结果。
表2 消融实验结果
从实验结果来看,添加了三个模块的生成对抗网络客观评价指标均达到最高,这表明三个模块缺一不可,综合起来对水下图像的增强效果最好。
2.4 应用测试
为了进一步证明本文方法对水下图像增强的有效性,利用显著性检测来验证本文方法可以帮助更好地识别图像中最显著的区域,如图10 所示。与原始图像相比,经过本文方法增强过的水下图像能够被检测出更多的显著区域。这表明本文方法可以有效恢复水下图像的局部特征和自然质量。
图10 显著性检测结果对比
利用关键点匹配测试验证结果如图11 所示。可以观察到,经过本文方法增强过的水下图像能够显著增加匹配的关键点数量,高效且准确地匹配出两个不同视角的图像中的同一个物体。
图11 关键点匹配结果对比
3 结 语
本文研究设计了一种融入注意力机制的生成对抗网络水下图像增强算法。相比于当前流行的图像增强算法,理论方面,引入注意力机制,聚焦目标区域,避免了大量的矩阵运算,对原始图像进行目标区域的局部增强,极大地提高了图像增强效率;其次,将可变形卷积、改进的Inception-Resnet 模块融合到生成对抗网络中,更好地提升了图像亮度和对比度,校正图像颜色;最后,LCBA 模块将通道信息和空间信息有效聚合,自适应裁剪出目标区域,局部判别器对其进行局部判别,结合全局判别器对图像进行综合判别。
实验方面,创建一个新的、综合的水下图像数据集,并将本文方法与当前8 种主流的水下图像增强方法进行实验效果对比,分别在主观和客观方面评价实验效果。实验结果表明,本文方法对比当前8 种主流的水下图像增强方法不管是主观评价还是客观指标均有提升。除此之外,进行了消融实验以及应用测试,以证明提出的水下图像增强方法能够快速有效地提高水下图像的可视性。未来的工作将结合图神经网络,深入剖析算法增强机理,对增强后的图像进行目标检测方向的改进。