APP下载

基于注意力机制和U-net模型的水下图像分割方法研究

2024-10-31苑永起田雨波孙颖鑫潘婷

关键词:注意力机制图像分割深度学习

摘 要: 为提升水下图像分割效果,提出一种利用三分支注意力模块改进U-net结构的水下图像分割方法,即利用注意力机制来实现跨通道交互信息,在实现多维交互的同时不降低维度.通过在VOC2007和SUIM数据集上的实验表明,文中方法在VOC2007数据集上mIOU值为72.05,mPA值为81.3,优于传统U-net网络mIOU值58.74和mPA值71.13;在SUIM水下数据集上mIOU值为70.374,mPA值为82.838,优于传统U-net网络mIOU值68.89和mPA值82.51,能够更好的进行水下图像分割.

关键词: 注意力机制;图像分割;水下图像;深度学习

中图分类号:TP391.41"" 文献标志码:A"""" 文章编号:1673-4807(2024)02-053-05

Underwater image segmentation based on attentionmechanism and the U-net model

Abstract:To improve the effect of underwater image segmentation, this paper proposes an underwater image segmentation model that uses a three-branch attention module to enhance the U-net model. Specifically, the attention mechanism achieves cross-channel interactive information, which realized multi-dimensional interaction without reducing the dimensionality. The experiments on the VOC2007 and SUIM datasets show that the mIOU value of the proposed method is 72.05 and the mPA value 81.3 on the VOC2007 dataset, which are better than the traditional U-net network with mIOU value 58.74 and mPA value 71.13. The mIOU value is 70.374 and the mPA value 82.838 of the proposed method on SUIM dataset, which is better than the traditional U-net network′s mIOU value 68.89 and mPA value 82.51. The proposed method can better perform underwater image segmentation.

Key words:attention mechanism, image segmentation, underwater image, deep learning

海洋是人类资源的宝库,蕴含着各种各样的资源,随着人类对海洋的不断探索,计算机视觉技术在水下任务中发挥着越来越重要的作用.我国作为海洋大国,在十八大报告中制定了海洋开发的战略部署[1],但是水下图像受成像条件影响,水下拍摄的图片易受介质和光照不充分因素的影响,图像分割精度往往不高,因此研究水下图像分割技术很有必要.图像语义分割是对图像中的每一个像素都进行相应的分类,即实现图像在像素级别上的分类[2].图像语义分割的常用方法有阈值法[3]、边缘检测法、小波变换法[4]等,将深度学习应用于图像分类[5]、图像分割[6]、目标检测[7]、人脸识别[8]等领域.文献[9]将深度学习应用于图像语义分割领域,用卷积层来替代卷积神经网络中的全连接层,以此来适应不同尺寸的输入,同时通过跳跃连接来结合低语义特征和高语义特征,最后通过反卷积来对最后一次卷积产生的特征图进行上采样,使特征图恢复到输入图像的大小,从而对每一个像素进行预测,最后在上采样的特征图从而实现每一个像素的分类.文献[10]提出了基于编解码结构的U-net网络,包含一个捕获上下文的收缩路径和一个允许精确定位的对称扩展路径,收缩路径通过卷积对特征图进行提取信息,通过下采样来对特征图进行压缩,扩展路径使用上采样来对特征图进行逐步扩大,逐步恢复出图像的细节,并通过跳跃连接来融合低语义信息.文献[11]提出了一种金字塔场景解析网络,将复杂的场景上下文特征嵌入到基于全卷积网络进行像素预测.

注意力机制在自然语言处理[12]和计算机视觉领域[13]对于提升神经网络的性能有着非常明显的作用.文献[14]提出了自注意力机制,它完全依赖于关注机制来绘制输入和输出之间的全局依赖体系,广泛应用于自然语言处理、计算机视觉等领域,并对网络模型产生了较好的提升效果.文献[15]提出了一种轻量、即插即用的通道注意力模块(squeeze-and-excitation networks,SENet),通过明确建模通道之间的相互依赖关系,自适应地重新校准通道特征响应,通过挤压操作将全局空间信息挤压到对应的通道中,通过激励将权重赋予到对应的通道上,为卷积神经网络带来了显著的提升效果.

文中提出一种利用三分支注意力模块改进U-net结构的水下图像分割方法,从而改善水下图像的分割效果.

1 文中方法

1.1 网络的整体结构

网络整体结构如图1,命名为TAU-net,由传统的U-net、三分支注意力模块组成.采用U-net网络作为主体架构,同时对U-net的编码部分添加三分支注意力模块,对于每次编码之后的特征图进行三分支注意力调整,然后对调整之后的特征图继续进行下采样卷积等操作,同时通过跳跃连接将三分支注意力模块调整后的特征图和上采样之后的特征图进行融合,以此实现低语义信息和高语义信息的融合,从而使特征图的细节信息更加完善.

整体算法描述为:

1.2 三分支注意力机制

三分支注意力机制是通过捕获交叉维度交互计算权重的方法,在不降维的情况下建立简单而有效的注意力机制.三分支注意力机制的结构如图2,由三个平行的分支构成,其中两个维度负责捕获通道C和通道H、W之间的跨维度交互,另外一个分支用于构建空间注意力.第一个分支是通道C和空间W维度进行交互,首先对特征图进行permute,然后对H维度进行Z-Pool,再进行7×7卷积、批规范化、Sigmoid激活等操作,并于Permute之后的特征图相乘,再次进行Permute操作,得到C×H×W的特征图;对于第二个分支,首先进行一个通道池化,再进行一个7×7卷积,然后进行一个批规范化,最后通过Sigmoid激活函数得到空间注意力权重,和输入特征进行相乘得到C×H×W的特征图;第三个分支类似于第一个分支,不同的是第三个分支是对通道C和空间H维度进行交互,其他操作均与第一个分支相同,得到C×H×W的特征图.最后对各分支输出的特征图进行相加操作,并求平均值,得到一个和输入特征尺寸完全一致的特征图.

三分支注意力算法伪代码为:

2 实验结果及分析

2.1 实验环境与数据

实验环境为:Windows 10 操作系统,32G内存,处理器为Intel(R) Xeon(R) CPU E5-2678 v3 2.50 GHz,显卡为NVIDIA Tesla K80,显存24 G,Cuda10.1,深度学习框架为Pytorch.

文中数据集为VOC2007公共数据集和SUIM水下数据集,其中VOC2007数据集是选自生活场景中的照片,包含背景、人、鸟、猫、牛、狗、马、羊、飞机、自行车、船、公交车、汽车、摩托车、火车、瓶子、椅子、餐桌、盆栽植物、沙发、电视21个分类,其中训练集和验证集共计12 031张,测试集共计210张.SUIM水下数据集包含超过1 500张图像,其中训练集1 525张,测试集110张,并对鱼类(脊椎动物)、珊瑚礁(无脊椎动物)、水生植物、沉船/废墟、潜水员、机器人和海底8个对象类别进行像素标注.

参数设置为:批处理数为2,优化器采用Adam,世代次数为100,初始学习率为1×10-4,每训练一个世代,学习率下降8%,损失函数采用交叉熵损失函数为:

式中:M为进行分类的类别数量;yic为符号函数,如果图像类别等于c则取1,否则取0;pic为图像i属于类别c的预测概率.

2.2 实验结果及分析

首先使用VOC2007数据集进行训练,训练集为10 582张,验证集为1 449张,并利用210张测试集来对网络模型进行评估,分割之后的图像如图3,可以看出文中的TAU-net分割结果更加精细.

实验结果如表1,TAU-net在13类目标上的mIOU都明显高于PSPNet和U-net,在14类目标上的mPA都明显高于PSPNet和U-net,同时TAU-net所有类别mIOU和mPA的平均值相比PSPNet和U-net都有不同程度的提升,尤其是自行车、船、公交车、猫、椅子、盆栽植物、摩托车、电视、火车、沙发、羊等类别的效果提升显著.从图中也可以看到TAU-net的分割结果相较于PSPNet和U-net来说更加精确,说明使用三分支注意力模块对于提升分割精度是有帮助的.

为了验证文中算法在水下图像数据集上的有效性,实验选用SUIM水下数据集,分别使用PSPNet、U-net、Nested U-Net、TAU-net训练模型,从图4中可以看到所提方法在水下图像数据集上取得了较好的效果.实验结果如表2,可以看出,所提出的TAU-net仍然是最优的模型,这也再次证明了文中模型的有效性.

对比图4(d)和图4(f),U-net网络出现了较为严重的误判的情况,TAU-net虽然也有误判情况产生,但是误判情况较为轻微,基本上和标注图像保持一致,具有良好的分割效果.相比于图4(c)和图4(e),提出的TAU-net仍然具有较好的分割效果.

各模型的参数量和浮点运算数如表3,由表可知TAU-net的参数量略高于U-net,但增加的参数量是微乎其微的,同时TAU-net的浮点运算数和U-net的浮点运算数是保持一致的,验证了TAU-net可以在几乎不增加参数量和浮点运算量的情况下超越U-net网络的性能.

3 结论

(1) 文中提出的利用三分支注意力模块改进的水下图像分割方法,即TAU-net模型,成功搭建并在SUIM水下图像分割数据集上进行验证.结果显示,该模型通过引入注意力机制实现跨通道信息交互,不降低维度的特点,使得平均交并比和平均像素精度分别达到了70.374和82.838,较传统U-net网络的性能有显著提升.

(2) 在VOC2007图像分割数据集上验证,结果表明TAU-net模型具有良好的泛化能力,平均交并比和平均像素精度分别达到了72.05和81.3.证明该模型在水上数据集上依然能够保持较好的性能表现,显示出其对不同数据集的适应性和鲁棒性.

(3) TAU-net模型在几乎不增加参数量和运算量的情况下,对U-net网络的性能有一定的提升.未来的研究可以通过扩大水下图像分割数据集,进一步提高模型的泛化能力,同时探索更好地利用低语义信息来进一步提升网络模型的性能,为水下图像分割领域提供更为优秀的技术支持和解决方案.

参考文献(References)

[1] 贲可荣, 王斌. 海洋装备智能化与智能化装备思考[J]. 江苏科技大学学报(自然科学版), 2021, 35(2): 1-11.

[2] 梁新宇, 罗晨, 权冀川,等. 基于深度学习的图像语义分割技术研究进展[J].计算机工程与应用, 2020, 56(2): 18-28.

[3] 邹峰, 王炳辉, 姜朋明. 基于二值图像处理技术的砂土颗粒统计方法[J]. 江苏科技大学学报(自然科学版), 2015, 29(2):180-185.

[4] 谷昱良, 羿旭明. 基于小波变换的权重自适应图像分割模型[J]. 图学学报, 2020, 41(5): 733-739.

[5] HE K, ZHANG X, RENS, et al. Deep residual learning for image recognition[C]∥ Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. USA:IEEE,2016: 770-778.

[6] 陈慧珺, 王建华, 李垣江. 基于引力搜索算法参数优化的改进PCNN遥感图像分割[J]. 江苏科技大学学报(自然科学版), 2018, 32(1): 100-105.

[7] ZHAO Z Q, ZHENG P, XU S, et al. Object detection with deep learning: A review[J]. IEEE Transactions on Neural Networks and Learning Systems, 2019, 30(11): 3212-3232.

[8] 胡春龙, 陈建军, 徐丹, 等. 基于人脸图像的年龄估计研究综述[J]. 江苏科技大学学报(自然科学版), 2020, 34(5): 42-50.

[9] LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]∥ Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.USA:IEEE, 2015: 3431-3440.

[10] RONNEBERGER O, FISCHER P, BROX T. U-net: Convolutional networks for biomedical image segmentation[C]∥ International Conference on Medical Image Computing and Computer-assisted Intervention. Cham:Springer, 2015: 234-241.

[11] ZHAO H, SHI J, QI X, et al. Pyramid scene parsing network[C]∥ Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. USA:IEEE,2017: 2881-2890.

[12] 梁斌, 刘全, 徐进, 等. 基于多注意力卷积神经网络的特定目标情感分析[J]. 计算机研究与发展, 2017, 54(8): 1724-1735.

[13] 殷晓航, 王永才, 李德英. 基于U-Net结构改进的医学影像分割技术综述[J]. 软件学报, 2021, 32(2): 519-550.

[14] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[J]. Advances in Neural Information Processing Systems, 2017, 30:5998-6008.

[15] HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]∥ Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. USA:IEEE,2018: 7132-7141.

猜你喜欢

注意力机制图像分割深度学习
基于深度学习的问题回答技术研究
基于LSTM?Attention神经网络的文本特征提取方法
基于注意力机制的双向LSTM模型在中文商品评论情感分类中的研究
InsunKBQA:一个基于知识库的问答系统
一种改进的分水岭图像分割算法研究
基于LabVIEW雏鸡雌雄半自动鉴别系统
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
一种图像超像素的快速生成算法
基于鲁棒性的广义FCM图像分割算法