APP下载

融合残差注意力机制的深度可分离UNet泥石流堆积扇分割

2024-01-16宋昕王保云朱双颖

关键词:语义分割注意力机制

摘""要:为解决传统机器学习方法在泥石流堆积扇识别中的精度低、效果差的问题,提出一种基于深度学习的残差注意力可分离UNet算法(RAMS-UNet)。该算法在编码部分采用VGG16主干网络进行特征提取,加深网络层次;在跳跃连接部分引入改进的注意力机制,强化信息传递;在解码部分使用深度可分离卷积和密集连接块,进一步增强空间和通道上的信息表达能力。研究结果表明:与其他算法相比,RAMS-UNet算法对泥石流堆积扇的分割精度更高, mIoU、mPA、PA和F1指数等评价指标均显著提升。RAMS-UNet算法突破了传统方法在泥石流堆积扇识别中的局限性,为泥石流灾害评估提供了更加精准的信息支持。

关键词:泥石流堆积扇;沟谷型泥石流;语义分割;UNet算法;注意力机制;深度可分离卷积

中图分类号:TP751"""""""""""""""文献标志码:A """"""""""""""""文章编号:1008-0562(2024)06-0752-09

Segmentation of debris flow fan by a depth-separable UNet incorporating a residual attention mechanism

SONG Xin1, WANG Baoyun1,2*, ZHU Shuangying3

(1."School of Mathematics, Yunnan Normal University, Kunming 650500, China;"2."Yunnan Key Laboratory of Modern Analytical Mathematics and Applications, Yunnan Normal University, Kunming 650500, China;"3."School of Architectural Engineering, Kunming University, Kunming 650500, China)

Abstract:"In order to solve the problem of low accuracy and poor effect of traditional machine learning methods in debris flow accumulation fan recognition, a residual attention separable UNet algorithm based on deep learning (RAMS-UNet) is proposed. The algorithm uses VGG16 backbone network for feature extraction in the coding part to deepen the network level ; an improved attention mechanism is introduced in the jump connection part to strengthen information transmission. In the decoding part, deep separable convolution and dense connection blocks are used to further enhance the information expression ability on space and channels. The results show that compared with other algorithms, the RAMS-UNet algorithm has higher segmentation accuracy for debris flow accumulation fans, and the evaluation indexes such as mIoU, mPA, PA and F1"index are significantly improved. The RAMS-UNet algorithm breaks through the limitations of traditional methods in the identification of debris flow fans, and provides more accurate information support for debris flow disaster assessment.

Key"words:"debris flow fan; valley-type debris flow; semantic segmentation; UNet algorithm; attention mechanism; depth-wise separable convolution

0""引言

泥石流堆积扇(debris flow fan)是泥石流发育历史的重要标志,也是泥石流规模大小和危害范围的量度指标。准确地分割泥石流堆积扇对泥石流地貌形成过程研究、泥石流灾害评估、监测预警区域的选择具有重要意义。

泥石流堆积扇识别的传统方法为目视识别方法,该方法效率低、耗时长。随着数字图像处理技术和机器学习的发展,学者们采用支持向量机[1](support vector machine,SVM)的分类算法、基于像元的分类算法等对泥石流堆积扇图像进行识别[2],但该类方法存在分割不完整、断点和噪声多等问题。近年来,随着深度学习的快速发展,学者们采用深度学习的方法进行图像识别和分割,效果较好。例如,生成对抗网络(generative adversarial network,GAN)算法[3]和卷积神经网络(convolutional neural network,CNN)算法[4]等。

CNN算法具有强大的自动学习特征能力和较好的识别准确率,被广泛应用于图像识别[5-7]。但利用CNN算法进行图像识别不能很好地识别物体轮廓,不能准确识别某个像素的归属,无法做到精确分割。为解决此问题,LONG等[8]提出针对像素级别的端对端全卷积神经网络(fully convolutional network,FCN)算法。但由FCN算法得到的识别结果仍不够精细[9],存在很多噪声点。因此,RONNEBERGER等[10]在FCN算法的基础上提出UNet算法,该算法通过通道数拼接改进图像的特征融合方式,得到的特征更好。此外,由于每次下采样提取特征时会丢失一些特征,这些丢失的特征并不能在上采样中找回,UNet算法在FCN算法的基础上添加跳跃连接,通过解码阶段复用编码阶段的特征来解决此问题。与FCN算法相比,UNet算法在语义分割方面表现更加突出[11-13]

但UNet算法也存在不足,例如在通道拼接特征图之后,使用2D卷积进行特征提取得到的特征会存在一定程度上的冗余;对特征的通道信息和空间信息不够关注。为解决上述问题,在通道拼接之前使用CBAM注意力机制[14],将编码阶段得到的特征图输入到空间和通道注意力机制模块中,得到更好的通道和空间信息,使用残差块将其与输入特征相加后再进行通道拼接,然后使用深度可分离卷积[15]代替2D卷积进行解码操作,进一步提取数据的空间特征和通道特征,减少特征的冗余,获得更优的特征信息。

在深度学习算法中,网络深度越深,其泛化能力一般越好。例如,VGG16网络[16]有13层卷积层和5层池化层进行特征提取。受此启发,改进后的UNet算法使用VGG16的主干部分进行特征的提取。但随着网络深度的增加,网络可能会出现梯度破坏或消失以及网络退化等问题。对此,HE等提出残差网络(residual network,ResNet)[17],HUANG等[18]提出密集连接网络(dense convolutional network,DenseNet)。

在已有研究的基础上,提出残差注意力可分离UNet算法(residual attention mechanism separable UNet,RAMS-UNet)。以查阅的泥石流堆积扇图片为数据集,利用该算法对泥石流堆积扇进行分割,通过与其他算法的对比实验、消融实验、数据集有效划分实验,验证该算法的有效性。

1""模型构建

1.1""RAMS-UNet算法结构

UNet算法基于FCN算法构建,采用U型结构解决FCN算法无法获取上下文信息和位置信息的弊端。UNet算法采用收缩路径提取特征信息,采用扩张路径实现对图片的精准定位,结构清晰简单,分割效果良好[19]

RAMS-UNet算法采用与UNet算法类似的结构,并将编码结构和解码结构作为主干网络架构,见图1。由图1可见,编码部分位于RAMS-UNet算法前端,主要功能是提取输入数据特征。与传统的UNet算法结构不同,为了增加网络深度,提高对输入数据的特征提取能力和训练效率,采用VGG16网络的主干部分替代UNet算法的编码部分,使用迁移学习导入VGG16网络,并在ImageNet数据集上训练主干权重。

解码部分位于RAMS-UNet算法模型的后端,主要完成对输入数据的上采样。为避免使用反卷积上采样时在生成图像中造成的棋盘效应,方便网络构建,RAMS-UNet算法结构采用双线性插值算法进行两倍上采样,并且通过卷积操作进行特征融合,最终得到的特征层尺寸和输入图片相同。

UNet算法忽视了特征的空间信息和通道信息,通道拼接特征图后使用2D卷积进行特征提取存在特征冗余,为解决这些问题,将注意力机制添加到网络中的跳跃连接处,将解码部分的2D卷积替代为用深度可分离卷积,进而解决网络深度增加而导致的计算量和参数量膨胀问题。同时,为提高特征的利用率和输入数据的复用性,使用密集连接模块,将特征拼接后的两个深度可分离卷积进行密集连接,再进行上采样。

1.2""VGG16网络

VGG16网络[16]的卷积层全部使用3×3的卷积核,共13个卷积层,5个池化层,通过5个全连接层得到结果,模型结构见图2。RAMS-UNet算法使用图2中虚框部分代替UNet算法中的10个卷积层和4个最大池化层,以加深网络的深度,增强网络对输入数据的特征提取能力。

1.3 "Res-CBAM注意力机制

注意力机制通过对感兴趣的领域分配更多的注意力,尽量抑制不感兴趣区域在语义分割中的影响[20]。在深度学习中,注意力机制分为有通道注意力机制和空间注意力机制。通道注意力机制主要通过探索不同通道之间的相互关系,提高重点通道的权重,抑制非重点通道的权重。空间注意力机制则着重于寻找空间领域中不同像素之间的权重关系,提升重点区域内像素的权重,降低非重点区域像素的权重,使网络更加关注重点研究区域。

CBAM注意力机制是将空间注意力机制与通道注意力机制相结合的算法模型,其结构[14]见图3。CBAM注意力机制先将输入的泥石流堆积扇形貌特征图进行平均池化和最大池化,将得到的结果输入多层感知机(MLP),再经过Sigmoid激活函数得到通道特征权值,完成通道维度的特征提取。CBAM注意力机制的空间注意力模块先对通道注意力模块的结果进行平均池化和最大池化,再经过特征融合和卷积操作得到空间信息,最后经过Sigmoid完成空间维度的特征提取。

通道注意力机制可表示为

"""(1)

空间注意力机制可表示为

,(2)

式(1)~式(2)中:为sigmoid函数;F为输入特征图;表示对括号中的特征图进行7×7卷积操作;MLP为多层感知机;分别表示对输入特征图F进行全局平均池化和全局最大池化。

在进行通道拼接前使用CBAM注意力机制对输入数据的空间和通道上的重点区域进行强化,提升深度可分离卷积在提取空间特征和通道特征的效率,对泥石流堆积扇的提取更加精准。使用CBAM注意力机制的同时添加残差结构,即将经过CBAM注意力机制的输入特征与原始输入特征相加,提高对特征的复用率,构成Res-CBAM注意力机制模块,结构见图4。

1.4""深度可分离卷积

在卷积神经网络中,2D卷积同时提取输入的空间特征和通道特征,结果存在信息冗余,2D卷积结构见图5。

有学者提出利用深度可分离卷积[15]拆分空间维度和通道维度的关联性,减少卷积计算所需要的参数。表1列出了对于5×5×3的输入,使用3×3×3×4卷积核,步长为1时,两种卷积方式输出5×5×4特征图的参数量和计算量。由此可见,深度可分离卷积的计算效率较高。

利用深度可分离卷积对通道拼接后的泥石流堆积扇特征图进行处理时,先使用逐通道卷积得到每个通道一一对应的特征图,再使用逐点卷积获取通道间的空间信息,改变通道数,模型结构见图6。与2D卷积相比,使用深度可分离卷积不仅能够减少卷积计算的计算量和参数量,而且可以加深网络模型的深度,获得到更优的性能。

1.5""密集连接网络

密集连接网络(DenseNet)通过在网络中引入密集连接来增强网络的特征复用性,提高网络模型的泛化能力[17]。在DenseNet结构中,每个层都将前面所有层的输出连接起来,作为其输入形成密集连接块。在每次通道拼接后的解码部分使用密集连接模块,增强网络对泥石流堆积扇图片特征的复用性,使网络对泥石流堆积扇特征提取更为精准。

2 "实验分析

2.1 "数据介绍

泥石流堆积扇一般在沟口形成,所以需要确定发生泥石流沟谷的沟口位置。通过查阅泥石流发生较多省份的减灾年鉴(如《四川减灾年鉴》《云南减灾年鉴》等),并搜集2000年以来所有与泥石流相关的论文和新闻报道,获取泥石流堆积扇数据,共找到发生过泥石流的沟谷数据749条,其中,沟口处没有被破坏的堆积扇31个。使用泥石流堆积扇坐标定位截取并保存31张分辨率为8"192×4"585的高清遥感影像。采用随机旋转、放大缩小和裁剪等方法增强数据,最终得到80张泥石流堆积扇数据。使用Labelme图片标注工具标注泥石流堆积扇,部分图片及其标注示例见图7。为减少网络训练时间,将数据和标签等比例缩放至512×512的分辨率并添加灰度条,然后输入网络进行训练。

2.2 "参数设计及评价指标

实验随机选取90%的数据作为训练集,10%的数据作为测试集,训练600次。训练时,采用Adam优化器中的交叉熵损失函数(Cross Entropy"Loss)作为损失函数,设初始学习率为10-4。实验在Pytorch框架下完成。硬件环境:CPU为Intel(R) Xeon(R) CPU E5-2678 v3 @ 2.50GHz;GPU为NVIDIA GeForce RTX 2080 Ti;软件环境:Ubuntu18.04、Python 3.8、CUDA 11.3、cuDNN 8、NVCC、Pytorch 1.11.0、torchvision"0.12.0、torchaudio 0.11.0。

通过计算平均交并比(mIoU)、像素准确率(PA)、类别平均像素准确率(mPA)和F1分数评价不同分类方法的分类性能。mIoU给出了整体分割结果的质量,它全面地衡量了模型在不同类别上的性能,PA和mPA衡量了整体预测的准确性,F1分数衡量预测结果与真实标签之间的重叠程度。这4种指标在语义分割中具有不同的重要程度,mIoU最重要,其次是mPA和PA,最后是F1分数。

2.3 "对照实验

为验证算法的有效性,分别采用RAMS-UNet算法、阈值分割[21-23]"算法、FCN算法、PSPNet[24-26]"算法、LR-ASPP[27]"算法和UNet算法对测试图片进行分割,效果见图8。

由图8分析得知,阈值分割算法和LR-ASPP算法的分割效果较差,图中出现较多噪声点,对物体边界分割不清晰。FCN算法、PSPNet算法和UNet算法对测试图1的分割效果一般,虽然分割出的物体边界较为光滑,但依然存在断点、噪声点。FCN算法对测试图2的分割图像存在噪声点,对测试图3分割不连贯,其他2种方法对测试图2、3的分割效果良好。与其他算法比较可见,LR-ASPP算法的分割效果提升显著,有效消除了识别图像的断点、噪声点,细节刻画更为完整,多尺度信息更丰富。

通过6种算法生成测试图片的预测图片,分别计算每种算法的mIoU、mPA、PA和F1的平均值,统计结果见表2。

由表2可见,在深度学习方法中, LR-ASPP算法效果最差,但与传统图像算法相比,LR-ASPP算法的各项指标高于阈值分割算法,表明深度学习方法定位更加准确,抗噪能力更强;PSPNet算法和UNet算法总体表现相近,其表现效果均好于FCN算法;与PSPNet算法对比可见,RAMS-UNet算法的mIoU、mPA、PA、F1分别提高了10.53个百分点、7.43个百分点、3.03个百分点、11.36个百分点,表明该算法在同类深度学习算法中最优。

2.4 "消融实验与数据集划分合理性分析

为验证RAMS-UNet算法的有效性和合理性,在本文数据集的基础上对6种模型进行消融实验。模型A为UNet算法基本模型;模型B在模型A基础上使用VGG16主干作为特征提取部分;模型C在模型B基础上加入Res-CBAM注意力机制;模型D在模型C基础上使用深度可分离卷积;模型E在模型D基础上引入密接连接模块,即RAMS-UNet模型;模型F在模型E基础上加入迁移学习模块。将这6种模型训练过程中的评价指标进行统计,见表3。

由表3中模型A、B对比可见,使用VGG16的主干部分代替UNet算法网络中的特征提取部分,F1降低0.58个百分点,但mIoU上升2.88个百分点,mPA提高0.11个百分点,PA上升0.41个百分点,验证了使用VGG16网络主干部分进行特征提取和加深网络层数的有效性;模型B、C对比可见,Res-CBAM注意力机制模块的加入使F1降低0.02个百分点,但mIoU上升0.09个百分点,mPA提高0.72个百分点,PA上升0.79个百分点,验证了在跳跃连接处添加Res-CBAM注意力机制,加强了特征图拼接前的空间特征信息和通道特征信息的效果;模型C、D对比可见,深度可分离卷积的加入虽然使F1降低8.21个百分点,但使mIoU上升3.29个百分点,mPA提高2.27个百分点,PA上升1.17个百分点,验证了深度可分离卷积在注意力机制的基础上对空间和通道特征信息再次加强的有效性;模型D、E对比可见,mIoU上升2.59个百分点,mPA提高1.1个百分点,PA上升1.7个百分点,F1提高5.58个百分点,验证了密集连接模块针的加入对网络分割效果的提升;模型E、F对比可见,mPA基本不变,PA下降0.54个百分点,但mIoU上升0.46个百分点,F1提高4.49个百分点,说明迁移学习在训练中起到了较为良好的效果,在一定程度上提高了模型的整体泛化性。由此可知,本实验的网络模型改进策略和训练策略是可行有效的。

为验证数据集划分的合理性,表4给出了训练集与测试集之比分别为7∶3、8∶2、9∶1的实验结果。可以看出在3种不同的数据集划分中,4种评价指标之间的差距小于1%,因此采用数据的90%作为训练集,数据的10%作为测试集具有合理性。

3 "结论

(1)针对UNet在编码部分的特征提取和解码部分的不足,对编码部分、跳跃连接部分、解码部分进行改进,加深网络层次、强化信息传递、增强了网络模型的复用性,建立基于RAMS-UNet算法泥石流堆积扇分割方法。

(2)通过多种分割方法对泥石流堆积扇图像数据集进行测试,与其他算法相比,RAMS-UNet算法综合性能最优,在泥石流堆积扇分割任务中,像素分类更精准、多尺度信息更加丰富。

参考文献(References):

[1]"范昕炜.支持向量机算法的研究及其应用[D].杭州:浙江大学,2003:2-5.

[2]杨小兵.基于多光谱影像和DEM的泥石流堆积扇识别研究:以白龙江流域武都段为例[D].兰州:兰州大学,2013:7-9.

[3]"QIU H B,YU B S,GONG D H,et al.SynFace:face recognition with synthetic data[C]//2021 IEEE/CVF International Conference on Computer Vision.October 10-17,2021,Montreal,QC,Canada.IEEE, 2021:10880-10890.

[4]"KIM Y,LI P,HUANG H.Convolutional neural networks for sentence classification[EB/OL].(2014-09-03)[2023-10-31]https://arxiv.org/abs/1408.

5882v2.

[5]"贺丰收,何友,刘准钆,等.卷积神经网络在雷达自动目标识别中的研究进展[J].电子与信息学报,2020,42(1):119-131.

HE Fengshou,HE You,LIU Zhunga,et al.Research and development on applications of convolutional neural networks of radar automatic target recognition[J].Journal of Electronics amp; Information Technology,2020, 42(1):119-131.

[6]"KARPATHY A,TODERICI G,SHETTY S,et al.Large-scale video classification with convolutional neural networks[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition.June 23-28, 2014,Columbus,OH,USA.IEEE,2014:1725-1732.

[7]"XU F"S,WANG B"Y.Debris flow susceptibility mapping in mountainous area based on multi-source data fusion and CNN model–taking Nujiang Prefecture, China as an example[J].International Journal of Digital Earth, 2022,15(1):1966-1988.

[8]"LONG J,SHELHAMER E,DARRELL T.Fully convolutional networks for semantic segmentation[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition.June 7-12,2015,Boston,MA,USA.IEEE, 2015:3431-3440.

[9]"ZHAO J Y,ZHAO W Y,DENG B,et al.Autonomous driving system:a comprehensive survey[J].Expert Systems with Applications,2024,242: 122836.

[10]"RONNEBERGER O,FISCHER P,BROX T.U-net:convolutional networks for biomedical image segmentation[M]//NAVAB N, HORNEGGER J,WELLS W M,et al.Lecture Notes in Computer Science.Cham:Springer International Publishing,2015:234-241.

[11]"ZHANG C Y,SUN S B,HU W M,et al.FDR-TransUNet: a novel encoder-decoder architecture with vision transformer for improved medical image segmentation[J].Computers in Biology and Medicine, 2024,169: 107858.

[12]"LI Y,YAN B B,HOU J X,et al.UNet based on dynamic convolution decomposition and triplet attention[J].Scientific Reports,2024,14(1): 271.

[13]"HU Y T,ZHENG D Y,SHI S Q,et al.Extraction of eutrophic and green ponds from segmentation of high-resolution imagery based on the EAF-Unet algorithm[J].Environmental Pollution, 2024,343:123207.

[14]"WOO S, PARK J, LEE J Y, et al.CBAM:convolutional block attention module[M]//Lecture Notes in Computer Science.Cham:Springer International Publishing,2018:3-19.

[15]"CHOLLET F.Xception:deep learning with depthwise separable convolutions[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition.July 21-26,2017,Honolulu,HI,USA.IEEE,2017:1800-1807.

[16]"SIMONYAN K,ZISSERMAN A.Very deep convolutional networks for large-scale image recognition[EB/OL].(2015-04-10)[2023-11-14].https://

arxiv.org/abs/1409.1556v6.

[17]"HE K M,ZHANG X Y,REN S Q,et al.Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition.June 27-30,2016,Las Vegas,NV,USA.IEEE,2016: 770-778.

[18]"HUANG G,LIU Z,VAN DER MAATEN L,et al.Densely connected convolutional networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition.July 21-26,2017,Honolulu,HI,USA. IEEE,2017:2261-2269.

[19]"孙军梅,葛青青,李秀梅,等.一种具有边缘增强特点的医学图像分割网络[J].电子与信息学报,2022,44(5):1643-1652.

SUN Junmei,GE Qingqing,LI Xiumei,et al.A medical image segmentation network with boundary enhancement[J].Journal of Electronics amp; Information Technology,2022,44(5):1643-1652.

[20]"朱张莉,饶元,吴渊,等.注意力机制在深度学习中的研究进展[J].中文信息学报,2019,33(6):1-11.

ZHU Zhangli,RAO Yuan,WU Yuan,et al.Research progress of attention mechanism in deep learning[J].Journal of Chinese Information Processing,2019,33(6):1-11.

[21]"AL-AMRI S S,KALYANKAR N V,KHAMITKAR S D,et al.Image segmentation by using threshold techniques[EB/OL].(2010-03-21)"[2023-11-14].https://arxiv.org/abs/1005.4020v1.

[22]"ZHU S P,XIA X,ZHANG Q R,et al.An image segmentation algorithm in image processing based on threshold segmentation[C]//2007 Third International IEEE Conference on Signal-Image Technologies and Internet-Based System.December 16-18,2007,Shanghai,China.IEEE, 2007: 673-678.

[23]"BHARGAVI K,JYOTHI S.A survey on threshold based segmentation technique in image processing[J].International Journal of Innovative Research and Development,2014,3(12):234-239.

[24]"ZHAO H S,SHI J P,QI X J,et al.Pyramid scene parsing network[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition.July 21-26,2017,Honolulu,HI,USA.IEEE,2017: 6230-6239.

[25]"ZHAO J"L,LI Z,LEI Y,et al.Application of UAV RGB images and improved PSPNet network to the identification of wheat lodging areas[J]. Agronomy, 2023,13(5):1309.

[26]"YU J,CHENG T,CAI N,et al.Wheat lodging segmentation based on Lstm_PSPNet deep learning network[J].Drones, 2023,7(2):143.

[27]"HOWARD A,SANDLER M,CHEN B,et al.Searching for MobileNetV3[C]//2019 IEEE/CVF International Conference on Computer Vision. October 27-November 2,2019,Seoul,Korea (South). IEEE,2019:1314-1324.

猜你喜欢

语义分割注意力机制
结合语义边界信息的道路环境语义分割方法
面向短文本的网络舆情话题
基于自注意力与动态路由的文本建模方法
一种改进迭代条件模型的遥感影像语义分割方法
基于积神经网络的图像着色方法研究
基于深度学习的问题回答技术研究
基于全卷积网络FCN的图像处理
基于语义分割的车道线检测算法研究
基于LSTM?Attention神经网络的文本特征提取方法
基于语义分割的增强现实图像配准技术