APP下载

基于类特征注意力机制融合的语义分割算法

2023-02-17张荣芬刘宇红张雯雯

液晶与显示 2023年2期
关键词:类别注意力语义

陈 娜, 张荣芬, 刘宇红, 李 丽, 张雯雯

(贵州大学 大数据与信息工程学院, 贵州 贵阳 550025)

1 引 言

随着科学基础和技术实现的进步,通过数据学习来解决问题的深度学习已经成为无人驾驶、医疗影像处理[1]、遥感分割和光学领域[2-3]中解决问题的通用支柱。图像语义分割是众领域中一个经典而基础的课题。2015年,Long等人提出全卷积网络(FCN)[4]来获取任意大小的输入并产生相应的分割图,在自然图像处理中取得了良好的效果。然而,基于FCN的算法对于分割小而复杂的对象能力有限。

为了解决这些问题,出现了两种基于全卷积神经网络的图像语义分割算法。一种是采用对称编解码结构的语义分割模型,主要通过下采样操作将目标信息分布到不同特征图中,然后通过跳跃连接与解码器中逐层上采样恢复的同层次图像进行拼接,如 U-Net[5]、SegNet[6]。另一种通过加强抽象语义结合骨干网络的思路保留浅层高分辨率的空间细节和高层低分辨率的全局语义,如PSPNet[7]中用于提取目标图像全局信息的金字塔池化模块(Pyramid Pooling Module,PPM)。谷歌 Chen等人引入空洞卷积[8],提出 DeepLab[9-12]架构的几种变体,采用ASPP (Atrous spatial pyramid pooling)结构,对输入特征图进行并行采样,多尺度捕捉特征图上的图像上下文信息。Pan等人[13]提出一种用于语义分割的稠密金字塔网络(DPN),通过提取每个通道的特征图并进行通道切换操作以增强网络的表示能力。2018年,Shen等人[14]提出一种简单有效的前向卷积神经网络注意模块,随后胡洁等人提出了SeNet,Woo等人提出了CBAM[15],主要思想都是利用注意力机制来推断特征像素的重要特征。2020年,Li等人[16]提出的SFNet利用注意力机制学习不同感受野之间的语义流来获取信息。2020年,Zeng等人[17]在Deeplabv3+中增加了特征交叉注意模块,该模块通过两个分支提取低层空间信息和高层上下文特征来细化分割结果。2021年,Liu等人[18]提出了自适应多尺度模块和自适应融合模块,能够根据图像尺度自适应地为每幅图像生成不同的融合权重比,融合不同尺度图像的多尺度特征,有效地提高了分割效果。孟俊熙[19]等人设计了异感受野拼接的空洞空间金字塔池化结构,增强了各层级信息间相关性。然而,上述方法忽略了类别之间的上下文信息,不能很好地整合全局像素,并且图像特征提取过程细节信息有所丢失[20],造成目标边缘分割精度低等问题。

针对这些问题,相较于第一类缺乏语义信息的模型,目前第二类中专门用于处理语义分割的Deeplabv3+网络模型更为优越。本文以Deeplabv3+网络为基础,提出基于类特征注意力机制融合的语义分割算法CFANet(Class Feature Attention Mechanism Network)。本文主要的贡献如下:(1)针对DeepLabv3+模型对图像目标特征提取困难,注意力信息不能有效利用等问题,提出了CFANet。它采用端到端的深度CNN结构,结合了空间细节信息、全局上下文信息和类上下文信息来增强特征表征能力,最后通过一个通道注意力模块对前期多层融合的特征进行重新校准,抑制冗余信息加强显著特征来提高模型语义分割精度。(2)为了更好地提取高级语义信息。首先构建了类特征注意力机制模块(Class Feature Attention Mechanism,CFAM)[21]来捕捉对象的类别上下文信息,然后改进了ASPP模块(Multi-parallel Atrous Spatial Pyramid Pooling,M-ASPP)来合并全局上下文信息,优化卷积运算带来局部信息丢失问题。(3)最后利用通道注意力模块 FCA(Feature Channel Attention)的特性对大量的融合特征重新校准,抑制冗余信息加强显著特征来提高网络的表征能力。

2 本文算法

2.1 网络结构

本文提出了一种改进的Deeplabv3+网络,命名为CFANet,如图1所示。它以更有效的方式从空间、通道和类别的角度自适应地捕捉全局相关性。它的编码器采用ResNet50[22]作为骨干网络,其结构如图2所示。ResNet50首先通过7×7卷积将特征图大小缩小2倍,然后通过最大池化层将其缩小2倍,之后经过4个残差块,其中前两个残差块都将特征图大小缩小2倍,后两个残差块通过空洞卷积保持特征图大小不变。每个残差块由多个残差结构组成,结构如图3所示,包含两个不同通道的1×1卷积和一个3×3卷积,每个残差结构都有一条跳跃连接线,引入跳跃连接线是为了解决大量网络层造成的梯度爆炸。

图1 整体网络结构图Fig.1 Overall network structure

图2 ResNet50的结构Fig.2 Structure of ResNet50

图3 残差块的结构Fig.3 Structure of the residual block

编码器使用ResNet50进行特征提取,将4个阶段的输出作为多尺度特征融合过程的输入,在块3和块4之后分别连接CFAM和M-ASPP模块,丰富关于类别和全局上下文的信息。编码端通过将前期大量融合的拼接特征输入到通道注意力[15,17](Feature channel attention,FCA)模 块 ,鉴于通道注意力机制对重要信息的选择性注意,能更有效提取到关注的正确特征,弱化不重要的冗余信息,保留关键特征,提高自我注意力机制的效率。注意力机制是一个简单有效的轻量级模块,添加这个模块几乎不会增加额外的计算。最后将输出的重要特征经过卷积和上采样操作恢复到原始图像大小,以更有效和更高效的方式从空间、通道和类别的角度自适应地捕捉全局相关性。

2.2 类特征注意力模块

注意力机制本质上是一种矩阵乘法的运算,可以确定图像中每个像素的依赖关系,增加依赖关系强的像素的权重,从而减少不必要噪声的干扰。为了更准确地捕捉类之间的依赖关系,增强网络理解各类信息的能力,本文提出了类特征注意力机制模块(CFAM)[21],如图4所示。

图4 类特征注意力结构Fig.4 Structure of the class feature attention module

类特征注意力模块可以从类别信息的角度捕捉远程上下文信息,即图像中每个类别与输入特征每个通道之间的关系被显式建模,来增强每个类别之间的上下文信息依赖性。首先,将主干网络 Block3的输出特征定义为A∈RC×H×W,将其分别通过两个1×1卷积生成特征图B∈RC'×H×W和类别关注度特征图D∈RN×H×W,其中C'是B缩减后的通道数,N代表图像分类中的类别数。接下来将B转换变为B∈RC'×HW,同时将D经过softmax函数后变换得到D∈RN×HW,将B∈RC'×HW和D∈RN×HW的转置相乘通过softmax函数生成聚集所有类的相似性映射图X∈RC'×N,具体运算如式(1)所示:

其中:Bu,i表示特征图B第u个通道的第i个像素值,Dk,i表示特征图D第k个通道的第i个像素值,au,k表示Bu和Dk之间的类特征关联矩阵,xu,k∈X表示类之间的影响因子,u∈[1,2,...C'],k∈[1,2,...N]。

将X∈RC'×N和D∈RN×H×W相乘得到Y∈RC'×H×W,将其通过1×1卷积和A相加,最终输出的类增强特征图如式(2)所示:

其中,Fu表示表示输出特征F∈RC×H×W第u个通道,f(·)表示1×1卷积-BN-ReLU系列运算。式(2)显示每个通道的最终输出是类别特征注意图中所有通道基于类别的加权和,表示特征图之间基于类别的语义依赖,也就是提出的CFAM直接提高了类别级信息的感知和辨别能力。

2.3 改进的ASPP模块

在DeepLabv3+结构编码最后阶段,通过并行不同膨胀率的空洞卷积来增大卷积核的感受野,抵消一部分池化层带来的信息丢失,进而有效实现多尺度特征提取。虽然使用ASPP结构在一定程度上通过增大感受野提高了分割性能,但是空洞卷积存在卷积核不连续的缺陷。为了解决上述问题,本文结合混合扩张卷积[23-24](HDC)的思想将ASPP重构为MASPP。HDC的思想就是当使用多个空洞卷积时,需要设计各卷积核的膨胀率使其刚好能覆盖底层特征层。改进的ASPP模块如图5所示。基于ASPP模块,M-ASPP模块将不同采样率的空洞卷积串联起来,这样空洞卷积的空洞可以被覆盖,防止信息丢失。然后,对每个分支中不同采样率提取的特征进行融合,得到最终的特征图。

图5 M-ASPP结构Fig.5 Structure of the multi-parallel ASPP

2.4 通道注意力模块

CFANet在编码端集成了MASPP和CFAM模块。分别利用MASPP模块提取多尺度信息,CFAM模块提取类特征信息,能更好地提取底层细节。编码端不同尺度特征图之间重复的通道融合操作,会使最终的输出存在特征冗余现象,故利用FCA模块(图6)将拼接的特征图通过全局池化和最大池化沿空间维度压缩上下文特征,得到两个向量,然后将两个向量共享给全连通层和Sigmoid算子生成一个权重系数,将根据信息的重要性分配好的加权系数乘以原始特征,得到缩放后更有效的新特征,提高分割图重要特征的精度。运算过程可用式(3)表示:

图6 FCA结构Fig.6 Structure of FCA

其中:MLP是多感知层,σ是sigmoid激活函数,F是通道拼接后新的特征图。先分别进行一个全局平均池化和最大池化,得到两个1×1×C通道描述。

3 实验研究与结果分析

3.1 数据集和训练策略

本文网络的有效性和泛化性用Pascal Voc2012和Cityscapes数据集进行验证。Voc2012分割数据集包含21个类别,1 464张训练图片、1 449张验证图片和1 456张测试图片。我们通过对图像进行亮度增强、对比度增强、水平翻转和随机方向翻转扩展数据集得到增强版Pascal Voc2012数据集,共10 582张训练图像。Cityscapes是城市街景相关的语义数据集,包含50个城市和21个类别的5 000张图像,其中有2 975张训练集、500张验证集和1 525张测试集。这两个数据集都是图像语义分割任务中的重要数据库。

在对本文提出的算法进行网络训练和预测时,采用Pytorch框架,在Ubuntu16.04系统和Nvidia GeForce GTX1080Ti设备的实验条件下。网络输入图像的尺寸分别是512 pixel×512 pixel和768 pixel×768 pixel,批量大小设置分别为8和4,初始学习率设置为0.000 1,动量是0.9。

3.2 评价指标

针对本文提出的算法模型,使用语义分割中的标准度量MIoU(平均交并比)作为评价标准来验证网络的有效性,它反映了模型对每一类预测的结果和真实值的交集与并集的比值求和再平均的结果,IoU值越高,测量值与真实值的重叠越大,网络预测越准确,如式(4)所示:

其中,物体标签类别数量用k表示,k+1为加上背景以后的总标签类别,pij是指预测结果中将i预测为j的概率。在本文网络与其他不同网络性能对比的实验中,还使用了类别平均像素准确率(MPA)。

3.3 特征提取网络选取实验

为了探索不同特征提取网络对CFANet的影响并找到最佳特征提取网络,连续使用Mobilenetv2、Xception、ResNet34、ResNet50和 ResNet101等不同的骨干网络做了对比实验。获得的结果如表1所示。

从表1可以看出,Mobilenetv2达到了参数数量的最优值,但精确度最低,MIoU比最优值低7.21%。Xception的预测时间较长,参数量大,MIoU值也不优。ResNet34达到了预测时间的最优值,但其MIoU低于ResNet50,两者之间的差距较大。ResNet50的MIoU达到最优值80.34%,参数量虽大于Mobilenetv2,但各项对比综合来说最佳。ResNet101的参数数量和预测时间都比较大,其MIoU也低于ResNet50。因此,从综合的角度来看,使用ResNet50进行特征提取可以提供最佳的总体结果。

表1 不同基础网络的性能Tab.1 Performance of different base networks

3.4 消融实验

为了验证各模块对网络CFANet的影响及性能效果,在Voc2012增强版数据集上设计该实验。采用ResNet50作为主干模型,分别将本文提出的CFAM、M-ASPP和FCA模块添加到网络中进行实验并记录MIoU值,结果如表2所示。

表2 模块消融实验Tab.2 Module ablation experiment

从表2可以看出,MASPP模块比ASPP模块表现更好,MIoU结果比ASPP模块高了0.54%。类特征注意力模块的MIoU值高达78.83%,比不加该模块增加了1.24%,表明原网络中被忽略的类别特征信息得到了利用,有助于获得对对象类别信息更敏感的细粒度特征表示,增强网络的判别能力。总的实验结果表明,本文综合注意力机制提出的融合多尺度特征的模块能提升网络表征能力,对不同特征的语义信息进行更好的提取融合。

3.5 对比实验

为了验证本文设计算法的有效性,设计了两个对比实验,其一将本文算法与复现的经典网络对比;其二将本文算法与近年相关研究对比。表3记录了复现网络和本文网络改进前后的MPA值、MIoU值、预测时间值等网络性能的比较。由于SegNet忽略了图像的上下文信息,分类精度不理想。DenseASPP比其他方法具有更轻的网络结构,MIoU值比最优值低4.7%。虽然Deeplabv3+结合了多尺度信息,但预测时间最高且MIoU 值不是最优。ACFNet[25]结合了类注意模块,MIoU值达到了78.98%。本文所提出的CFANet取得了81.34%的最优MIoU值,比原来的Deeplabv3+提高了4.75%,MPA值也提高了2.95%,其参数数量和预测效率与其他方法相比处于中等水平。尽管它比其他模型稍大且效率较低,但分割结果更优。

表3 经典网络性能对比Tab.3 Classic network performance comparison

表4显示了近两年相关研究和本文算法的比较,可以看出,不管是在复现的经典网络还是近年研究中,本文算法在准确性方面达到了更优值。在实际应用中,不仅要考虑模型大小,还要考虑模型效率。因此CFANet在整体性能方面可以被认为是最好的。

表4 不同网络性能对比Tab.4 Performance of different networks

图7显示了本文提出算法模型的可视化划分结果。可以看出,CFANet在整体图像、边缘和细节上均优于原模型算法。本文网络利用不同注意力之间的特性探索不同像素之间的位置对应关系,空间细节特征增强和类别上下文信息的联合研究提高了平均交并比和平均像素精度,有效增强了图像边缘相同的目标特征,从而准确分割边缘目标。

图7 Voc2012数据集上每个模型的可视化结果Fig.7 Visualization results of each model on the Voc2012 dataset

3.6 泛化实验

为了进一步证明该算法的泛化性,在Cityscapes数据集上测试了改进前后网络对图像的分割效果,记录的MIoU值如表5所示。

从表5可以看出,绝大部分物体都得到了更好的分割精度,总的平均交并比相比于原模型提高了2.14%,进一步表明了该算法的普适和有用。从图7的可视化图片中可以更直观地发现,图中所有目标物均有了更精细的分割结果,并减少了意外的错误分类。如图8的第三行中黄色虚线圆圈内的物体被原模型错误分类为汽车,在本文模型中被正确分类。相较于原始网络,本文算法对图片的边缘和类别有了更准确的分割效果。

图8 在Cityscapes数据集上可视化结果Fig.8 Visualize the results on the Cityscapes dataset

表5 在Cityscapes数据集上的性能检测Tab.5 Performance testing on the Cityscapes dataset

以上实验表明,本文提出的实现类别语义信息补充的CFAM和多并行的ASPP模块以及保留重要特征FCA模块的效用均得到了验证,各个模块之间的联合学习可以更高效地使用目标区域中的信息并从中聚合特征,在一定程度上解决因局部特征提取不连贯所造成的大规模目标类内不一致和目标分割不完整、不清晰等问题。整个网络的特征细化过程最终将引导网络合理使用给定的特征,可以看出,我们的模型在整体、边缘和细节方面都优于原始模型。

4 结 论

为了使DeepLabv3+模型中图像边缘像素得到更清晰的呈现以及注意力信息得到高效利用,本文提出的基于类特征注意力机制融合的语义分割算法CFANet,通过增强特征的多样性和关键信息的捕捉来细化目标边缘像素和类别的高精度分割。在两个常用的数据集Pascal Voc2012和Cityscapes上对改进模型的有效性和泛化性进行了测试,平均交并比分别达到了81.34%和76.27%。实验数据和可视化结果均表明,本文设计的CFANet可以提供更多的语义信息来细化分割结果。虽然本文所提出的方法可以使图像达到很好的分割效果,但仍有改进的空间,本文没有考虑小对象分割的相关网络设计,因此,今后的工作将致力于对小目标分割进行相关研究。

猜你喜欢

类别注意力语义
让注意力“飞”回来
语言与语义
壮字喃字同形字的三种类别及简要分析
“扬眼”APP:让注意力“变现”
A Beautiful Way Of Looking At Things
“社会”一词的语义流动与新陈代谢
“上”与“下”语义的不对称性及其认知阐释
服务类别
多类别复合资源的空间匹配
中医类别全科医师培养模式的探讨