基于全局卷积神经网络的复杂图像语义分割方法∗

2021-02-26张晓娜

舰船电子工程 2021年1期

张丹柳爽张晓娜时光刘京

（1.91550部队第43分队大连 116023）（2.河北师范大学计算机与网络空间安全学院石家庄 050024）（3.海军大连舰艇学院教学考评中心大连 116018）

1 引言

高速图像处理在海军武器装备研发、试验和应用环节中的作用越来越重要，对图像处理精准度的要求也越来越高，目前海军的现状是高速图像处理能力不足，尤其是水下观测装备获取的视频图像、深度与照度数据等信息存在模糊、噪声大、对比度下降、颜色失真等诸多问题，难以适应日益发展的武器试验鉴定需要，严重影响装备效能的发挥。而基于生物视觉计算的端到端多尺度神经网络复原技术是解决图像模糊、噪声等问题的有效手段。

图像语义分割是计算机视觉方向中的研究热点之一［2］，在各领域都有着广泛的应用，例如真三维显示、无人驾驶以及辅助医疗等领域都起着举足轻重的作用［3］。近年来，随着深度学习的快速发展，卷积神经网络（Convolutional Neural Network，CNN）逐渐成为图像分割领域中的核心方法，越来越多的研究者基于此提出不同的语义分割神经网络模型［4］。但是，深入研究当前所使用的语义分割方法后发现在分割领域仍存在着众多难题。例如，现有分割方法对于复杂图像的分割中存在几何特征缺失、纹理特征不明显等问题。分析原因为受周围环境的影响，图像中所属同一类别物体，像素值差异过大，造成过分割；图像中不同类别之间的像素值差异过小，将不同类别的物体分割成同一类别物体，造成欠分割。如图1（a）、（b）中白色框所示，水中的鱼与背景石头的颜色纹理相似，导致分割时将石头错分为鱼，此为过分割现象；如图1（c）、（d）中白色框所示，分割目标鱼与背景水草的颜色像素值相近，造成鱼尾部分分割不完全，此为欠分割现象。本文提出基于全局卷积神经网络的复杂图像语义分割方法，有效解决复杂图像分割过程中的欠分割和过分割问题。本文的创新点如下。

图1 过分割、欠分割示意图

1）提出多尺度残差空间金字塔池化模块（R-ASPP），通过加入残差块结构，增强在金字塔顶端获取到的几何特征，以及在金字塔底端获取到的纹理特征。在获取多尺度特征的同时，也获得更为丰富的几何和纹理特征，从而可有效避免因像素值差异过大或者过小造成的过分割和欠分割问题。

2）提出基于注意力机制的解码器模块（AT-Decoder），将低层次细节特征信息和高层次语义特征信息有效融合在一起。由于在复杂图像中，存在着细小物体的分割问题，随着网络的深入，这些物体往往易被错分。在解码器端得到全局信息，可尽可能多地保留细小物体的几何和纹理特征。因此，基于注意力机制的解码器模块也可有效避免分割过程中出现的过分割和欠分割问题。

2 相关工作

近年来，卷积神经网络在图像语义分割任务中的作用举足轻重。Long等［5］经过长期的研究和分析，在深度卷积神经网络（Deep Convolutional Neu⁃ral Network，DCNN）的基础上提出了全卷积神经网络（Fully Convolutional Network，FCN）。FCN网络使用双线性插值的反卷积进行上采样，使卷积池化后提取到的特征恢复为原输入的相同大小。因此，FCN网络可以接受任意大小的输入图像。此外，FCN网络中还采用了跳远连接，改善了由上采样造成的特征粗糙问题，有效提高了基于区域的分割精确度。FCN的出现为图像语义分割方法的研究提供了新思路。

Badrinarayanan等［6］在 2015年提出了基于编码-解码框架的SegNet网络模型。虽然SegNet网络中的多层最大池化和下采样操作因其平移不变性可以在分割任务中有较好的鲁棒性，但却导致了特征图大小和空间信息的损失。因此，SegNet在解码过程中采用最大池化层指数，有效改善了低分辨率问题。其次，为了获得更多的全局信息，SegNet加深了网络层数。但由于SegNet上采样的层数较多，因此，计算效率与FCN相比并不高。

在语义分割网络中，池化操作虽然增大了感受野，但同时也降低了特征图的分辨率。因此，Fish⁃er Yu等［7］提出空洞卷积（又名扩张卷积，Dilated Convolution）。空洞卷积向卷积层中引入了一个称为“扩张率”的新参数，该参数定义了卷积核处理数据时各值的间距，在不降低空间维度的前提下增大了相应的感受野指数。但其卷积结果之间没有相关性，易造成局部信息丢失，从而影响分割结果。

Google团队提出的Deeplab系列不断提升分割精度，Deeplabv1网络［8］通过结合深度卷积神经网络的最后一层响应和一个全连接条件随机场（CRF）来解决深度网络的定位效果差问题。Deep⁃labv2［9］网络提出了在空间维度上的金字塔型空洞池化模块（Atrou Spatial Pyramid Pooling，ASPP）。ASPP由不同扩张率的空洞卷积组成多尺度处理模块，从而得到更为精确的分割结果。Deeplabv3［10］网络改进了ASPP模块，增加了1×1卷积和全局平均池化部分，引入了全局特征。随后，2018年提出的 Deeplabv3+［11］网络在 Deeplabv3 的基础上，通过增加简单有效的解码模块精细分割结果，尤其在分割物体的边界部分，分割效果有明显改善。此外，Deeplabv3+中进一步使用Xception模型和深度可分卷积（Depthwise Separable Convolution），并且结合ASPP和一个简单的解码模块得到一个更快、更强的编-解码网络框架，但计算量也随之增大。

Zhao等［12］提出的PSPNet在FCN算法的基础上通过全局均值池化操作（Global Average Pooling）和特征融合操作，从而引入更多的上下文信息。此外，还引用基于ResNet的深度监督网络添加辅助代价函数，在整个网络中两个代价函数共同优化权重等参数，加快了模型的收敛速度，实现了更为精准的分割结果。

Fu等［13］在2019年提出了一种双重注意力网络（DANet）来自适应地集成局部特征及其全局依赖关系。DANet网络使用位置注意力模块来学习特征的空间相互依赖性，并设计通道注意力模块来模拟通道相互依赖性。DANet网络通过在局部特征上建模丰富的上下文依赖关系，显著改善了分割结果。

综上，使用深度学习的图像语义分割方法在分割任务中都有较好的表现。但由于分割场景的复杂多样性，并不能在每个场景中都达到较高的精度［14］。基于上述相关工作，本文提出基于全局卷积神经网络的复杂图像语义分割方法，以有效解决在复杂街景图像分割过程中，出现的欠分割和过分割问题。

3 复杂街景图像的语义分割方法

现有图像分割方法对于复杂图像数据的分割还存在着许多不足之处。首先，由于DCNN的局限性，在低级特征图中的语义信息相对较少，但可以准确地表示出对象的位置信息；在高级特征中语义信息丰富，但对于位置信息表现不突出。因此，在复杂图像分割的过程中，易出现分割物体的几何、纹理信息缺失，即造成过分割和欠分割现象。

针对上述问题，本文提出了基于全局卷积神经网络的复杂图像语义分割方法。网络结构示意图如图2所示，网络整体为编码-解码框架，其中编码模块中主要包括DCNN部分和R-ASPP部分，解码模块中主要包括AT-Decoder部分。DCNN可以有效提取到包含位置信息的低级特征，R-ASPP可以最大程度上提取到包含几何和纹理信息的高级语义特征，AT-Decoder可以有效融合低级位置特征和高级语义特征，最后进行4倍上采样还原为原输入图像大小。网络的关键层如表1所示。

图2 网络示意图

表1 Key layers of the network

在图像语义分割网络中，输出图像的大小要和输入图像的大小一致，但网络中的池化操作往往在增大感受野的同时降低图像的分辨率。通常，网络中采取的方法大多数为上采样操作（Upsample）。但是，上采样操作无法还原由池化操作导致的一些细节信息的损失。为了减小这种损失，Fisher Yu等［6］提出了空洞卷积，其公式为

通过空洞卷积操作所得到的某一层的结果中，邻近的像素是从相互独立的子集中卷积得到的，相互之间缺少依赖以及局部信息丢失而易产生网格效应，如图3所示。这对于基于像素级的语义分割任务来说是一个巨大的挑战。

图3 空洞卷积出现的网格效应

Goolge 团队提出的的 Deeplabv3+［11］方法中ASPP模块可尽量避免由空洞卷积产生的网格效应。ASPP在特征顶部到底部映射过程中包含五个分支，其中包括四种不同采样率的空洞卷积和一个全局平均池化分支。不同采样率的空洞卷积可以有效捕获多尺度信息，并利用全局平均池化获取全局信息。

通常，图像语义分割网络的解码器端得到的为高级语义信息，即图像的几何和纹理信息，可为得到精确图像分割结果提供有效帮助［15］。为了获得足够的高级语义几何和纹理信息，基于ASPP模块，本文提出了R-ASPP方法，在除全局平均池化分支外的四个空洞卷积分支中分别加入了残差块，每个残差块由普通的3×3卷积和跳远连接构成。R-ASPP结构图如图4所示。其中，Dfm为DCNN的输出特征图，fm1、fm2、fm3、fm4、fm5为每个分支特征图的输出，fm11、fm21、fm31、fm41为四个分支中中间层特征图的输出，Fa为R-ASPP部分的输出。

图4 R-ASPP模块结构

在R-ASPP中包含五个不同尺度特征图的输出，不同尺度的特征图具有不同的特征。在R-ASPP中，最大的特征图fm5上可以获得更多关于小目标物体的边缘信息，fm4包含更多的轮廓信息，从fm3到fm1包含更多的全局信息。因此，R-ASPP可有效获取整个网络中高层次的语义信息。

在深度学习卷积神经网络中，设计解码器模块常用于在网络中所学到的图像特征大小和维度的恢复，以得到与原输入图像大小相同的分割图像并恢复目标分割细节［16］。为更好地恢复更多的目标分割细节，本文提出了基于注意力机制的解码器模块（AT-Decoder）。具体网络结构如图5中所示，图5（a）为AT-Decoder的总体结构，其中基于高级语义特征的通道注意力模块（Channel Attention）结构如图5（b）所示。

图5 AT-Decoder模块结构

AT-Decoder模块由三个分支组成，分别为DF、DC和DD分支。第一个分支DF的输入为在解码器中DCNN学到的细节及位置信息，使用3×3卷积操作构造空间注意力突出重要的细节位置特征。

第二个分支DC的输入为解码器DCNN的输出DFa和解码器最后的输出DDfm两个特征在通道维度的拼接。该分支考虑有效融合低级细节信息和高级语义信息，经过3×3卷积提取到包含准确位置信息和完整的几何、纹理信息特征。

第三个分支DD的输入为编码器模块的输出，即高层语义特征DDfm。为了保留更多的语义信息，在解码器中设计了基于通道的注意力模块，目的在于关注特征图通道之间的关系，如图5（b）所示。该模块由两个子分支构成，分别为平均池化和最大池化分支。平均池化可以通过全局描述特征，对特征图中的每一个像素点都有反馈，而最大池化在进行梯度反向传播计算时，只有特征图中响应最大的像素点有梯度的反馈，从而可以作为一个补充［17］。随后，在平均池化和最大池化后补充［17］。随后，在平均池化和最大池化后边各加入全连接层，分别融合各通道的特征图信息，最后，两个子分支进行融合，从而得到更加关注信息量最大的通道特征。

其中，H×W表示特征图大小，DDfm1为全局平均池化，DDfm3为最大池化，wDDfm表示全连接。

4 实验验证

4.1 数据集介绍

本文所提出的图像语义分割方法可以应用于水下图像分割中，并在实际拍摄获取到的水下图像数据集SUIM中进行了分割验证。该数据集包括1525张训练图像和110张测试图像，其类别包括人类潜水员、水生植物、珊瑚礁等多种类别。

此外，本文方法还在公开的街景数据集Camv⁃id以及Cityscapes进行实验验证。Camvid数据集由剑桥大学标注，其中包括367张训练图像和233张测试图像，包含道路、建筑物、汽车、行人等11个类别［23］。图像中的场景涉及白天和黄昏，可对本文方法进行进一步的检验。

Cityscapes数据集在2015年由奔驰公司推动发布，是目前公认的计算机视觉领域内最具权威性和专业性的图像语义分割评测数据集之一。Cityscapes关注于真实场景下的城区道路环境理解，任务难度更高且更适合于评估视觉算法在复杂街景语义理解方面的性能。Cityscapes数据集包含50个城市不同场景、不同背景、不同季节的街景，其提供5000张精细标注的图像、20000张粗略标注的图像、30类标注物体。Cityscapes数据集共有fine和coarse两套评测标准，前者提供5000张精细标注的图像，后者提供5000张精细标注外加20000张粗糙标注的图像，本文中采用fine评测标准。

4.2 评价准则

语义分割中的最重要的评价指标为平均交并比（Mean Intersection Over Union，MIoU），其通过计算真实值（Ground Truth，GT）与预测分割结果之间的交并比对本文提出的网络模型进行评估。交并比IoU基于每个类别计算，所有类别的IoU求均值即为MIoU，公式如下：

其中，k表示类别数量，i表示真实值，j表示预测值，pij表示将 i预测为 j。

4.3 实验结果

本文所提图像语义分割方法可应用于水下图像分割领域中，在SUIM数据集中的可视化分割结果如图6所示。其中，第一列为原始图像，第二列为Ground Truth，第三列为本文方法分割结果图像。由此可见，本文方法对于水下图像的分割表现优异，对于前后背景混淆物体类别以及细小结构物体类别的分割都较为完整。除此之外，本文的网络模型还可以应用于水下目标追踪中，并在200帧的水下视频数据中进行目标跟踪实验，可视化结果如图7所示。按照从左至右的顺序分别：第1帧的分割结果、第36帧的分割结果、第73帧的分割结果、第105帧的分割结果、第140帧的分割结果以及第188帧的分割结果。本文所提方法可以准确的跟踪分割水下图像中的球形物体。

图6 在水下图像SUIM数据集中的可视化分割结果

图7（a）组分割图像为过分割效果示意图。其中，每个图像中颜色框中物体本所属一类或多类物体，但由于物体本身的像素值与周围物体的像素值差异过大，出现过分割为两类或多类物体的现象。图（b）组分割图像为欠分割效果示意图。其中，每个图像中的颜色内物体由于与周围物体的像素值差异过小，将不同类别的物体欠分割成同一类别物体，造成少分现象。从图6可视化结果中可看出，本文所提方法针对复杂图像分割过程中出现的欠分割和过分割问题有明显改善。

图7 网络模型应用于水下图像目标跟踪的可视化分割结果

表2 在Camvid数据集中与其他方法的对比

此外，为了验证基于全局卷积神经网络的复杂图像语义分割方法对于复杂图像数据的有效性，本文试验数据采用Camvid数据集和Cityscapes数据集。Camvid数据集训练样本数较小，Cityscapes数据集训练样本数较大，本文在两个数据集上分别进行试验，以证明网络方法的鲁棒性和准确性。在Camvid数据集上对比于其他方法的结果如表2所示。从表2中所示的IoU值可以看出，本文对比当前主流方法Deeplabv3+精度提高1.2%。因此，本文方法对于改善小分辨率图像中存在的欠分割和过分割问题有良好的性能。

Cityscapes数据集中所包含的图像分辨率较大，图像大小为1024×2048，所包含物体类别21类。在Cityscapes数据集上本文方法对比于其他方法的结果如表3所示。如表3中所示，本文的方法比较于Deeplabv3+高了1.3%。

表3 Results of semantic segmentation by different methods on Cityscapes dataset

5 结语

本文针对复杂图像分割过程中，出现的欠分割和过分割问题，提出了一种基于深度学习的全局卷积神经网络模型，其中包括多尺度残差空间金字塔池化模块和基于注意力机制的解码器模块。实验结果表明，本文提出的方法具有鲁棒性强、分割效果较好等特点，不仅适用于Camvid的小型数据集，对于Cityscapes大型数据集的分割效果也有明显改善。虽然取得了一定进展，但本研究仍存在不足与提升空间，因此，下一步的研究方向是寻求对复杂图像进行更高效、快速的分割。