基于双注意力机制图像分割模型的研究

2021-04-20李红

电子技术与软件工程 2021年3期

李红

（东北大学理学院辽宁省沈阳市 110819）

1 引言

图像语义分割是AI 领域中一个重要的分支[1]，是机器视觉技术中关于图像理解的重要一环。语义分割是根据一些特征把图像划分成若干个互不相交的区域，使得这些特征在同一区域内表现出明显不同。由于深度卷积神经网络（DCNN)[2]的迅速发展，基于深度卷积网络的图像语义分割技术因其不仅可以实现端对端的训练，而且能获得更准确的结果的优点，引起了各界学者们的广泛关注。

从全卷积神经网络(FCN,Fully Convolutional Networks)的出现开始，图像语义分割任务的主要方法也逐渐变成了卷积神经网络。PSPNet 通过聚合多种尺度特征从而获取更多感受视野信息，并在网络中添加了附加损失，提升了算法对场景解析和语义分割的能力。Deeplab v2 算法则是使用空洞金字塔池化网络结构避免下采样并且取得多感受视野信息。SegNet 模型则是使用最大池化定位从而快速并准确的位置信息。而Dilated -Convolutions 可以不通过池化层也能达到增大感受野的效果。RefineNet 则改进编码解码结构，通过上采样方式融合底层和高层语义特征。残差注意力网络(ResNet)通过堆叠残差注意力模块来使网络能够更深，其通过修饰特征图可以更好地优化和学习，不仅对噪音具有很高的鲁棒性，而且具有很高的准确率。

双重注意力机制（DualAttention）对ResNet 进行了改进，将最后的下采样取消，采用空洞卷积来达到即扩大感受野又保持较高空间分辨率的目的，然后进行两个并行的位置注意力机制和通道注意力机制操作，最终将两个模块的结果进行element-wise 操作。为了解决缘分割不均匀远距离像素类别之间的关系不能得到充分利用的问题，本文在原有的双注意力机制模型中引入了边缘增强模块，解决网络在相近的类别分割不准确和边缘区域无法提取弱特征的问题。在原有的损失函数上进行改进，采用了一个新的损失函数，能很好的调节类别不平衡问题，对于相近的类别和小的物体有更好的区分度，提高训练的准确度。

2 改进工作

首先将图像输入到改进的ResNet 中，生成的特征映射的大小为原图的1/8，然后将结果分别输入到两个注意力模块中去，然后将两个模块的处理结果进行整合。该模型较之前提出的一些机制相比提升效果比较明显，但是仍存在以下两点局限：一是边缘特征处理的比较粗糙；二是采用了简单的损失函数，忽略了小物体对整体分割的影响。

表1：不同模型在Cityscapes 上的分割效果

2.1 边缘模块

图像边缘特征是图像最基本的特征之一，往往携带着一幅图像的大部分信息，一幅图像的边缘结构与特点往往是决定图像特质的重要部分。由此我们引进了一个包含3 个卷积层的边缘增强模块，它由16→32→2 通道和ReLU 激活组成(除了最后一层，它有SoftMax 激活)。增加模块之后的整体框架如图1 所示，该模块可以加强边缘特征的提取，更有利于接下来的分割工作。

图1：改进后的整体框架

2.2 损失函数

交叉熵损失函数逐像素对比了模型预测向量与one-hot 编码后的groundtruth，多分类分割的交叉熵损失函数公式如下：

由此可以出来，预测分布越接近真实分布，反之亦然。交叉熵损失函数易于理解，但忽略了同类样本（像素）在样本空间的数量比例。随着样本数量的增加，新数据点的带来的好处会减少。新添加的样本极有可能是现有样本的近似副本，所以我们对交叉熵损失函数Lce乘以一个样本系数来调节。

其中ny表示在真实类y 中的样本数量。另外，从数学形态学[2]操作得到启发，为了解决边缘粗糙的问题，我们试着在公式（2）中增加距离加权项，即在边缘不同的像素点在损失函数中获得很大的权重，即得到如下公式：

本文中ω0=10，σ=5，β 是超参数，n 为有效样本数量，d1表示某个像素点到最近区域边界的距离，d2表示某个像素点到第二近的区域边界的距离。

3 实验

3.1 实验方法

本文的编程语言采用Python 3.6，PyTorch 作为深度学习框架。操作系统为Ubuntu16.2，cuda 版本是10.2，采用了poly 学习率策略，Cityscapes 数据集的基本学习率设置为0.01，动量和重量衰减系数分别为0.9 和0.0001。我们用同步BN 来训练我们的模型。使用随机梯度下降法SGD[3]优化损失函数。训练中，每次输模型的batch size 设置为16，epoch 设置为240。

3.2 数据集

cityscapes 数据集拥有从50 个不同城市捕获的5000 幅图像。每幅图像像素为2048×1024，具有19 个语义类的高质量像素级标签。训练集中有2975 幅图像，验证集中有500 幅图像，测试集中有1525 幅图像，是图像语义分割任务中的重要数据库，我们在实验中不使用粗糙的数据。

3.3 衡量标准

衡量算法优劣的指标并不唯一，本文仅采用平均交并比（MIoU）作为算法性能的指标。平均交并比（MIoU）就是真实值和预测值的交集与并集的比值在每个类上求平均值。

3.4 结果分析

β 的选取：上式中β 为一超参数，选取适合的β 值可以重新加权之间的类平衡项。本文验证集为500 张图片，而N 代表有效样本数量，即N=500，根据可得β=0.998，而损失函数（3）中是由两项组成的。为了消除BaseNet 对网络的影响，如表1，本文选取的同BaseNet-Resnet101[4]在同一cityscapes 数据集上进行训练。

全局卷积滤波器进行上下文信息聚合，简写为“+GCN”；金字塔池化法(Pyramid pooling)是捕获全局上下文信息的简单而有效的方法，简写“+PSP”；使用不同的扩张卷积[5]来获取不同范围的像素上下文信息，为“+ASPP”；对于本文改进后的模型训练的MIoU 比原来分别提高了约2.96%。这代表了改进后的损失函数与边缘模块的有效性。

如表1 所示，本模型由于考虑了分割图像中的类别之间的不平衡关系，添加了边缘增强模块这一部分，引进损失函数距离调节项，对于边缘和小物体的分割，取得的效果比较好。改进后的双重注意力分的图像语义分割模型颇为有效，这是由边缘特征和相似类间距离这两个因素对于图像分割的重要决定的，因此能够更好地理解图像中的内容。