基于深度学习的遥感影像语义分割研究

2023-08-23柏洁馨汤泊川

电子制作 2023年14期

柏洁馨，汤泊川

（1.新疆大学软件学院，新疆乌鲁木齐，830046；2.新疆大学软件工程重点实验室，新疆乌鲁木齐，830046）

0 引言

语义分割为图像的每个像素分配语义标签，是像素级的分类任务。在遥感领域，语义分割也称为土地利用和土地覆盖类型的分类，在遥感的智能解译中起着重要作用，并为许多遥感应用提供了基础，例如土地资源管理[1]、城市规划[2]等。

传统的图像分割方法根据图像的颜色、空间结构和纹理信息等特征进行处理分析。随着GPU的飞速发展，深度学习在许多领域实现了相当大的突破，凭借其强大的特征表达能力和数据拟合能力，许多不同类型的深度学习模型被广泛应用于语义分割任务[3]。例如，Long提出了一种可以接受任意尺寸图像输入的全卷积网络(FCN)[4]。Zhao提出的 PSPNet[5]使模型能够考虑更多的全局上下文信息，并促进多尺度特征的融合。与PSPNet类似，由Chen提出的DeepLab V3+[6]网络也考虑了更多的上下文信息，具有更高的分割精度。近年来注意力机制也被应用在遥感图像语义分割领域[7]，它属于一种优化策略。受上述网络的启发，我们提出了一种结合注意力机制和多并行空洞空间金字塔池的网络SMANet，用于高分辨率遥感图像的自动解译。

1 本文方法

■1.1 SMANet结构

本文网络整体设计采用编码器-解码器结构，如图1所示，上部表示编码结构，下部表示解码结构。在网络编码阶段采用ResNet50 作为主干网络，编码部分特征提取被划分为四个阶段，由于过多的下采样操作会导致像素信息的丢失，故将Stage4阶段的所有3×3卷积替换为空洞率为2的空洞卷积，使图像只下采样到原图的1/16，减少图像像素损失的同时增大网络的感受野。另外增加了注意力模块及条形池化模块，以增强网络对小目标物体及条带状目标物体的关注度。最后通过多并行空洞空间金字塔模块MASPP(Multiparallel atrous spatial pyramid pooling)获得的特征图可用于提取有关类别和空间上下文的更详细信息。由于连续上采样会导致目标物体信息的细节丢失，因此在解码阶段本文将多个尺度的特征图融合，以确保保留目标的局部细节特征。最后，将融合后的特征经过双线性插值上采样到原图大小，再通过SoftMax分类器进行分类，得到最终分割结果。

图1 网络整体结构图

■1.2 条形池化模块

在遥感图像中的道路和水体是窄的、条带状的细长区域，具有方形核形状的传统池化层忽略了线性特征的建模。相比之下，条带池更符合这些条带状目标的形状，它利用长而窄的内核来捕获道路区域中的长距离依赖性，从而增强CNN模型中线性特征的嵌入，因此本文引入了由SPNet[8]提出的条形池化模块SPM。

SPM使用具有长但窄的内核形状的多个条带池层，从水平和垂直方向捕获多尺度长距离上下文。与全局平均池化相比，条形池化关注的是长而窄的范围，而不是整个特征图，从而避免了在相距很远的位置之间建立不必要的连接。但如果将网络中的所有Pooling操作全部换成Strip Pooling操作，则会导致原来的非长条物体的效果变差，且SPM为轻量级模块，因此将SPM添加到主干网络每个阶段中最后一个构建块的3×3卷积层之后。

图2 SPM模块结构图

图3 MASPP模块结构图

图4 CBAM模块结构图

■1.3 多并行空洞空间金字塔池化

空洞空间金字塔池化（ASPP）是DeepLabv2[9]提出的一个模块。它的结构由不同空洞率的并行空洞卷积组成，不同空洞率下的空洞卷积感受野也不同，因此ASPP可以准确有效地识别任何尺度的信息。DeepLabv3[10]的工作表明，并行结构比顺序结构执行得更好。但ASPP模块和PSPNet[5]中的SPP模块都没有注意到它们在不同规模输出上下文中的层次依赖性。本文在在ASPP模块的基础上提出了MASPP模块，将不同空洞率的空洞卷积串联起来，从而弥补空洞率过大造成的信息丢失。聚合分层信息的方式是从全局到局部，较大区域的上下文信息用于帮助提高较小上下文中的准确性，这样的结构可以充分利用多尺度上下文的层次依赖性。原ASPP空洞率分别为6、8和12，限制了信息尺度的丰富性，并忽略了小对象的识别和检测。因此本文将空洞率设为1、3、5，以保证大小目标都获得关注。然后，将MASPP模块的并行输出结果按卷积核从大到小的顺序进行融合，融合的结果与经过1×1卷积的编码器特征映射相乘。最后，利用全局平均池化生成具有全局上下文的权重向量，以帮助选择关键特征。

■1.4 注意力模块

低层特征映射包含了大量的细节信息，如形状、边界、面积等，而高层特征映射提取了更多的语义信息，可以对像素进行分类。为了使模型能够聚焦于分散的目标，在编码阶段，加入CBAM模块[7]。主要包括两个部分：通道注意力和空间注意力。首先，为输入特征映射建立通道注意模型，对输入的特征图做全局平均池化和全局最大池化，每个通道的权重通过自学习自动获得，再将输出结果与输入的特征图相乘，得到一个通道注意特征映射。然后，进行空间注意建模，并将上述通道注意特征图作为输入进行空间卷积运算，获得特征图上不同空间位置对应的注意权重。最后，将通过空间和通道混合注意机制处理的特征图乘以输入的通道注意特征图，进行自适应特征细化。在训练和预测过程中，该模型能够更好地聚焦于遥感图像中最重要的特征通道和空间位置，从而提高了模型的检测能力。

2 数据集和评价指标

■2.1 数据集详细信息

本文选用公开数据集进行实验。

使用到的数据集是武汉稠密标记数据集（Wuhan dense labeling dataset,WHDLD)。该数据集是对武汉市区的一副大型遥感图像裁剪得到的，可用于多标签任务，每个图像的像素都被手动标记为建筑物、人行道、植被、道路、水以及裸露的土地这六类。该数据集分别有4940张大小为256×256的原图和标签，我们将数据集按9:1的比例进行随机划分，得到4446张图像作为训练数据集，494张图像作为测试集。

■2.2 评价指标

在实验中采用平均像素精度（mPA）、平均交并比（mIoU）这两个主流评价指标来评估模型的好坏。mPA计算每个类内预测正确的像素数目比重，之后求所有类的平均数，如公式（1）所示；MIoU 表示模型计算预测得到的标准图像与人工标记的图像交集与并集之比,如公式（2）所示。

TPc表示正确预测的正样本的数量，FPc表示错误预测的正样本像素数量，TNc表示正确提取负样本像素的数目，FNc表示遗漏的负样本的的像素数目，N表示类别的数量，c表示特定类别。

3 实验与结果分析

■3.1 实验平台及实验参数设置

本实验操作环境为64位Windows 10，采用 Pytorch深度学习框架，编程语言为Python3.8,通过 NVIDA 2080TI 11GB GPU 进行加速，测试及训练都在该平台上进行。使用ResNet50 预训练权重、采用ReLU激活函数以及交叉熵损失函数对网络进行训练，使用Adam优化器进行网络梯度的更新，权重衰减设为2×10-5，迭代次数设为180，学习率衰减设置为（1-（cur epoch/max epoch））0.9，批处理大小设置为8。

■3.2 消融实验

为了验证提出模型的有效性，在WHDLD数据集上分别对MASPP模块、SPM模块及CBAM模块进行消融实验。

如表1，模型一是以Resnet50为主干网络的DeepLabV3+模型，评价指标mIoU仅有61.51%；引入SPM模块后mIoU提高了0.51%，表明SPM模块对条带状结构物体预测性能的提升；添加MASPP模块后mIoU较模型1又提高了1.91%，表明该模块捕获多尺度上下文信息的有效性；模型4添加了CBAM注意力模块后mIoU又比模型3有了0.25%的提高，表明该模块能够较好地聚焦于遥感图像中最重要的特征通道和空间位置，从而提高模型的检测性能。同时添加该三个模块后 mIoU 比基线模型提高了2.67%，充分证明了本文所提出方法的有效性。

表1 消融实验结果

■3.3 对比实验及结果可视化

为了进一步验证本文提出的 SMANet网络模型的有效性，我们选择了一些语义分割方面经典且有效的网络进行对比实验，有FCN[4]、PSPNet[5]、DeepLabV3+[6]、SPNet[8]和SegNet[11]，另外，近两年兴起了基于Transformer模型的网络，我们也对其进行了对比实验，如CSWin Transformer[12]。为保证实验的公平性，统一部署在相同环境中进行训练和测试过程，且所有图像尺寸和实验参数设置都保持一致。

WHDLD数据集对比实验：为了验证网络复杂场景的分割效果，故在WHDLD遥感图像数据集上进行对比实验，结果如表2所示。因为该数据集图像的亮度较暗，导致所有网络在此数据集上的分割性能都有下降。从表2可以看出，经典的SegNet[11]网络在该数据集上的mIoU精度仅达到了42.14%，虽然我们的mPA没有取得最好的验证结果，但是我们的mIoU值比效果次好的CSWin-B网络高出了2.88%，比SegNet网络的mIoU精度高了22.04%。

表2 WHDLD数据集对比结果

4 结束语

本文提出了一种基于ASPP改进并结合注意力机制的语义分割神经网络，用于在遥感图像上执行图像语义分割任务。对于遥感图像中大类内方差和小类间方差的特征，将空间和通道注意机制引入模型中以引导模型关注更有价值的特征。提出了一个MASPP模块，以帮助模型从全局到局部细化对象细粒度信息。实验结果表明，本文所提出的网络与现有网络对比能够提升一定的分割精度。未来工作计划在提升精度的同时降低计算量，采用轻量级的网络结构，加快模型训练速度，以更好的应用在实际工作中。