基于DeepLabv3+的高分辨率遥感影像建筑物自动提取

2022-08-08于明洋张文焯陈肖娴刘耀辉

测绘工程 2022年4期

于明洋,张文焯,陈肖娴,刘耀辉,2

(1.山东建筑大学测绘地理信息学院,济南 250101; 2.河北省地震动力学重点实验室, 河北三河 065201)

基于高分辨率遥感影像的建筑物自动提取对灾害预警与处理、城市发展与规划、智慧城市建设等意义重大[1]。近年来，随着遥感影像分辨率的提高，使得建筑物的光谱特征更加明显，为提取的信息建筑物提供更加丰富的语义、纹理特征，同时也会导致干扰和冗余信息的增加，建筑物高精度自动提取是一项具有挑战性的研究。早期的建筑物提取方法大多利用手工提取的特征作为判断依据，包括基于边缘检测的方法[2]和基于影像特征的方法[3]。李巍岳等[4]利用数学形态学对Sobel算子检测的轮廓进行修正，提高建筑物提取的准确率。王丹[5]将Canny算子与区域分割、区域生长相结合，有效提取建筑物的边缘信息。林雨准等[6]基于影像的光谱、形状等特征，引入多尺度分割、形态学建筑物指数的思想进行建筑物的分级提取。Huang等[7]通过构建多尺度城市复杂指数整合不同窗口的多尺度信息，进行不同场景下的建筑物几何特征的提取。此外，诸如支持向量机SVM[8]、boosting[9]、随机森林[10]和条件随机场(CRF)[11]等优秀的机器学习分类器也被用于建筑物的提取。以上方法很大程度上依赖于特征选取和参数选择，在实际应用中有一定的局限性。

随着计算机算力的快速发展及可用数据源的增加，深度学习技术，特别是卷积神经网络(Convolutional Neural Networks, CNN)已经成为自然语言处理、语义分割等领域的强大工具。CNN可以从输入的图片信息中自动学习语义信息，并通过顺序连接的卷积层得到输出结果。相比于传统的机器学习方法，深度学习这种自我特征学习能力可以解决更为复杂的问题。诸多学者利用VGGNet[12]、GoogleNet[13]、ResNet[14]等CNN模型进行相关研究，效果优于传统的机器学习方法。然而，CNN网络的全连接层会将特征图处理为固定长度的输出向量，并以数值描述的形式进行结果输出[15]，所以适合于图像级的分析和回归任务，但并不适合于建筑物提取的这类语义分割任务。

2015年，Long提出全卷积网络(Fully Convolutional Network, FCN)进行语义级别的分类。FCN在卷积层后连接上采样层对特征图进行处理，可以在最大程度上保留原始影像的空间信息[16]，随后涌现了一批以FCN为基础架构的语义分割网络。Ronneberger等[17]提出具有对称编码结构的UNet方法，UNet方法通过跳跃连接的方法来融合图像的多尺度信息，提高图像分割精度。Badrinarayanan等[18]提出的SegNet方法设计卷积配合池化的编码器和反卷积加上采样的解码器，从而提升边缘刻画度并且减少训练的参数。DeconvNet[19]在每一个卷积和反卷积层后都连接批归一化层(Batch Normalization, BN)，同时在上采样前采用全连接层(Fully Connected Layers，FC)作为中介，增强了对类别的区分。Chen等[20-22]提出的DeepLab模型用概率图模型优化分割结果，同时在卷积操作中设置扩张率扩大感受野[23-24]。DeepLabv3+作为该系列模型的最新改进，使用更深的网络。DeepLabv3+设计融合层特征和高层特征的编码-解码结构(Encoder-Decoder)，获取更加丰富的影像特征图。同时，在空洞空间金字塔池化(Atrous Spatial Pyramid Pooling, ASPP)中加入了BN层，更高效从多个尺度聚合影像语义信息。此外，DeepLabv3+在ASPP和Decoder中都应用深度可分离卷积简化模型参数并提高计算效率[22]。作为Google公司标志性的分割模型之一，在Cityscapes等数据集上有着良好的分割效果和精度优势，但是较少在影像建筑物分割场景中使用。

文中提出一种遥感图像建筑物自动提取架构，以DeepLabv3+为网络，利用公开建筑物数据集(WHU Building Dataset)[25]进行建筑物提取研究，并与其他算法包括机器学习方法(SVM、K-Means、KNN、CART)和深度学习模型(U-Net、SegNet、PSPNet)进行精度对比，为高分辨率遥感影像建筑物高精度的自动提取提供借鉴。

1 研究方法

1.1 建筑物自动提取架构设计

文中研究的建筑物自动提取架构，主要包括数据处理、模型训练和建筑物自动提取3部分，流程图如图1所示。

图1 建筑物自动提取架构流程

1.2 DeepLabv3+网络架构

DeepLabv3+利用DCNN+ASPP进行影像特征提取，得到经过DCNN的低层特征图和经过ASPP的高层特征图，搭配连接高-低特征图的Decoder部分通过concat函数融合高、低层特征信息，得到特征高级且语义丰富的特征图，经过上采样恢复特征图大小得到建筑物分类结果。ASPP与Decoder的结合可以在捕获多尺度信息的基础上有效融合低层与高层信息，提高图像分割精度[26]。其网络结构如图2所示。

图2 DeepLabv3+模型结构

Encoder中为了获得空间分辨率更高的特征图，选用带空洞卷积(Atrous Convolution)的DCNN作为特征提取网络，空洞卷积原理如图3所示。通过设置空洞卷积中不同的比率(rate)得到低层特征图和高层特征图。其中空洞卷积是在原始卷积模块基础上进行一定的扩展，可以在相同的计算成本和参数量的前提下获得更大的视觉感受野。经DCNN得到的低层特征图直接进入Decoder，而高层特征图通过ASPP进行处理。ASPP由4个具有不同比率的空洞卷积以及一个全局池化(Image Pooling)组成，通过融合多尺度信息提高分割精度。

图3 空洞卷积原理

在Decoder中，高层特征首先经过4倍双线性内插上采样(Upsample by 4)并与经过1×1卷积运算后的低层特征进行融合，然后经过一个3×3的卷积和双线性插值得到预测结果。DeepLabv3+中的编码-解码结构示意图如图4所示。

图4 编码-解码结构示意图

2 实验数据集及评价指标

2.1 数据集

本研究采用的数据集是WHU Building Dataset[25]，数据采集于新西兰克赖斯特彻奇。WHU数据集空间分辨率为0.3 m，包括8 189幅512像素×512像素的遥感影像，分为训练集、验证集和测试集。WHU数据集的原始影像及其对应标签如图5所示。

图5 原始影像及其对应标签

2.2 数据处理

数据增强方法通过样本扩充增加训练样本避免模型出现过拟合现象。本研究对样本进行垂直、水平镜像翻转以及不同角度的旋转，如图6所示。

图6 旋转及翻转后图像

2.3 硬件配置及参数设置

本实验基于PyTorch开发框架进行，硬件配置为NVIDIA GeForce RTX 3070。为了更好地利用图形处理器(GPU)的能力，提高计算效率，将数据集中的图像随机裁剪为256像素×256像素。在实验过程中，通过多次对比试验，确定最优模型参数：采用Adam优化器；基础学习率设为1E-4；设置150个epoch；为了克服GPU内存的限制，mini-batch size设为8。DeepLabv3+模型的精度和损失值随训练次数的变化如图7所示。

图7 精度和损失值随训练次数的变化

为了探究文中提出的架构在建筑物自动提取方面的精度优势，选用SVM、K-Means、KNN、CART 4种传统的机器学习方法以及U-Net、SegNet、PSPNet 3种典型的语义分割网络与DeepLabv3+网络进行对比试验。在实验过程中，通过对比分类结果，确定了最佳的模型参数。SVM方法、K-Means方法使用ENVI完成，SVM参数设置如下：Gamma值为0.333，惩罚系数为100，内核类型为Radial Basis Function；K-Means参数设置包括：分类类别为10，改变阈值为5%，最大迭代为1。KNN方法、CART方法使用eCognition完成，KNN参数设置包括：图像分割方法为Multiresolution Segmentation，分割阈值为20，深度为0，最小样本数为0，交叉验证层数为3；CART参数设置与KNN方法保持一致。U-Net、SegNet、PSPNet的训练参数设置与DeepLabv3+参数保持一致。

2.4 评价指标

1)总体精度(Overall Accuracy, OA)，影像中预测正确的建筑物和背景像元占所有像元的比例：

(1)

式中：TP代表提取为建筑物，实际为建筑物的个数；FP代表提取为建筑物，实际为背景的个数；TN代表提取为背景，实际为背景的个数；FN代表提取为背景，实际为建筑物的个数。

2)召回率(Recall)，影像中预测正确的建筑物像元占建筑物区域真值像元的比例：

(2)

3)精确度(Precision)，影像中预测正确的建筑物像元占所有预测为建筑物像元的比例：

(3)

4)F1得分(F1-score)，代表OA和Precision的加权平均值：

(4)

5)交并比(IoU)，代表真实值和预测值两个集合的交集与并集的比值：

(5)

3 结果与讨论

3.1 基于像素分类方法结果对比

SVM，K-Means和DeepLabv3+各分类方法的结果如图8所示。图8中的白色、黑色分别为建筑物、背景的预测。基于像素的分类方法(SVM、K-Means)提取结果中有明显的椒盐现象，也有许多其他要素被误分为建筑物。语义分割网络DeepLabv3+建筑物提取效果较好，大部分建筑物的边缘部分相对清晰，只是在细节上有着零星斑点。

图8 基于像素分类方法结果对比

SVM，K-Means和DeepLabv3+的精度指标如表1所示。SVM方法的各项平均精度指标(OA=69.6%；Precision=62.1%；Recall=66.4%；F1 score=63.7%；IoU=45.3%)均高于K-Means方法(OA=57.3%；Precision=34.7%；Recall=48.2%；F1 score=40.2%；IoU=21.6%)。DeepLabv3+精度评价的各项指标远超于基于像素分类方法的指标，各评价指标均超过89.1%。

表1 基于像素分类方法精度对比

3.2 面向对象分类方法结果对比

KNN，CART和DeepLabv3+各方法的分类结果如图9所示。图9中的白色、黑色分别为建筑物、背景的预测。面向对象的分类方法(KNN、CART)提取建筑物椒盐问题有所改善，但是建筑物轮廓仍不够清晰，出现了分类结果连片的情况，同时有大量的误分、漏分情况。

图9 面向对象分类方法结果对比

KNN，CART和DeepLabv3+的精度指标如表2所示。KNN方法的各项平均精度指标均高于K-Means方法，KNN方法的OA、Precision、Recall、F1 score、IoU分别比K-Means方法提高6.0%，10.2%，22.4%，10.1%，19.0%。DeepLabv3+相对于KNN和CART方法，各评价指标平均提高25.1%，表明该方法比面向对象方法更适合于建筑物提取任务。

表2 面向对象分类方法精度对比

续表2

3.3 语义分割网络结果对比

为了更好地比较UNet、SegNet、PSPNet和DeepLabv3+这4种网络模型提取建筑物的效果，将提取的建筑物结果进行更加详细的展示，4种网络的建筑物提取结果如图10所示。图中绿色代表正确提取的建筑物，蓝色代表漏检的建筑物，红色代表误检的建筑物，黑色代表背景。

图10 语义分割网络结果对比

从整体而言，PSPNet的提取结果中正确提取(绿色)的建筑物最少，漏检(蓝色)的建筑物最多。UNet和SegNet的提取结果中，正确提取(绿色)的建筑物和漏检(蓝色)的建筑物大致相同，但是UNet有更多误检(红色)的建筑物。相比之下，DeepLabv3+的分割结果中漏检(蓝色)和误检(红色)的建筑物明显少于其他网络模型，但是由于DeepLabv3+仍选用两次双线性插值上采样来增加特征分辨率以及数据集本身的限制，DeepLabv3+对于少部分建筑物的边缘易误分。

从单个建筑物来看，如切片1中的红框内提取结果所示，UNet、SegNet和PSPNet只提取了小部分，有比较明显的漏检情况，而DeepLabv3+提取的相对完整，有清晰的建筑物边界，基本不存在漏检的建筑物；如切片2中的红框内提取结果所示，SegNet完全没有提取到该建筑物，而PSPNet比UNet提取效果好，但只提取了部分轮廓，DeepLabv3+提取效果最好，提取了完整的建筑物轮廓；如切片3中的红框内提取结果所示，UNet只提取到了该建筑物的很小一部分轮廓，SegNet提取到了该建筑物的上半部分轮廓，PSPNet提取到了建筑物的中部轮廓，而DeepLabv3+提取比较完整，提取到了完整的建筑物轮廓信息；如切片4中的红框内提取结果所示，UNet、SegNet和PSPNet提取效果相当，能够提取大部分建筑物轮廓，而DeepLabv3+效果更好，没有漏检和误检的情况。

研究不同模型建筑物提取精度定量评定结果如表3所示。DeepLabv3+的总体精度、召回率、F1得分、交并比值均最高，UNet的准确度值最高。其中DeepLabv3+的F1得分达到了93.3%，相对UNet提高3.4%，相对SegNet提高6.9%，相对PSPNet提高11.2%；且交并比相对UNet提高5.7%，相对SegNet提高11.3%，相对PSPNet提高17.8%。