基于Attention Gates和R2U-Net的遥感影像建筑物提取方法

2022-06-02于文玲，刘波,2*，刘华,2，杜梓维，邹时林，苏友能，刘娜娜

地理与地理信息科学 2022年3期

于文玲，刘波,2*，刘华,2，杜梓维，邹时林，苏友能，刘娜娜

(1.东华理工大学测绘工程学院，江西南昌 330013；2.自然资源部环鄱阳湖区域矿山环境监测与治理重点实验室，江西南昌 330013)

0 引言

近年来，深度语义分割算法在遥感影像建筑物提取时效果良好[1-5]，其中，U-Net模型[6]通过组合解码层、编码层的方法，提高了遥感影像建筑物的提取精度。为进一步提高模型精度，Chhor等[7]在U-Net模型训练时，用Adam优化算法代替SGD优化算法，并添加批量标准化处理，使用基于Dice系数的损失函数；Ji等[8]利用特征金字塔网络与U-Net模型相结合，以降低遥感影像中建筑物尺度不一致对提取结果的影响，提高建筑物提取精度；任欣磊等[9]提出一种低维特征增强改进的U-Net模型，通过引入特征金字塔中的低维特征图增强网络传递过程中低维细节信息的特征表达，能在后向传递过程中防止细节信息丢失，提高模型对建筑物细节的获取能力；Kim等[10]将空间金字塔池模块集成到U-Net模型中，解决了U-Net模型在多次特征融合后地物边界特征损失的问题；Ranjan 等[11]将MRA结构运用于U-Net模型中，提升了遥感影像地物信息提取的精度；顾炼等[12]将FlowNet中的细化结构运用于U-Net模型中，建筑物提取结果的F1分数高达0.943；Abdollahi等[13]结合SegNet与U-Net提取马萨诸塞州高分辨率遥感影像建筑物，精度达92.73%；Alom等[14]基于U-Net模型、残差网络及递归卷积神经网络提出R2U-Net模型，该模型相比U-Net及其改进模型，加深了网络结构，增强了特征提取和特征表达能力，提取精度更高。

综上，虽然U-Net、R2U-Net等众多U-Net改进模型展现了深度卷积神经网络在遥感影像特征提取中的巨大优势，但多数模型特征表达能力有限，多尺度泛化能力较弱，特别是在提取特征时，较多的卷积池化操作会造成提取的建筑物边缘信息不完整、内部信息缺失、建筑物与非建筑物特征混淆等问题。为此，本文提出基于Attention Gates(AG)和R2U-Net的遥感影像建筑物提取方法(AGR2U-Net)，利用改进后的AG模型强化R2U-Net的多尺度特征信息，以提高R2U-Net模型对建筑物特征的响应及灵敏度，增强其多尺度泛化能力，从而提升该模型的遥感影像建筑物提取精度。

1 研究方法

1.1 R2U-Net模型

R2U-Net模型[14]与U-Net模型结构类似，由编码路径和解码路径组成(图1)。编码路径和解码路径中的卷积块被循环残差卷积模块(Recurrent Residual Convolutional Units，RRCU)代替，RRCU的卷积层由3×3的卷积核、批标准化(Batch Normalization，BN)、线性整流函数(Rectified Linear Unit，ReLU)组成。R2U-Net模型的优势在于：1)在U-Net模型之外进行逐元素特征求和，在保留U-Net优势的同时，融合了高维抽象特征信息与低维细节特征信息；2)RRCU结构内部的特征积累能确保更强大的特征表示，并有效增加网络结构的深度；3)从U-Net 模型中删除裁剪单元，仅使用复制串联操作，从而形成一种简洁实用、性能更好[15，16]的体系结构。

图1 R2U-Net模型结构[14]Fig.1 Structure of R2U-Net model

1.2 AG模型

图2 AG模型结构[17]Fig.2 Structure of AG model

为保证所有AG模型输出的特征图与R2U-Net模型初始输入影像大小一致，并减少重采样操作造成的特征损失，本文对原始AG模型进行改进(图3)，即将原始AG模型中的重采样操作移至模型输出前。为更详细地表示AG模型的特征输出情况，以初始影像维度为(3,256,256)为例，将R2U-Net模型第二层与第三层输入至改进后的AG模型，得到的输出图像维度如表1所示。

图3 改进的AG模型结构Fig.3 Structure of the improved AG model

表1 改进的AG模型输出的图像维度Table 1 Image dimension output by the improved AG model

1.3 AGR2U-Net模型

AGR2U-Net模型(图4)首先将原始R2U-Net模型中每层的分类结果直接输出，代替原模型只在第一层输出分类结果；其次将每层输出的特征图与其相邻层的特征图输入至改进的AG中，由于R2U-Net模型输出的相邻两层特征图大小不一致，因此需将其下层的特征图上采样至上层特征图大小后再输入至改进的AG中，最终得到与初始输入影像图大小一致的特征图；最后对由改进的AG模型得到的特征影像进行融合，获取最终分类结果。该方法在不破坏R2U-Net内部结构的情况下，利用改进的AG模型强化R2U-Net模型所得特征，可得到更精确、完整的建筑物特征信息，最终输出的分类结果影像也包含多个尺度信息，可增强模型多尺度泛化能力。

图4 AGR2U-Net模型结构Fig.4 Structure of AGR2U-Net model

1.4 精度评价

为验证本文方法精度，与U-Net、Improved U-Net[9]、SegU-Net[13]和R2U-Net 4种模型进行精度对比试验，同时对比分析实验结果的局部特征。使用交并比(Intersection over Union，IOU)、像素准确率(Pixel Accuracy，PA)和召回率(Recall)对实验精度进行评价[18]，计算公式分别为：

IOU=TP/(FP+TP+FN)

(1)

PA=(TP+TN)/(FP+TP+FN+TN)

(2)

Recall=TP/(TP+FN)

(3)

式中：TP表示实际为正样本、预测为正样本的样本数；TN表示实际为负样本、预测为负样本的样本数；FP表示实际为负样本、预测为正样本的样本数；FN表示实际为正样本、预测为负样本的样本数。

2 实验设置

2.1 实验数据

实验数据为武汉大学季顺平团队[8]基于卫星遥感影像制作并发布的WHU satellite dataset Ⅰ数据集(简称数据集Ⅰ)和基于航空影像制作并发布的WHU aerial imagery dataset数据集(简称数据集Ⅱ)。

2.1.1 数据集Ⅰ 数据集Ⅰ共有204张512×512大小的遥感影像和对应的标签图像，来自ZY-3号、IKONOS、Worldview系列卫星的不同传感器和不同空间分辨率(0.3～2.3 m)影像，涵盖了欧洲、中国、南北美洲以及非洲的不同城市区域，能对建筑物提取算法的鲁棒性进行有效检验，数据集Ⅰ部分示例如图5所示。为增加样本数量，本文首先将原始数据集影像裁剪为256×256大小的子图集，然后对子图集进行旋转、沿y轴镜像处理、均值滤波、椒盐噪声增强以及高斯噪声增强处理，共得到20 094张影像。最后将处理后的数据集按照8∶1∶1的比例划分成训练集、验证集与测试集，影像数量分别为16 076、2 009、2 009，其中训练集用于拟合模型，验证集用于调试超参数以及监控模型是否发生拟合，测试集用于评估最终的模型泛化能力。

图5 WHU卫星影像数据集Ⅰ部分示例Fig.5 Examples of WHU satellite dataset Ⅰ

2.1.2 数据集Ⅱ 数据集Ⅱ位于新西兰的克莱斯特彻奇市(图6)，该数据集中①区域为训练区域，②区域为验证区域，③、④区域为测试区域，影像空间分辨率为0.075 m，将数据下采样到0.3 m，并裁剪为512×512大小影像，其中训练集、验证集、测试集分别有4 736、1 036、2 416张影像以及对应标签图。为防止内存溢出并增加样本容量，将其进一步裁剪为256×256大小，得到训练集、验证集、测试集影像数量分别为18 944、4 144、9 664。

图6 WHU航空影像数据集Fig.6 WHU aerial imagery dataset

2.2 实验环境与参数设置

根据本文实验环境(表2)，本文方法及其对比模型选取多次实验后效果最佳的训练参数(表3)，并依据数据集规模及反复实验结果，将数据集Ⅰ、数据集Ⅱ实验的迭代次数最终分别设置为20和12。

表2 实验配置Table 2 Configuration of experiment

表3 模型训练参数Table 3 Model training parameters

3 实验结果分析

3.1 基于数据集Ⅰ的实验结果分析

3.1.1 精度对比分析使用U-Net、Improved U-Net、SegU-Net、R2U-Net及AGR2U-Net 5种模型分别提取数据集Ⅰ测试集遥感影像中的建筑物，选取其中5个地区进行精度评价，结果(表4)表明，本文AGR2U-Net的IOU均值比U-Net、Improved U-Net、SegU-Net、R2U-Net分别提高7.36%、4.56%、4.34%、2.68%，PA均值分别提高5.2%、3.85%、3.69%、2.2%，Recall均值分别提高4.65%、4.54%、4.04%、3.08%，可见本文方法在5个地区的建筑物提取精度均属最高。

表4 5种模型的卫星影像建筑物提取精度对比Table 4 Comparison of building extraction accuracy in satellite imagery of five models

3.1.2 局部特征对比分析为更好地展示本文方法的优越性，在U-Net、Improved U-Net、SegU-Net、R2U-Net和AGR2U-Net 5种模型的遥感影像测试集提取结果中随机选取若干建筑物提取结果进行对比(图7)，结果显示：1)数据1建筑物表面特征单一且分布均匀，5种模型均能识别此类建筑物，但选取的对比模型对建筑物形态检测效果较差，部分区域有明显椒盐噪声，AGR2U-Net模型不仅能减少噪声干扰，还能精确识别建筑物轮廓。2)数据2建筑物大小不一、形状多样，且存在阴影干扰，5种模型均能识别此类建筑物，但均出现阴影部分漏检情况。相较于其他模型，AGR2U-Net模型对建筑物的检测更敏感，能更好地传递尺度信息，不仅能完整检测出较大建筑物的内部信息，而且能检测出小建筑物的边缘信息。3)数据3建筑物分布零散，4种对比模型未能准确识别此类建筑物的轮廓，且易出现误检、漏检现象，AGR2U-Net模型虽然也出现误检、漏检现象，但对建筑物轮廓的识别能力优于其他模型。4)数据4建筑物分布较紧密，4种对比模型对此类建筑物的边缘识别不灵敏且粘连情况较严重，出现建筑物内部漏检情况，AGR2U-Net模型能更准确地检测出建筑物的边缘。整体而言，本文方法优于U-Net、Improved U-Net、SegU-Net和R2U-Net模型。

图7 卫星影像建筑物提取结果的局部特征Fig.7 Local features of building extracted using different models in satellite imagery

3.2 基于数据集Ⅱ的实验结果分析

3.2.1 精度对比分析从基于数据集Ⅱ测试集的分类结果精度(表5)可以看出，本文方法的精度最高，其IOU、PA、Recall比表现次优的R2U-Net模型分别高2.07%、2.17%、2.10%，说明在数据集较大的情况下，本文方法也能达到很好的效果。

表5 5种模型的航空影像建筑物提取精度对比Table 5 Comparison of building extraction accuracy in aerial imagery of five models

3.2.2 局部特征对比分析为更直观地展示本文方法在数据集Ⅱ的良好表现，从该数据集的测试集实验结果中选取部分提取结果与其他方法进行对比(图8)。从数据1和数据3的结果可知:本文方法对大型建筑物的轮廓检测更灵敏、准确，不易受建筑物周边物体干扰；在不规则建筑物(如数据2)识别上，受噪声干扰较少，识别出的建筑物边缘更平滑；在小型建筑物(如数据4和数据5)的识别上，能解决建筑物内部漏检、边界模糊及相邻建筑物边缘粘连等问题，且建筑物提取精度更高。

图8 航空影像建筑物提取结果的局部特征Fig.8 Local features of building extracted using different models in aerial imagery

4 结论

为解决R2U-Net在遥感影像建筑物提取任务中多尺度泛化能力弱、特征提取信息易损失等问题，本文提出一种基于AG和R2U-Net的遥感影像建筑物提取方法。通过基于WHU卫星影像数据集(数据集Ⅰ)和WHU航空影像数据集(数据集Ⅱ)对本文方法与U-Net、Improved U-Net、SegU-Net和R2U-Net模型进行对比，得出以下结论：1)本文方法中，AG模型能利用R2U-Net模型特征提取时得到的多尺度特征信息，增强了建筑物特征的表达能力，提升了模型灵敏度和建筑物提取精度。2)基于数据集Ⅰ和数据集Ⅱ的建筑物提取精度表明，本文方法的IOU、PA、Recall均优于U-Net、Improved U-Net、SegU-Net和R2U-Net模型。3)从提取结果的局部特征看，在不同环境的遥感影像建筑物提取任务中，本文方法提取的建筑物边缘最完整，减少了建筑物漏检和误检情况，而且在提高精度的同时，能精准识别出建筑物的细节信息。但本文方法提取结果仍存在建筑物边缘粘连情况，有待进一步研究。