基于Mask R-CNN的遥感影像土地分割与轮廓提取

2021-03-31黎江许明慧张羽

南京信息工程大学学报 2021年1期

黎江许明慧张羽

0 引言

传统的城镇空间规划主要依靠对多波段遥感影像分析结果，以多光谱的Landsat-8遥感影像为代表[1].高分辨率的遥感影像具有真实、实时以及便捷等特点，精确的图像分割是统计分析的前提.图像边缘检测利用图像的边缘信息实现图像分割是图像处理研究的一个基础方向，相关算法有LoG算子[2]、Sobel算子[3]、Canny算子[4]、Roberts算子[5]等.加拿大的Hay等[6]提出了多尺度分割方法对卫星影像进行分割；彭志平等[7]针对我国常用地图中的棕、蓝、绿、黑4种颜色在彩色空间的分布规律提出了快速阈值分割算法.为了提高图像分割效率，比利时的Vancoillie等[8]在处理图像分割时使用了遗传算法以及神经网络.

近年来，具有较强特征学习能力的深度卷积神经网络(CNNs)广泛应用在图像分割领域[9-10].CNNs通过大量标注图像数据的训练，利用学习到的这些携带了丰富的语义和空间信息的特征去进行图像分割[11-12].此外，DeepMask和SharpMask[13]直接从图像像素生成分割对象，然后将其分类为不同的类别.在Faster R-CNN[14]算法的基础上，结合经典语义分割算法FCN[15]，He等[16]提出了用于实例分割与关键点检测的Mask R-CNN，该网络框架由4部分组成，分别是卷积神经网络CNN、区域建议网络、ROIAlign与输出模块，使像素分类和提取的准确率得到极大提高，研究结果表明基于Mask R-CNN的遥感影像土地分割和轮廓提取是可行的.

为了在遥感影像上实现一次性对土地的高精度分割和轮廓提取，本文提出一种基于骨干网络为ResNet-101-RPN的Mask R-CNN的遥感影像土地分割与轮廓提取方法.如图1所示，整个方法包括几个步骤：首先选用17级谷歌地图(Google Maps)瓦片作为训练和测试数据集；其次根据谷歌地图瓦片的特点利用暗通道去雾算法进行去雾处理获得无雾图像；然后由土地统计分析确定分割对象；最后进行土地分割和轮廓提取.在对遥感影像进行一次精确统计分析土地时，本文所提出的方法有效地解决了在有雾的地图瓦片图像上实现精确的土地分割与轮廓提取问题.

1 数据材料

1.1数据采集

本文的模型训练和测试是在地图数据上进行的，使用目前应用最为广泛的Google地图瓦片方案.Google地图分为混合地图、普通地图以及卫星地图.瓦片数据使用金字塔方式组织，Google地图向用户提供0～22缩放等级，缩放等级越高，所包含地理范围越小，但是包含的地理要素却越精细.每张地图瓦片保存格式为PNG和JPG,像素大小为256×256.

图1 基于Mask R-CNN的遥感影像土地分割与轮廓提取流程Fig.1 Flow chart of remote sensing image segmentation and contour extraction based on Mask R-CNN

选取训练数据不但要考虑图像的清晰程度，同时也要考虑各类数据的平衡性，这样训练出来的模型才具有更好的泛化能力，因此要遵循以下原则：第一，选取的地图瓦片要具有适应性和代表性；第二，土地分类数据要平衡；第三，一张地图瓦片中要尽量包含多种土地类别，如选取的地图瓦片要包含森林、城镇、耕地等土地要素.本文采集的遥感影像是缩放等级为17级的卫星地图瓦片，空间分辨率2.28 m，即一个像素点表示地面2.28 m×2.28 m的面积,图片格式为JPG.针对研究区域采集1 000张地图瓦片作为训练集，100张作为测试集，使用标注工具Labelme对数据集样本进行分割掩码标记，完成图像中土地的标注.

1.2 图像去雾

由于受到大气中雾霾细小颗粒、水蒸气等杂质影响，卫星从高空直接拍摄得到的地图瓦片图像会出现模糊、不清晰的现象，如果直接训练模型和测试不容易取得理想的结果，因此为了避免这种不良影响，首先要对采集的图像进行预处理.结合Google地图瓦片的特点，本文采用文献[17]算法对图像进行去雾处理.

1.2.1 暗通道先验

暗通道假设图像中非天空彩色区域每个像素只有一个很低的颜色通道值，对于任意输入的一个地图瓦片图像，暗通道的数学模型：

(1)

在式(1)中，JC为非天空彩色图像的3个不同颜色分量，Ω(x)是一个以像素x为中心的窗口.通过对大量非天空无雾彩色图像统计表明Jdark→0，这就是暗通道先验定理.

1.2.2 大气散射模型

大气散射模型：

I(x)=J(x)t(x)+A(1-t(x))

(2)

在图像处理领域被广泛应用.其中，I(x)为待去雾的地图瓦片图像，J(x)为无雾图像，A是全球大气光照强度，t(x)为透射率，若通过有雾的瓦片图像I(x)求出无雾的瓦片图像J(x)，需求解t(x)和A.

将式(2)进行整理得：

(3)

(1-t(x))，

(4)

其中，JC(x)是要求解的无雾瓦片图像.所以根据暗通道先验定理得：

(5)

式(5)代入式(4)得：

(6)

其中，w为[0，1]之间的一个值，根据Google地图的特点，本文取w=0.9.

(7)

图像去雾的性能如图2所示.将去雾图像与原图像进行比较，可以看出居民区、森林、耕地区域明显改善，去雾后的图像清晰度得到了提高.

图2 原图像与去雾图像对比Fig.2 Comparison between original images (a) and defogged images (b)

2 遥感影像土地统计分析

如果将土地详细分为30多类，则可以分为水田、城市、公路用地、森林、村庄、茶园、裸地、湖泊、建制镇、草地、建筑用地和沼泽地等.如果依据30多类对象利用Labelme软件标注地图瓦片，不但使标注任务艰巨，而且训练得到的模型分割和轮廓提取精度将会下降，因此要结合实际情况重新将对象细分和粗分.

2.1 土地对象细分和粗分

根据实际情况和实例分割使用经验，将土地对象细分为9类：建筑用地、道路用地、裸地、绿化、草地、森林、耕地、水域和其他，并把细分的9类粗分为建设用地、生态用地和耕地3类，其中建筑用地、道路用地、裸地以及绿化为建设用地，草地、森林、水域和其他为生态用地，剩下的是耕地.土地对象细分和粗分最终结果和说明如表1所示.因此图像标记对象为建设用地、生态用地、耕地.

表1 土地分类

2.2 土地分析

遥感影像土地统计分析需要计算研究区域的建设用地紧凑指数、生态用地斑块密度指数以及耕地破碎指数.建设用地紧凑指数(CI,其量值记为IC)主要描述城镇建设用地的饱和以及紧凑程度，当城镇的紧凑指数越大，表示其中心区域越集中和经济效益价值更大，它的数学描述为

(8)

其中，IC为建设用地紧凑指数，Si为城镇建设用地面积，Pi为城镇建设用地的轮廓周长.IC在0和1之间，它的值越大，紧凑度越大，表示城镇形态越饱满.

基于像素大小为256×256的地图瓦片图像计算生态用地斑块密度指数和耕地破碎指数，它们的数学描述相同，均为

(9)

对于生态用地斑块密度指数IPD，ni为地图瓦片图像的生态用地块数，A为地图瓦片图像实际区域的生态用地面积；对于耕地破碎指数IPD，ni为地图瓦片图像的耕地块数，A为地图瓦片图像实际区域的耕地面积.A值越小，分别表明图像实际区域的生态用地越集中和耕地越破碎.

3 基于Mask R-CNN的土地分割与轮廓提取

本文的研究重点是将土地从地图瓦片中分割以及提取出来，这是一个典型的实例分割任务.基于骨干网络为ResNet-101-RPN的Mask R-CNN的土地分割与轮廓提取方法是将识别土地种类、提取不同土地像素结合起来进行的，符合遥感影像统计分析的要求.

图3 基于Mask R-CNN的土地分割与轮廓提取框架Fig.3 Framework for image segmentation and contour extraction based on Mask R-CNN

3.1 Mask R-CNN神经网络

Mask R-CNN作为一种非常灵活的神经网络框架，它在Faster R-CNN的基础上增加一个语义分割FCN分支.基于Mask R-CNN的土地分割与轮廓提取框架如图3所示，它包括2个部分：1)卷积骨干部分负责的是对整个地图瓦片的特征提取；2)头部部分执行边框识别和掩码预测.区域建议网络RPN计算区域提案，然后RoIAlign从每个提案中结合特征图提取特征并执行2个平行操作.在全连接层FC进行土地的检测、分类以及边框回归.在全卷积层FCN输出高精度土地分割和轮廓提取.

由于使用了高级语义信息和高分辨率特征映射，特征金字塔网络FPN[18]能对土地目标进行精确定位.为了提高模型的精度和速度，本文使用基于FPN的残差网络ResNet101[19]作为卷积骨干.

对于每张地图瓦片图像，首先使用ResNet-101-RPN提取瓦片图像的土地特征，然后RPN在特征图上使用滑动窗口方法来计算边框方案.其次，RoIAlign通过双线性插值原理将任意大小的感兴趣空间区域映射到固定的空间分辨率.最后，利用Mask R-CNN头部预测目标类别，细化边框定位，同时生成土地分割掩膜.

3.2 多特征提取

为了提高Mask R-CNN分割和土地轮廓提取的性能，将使用更多的特征信息.因此选择强大的ResNet-101作为主干.它由5个阶段组成，对应5个不同比例尺的特征图[C1,C2,C3,C4,C5].利用这些特征映射建立FPN网络的特征金字塔，分别得到新的特征图[P1,P2,P3,P4,P5].使用P1即计算C1对应的特征映射需要花费大量的时间，因此通过下采样P5得到P6来替代P1.特征图对应关系如下：

(10)

其中，conv为卷积计算，sum为逐元素对齐操作，upsample和downsample分别为上采样和下采样.

3.3 区域建议网络生成与RoIAlign操作

区域建议网络RPN收到特征图[P1,P2,P3,P4,P5]并使用滑动窗口找到土地所在RoI区域.RPN网络有两个输出，第一个输出判断描点是背景还是土地对象，第二个输出用于校正边界框，以更好地适应土地对象.在对RPN网络进行处理和预测后，可以得到一系列边界框.边界框会出现相会重叠的现象，可以利用非最大值抑制(NMS)来获取土地对象分数较高的边界框并将其传递给下一级.

在头部之前，为了产生标准尺寸的输入以输入到分类器，RoIAlign用于将描点的尺寸调整为固定大小.通过RoIAlign网络，将提取的特征图与输入图像进行适当地对齐，解决了区域建议与特征映射之间定义对应区域时的亚像素错位问题，使像素分割和提取更加精确，有助于获取更好的像素分割和提取结果.

3.4 土地实例分割与损失函数

通过RoIAlign网络层得到的特征被送入全连接层FC进行目标分类和边界框回归，同时被送入全卷积层FCN进行分割.分类是通过将使用所有特征的FC层的输出通过Softmax层来完成的，土地边界回归只能使用从原始区域建设中获得的特征完成，同时进行Mask R-CNN头部分割和提取土地区域.

对于神经网络训练，损失函数为预测值与真实值之间的差值,它在土地分割与轮廓提取模型训练中起着重要的作用.在基于Mask R-CNN的土地分割与轮廓提取网络中，使用联合损失函数训练边框回归、分类和掩膜预测.使用的联合损失函数如下：

L=Lcls+Lbbox+Lmask，

(11)

其中，Lcls为土地分类错误，Lbbox为土地边框回归错误，Lmask为掩膜分支错误.

3.5 土地轮廓周长以及面积获取

遥感卫星统计分析需要计算建设用地紧凑指数、生态用地斑块密度指数以及耕地破碎指数，涉及到城镇建设用地面积轮廓周长、生态用地面积和耕地面积，因此可以通过分割的土地图像来获取轮廓周长和面积.在Mask R-CNN实例分割中，每个分割后的图像都会被转换成一个二值矩阵，其中土地像素得分为‘1’，背景像素为‘0’，由背景像素‘0’包围的‘1’像素是土地的轮廓线，根据一个像素点代表2.28 m×2.28 m的区域求得土地轮廓周长和面积.

3.6 评估指标

采用均值平均精度(mAP,其量值记为ηmAP)评价土地分割的性能.mAP是图像分割的一个非常流行的评估指标，根据精确率与召回率，每个类别可以绘制一条曲线，该曲线与坐标轴围成的面积就是平均精度(AP,其量值记为ηAP)，则AP的平均值为mAP，其计算公式为：

(12)

(13)

(14)

(15)

式中，R为召回率，P为精确率，TP为正样本被预测正确的数量，FP为负样本被预测错误的数量，FN为正样本被预测错误的数量，n为测试集大小.

对于土地轮廓提取，利用真值的mADE评估：

(16)

(17)

式中，εADE为真值的平均距离误差，εmADE为εADE的均值，Aunion是预测掩膜和真值所包围的区域，Aoverlap为预测掩膜和标记真值之间重叠区域，Tcontour为标记真值区域，n为测试集大小,mADE的值越小表明轮廓提取越精确.

4 实验

4.1 实验环境

本文采用TensorFlow[20]结合GPU训练基于Mask R-CNN的土地分割与轮廓提取模型，本实验的硬件和软件信息如表2所示.

表2 实验环境配置

在整个数据集中，根据地图瓦片选取原则，一共选择1 100张地图瓦片.另外，根据是否进行去雾处理，有相应的原始和去雾图像数据集.在采集的数据集中，前1 000张地图瓦片作为训练集，剩余的100张作为测试集.为了满足模型训练和测试要求，利用Labelme软件[21]手动标记不同种类的土地区域.此外，为了加快神经网络训练，采用基于COCO数据集[22]的预训练权重.为了验证去雾图像的有效性，分别对原始图像和去雾图像数据集训练基于两个不同骨干网络的Mask R-CNN的分割与轮廓提取模型，两个骨干网络分别为ResNet-101-RPN和ResNet-50-RPN.根据实验，设学习率为0.001，每次迭代的批处理量为50，该模型一共迭代了20 000次.

图4 土地分割与轮廓提取结果在原图像和去雾图像上的对比Fig.4 Land segmentation and contour extraction results on original images (a) and defogged images (b)

图5 基于骨干网络为ResNet-101-RPN的Mask R-CNN在去雾图像上的分割与轮廓提取Fig.5 Land segmentation and contour extraction on defogged images using Mask R-CNN with Resnet-101-RPN as backbone network

4.2 实验结果与分析

原始和去雾图像的分割与轮廓提取结果图4所示.可以看出，在图4a的原图像中，骨干网络为ResNet-50-RPN的分割与轮廓提取结果显示无法分割识别图像中的建设用地，而在去雾图像中，骨干网络为ResNet-101-RPN的基本能把图像中的建设用地分割识别出来，如图4b所示.其主要原因是采用文献[17]算法进行去雾减轻了大气中雾霾细小颗粒、水蒸气等杂质对地图瓦片的影响，减少了对土地对象的误判，同时骨干网络ResNet-101-RPN有更复杂的特征提取网络.

此外，所提出骨干网络为ResNet-101-RPN的Mask R-CNN方法的一些多土地实例分割与轮廓提取结果如图5所示，可以看出，即使生态用地被夹在两块建设用地边缘，所提出的方法依然可以分割以及提取每一块土地.表3为土地分割的均值平均精度mAP和轮廓提取的mADE评估.结果表明在土地分割精度上，骨干网络为ResNet-101-RPN在去雾图像数据集获取的mAP值比原图像数据集高出3.7个百分点；在土地轮廓提取精度中，骨干网络为ResNet-101-RPN在去雾图像数据集的mADE为31.33像素，优于原图像数据集的34.67像素.结果表明，在去雾图像上，改进后的图像质量有助于土地分割与轮廓提取，同时骨干网络ResNet-101-RPN提取土地特征的效果比ResNet-50-RPN更优.综上所述，在对遥感影像进行土地统计分析时，本文所提出的基于骨干网络为ResNet-101-RPN的Mask R-CNN在去雾图像上能对土地进行精确分割和轮廓提取.

表3 土地分割的均值平均精度和轮廓提取的均值平均距离误差

5 结论

在国家城镇规划中，高精度的土地分割和轮廓提取是遥感影像进行土地统计分析的基础.为了在不清晰的地图瓦片上实现土地的分割和轮廓提取，本文提出了一种基于骨干为ResNet-101-RPN的Mask R-CNN的土地分割和轮廓提取方法.首先利用Google Maps瓦片方案选用数据集，采用文献[17]算法进行去雾处理，通过降低大气中雾霾细小颗粒、水蒸气等杂质影响来提高图像的质量，进而实现高精度的土地分割和轮廓提取.实验结果表明，基于骨干网络为ResNet-101-RPN的Mask R-CNN在去雾图像数据集的mAP为0.907，比原图像数据集提高了3.7个百分点，同时土地轮廓提取的评估指标mADE为31.33像素.因此，在遥感影像土地统计分析中，本文提出的方法能够实现高精度的土地分割和轮廓提取.以后将通过改进网络结构来提高重叠土地区域的分割和提取能力.