深度学习GoogleNet模型支持下的中分辨率遥感影像自动分类

2019-07-05王宏志徐新良王首泰张亚庆

测绘通报 2019年6期

陈斌,王宏志,徐新良,王首泰,张亚庆

(1. 华中师范大学城市与环境科学学院地理过程分析与模拟湖北省重点实验室，湖北武汉 430079； 2. 中国科学院地理科学与资源研究所资源与环境信息系统国家重点实验室，北京 100101)

近年来，伴随着人工智能技术的应用推广及卷积神经网络模型结构的不断优化，深度学习技术在图像识别[1-3]、模式识别[4-5]、语音识别[6-7]、自然语言处理[8-10]等领域取得了一系列研究进展，这使得学术界不少地理学者开始关注深度学习这一研究领域。当前，国内外已有部分学者将深度学习技术应用于遥感分类研究之中[11-15]，借助深度学习技术开展地物遥感分类研究已逐渐成为现代地理学遥感领域的研究热点之一。

当前，基于卫星影像分类方法大致可划分为两类：一类是传统基于像素值遥感分类方法，其实质即根据地物光谱特征差异对像元进行空间聚类分析，并将亮度值差异较小的像元归属为同一类别，多用于中低分辨率遥感影像分类研究[16-18]；另一类是面向对象的遥感分类方法，它将待分类影像视为有联系的地块单元，不再局限于单个像元[19]，在分类过程中不仅考虑地物光谱特征，还引入地物形状、结构及纹理等信息特征参与分类，多用于中高分辨率遥感影像分类研究[20-21]。

以上两种方法虽然能满足现代地理学遥感分类研究的基本需要，但由于中分辨率遥感影像分类过程中同谱异物和同物异普现象的存在，使得传统基于像素遥感分类结果中常会出现不同程度的椒盐噪声。虽然面向对象分类方法能在一定程度上减少椒盐噪声的出现，但其在执行分类操作之前需要手动筛选出最优特征值，建立起分类规则。分类规则的建立通常需要反复尝试且执行分类操作过程耗时较长。基于这一思考，本文拟选用武汉市为研究区，基于GoogleNet模型中的Inception V3网络结构，借助迁移学习方法构建出遥感分类模型，并利用该模型实现对研究区地物的自动化分类提取，同时将分类结果与传统ML分类结果进行对比分析。研究表明：基于深度学习技术的遥感分类方法，在中分辨率影像中的分类精度明显优于ML分类精度，且有效抑制了传统像素分类方法过程中可能出现的地物混分问题，实现了机器对卫星影像的智能化自动分类提取过程。

1 数据来源和研究方法

1.1 研究区概况

武汉市位于江汉平原东部的长江中下游平原，东临鄂州、西接孝感、南连咸宁、北通黄冈，长江和汉江贯穿而过，“两江三镇”形成了武汉最基本的地理分布格局。武汉市现辖13个区，包括7个中心城区和6个远郊城区。本区属于亚热带季风湿润性气候，冬季盛行偏北风，夏季则盛行偏南风。气候温暖而湿润，年平均气温在18.1℃，年均降水量900～1400 mm，四季分明，雨热同期。地势整体呈现西高东低态势，平原丘陵交错分布，地貌类型主要以平原为主。区内自然资源丰富，河流湖泊众多，水热组合条件优越，农业自然资源禀赋得天独厚，因而享有“鱼米之乡”的美誉。

1.2 数据来源和数据预处理

本文选取研究区2016年5月12日Landsat 7 ETM+卫星影像和2016年2月2日高分2号影像作为研究基础数据(来源于中国科学院资源环境科学数据中心，http:∥www.resdc.cn)。与Landsat 5 TM影像相比，Landsat 7 ETM+卫星影像不仅增加了空间分辨率为15 m的PAN全色波段，同时第6波段空间分辨率也由TM 5的120 m提高到了60 m。高分二号卫星拥有两台成像光谱相机：一台空间分辨率为1 m的全色光谱相机，星下点空间分辨率达0.8 m；另一台为空间分辨率4 m的多光谱相机，星下点空间分辨率为3.2 m。数据预处理主要包含Landsat影像的几何校正、配准及对精校正后的高分二号影像的多光谱和全色影像进行融合处理，得到研究区分辨率为0.8 m的高分遥感影像。

1.3 样本数据集的建立

根据研究区地物类型结构特征将用地类型划分成不透水层、植被、水体和其他用地(主要指裸土及滩涂)等4类。在执行遥感分类之前通常需要建立起样本数据集，而样本数据集选取是否准确且具有代表性将直接影响到后期模型训练效率与模型分类精度的高低，因此本研究借助与遥感影像成像时间相对接近的高分影像和历史谷歌影像，通过目视解译方法，分亮度分区域选取上述4种类型用地样本各500块，再分别按照3∶1∶1随机选取训练样本，验证样本和测试样本数据集。

1.4 研究方法

首先对研究区Landsat 7影像进行多尺度分割，结果如图1所示，借助研究区高分影像进行目视解译验证，选取分割参数为30，形状因子权重和紧凑度因子权重参数分别为0.4和0.6的矢量分割结果对影像进行批量裁剪，得到待分类影像斑块；然后，通过机器对训练样本进行分层学习，提取样本影像中的底层特征形成抽象的高层属性特征数据集，再利用特征数据集训练分类模型；最后利用模型对研究区影像斑块进行自动提取。

2 深度学习分类模型构建及地物分类

2.1 GoogleNet深度卷积神经网络

GoogleNet深度卷积神经网络结构简洁，其最大特点在于它的Inception网络结构(如图2(a)所示)，与传统Inception结构GoogleNet模型相比，它不仅减少了过滤器及模型训练参数个数，而且最大限度地增加了网络深度及宽度，使得模型性能较引入Inception结构之前提升了2到3倍。而Inception V3(如图2(b)所示)在Inception Module结构的基础上进一步优化，它通过分解因式思想将Inception Module中的多维卷积层拆分成多个较小的一维卷积层，从而实现了在缩减模型参数的同时，也有效抑制了模型在训练过程中可能出现的过拟合问题。

2.2 迁移学习构建分类模型

在深度学习遥感分类模型构建中，训练样本数量、卷积神经网络的宽度、深度等都会影响到模型最终分类精度高低。若训练样本数量过少，模型很容易出现过拟合现象；若样本数量满足要求，增加网络模型深度，模型训练参数数量便会成倍上涨，模型训练耗费的时间成本也随之增加，而且越到后期下降梯度也越容易消失，使得模型难以进行优化。为此，本研究借助迁移学习方法，从GoogleNet模型中的Inception V3网络结构中提取卷积层和池化层作为分类模型的特征处理器来提取样本数据集特征，再将提取到的特征集传入Logistic分类器中参入训练，通过训练样本训练网络模型，并用验证样本去验证模型精度，不断调整模型学习率、Batches和Epochs等参数大小，省去了模型中大量参数的重新构建，从而极大地提升了分类模型的构建效率。

2.3 深度学习地物自动分类

深度学习模型常由5部分组成，即输入层、卷积层、池化层、全连接层和输出层。其中卷积和池化层是深度学习神经网络隐藏层的核心组成部分，卷积层主要通过卷积核对要素特征进行自动提取，而池化操作主要是在卷积操作的基础上，对目标要素的特征进行二次采样，这进一步提高了模型算法的稳健性。基于深度学习方法遥感自动分类即通过模型中的卷积和池化等操作，实现对影像斑块特征集的抽样提取，形成影像斑块特征数据集矩阵，随后指导模型对特征数据集进行深度学习，最终利用从特征数据集中学习到的“经验矩阵”指导模型对影像斑块进行自动分类的过程。

3 结果与分析

3.1 地物分类结果对比

为验证本文研究方法在中分辨率遥感影像分类中的可行性，将其分类结果(如图3(a)所示)与传统ML法分类结果(如图3(b)所示)进行对比分析。由图3可知，传统ML方法分类结果中，地物斑块多呈破碎状分布，而且由于同谱异物或同物异谱现象的存在，地物像元混分现象较为严重，而本文提出的基于深度学习技术的遥感分类方法则有效抑制了地物混分现象；同时也在一定程度上减少了分类过程中出现的椒盐噪声。由此可见该方法在中分辨率遥感影像地物分类应用研究中具备较高的可行性，能够满足研究的基本需要。

3.2 精度验证和评价

本研究采用随机抽样方法对分类结果进行精度评价[22]，在研究区范围内随机生成300个验证样本点，结合研究区高分影像和历史谷歌影像，通过人工目视解译人机交互模式对结果进行精度验证和评价见表1。

表1 ML和深度学习分类方法分类结果混淆矩阵

总体分类精度和Kappa系数是用来评价遥感分类结果的量化指标，总体分类精度即为样本中所有被正确分类的样本数量之和与验证样本总数的比值，被正确分类样本类别数量即沿混淆矩阵的对角线分布。本研究中的验证样本总数大小为300，Kappa系数取值范围在0～1之间，越接近1，表明分类的精度越高。本文分别对两种方法的遥感影像总体分类精度、Kappa系数进行综合分析和评价。Kappa系数计算公式为

(1)

式中，N为验证样本总数；Aij为验证结果混淆矩阵中第i行第j列的样本数量；Ai+和Ai-分别为第i行和第i列总像素个数；n为研究区样本类型数量。采用混淆矩阵得到两种分类方法精度评价结果见表2。由结果可知，本文研究方法总体分类精度高达88.33%，Kappa系数为0.834 2，总体分类精度和Kappa系数均高于传统ML方法总体分类精度83%和Kappa系数0.755 0。传统ML方法分类结果中(见表2)，除其他用地制图精度较低外，其余3种类型用地制图精度均在80%以上，其中不透水层分类精度最高，为88.07%；其次为水体和植被，分别为87.67%、83.33%。总体来看，不透水层、植被和水体的分类精度较高，而其他用地错分误差相对较大，这是由于研究区其他用地面积整体占比较小，而且多是以滩涂和裸土地为主，而裸土与不透水层之间的光谱特征差异不如植被和水体显著，因而错分或漏分现象较多。而不透水层、植被和水体三者间的光谱特征差异较大，因此各类型的分类精度较高。在基于深度学习方法遥感分类结果中，不同地物类型边界相对清晰且整齐划一，较少出现破碎状图斑，而且各类型用地分类精度均优于ML方法。

4 结论与讨论

本研究基于中分辨率卫星影像，分别运用深度学习方法与ML分类方法对武汉市主城区4类典型地物进行分类提取研究，并对分类结果进行精度验证和评价。本文主要结论如下：

(1) 基于深度学习技术的遥感分类方法总体精度高达88.33%，明显优于ML法分类精度83%，表明该方法在中分辨率遥感影像分类提取研究中具备较高的可行性，能够满足遥感影像分类研究的基本需要。

表2 ML方法和深度学习方法的错分误差、漏分误差、制图精度与用户精度

(2) 在研究区4种典型地物类型分类研究中，ML方法分类结果中不透水层、植被和水体的错分和漏分误差整体均低于其他类型用地，这是由于这3类地物像元亮度差异较大，而其他用地主要指裸土及滩涂，裸土地与不透水层的光谱特征较为接近，仅仅根据地物光谱特征差异很难将它们区分开，最终导致总体分类精度不高。深度学习方法在地物光谱特征的基础上加入形状、结构及纹理等特征参入分类，使得各用地类型分类精度均有不同程度的提升，这表明引入形状及纹理结构特征对分类精度的提升是有效的。

(3) 基于深度学习技术的遥感分类方法不仅有效抑制了传统方法在分类过程中产生的椒盐噪声，而且在一定程度上减少了地物像元混分现象。表明在中尺度遥感影像分类研究中，深度学习分类方法比传统ML方法具备更高的可行性及适用性，这也为今后遥感影像智能化解译研究提供了一种新的视角。

与传统ML分类方法相比，深度学习分类方法在中分辨率影像地物分类研究中取得了较好结果，但这是建立在对研究区遥感影像取得较为理想分割参数基础之上的，毕竟遥感影像分割参数选取是否合理，将直接影响到模型最终分类精度的高低。通常不同类型传感器和不同空间分辨率卫星影像分割参数之间存在较大差异，如何针对不同研究区域和不同空间分辨率的卫星影像选取合适的分割参数，还有待进一步研究。

展开全文▼