APP下载

基于深度学习的新增建设用地信息提取试验研究
——全国土地利用遥感监测工程创新探索

2019-11-30吴海平黄世存

自然资源遥感 2019年4期
关键词:查全率图斑训练样本

吴海平,黄世存

(1.中国国土勘测规划院,北京 100035;2.中国资源卫星应用中心,北京 100094)

0 引言

随着遥感技术和卫星发射技术的快速发展,2010年第二次全国土地调查结束以后,国土资源管理领域从国家层面上逐渐建立了年度土地利用遥感监测新机制,每年采用9—12月份的高分辨率卫星遥感影像,对全国范围进行一次年度土地利用动态遥感监测,重点提取以新增建设用地为主的土地利用变化信息,监测结果用于年度土地利用变更调查、土地卫片执法检查和土地督察等业务。因为监测结果直接服务于国土资源管理工作,所以对新增建设用地提取的准确性和按时完成的时效性要求非常高。该工程已实施多年,曾多次尝试利用传统的分类方法、面向对象的分割方法等自动检测技术进行探索试验,但受制于自动检测技术不够完善或对操作员的专业知识水平要求太高,以及工程本身具有多源、多尺度卫星数据源,数据质量参差不齐,信息类别复杂繁多等特点,自动检测方法仍然只是辅助手段,更主要的是依赖大量人力目视判读。

近几年来,作为人工智能的核心技术,深度学习在图像识别、安防监控、智能驾驶、无人机、语音识别及自然语言处理等领域取得了大量关键性突破和实际应用,同时也被逐渐引入遥感图像分类、识别及目标检测等任务中。但卫星遥感影像更为复杂,要全面达到理想状态很难,如果只是针对特定单一目标进行检测则相对容易。在全国土地利用遥感监测工程中,主要是提取新增建设用地,目标单一,因此,为能提高工程实施效率,本文尝试利用深度学习技术进行新增建设用地信息提取的应用探索。

1 深度学习技术简介

在深度学习技术方面,Hinton等[1]提出利用深度信念网络(deep belief network,DBN)进行数据分类并取得突破性进展,此后各研究及工程领域纷纷采用深度学习方法进行应用试验。Minh等[2]于2010年首次将深度学习应用于遥感领域,利用深度信念网络模型对机载影像进行道路的目标识别。自此,深度学习技术逐渐被应用于高分辨率影像分类、信息提取及变化检测中。国内刘大伟等[3]基于深度学习技术实现了高空间分辨率影像的分类任务,并与传统方法进行对比,结果表明,深度学习技术能够更加准确地挖掘高分影像的空间分布规律;高常鑫等[4]通过分层方法建立深度学习模型,完成了对高分影像的高精度分类;韩洁等[5]基于深度学习技术开展了遥感影像城市扩展方法研究,研究表明深度学习的生产者精度和Kappa系数都比传统方法要高,适用于城市建成区变化趋势研究;张鑫龙等[6]提出通过构建并训练包含标签层的高斯伯努利深度限制玻尔兹曼机模型,可以提取变化和未变化区域深层特征,有效辨别变化区域;阚希等[7]利用多光谱卫星遥感和深度学习方法进行了青藏高原积雪判识;陈洋等[8]提出了基于深度学习的资源三号卫星遥感影像云检测方法;朱祺夫等[9]提出了基于深度学习的遥感影像城市建筑用地提取方法。

深度学习技术的主要思想是基于神经网络进行信息识别,通过大量样例的训练(学习),得到网络最优参数(函数),再应用该网络从输入数据得到最优类别判断的过程。在影像识别和变化检测领域,卷积神经网络是最常用的深度学习方法。卷积神经网络(convolutional neural network,CNN)是一种带有卷积结构的深度神经网络,它的权值共享网络结构使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。这个优点在网络的输入是多维图像时表现得更为明显,图像可以直接作为网络的输入,避免了传统识别算法中复杂的特征提取和数据重建过程。卷积结构可以减少深层网络占用的内存量,也可以减少网络的参数个数,缓解模型的过拟合问题[10]。深度学习模型层数多,常常十几层甚至几十层,多则几百层到上千层。通过逐层的特征提取,逐渐使分类和检测结果更加精准。开始几层通常是卷积层和下采样层的交替,在靠近输出层的最后几层网络通常是全连接网络。卷积神经网络的训练过程主要是学习卷积层的卷积核参数和层间连接权重等网络参数,预测过程主要是基于输入图像和网络参数计算类别标签。

2 全国土地利用遥感监测分类体系

基于卫星遥感数据的影像特征,从国土资源管理的实际需求出发,全国土地利用遥感监测工程经过逐年完善,建立了年度土地利用变更调查12个一级类、27个二级类的遥感监测分类体系。本次试验在此分类体系基础上进行了适当删减。因该体系中部分类型非当年实际新增建设用地,或赋予过多的管理属性,或是某类的细化地类,或无法直接依据遥感影像进行判断。试验过程中为客观评价基于遥感数据的测试结果,仅针对其中主要的4个一级类、16个二级类进行研究与评价。这4个类型也是新增建设用地类型中的主要地类(表1)。

表1 新增建设用地分类体系Tab.1 Classification system of new constructed land

(续表)

3 样本训练

3.1 技术路线

根据遥感监测工程的数据特点和深度学习的关键步骤,样本训练过程中主要采用了以下技术路线。

1)数据归一化处理。遥感监测工程所用数据源多种多样,既有多波段多光谱数据也有单波段全色数据,数据空间分辨率从0.5 m到5 m不等。为满足样本训练需要,首先对试验数据进行归一化处理,通过减少或增加通道的方式将不同波段的影像处理成3个波段;然后根据训练样本影像实际空间分辨率,通过重采样的方式将不同分辨率的数据处理成相应的空间分辨率。

2)训练模型。建立模型是深度学习技术的关键。近年来,深度模型不断改进,出现了很多有广泛用途的模型。本研究使用的模型是以ResNet为基础模型,经过改造而适用于变化检测的应用。ResNet模型利用残差模块,解决了深度模型的梯度消失问题,同时提高了模型的训练效率,把ImageNet的图像分类精度推高到超过专家的水平。

3)训练样本。训练过程中,通过增强样本技术,进一步增加样本变化,提高模型适应性。为提高模型训练的收敛性和避免过度拟合,对模型的一些超级参数进行动态调节,尤其是学习率参数,选取指数递减函数动态调节梯度下降幅度,初始时加快一点收敛速度,随后放慢改变幅度,减少错失最优结果的可能性。另外,利用屏蔽神经元技术减少过度拟合的可能性。

4)变化监测。变化检测采用高斯混合模型(Gaussian mixture model,GMM)、马尔科夫随机场能量优化算法GraphCut、基于分水岭的过分割算法等,根据变化检测结果逐步调整参数和阈值,并综合考虑定性、定量评价结果和计算耗时等因素,最终得出相对的优化模型。

3.2 训练样本选取

训练样本的数量和代表性是影像分类的关键,不同的选取方法也会影响分类的效果[1]。本文试验的目的是为全国土地利用遥感监测工程做技术创新探索,因此,结合实际应用需求,以监测工程实际提取的新增建设用地图斑作为试验的训练样本。训练样本选取过程是,首先考虑到地区差异,从北方平原地区、南方丘陵山区、东部沿海地区等地方选择实际提取的新增建设用地图斑,共选取2万个图斑;然后再根据本文的分类体系进行筛选,共筛选出1.6万个新增建设用地图斑,8 207个作为训练样本,另外7 793个作为测试样本。

样本涉及到的卫星数据源包括高分一号、北京二号、资源一号02C、Beimos-2,KasEosat-2,Plannet labs和Repideye等,分辨率有1 m,2 m,5 m等多个尺度,前后时相为2016年9—12月和2017年9—12月。

3.3 训练样本处理及训练

本文设计并使用了一种两路卷积神经网络,通过使用卷积核计算卷积,对图像进行特征提取,生成相应的特征图像。主要处理流程如图1所示。

图1 训练样本流程图Fig.1 Flowchart of deep learning method

3.4 训练样本精度评价

根据图斑的集中分布情况将其中的7 793个图斑作为测试样本,这些测试样本集中分布在5个样本测试区域,对比分析计算耗时、人工检测的图斑个数、机器检测出的图斑个数,并从数量和面积2方面计算图斑检测查全率、查准率、虚警率和漏检率。计算公式分别为

查全率=检测出的样本图斑个数/所有

测试样本图斑个数×100% ;

(1)

查准率=检测出的样本图斑面积/所有

测试样本图斑面积×100% ;

(2)

虚警率=检测出的非样本图斑个数/检测

出的样本图斑个数×100% ;

(3)

漏检率=未检测出的图斑个数/测试

样本中图斑个数×100% 。

(4)

虚警率和漏检率是一对矛盾体,结合实际工程需要,主要目的是提高检测精度和工作效率,尽可能减少人工干预,需要平衡虚警率和漏警率的接受程度。虚警率低,漏检率则高,影响监测成果质量,不符合成果精度要求;如果接受较高的虚警率,则会给后期处理带来较多的工作量,不符合提高工程效率的需求。因此,综合各种因素后,经过多次调整与测试,找到平衡点,得出本文最为适合的相对优化模型。

经多次调试,本文最终使用的深度差异模型约150层,训练后模型大小约40 MB,采用最终模型得出的检测结果见表2。

表2 深度学习检测精度评价表Tab.2 Evaluation of accuracy by deep learning

通过试验可以看出,从效率方面,自动检测效率比人工工作效率高十几倍,甚至几十倍;从精度方面,自动检测可检测出70%~80%的图斑数量;不足30%的小面积图斑虚警率非常高。尽管测试结果难以达到理想状态,但这对于工程来讲已是很大的进步,如果辅以一定的人机交互,在不损失检测精度的条件下能大大提高工作效率。

局部检测结果如图2(红色框线中为工程实际提取结果)。

(a)2016DOM (b)2017DOM

(c)变化监测结果

4 试验与分析

4.1 试验区与数据源

本文试验区有2个,一是北京市通州区,作为平原地区土地利用状况的代表;二是四川省资阳市雁江区,作为丘陵山区土地利用状况的代表。

4.1.1 北京市通州区

通州区2016年和2017年度遥感数据源均为北京2号数据,前时相为2016年10—11月,涉及6景,侧视角低于10°,后时相为2017年9—10月,涉及8景,侧视角低于15°。

通州区经济发展迅速,尤其成为北京市副中心之后,市政府迁移通州,近几年土地利用变化频繁,新增建设用地量较大,2017年度遥感监测信息提取实际作业过程中,基于人工目视判读,并经过多级质量检查后确定提取的新增建设用地图斑有786个,1.9万亩(1)1亩=666.7 m2。各类型详见表3。

表3 通州区新增建设用地统计表Tab.3 Statistics of new constructed land of Tongzhou District

4.1.2 四川省资阳市雁江区

雁江区2016年度遥感数据源为SPOT6数据,时相为2016年11月,涉及2景,侧视角低于15°。2017年度遥感数据源为高分二号、资源三号和SPOT6,时相为2017年9—11月,涉及5景,侧视角低于12°。

雁江区属典型的四川盆地红岩丘陵区。2017年度遥感监测信息提取实际作业过程中,基于人工目视判读,并经过多级质量检查后确定提取的新增建设用地图斑有248个,1 901亩。各类型详见表4。

表4 雁江区新增建设用地统计表Tab.4 Statistics of new constructed land of Yanjiang District

4.2 新增建设用地实际检测结果与分析

测试样本评价结束后,把7 793个图斑作为新的训练样本继续训练,然后以完整区县为单位,对北京市通州区和四川省雁江区2区进行实际新增建设用地变化检测,并与人工目视判读结果进行对比分析。

检测过程中根据检测结果的关注重点不同进行参数设置与调试,如果追求较高的查全率则必须牺牲准确率,并且会导致非常高的虚警率;如果虚警率太高,要达到工程标准需要大量人工后处理,与提高工程效率的初衷相违背,失去试验的意义;如果适当降低对查全率的要求,能够提高准确率降低虚警率,实现半自动半人工或者自动为主人工为辅的方式。调试过程中发现,如果要达到95%以上的查全率,虚警率会提高接近10倍;如果要把虚警率控制在一倍之内,查全率则不足一半。通过多次试验与调试,并与人工工作量对比分析,综合考虑精度和效率,本文认为80%左右的查全率、两三倍的虚警率可以在工程应用中发挥作用。至于图斑面积的查准率,无论何种方式都难以到达理想状态。由于面积查准率不是该工程当前阶段的追求目标,因此查准率不做本次试验的重点要求。

通过多次试验和运算,本文认为通州区和雁江区达到如下检测结果可以符合工程应用需求。具体检测结果见表5和表6。

表5 通州区各类型精度统计表Tab.5 Accuracy of different types based on TongZhou (%)

表6 雁江区试验结果统计表Tab.6 Accuracy of different types based on YanJiang (%)

从表5和表6可知,新增建设用地图斑总体查全率分别为75.9%和82.6%,但不同类型的查全率差异较大,对于非常明显的1A/3A类建设用地基本都能检测出来,但对于规模较小、建设特征不太明显的其他建设用地图斑查全率则较低,个别类型不足50%。较测试样本而言,通州和雁江区自动检测出的新增建设用地图斑虚警率更高,2个区县均检测出2倍以上的虚警率,尤其是雁江区,查全率越高,虚警率越高。尽管从图斑个数方面查全率能够达到70%~80%的精度,但面积查准率较低,两个区县均不足20%。

5 结论与展望

本文结合全国土地利用遥感监测工程的实际需求,尝试利用深度学习方法对新增建设用地变化进行检测,并与人工目视判读的提取结果进行对比分析。试验表明,相较于传统的自动分类和变化检测方法,深度学习技术在新增建设用地变化提取方面有更高的适用性和实用性,并且具有较好的应用预期。通过试验主要得出以下几点结论:

1)大量的具有代表性的训练样本是深度学习技术的根本,全国土地利用遥感监测工程积累了几百万个新增建设用地样本,如继续深入训练,可大大提高自动检测精度。

2)地形地貌的差异对基于深度学习的自动检测结果影响不是很大,但新增建设用地类型不同自动提取结果差异较大。这与深度学习技术对训练样本代表性要求相吻合。

3)尽管本文试验结果与工程实际需求仍有一定的差距,可能与样本数量不够有关系,但如果以此为线索,辅以少量的人工后处理可有效提高工程实施效率,本年度工程实施过程中拟逐步推广应用。全国土地利用遥感监测工程时间要求紧、数据源众多、数据质量差异大、分类体系复杂多样,要全面达到理想状态难以实现。本文试验只是深度学习技术在土地利用遥感监测领域的初步探索,从相对单一的新增建设用地类型出发,逐步拓展到全地类提取,希望通过试验与应用能带动行业技术创新和发展,为解脱人工目视判读,提高工程科技含量奠定基础,下一步将扩大训练样本数量继续深入探索。

猜你喜欢

查全率图斑训练样本
地理国情监测中异形图斑的处理方法
基于C#编程的按位置及属性值自动合并图斑方法探究
土地利用图斑自动检测算法研究
人工智能
海量图书馆档案信息的快速检索方法
基于词嵌入语义的精准检索式构建方法
宽带光谱成像系统最优训练样本选择方法研究
融合原始样本和虚拟样本的人脸识别算法
基于稀疏重构的机载雷达训练样本挑选方法
基于ArcGIS 10的土地利用总体规划图斑自动化综合