基于QUEST决策树的Landsat 8遥感影像的南京市土地分类研究
2017-03-09李旭程涛曹卫星朱艳
李旭++程涛++曹卫星++朱艳
摘要:以南京市為研究对象,获取研究区域Landsat8 OLI遥感影像,利用QUEST决策树的分类方法对影像进行分类。将植被覆盖指数(NDVI)、迭代自组织数据分析技术(ISODATA)非监督分类作为地学辅助数据因子添加到分类波段中,构建多源数据集进行不同特征的融合,处理目标类别之间的非线性关系。该方法灵活性大,总精度达91.045%,Kappa系数为0.851,取得了比普通方法更好的精度。精度的提高有助于解决南京市复杂的规划、决策和管理等问题。
关键词:遥感;QUEST决策树;土地利用分类;南京市
中图分类号:TP751 文献标识码:A 文章编号:0439-8114(2017)01-0035-04
DOI:10.14088/j.cnki.issn0439-8114.2017.01.010
Research on Land-use Classification of Nanjing City with New Type Landsat 8 Remote Sensing Images Based on QUEST Decision Tree
LI Xu1,2,CHENG Tao2,CAO Wei-xing2,ZHU Yan2
(1.Information Engineering school of Tarim University,Alaer 843300,Xinjiang,China;
2.National Engineering and Technology Center for Information Agriculture,Nanjing Agriculture University,Nanjing 210095,China)
Abstract: Taking Nanjing city as the research object, Landsat 8 OLI remote sensing image of the study area was acquired and classified using the QUEST decision tree classification method. The NDVI(Normalized difference vegetation index), ISODATA(Iterative self-organizing date analysis technique) unsupervised classification of vegetation were added to the classification band as the geoscience auxiliary data factors. Multi-source data was constructed to fuse different feature, and nonlinear relationship among the target categories was analyzed. This method had great flexibility and better accuracy than conventional methods, with accuracy was 91.045% of the total and Kappa coefficient was 0.851. The improvement of the accuracy could help to solve complex planning, decision-making and management issues of Nanjing city.
Key words: remote sensing; quest decision tree; land use classification; Nanjing city
及时有效地获取土地利用信息对指导社会、经济、土地资源的合理利用和环境发展及科学管理土地资源有着重要的现实意义[1]。利用遥感和地理信息系统获取土地利用信息具有获取信息更新周期短、信息速度快、信息现势性强等特点。遥感图像分类是指根据遥感图像中地物的光谱特征、空间特征、时相特征等对地物进行识别的过程[2]。
遥感影像分类的研究方法大体分为两类[3]。一是基于像素遥感影像的分类方法[4],如传统的监督、非监督分类方法,这些方法利用像元的亮度特征对影像进行分割,分类的精度低,从而不能满足实际应用的需要。随着人们对遥感认识的不断深入,新的分类方法不断被提出,如多重滤波、波段组合法、基于主成分分析光谱角度制图的分类法、纹理分析法、模糊分类法、植被指数法、神经网络法等[5]。这些分类方法虽然大大提高了分类精度,但是在分类结果中仍然存在“椒盐效应”[6],且分类后需要大量的处理工作以修正结果。二是采用面向对象的分类方法,处理的最小单元是含有更多语义信息的多个相邻像元组成的影像对象,在分类时利用的是对象的几何信息以及影像对象之间的语义对象、纹理信息、拓扑关系等[7]。但此类方法多应用在高分辨率遥感影像上,在山地丘陵地区大范围资源遥感调查中,分类结果精度尚需提高[8]。
决策树分类方法(Decision tree classifier)是以各像元的特征值为设定的基准位置,按照一定知识规则进行分层并逐次进行比较,继而从影像分离出目标地物的分类法[9]。在决策树的划分过程中,可以融合影像以外的各种信息,且不需要任何先验假设条件,能使漏分和错分误差最小化,因此在遥感信息提取以及影像分类中有着广泛的应用,例如农业资源调查、耕地变化遥感监测、城镇土地规划以及土地开发综合评价[10-12]等。基于QUEST算法的决策树分类方法是依靠多维遥感信息复合技术,提高遥感影像在复杂地形中对不同土地类型的区分度的一种快速、无偏、高效的方法[13],此方法用于复杂多变地貌的分类比普通决策树分类法精度更为提高。
南京市位于长江下游沿岸,是全国重要的产业城市和经济中心,也是华东地区重要的交通枢纽,由低山、岗地、河谷平原、滨湖平原和沿江河地等地形单元构成的地貌综合体,是江南典型土地[14]。因此本研究采用基于QUEST决策树影像的分类方法,将南京市各种地物的光谱知识以及其他相关知识融入决策树,进行土地利用类型计算机自动分类。结果与采用普通决策树分类法进行精度对比,以检验该方法在地形复杂地区的多光谱遥感影像精度。
1 研究区概况及数据处理
1.1 研究区概况
南京市位于江苏省西南部,地理坐标为北纬31°14′-32°37′、东经118°22′-119°14′。行政区域总面积6 582 km2。南京市横跨长江,镇江市、扬州市、常州市以及滁州市、马鞍山市、宣州市与其接壤。南京市区东倚钟山,海拔448.9 m;西傍长江天堑,流经南京段约为95 km,距长江入海口347 km。南京市地貌特征属于宁镇扬丘陵地區,其以低山缓岗为主,丘陵占土地总面积的4.3%,低山占3.5%,岗地占53%,平原及河流湖泊占39.2%。在北部和中部广大地区的土壤为黄棕壤(地带性土壤),南部与安徽省接壤处有少量的红壤,全市森林覆盖率为13%[15]。
1.2 数据准备和预处理
2013年2月11号,NASA成功发射了Landsat 8卫星,OLI陆地成像仪包括9个波段,空间分辨率为30 m,其中包括一个15 m的全色波段,成像宽幅为185 km×185 km。根据南京市地理特征,研究采用的数据源为2013年10月5日Landsat 8两景影像,在研究区域范围内影像没有云层覆盖,图像清晰,质量良好,所在时期研究区域植被生长茂盛,利于地物识别与分类工作。
使用ENVI5.1软件对原始遥感影像进行图像镶嵌、几何校正与配准,误差控制在一个像元以内,同时利用南京市的行政边界矢量数据进行影像的掩膜裁剪,从而得出南京市遥感影像的范围。根据Landsat 8影像的各波段特征以及研究内容需要,对影像的7、6、4波段分别赋予红、绿、蓝颜色,获得近似自然彩色的合成图像,有利于提高图像最佳目视解译的效果。
2 影像决策树分类
2.1 土地类型及训练样本选取
南京市平面位置南北长、东西窄,呈正南北向;南北直线距离150 km,中部东西宽50~70 km,南北两端东西宽约30 km。根据野外遥感调查以及结合实际的土地利用现状,得出土地利用类型主要分为建设用地、耕地、林地、草地、水体五大类,其中林地与草地大多为建设用地内部以及附近的绿化用地,分布比较零散,所以将林地与草地合并为林地一种类型,综合以上考虑,将研究区土地划分为耕地、林地、建设用地、水体4种土地利用类型。
训练样本的选取是影响遥感影像分类的关键因素,参考南京市1∶10 000比例尺及2009年土地利用图,在遥感影像上均匀地选取各样本训练区,如表1所示。
2.2 QUEST算法
QUEST(Quick unbiased efficient statistical tree)是Loh和Shih[15]在1997年提出的建立决策树的一种二元分类构建方法。其基本思想主要涉及分支变量和分割值的确定问题,但它将分支变量选择和分割点选择以不同的策略进行处理。一方面既要适用连续型变量又要适用离散型变量,另一方面还要考虑其他一般决策树算法更倾向选择那些具有更多潜在分割值的预测变量。QUEST在构建决策树变量选择上基本无偏差,同时还可以在特征空间中通过多个变量构成的超平面区别类别成员以及非类别成员。它的运算速度和分类精度优于其他决策树方法[9,10]。
算法构建流程如下:
1)首先进行预测变量的选择,依次对所有的预测变量X和目标变量Y的相关性进行分析,若X为离散变量,使用卡方检验计算X与Y的关联强度,并且求出归入该类的概率P值;若X是有序的或者连续的变量,则利用方差分析计算P值。
2)通过将所有变量的P值与预先设定的界值α/M进行比较,α为用户指定的显著性水平,在(0,1)之间,M为预测变量总数。如果均小于界值,就选择最小的一个P值作为分支变量;如果均大于界值,则当X为连续的或者有序的变量时,利用Levene方差的齐性检验计算P值,并且在P值小于界值的时刻,选择最小的一个P值作为分支变量。若方差的齐性检验P值均大于阈值,就选择在第一步中的P值最小变量来作为分支变量。
3)如果选出的分支变量为离散型分类变量,需经过变换,使不同X取值的目标变量Y取值的差异最大化,并且计算其最大判别坐标。
4)如果Y为多分类,就为每一Y取值计算X的均数,使用聚类分析方法,将这些类别最终合并为两大类,因此将多类类别简化为二类判别问题。
5)利用二次判别分析方法最终明确分割点的位置,获得所选预测变量X原始取值,从而构建分类规则。
2.3 决策树的建立
选择Landsat8 OLI影像,利用选取的训练样本提取各种光谱和辅助地学特征构建多源数据集,包括深蓝、青、绿、红、近红外、2个短波红外等7个多光谱波段以及植被覆盖指数(Normalized difference vegetation index,NDVI)、迭代自组织数据分析技术(Iterative self-organizing data analysis technique,ISODATA)非监督分类结果,组成一个9波段数据来进行分类和精度分析。
NDVI是反映植被覆盖度的重要指标,它是植物生长状态以及植被空间分布密度最佳的指示因子,并且和植被分布密度呈线性相关关系,被广泛地应用于景观生态、农作物估产、环境监测等领域。ISODATA非监督分类是基于集群理论基础上,依据不同影像地物在空间中的特征差别,收集由计算机集聚统计分析所得图像,是一种无先验类别标准的图像分类法,可以为QUEST决策树分类提供参考。
3 结果与分析
3.1 训练区样本分析
分离度是影响分类精度的重要指标,在影像中的训练区样本的分离度如表2所示。计算结果表明不同土地利用类型之间的分离度均大于1.9,样本的分离度符合分类的要求。
总共有2 078个像元作为测试变量和目标变量,通过利用ENVI5.1软件,建立基于QUEST的决策树,在训练过程中,决策树的深度为12层,结点数为145个,从而比较方便地产生了IF-Then形式规则。根据南京市土地利用类型的实际情况以及调查数据,适当地修正决策树的划分条件,并且利用此类方法对多维影像进行分类,南京市土地分类结果如图1所示。生产的决策树结构比较复杂,分类生成的决策树结构如图2所示。
3.2 精度检验
参考南京市的土地利用数据、遥感影像图、地形图、野外调查资料等,研究區基于地物类型分布面积的比例大小,确定分层随机采样的1 982个像元样本地物类型,验证基于普通决策树分类结果和基于QUEST决策树分类结果。QUEST决策树分类方法总精度为91.045%,比普通决策树分类方法高3.895个百分点;Kappa系数为0.851,比普通决策树分类方法高0.052。
4 结论
本研究利用基于QUEST的决策树分类方法分析了地形条件较为复杂的南京市Landsat8 OLI遥感影像,将NDVI和ISODATA非监督分类结果等因子纳入分类规则相对单一的利用光谱信息遥感影像分类中,从分类结果可以得出,基于QUEST决策树的遥感影像分类提高了林地、建设用地的分类精度,从而提高了研究区影像的总体精度,而且能快速地利用选定的训练样本获得集成遥感影像中比较精确的分类规则。此分类法可为区域土地利用开发、保护以及政府相关部门制定政策提供较为可靠的科学依据。
今后需要将多维地学信息,如光谱特征、纹理特征与地学辅助信息进行有机的结合,以期发现新的分类规则,从而构建决策树专家分类模型,以进一步提高遥感影像分类的精度。
参考文献:
[1] 刘晓娜,封志明,姜鲁光.基于决策树分类的橡胶林地遥感识别[J].农业工程学报,2013,29(24):163-172.
[2] 杜丽英.决策树ID3算法的应用研究[J].轻工科技,2014(9):67-68.
[3] 周美琴,徐章艳,陈诗旭,等.新型偏好敏感决策树算法[J].计算机应用研究,2016,33(10):3001-3006.
[4] 张 熙,鹿琳琳,王 萍,等.基于决策树的漓江上游土地覆盖分类[J].测绘科学,2016,41(3):100-104.
[5] 张 森,陈健飞,龚建周.运用C5.0决策树进行面向对象分类——以landsat-8 OLI为例[J].测绘科学,2016,41(6):1-8.
[6] 梅卓华,金 焰,张哲海,等.基于TM影像的南京市土地利用变化遥感监测与评价[J].地球与环境,2010,38(1):63-67.
[7] 张 娟,党耀国,李雪梅.基于前景理论的灰色多指标风险型决策方法[J].计算机工程与应用,2014,50(22):7-10.
[8] 王 军,温兴平,张丽娟,等.基于遥感技术的滇池水域面积变化监测研究[J].河南科学,2014,32(8):1589-1593.
[9] JIANG Y N,WANG Y,LIAO M S. Study of coastal wetland classification based on decision rules using ALOS AVNIR-2 images and ancillary geospatial data[J].Geocarto International, 2015,19(3):1172-1188.
[10] L?魻W F,CONRAD C,MICHEL U.Decision fusion and non-parametric classifiers for land use mapping using multi-temporal RapidEye data[J].Isprs Journal of Photogrammetry and Remote Sensing,2015,108:191-204.
[11] 袁林山,杜培军,张华鹏,等.基于决策树的CBERS遥感影像分类及分析评价[J].国土资源遥感,2008(2):91-98.
[12] 巴 桑,刘志红,张正健,等.决策树在遥感影像分类中的应用[J].高原山地气象研究,2011,31(2):31-34.
[13] 白秀莲,巴雅尔,哈斯其其格.基于C5.0的遥感影像决策树分类实验研究[J].遥感技术与应用,2014,29(2):338-343.
[14] 王 茜,张增祥,易 玲,等.南京城市扩展的遥感研究[J].长江流域资源与环境,2007,16(5):554-559.
[15] LOH W Y,SHIH Y S.Split selection methods for classification trees[J].Statistica Sinica,1997,7:815-840.