基于ENVI的决策树方法提取土地利用信息
2015-06-03万杰杨勇韩春峰王训宇
万杰 杨勇 韩春峰 王训宇
摘 要:该文章以云南省昆明市西山区为研究区域,利用WordView-2的4波段影像数据源,通过学习掌握ENVI软件中的决策树分类工具,以及利用不同地类的波谱信息的特征差异,分析了影像的各个地类的光谱特征,从中提取了4波段影像的NDVI(归一化植被指数),以此确定了不同地类之间的波段均值阈,根据不同地类在不同波段以及NDVI上的变化建立对应的决策树模型,最终得到其分类结果。本文最后采用已有的样本感兴趣区数据对其决策树分类结果进行了精度评价,并且评价分析了其结果精度在遥感数据中的作用。
关键词:决策树 ENVI提取信息 WV-2
中图分类号:S127 文献标识码:A 文章编号:1674-098X(2015)03(c)-0047-04
遥感影像信息提取是影像分析的一项重要内容。信息提取的方法由传统的人工解译,监督分类,非监督分类到后期的基于专家知识的决策树分类。研究区域的不同,选择研究方法也有所改变,尤其对于西南区域的丘陵地带或多山地区采用传统的方法不能很好的提取地类信息,因此,仅靠传统的光谱特性提取地物,就容易造成地类提取的错分或者漏分,分类结果不能满足,后期的应用达不到精度需求[1]。为了实现自动、高效的影像分类方法,决策树分类算法成为信息提取的关键技术之一,决策树分类方法具有以下的优点:(1)速度快:计算量相对较小,且容易转化成分类规则;(2)准确性高:挖掘出的分类规则准确性高,便于理解;(3)方法操作简单,准确度高,已在遥感图像特征提取和图像分类中得到广泛应用[6-7]。
1 研究区概况与研究资料
1.1 研究区概况
西山区位于昆明市区西部,地处东经102°21′~102°45′,北纬24°41′~25°26′。东西宽36.8千米,南北长72千米,形如灵芝状。总面积1058平方千米[2] ,其中山区、半山区面积占92%,坝区面积占8%。
西山区地处滇池盆地西北边沿,地势西北高,东南低,西北、北部地形起伏较大,靠昆明主城区部分为坝区,其余为山区、半山区。最高海拔2622米(风摆山),最低海拔1731米[3] 。部分西山区地理位置如图1所示。
1.2 数据源获取
本研究采用的数据为云南省昆明市西山区的数据,根据不同中心波长波段的组合方案,本研究采用WV-2数据的4,3,2波段分别赋予红、绿、蓝,获取近似自然的假彩色合成图像(如图2),方便后面的目视解译以及结果查看。
2 决策树分类研究
ENVIDecision Tree分类方法是一个多级分类器,它的基础是一系列的二叉决策树。每一个决策树依据一个表达式将图像中的像元分为两类,每一个新生成的类别又可以根据其他的表达式继续向下分为两类。可以根据需求定义决策树的节点,节点的个数是不受限制的。用户可以使用来自不同来源或文件的数据共同生成一个决策树分类器,也可以交互式编辑和“剪除”决策树,保存后的决策树可以用于其他数据。
ENVI的决策树分类器有如下特征[4]:
决策树的建立采用图形拖放工具。
在单个决策树中可以使用具有不同投影和不同像元尺寸的文件,使用过程中将动态对他们进行重新投影和重采样。
可以动态计算特定的变量值(如NDVI、Aspect等),而不需要单独准备,并将他们应用在表达式中。
基于知识的决策树分类是基于遥感影像数据及其他空间数据,通过专家经验总结、简单的数学统计和归纳方法等,获得分类规则并进行遥感分类。分类规则易于理解,分类过程也符合人的认知过程,最大的特点是利用多源数据。
专家知识决策树分类的步骤大体上可分为四步:知识(规则)定义、规则输入、决策树运行和分类后处理。难点是规则的获取,可以来自经验总结,如坡度小于20度是缓坡等;也可以通过统计的方法从样本中获取规则,如C4.5算法、CART算法、S-PLUS算法等。
2.1 分类预处理
根据人工目视解译的标准规范《中华人民共和国土地利用现状分类国家标准》,根据实验区的特点将其土地覆盖信息分为:植被,人工建筑棚,建筑用地,水体,未利用地。
由于每一种地物之间都可能存在有同物异谱,同谱异物的特性,在进行地类样本选择以前,需要通过测定各个地类的光谱值进行各个地类的最值,均值和方差值统计,综合运用阈值的方法,将不同的地物提取出来。
2.2 规则建立
2.2.1植被提取以及人工建筑棚提取
由于植被在近红外波段的反射率最强,在红光波段的吸收率最强,这两个波段不仅是植物光谱、光合作用中的最重要的波段,而且它们对同一生物物理现象的光谱响应截然相反,形成的明显反差,这种反差随着植被覆盖度的变化而变化,因此,可对它们用比值,差分等多种组合来增强现实植被或者揭示隐含的植被信息[5]。
提取的植被信息与人工建筑棚之间存在一定的联系,通过一定的NDVI阈值设定可以看到,提取的植被信息中有被错分的地物,主要是人造工棚以及屋顶颜色鲜艳的建筑物,通过ENVI下的统计分析可以看出,在蓝色波段可以发现绿地区域的最大值与非绿地对应的最小值基本接近,可以通過设置此阈值区分植被与人间建筑棚。
2.2.2 未利用地以及建筑用地提取
未利用地域建筑用地有很大的相似性,但又有很大的区别,可以通过二者地物在绿波段以及NDVI的差值变化来进行区分。具体的区分阈值通过ENVI下的样本选择统计分析进行划定。
2.2.3 水体信息提取
水体信息在近红外波段以后出现强吸收阶段,反射率几乎为零,可以根据此特定从NDVI值的阈值设定来区分水体与非水体信息。
2.3 决策树生成
2.3.1 决策树生成
生成的决策树见图4所示。
2.3.2 ENVI下执行决策树规则
第一步:规则获取
根据上述三步对于不同地类的需求,ENVI下构建的决策树规则描述如下:
Class1(植被):NDVI>0.3,
Class2(人工建筑棚):0.3Class3(未利用地):0.03