基于决策树的分类方法在土地利用分类中的应用
2013-09-21王光远
王光远
福建师范大学地理科学学院 350108
引言
遥感信息的提取与分类是遥感影像分析与应用的重要内容。传统遥感图像分类方法有监督分类与非监督分类[2];近年较新的遥感图像分类比如人工神经网络分类法、模糊分类法[3]和专家系统分类法[4]等都是以遥感影像的光谱特征为基础的。但遥感影像本身存在“同谱异物,同物异谱”的现象,这些仅依赖于光谱特征的分类方法往往会导致遥感影像的错分或漏分,从而降低遥感影像分类精度[5]。
决策树分类方法是一种基于空间数据挖掘来获得分类规则的方法,数据挖掘(Data mining, DM)是从大量的、不完全的、模糊的、随机的数据中,提取隐含其中的、人们不知道的、具有潜在利用价值的信息和知识的过程[6],决策树分类方法能够有效地将遥感影像中的光谱信息和空间纹理信息结合,并借助现有的土地、植被和水体等土地类型的分类知识对影像进行土地类型分类。本文尝试基于决策树分类方法之上,结合光谱特征提取值和纹理信息特征提取值对Landsat5 TM影像进行分类,并将分类结果与运用最大似然法的监督分类结果进行对比分析。
1 研究区概况与数据来源
尤溪县是福建省三明市下辖的一个县,位于三明市东部,北纬2 5°5 0′~2 6°2 6′,东经117°48′~118°39′,总面积3425.3平方千米,属中亚热带季风性湿润气候。夏季暖热,冬季温凉,春夏多雨,降水丰富。地处闽中、戴云山脉以北,境内山岭耸峙,丘陵起伏,山峰林立,盆地错综;中部河谷斜贯南北。全县区位优势明显,资源丰富、交通便利。
本研究采用的数据有:福建省尤溪县梅仙镇2006年Landsat5 TM影像和ASTER影像、梅仙镇GPS野外实测样本点数据。
2 原理与方法
2.1 光谱信息特征提取
遥感图像中的光谱特征是反映地物本身物理属性的基本特征,常用的光谱特征提取方法有代数运算法、导数法和变换法[1]。本文利用波段间的比值消除地形和光照等影响,利用NDVI(归一化植被指数)和NDWI(归一化水体指数)分别对植被和水体进行特征提取。NDVI(归一化植被指数)反映了植被光谱的典型特征,部分消除大气程辐射和太阳-地物-卫星三者相对位置(遥感几何)的影响,增强了对植被的响应能力,具有简易操作的特点,是目前应用最广的植被指数[7]。NDWI(归一化水体指数)反映了水体光谱的典型特征。
2.2 纹理信息特征提取
由于研究区域山地居多,地形崎岖,目视解译工作难度大。同时,分类结果因遥感图像本身的空间分辨率以及同物异谱和异物同谱现象的大量存在,会有较多的错分、漏分情况出现,也导致分类精度降低。为此,许多专家学者进一步引入纹理特征,以增强不同地物的可识别性。
纹理特征是一种不依赖于物体表面色调或亮度的、反映图像灰度的空间变化情况,表现为平滑性、均一性、粗糙性和复杂程度[1]。纹理特征提取的主要方法是基于灰度共生矩阵的纹理特征提取方法,利用的是纹理特征的局部随机性和整体统计规律性的特点。对于遥感图像来说对比度(contrast)、熵(entropy)、逆差矩(homogeneity)和相关性(correlation)等统计量效果最好[8]。本文以ENVI为平台,先对试验区遥感影像进行主成分分析,有效去除噪音和冗余,取变换后的第一主成分分量;再根据灰度共生矩阵纹理提取方法对影像进行纹理分析,得到对比度(contrast)、熵(entropy)、逆差矩(homogeneity)和相关性(correlation)纹理特征图像。
2.3 DEM
DEM即数字高程模型,是一定范围内规则格网点的平面坐标(x y)及其高程(z)的数据集,它主要是描述区域地貌形态的空间分布,是通过等高线或相似立体模型进行数据采集(包括采样和量测),然后进行数据内插而形成的,是对地貌形态的虚拟表示,可派生出等高线、坡度图等信息。由于试验区分布着大量低山丘陵,林地与耕地较难区分,林地主要分布在低山丘陵地区,与耕地在高程上有明显差异,所以尝试利用DEM将林地从植被中区分出来。
2.4 决策树分类
决策树分类法突破了以往分类树或分类规则的构建要利用分类者的生态学和遥感知识先验确定,其结果往往与其经验和专业知识水平密切相关,决策树分类过程中能够利用GIS数据库中的地学知识辅助分类[5],将数据分割为特征更为均质的子集,简化了计算过程,提高了分类精度。本文采用的是二叉树结构,二叉树除叶子节点之外,每个节点都有两个分支。在分类过程中,可以将复杂的问题转化成多级两类分类问题。在每个节点Ni处,分类器都把样本集分为左和右两个子集,每一部分可能依旧包含着多类别的样本,需要把每一部分再划分成两个子集,以此类推,直到所分成的每一部分只包含同一个类别的样本,或某一类样本占优势而不可再分为止[9]。
3 分类过程
3.1 最大似然法分类
图1 尤溪县梅仙2006年遥感影像最大似然法分类结果
表1 2006年尤溪县梅仙TM影像最大似然法分类结果精度评价
本文采用监督分类中最常见的最大似然分类结果作为对照,通过选择训练样区和定点考察,进行监督分类,分类结果见图1,并进行分类后结果精度评价,见表1。
3.2 基于决策树分类
图2 基于决策树的分类方法原理图
根据梅仙镇的实际情况并结合实地采样结果,土地类型划分为水体、林地、农田、建设用地和裸地及工矿用地五类。根据实地考察结果,针对各土地类型选取相应的训练样区,分别进行最大值、最小值、均值和方差统计,在结合QUEST决策树算法的基础上,集成影像光谱信息、空间纹理信息和DEM等数据于一体的多源数据确定决策树分类规则,见图2。通过ENVI4.8软件平台运行决策树,分类结果见图3,分类后,用精度验证训练样区进行精度评价,见表2。
表2 2006年尤溪县梅仙TM影像基于决策树分类结果精度评价
4 结果与分析
由于遥感影像的复杂性,经常存在同物异谱和同谱异物的现象,为了准确区分光谱特征相似的目标地物,需结合影像的纹理信息以及其他有效辅助信息。基于光谱特征和纹理特征的决策树分类方法,实现了对Landsat5 TM遥感影像的数据挖掘,获取了更多分类参考信息,分类精度达到了93.93%,相比最大似然法,精度提高了2.70%,其中基于决策树的分类方法对于林地和建设用地分类的提升较为明显,但是受同谱异物影响,在研究裸地及其工矿用地时,存在明显的缺陷,分类精度低,若能够结合更多的光谱信息和空间纹理信息等辅助数据,并能够对结果进行分类后处理,将进一步提高决策树分类的精度。
[1]黄立贤,沈志学.基于决策树的landsat多光谱影像分类方法.光电技术应用,2011(6):49-51
[2]梅安新,彭望,秦其明,等.遥感导论[M].北京:高等教育出版社,2001
[3]王圆圆,李京.遥感影像土地利用/覆盖分类方法研究综述[J].遥感信息,2004(01):53-59
[4]肖鹏峰,刘顺喜,冯学智,等.中分辨率遥感图像土地利用[J].国土资源遥感,2004(4):41-45
[5]翁中银,何政伟,于欢.基于决策树分类的地表覆盖遥感信息提取 2012(4):110-111
[6]史忠植.知识发现[M].北京:清华大学出版社,2002:22-45
[7]沙晋明.遥感原理与应用.北京:科学出版社,2012
[8]Benediktsson J A,Sveinsson J R,Kolbeinn Areas.Classi—fication and Feature Extraction of A,IRIS Data[J].IEEETransaction on Geoscience an d Remote Sensing,1995,33(5):1194-1205
[9]闫培洁,于子凡,王勇军.基于遥感影像光谱信息的二叉决策分类树自动生成方法研究[J].测绘科学,2009,34(6):184-186