基于CART决策树技术的林业地类遥感影像分类研究
2011-06-08徐军谭莹郑云峰
徐军 谭莹 郑云峰
(1浙江省森林资源监测中心 浙江杭州 310020;2国家林业局华东林业调查规划设计院 浙江杭州 310019)
林业资源利用是否科学合理,是生态环境保护与可持续发展的焦点。实现林业资源可持续利用,及时准确地了解林业用地的时空配置状况,是林业资源管理的重要课题。3S技术形成了新型的对地观测系统,为林业科学研究提供了全新的科学方法和技术手段。
由于地物类别分布方式本身的复杂性,仅利用单一分类规则对影像进行分类,而不考虑其他构成影像的多种因素是造成传统方法不理想的原因,加上卫星遥感光谱数据的空间分辨率不高(TM30米),因而一般带有综合光谱信息的特点(即存在混合像元),致使计算机分类面临着诸多模糊对象。近年来,采用决策树分类法已被应用于许多分类问题。决策树分类法[1,2]具有灵活、直观、清晰、强健、运算效率高等特点,在遥感分类问题上表现出巨大优势。本次研究将利用CART决策树算法,结合光谱信息和纹理信息进行林业地类的分类,并把获得的结果与传统的最大似然法分类进行比较。
1 研究区概况及数据源介绍
翁源县位于广东省北部,韶关市东南部,地处北纬24°07´30"~24°37´15",东经113°39´2"~114°18´5",总面积 2217 平方公里。翁源县属中亚热带季风气候区,四季分明,季风气候明显。春季低温寡照,夏季高温多雨,秋季凉爽,冬季多霜,年平均气温为 20.6℃,年平均降雨量为1693.9毫米。翁源县山地植被属亚热带常绿季风雨带,由于地形、母质和人为活动的影响,形成植被多样性。山地植被有三种类型:草本植被、针阔叶混交林、疏林草坡。本次研究所用到的研究资料主要包括:研究区2006年Landsat5 TM 卫星影像数据及样地调查数据。
2 研究方法
2.1 遥感数据处理
2.1.1 TM数据预处理
辐射校正:本次研究采用的是ENVI中的Landsat TM Calibration模块来对遥感影像进行辐射校正,即用已经公开的 post-launch增益和偏移,将 Landsat TM 数字值转换成辐射或外大气层反射。
2.1.2 遥感影像融合处理
本研究针对经过预处理后的原始波段数据,分别进行主成分变换、基于第一主成分的IHS融合、基于第一主成分的Brovey融合以及小波融合;然后利用原始近红外波段和红光波段生成多种植被指数:RVI、NDVI、PVI和MSAVI。由上述融合变换生成的多个光谱特征将作为后续影像分类的基础。
2.1.3 遥感影像纹理提取
在本次研究中,采用基于灰度共生矩阵的纹理分析方法,采用7*7的窗口大小(当窗口大小设为 7*7,纹理均值和熵值逐渐趋于稳定),针对第一主成分图像,计算均值、方差、均匀性、对比度、相异性、熵、二阶矩、相关性8个纹理测度[3]。
2.2 基于CART决策树的影像分类
2.2.1 分类系统
依据本研究区林业地类,由图结合目视解译和实地调查,确定该研究区包含6种主要地物类型,同时结合当地的具体情况和林业生产特点以及TM数据对县(市)级资源利用的分辨能力和分类精度影响等情况,将研究区土地利用类型划分为有林地、灌木林、疏林地、未成林造林地、苗圃地和无林地6个大类。
2.2.2 特征波段选取及训练区选取
(1)在本次研究中,经过融合处理及纹理提取后共有35个波段。在进行分类前,要对分类的波段进行选取,选择合适的波段组合进行分类。本次研究中,将采用美国的查维茨(Chavez)教授等提出最优指数公式(0IF,0ptimum Index Factor)来选取参与分类的波段[4]。0IF值越大则相应的波段组合越优。经过计算排序及综合考虑,确定最优数据集波段为:band14(IHS1 ,即 HIS转换所得的第一波段)、band16(IHS3,即 HIS转换所得的第三波段)、band18(NDVI)、band20(PVI)、band29(VA,即方差)、band31(C0,即对比度)。
(2)训练区的选取
本次研究在训练区的选择主要依据目视判读,以及地形图、样地调查数据和非监督分类结果等辅助数据。
2.2.3 CART决策树分类
(1)CART决策树
分类与回归树CART(Classification and Regression Trees)是分类数据挖掘算法的一种[5,6]。CART模型最早由Breman等人提出并已在统计学领域普遍应用。CART是一种有监督学习算法,即用户在使用CART进行预测之前,必须首先提供一个学习样本集(Learning samples)对CART进行构建和评估,然后才能使用。CART使用如下结构的学习样本集:
其中, X1~Xm称为属性向量(Attribute Vectors),其属性可以是连续的,也可以是离散的;Y称为标签向量(Label Vectors),其属性可以是连续的,也可以是离散的。当Y是连续的数量值时,称为回归树;当Y是离散值时,称为分类树。
根据给定的样本集L构建分类树由以下三步组成:
[1]使用L构建树maxT ,使得maxT 中每一个叶节点要么很小(节点内部所含样本个数小于给定值 minN );要么是纯节点(节点内部样本的Y属于同一个类);要么只有惟一属性向量作为分支选择。
[2]使用修剪(Pruning)算法构建一个有限的递减(节点数目)有序子树序列。
[3]使用评估(Estimate)算法从第[2]步产生的子树序列中选出一棵最优树作为最终的决策树。
(2)研究区CART决策树模型的生成及判别规则的建立
利用SPSS对研究区训练样本建立CART决策树。生成决策树模型如图1所示,分为5层,45个结点,图中的1-6类分别表示无林地、有林地、未成林造林地、灌木林、疏林地、苗圃地。图中的每一个矩形代表树的一个结点,其中最顶层第一个矩形是根结点,里面包含了全部的训练样本。从树的根结点到任一个叶结点代表了一条判别规则。
图1 CART决策树模型示意图
下面以图1决策树的部分截图为例,能更清楚地展示其中包含的内容。
图2 决策树顶部的部分截图
图2是图1 CART决策树的最顶部的一段截图。其中Node0(结点的序号从0开始,按照每一层从左往右的顺序依次编号)就是树的根结点,Node1和Node2是根结点的第一个分支。在每个结点中注明了每一个类别所包含的样本单元数及所占的比例。树越往下,结点中的样本单元越“纯”。从上图可以看出,用来分隔第一个结点的波段是band16(即IHS3波段),其中灰度值小于或等于86.153650的样本单元被分入到左结点,而灰度值大于86.153650的被分入到右结点。分完后,其非纯度量(Gini索引)的改变为0.118,即“纯度”提高了0.118。也就是说,在所有参与分类的波段中所有潜在的分割点中,band16灰度值为86.153650的分割点能使分完后两部分的“纯度”增值最大,这也从另一个方面能说明参与分类的波段重要性的大小。在一棵树中,如果某波段参与的分割结点的次数越多,则说明该波段对分类的贡献越大,也就越重要。
为了能更全面的说明树的内容,图3所示是图1决策树叶结点的部分截图。其中,叶结点 Node43和Node44由Node26分割而来,分割准则为band31(C0波段)灰度值大于1.5765的分入到Node44中去,band31(C0波段)灰度值小于等于1.5765的分入到Node43中去了。在Node43中第3类也即未成林造林地所占的比例最大(为81%),因而把该叶结点的类别定为未成林造林地。也就是说,从根结点到该叶结点路径中所有判别规则的交集组成了一条未成林造林地的判别准则。有多少个叶结点,就有多少条地物类型的判别准则,在本研究中,针对研究区生成的决策树共有23个叶子结点,则对应23条判别准则。很显然,对于每一个地物类型,会对应多条判别准则。
图3 决策树叶结点的部分截图
生成决策树以后,就可以通过该树生成判别规则。对于一个未知地物类型的像元点(已知IHS1、IHS3、NDVI、PVI、VA、C0六个波段的灰度值),该像元点符合哪条判别规则,则其就判读为那条判别规则所对应的地物类型。然后,将生成的这些判别规则导入到ENVI中Decision Tree模块中,用这些判别规则建立一棵决策树。对该研究区遥感图像进行自动分类后,生成如图4所示的分类类码图。
图4 CART决策树模型分类类码图
图5 最大似然法分类类码图
2.3 传统的最大似然法分类
最大似然法是通过求出每个像素对于各类别的归属概率,根据贝叶斯判别准则把该像素分到归属概率最大的类别中的方法。运用ENVI 中Maximum Likelihood最大似然法,实现研究区遥感图像自动分类,图5是最大似然法生成的分类类码图。
3 结果与分析
分类完成后,将野外调查的地面验证点叠加到具有相同投影和坐标系统的分类图上,用分类生成的地物类别与野外记录的地物类别进行对照,从而建立混淆矩阵并计算Kappa系数、用户精度和生产者精度和总分类精度来衡量各种分类方法的分类性能,实现对分类结果的精度评价[7]。
分类结果的总精度是指所有类别中被正确分类的像元数之和与参加验证的总像元数之比,也即混淆矩阵中主对角线上元素之和与参与验证的总像元数之比。将每一类中被正确分类的像元数除以该类参加验证的总像元数,结果称为生产者精度,它说明指定覆盖类型的验证数据被分类后其效果的好坏。用户精度是指每一类别被正确分类的像元数目除以被分做该类的总像元数之比,它是委任误差的测度,表明一个像元被分到指定类别的可能性。依据验证数据,针对决策树及最大似然法分类结果图像分别建立下述混淆矩阵。
表1 决策树分类的混淆矩阵
表2 最大似然法分类的混淆矩阵
传统的最大似然法是建立在假定训练区地物的光谱特征和自然界大部分随机现象一样,近似服从正态分布,利用训练区可求出均值、方差以及协方差等特征参数,从而求出总体的先验概率密度函数的基础上,因此对正态分布的输入样本具有非常高的判别精度。决策树分类法是以各像元的特征值为设定的基准值,分层逐次进行比较的方法。比较中所采用的特征的种类及基准值是按照地面实况数据及目标物相关的知识等做成的。CART是一种有监督学习算法,即用户在使用CART进行预测之前,必须首先提供一个学习样本集(Learning samples)对 CART进行构建和评估,然后才能使用。由上述两表可知,决策树分类的精度及Kappa系数均高于最大似然法分类。可见,决策树分类比起传统的最大似然法分类,明显的提高了分类精度。将两种方法进行对比,相对于最大似然法,决策树的树状分类结构对数据特征空间分布不需要预先假设某种参数化密度分布,所以其总体分类精度优于传统的参数化统计分类方法。
[1]M.A. Friedl and C.E. Brodley(1997). Decision Tree Classification of Land Cover from Remotely Sensed Data[J], Remote Sensing Environmen, 61(3): 399-409.
[2]陈宝政,蔡德利,张有利等. 利用决策树对 TM遥感影像的分类研究[J].黑龙江八一农垦大学学报,2010,1: 79-82.
[3]王登峰,杨志刚,魏安世.纹理信息在遥感影像分类中的应用[J].南京林业大学学报:自然科学版,2010,34(3):97-100.
[4]王晓怡,张德强,姚磊.TM遥感影像信息及最佳波段组合研究[J].山东师范大学学报,自然科学版,2010,1:109-112.
[5]Hansen,M.Dubayah,R. and DeFries.R. Classification Trees: An Alternative to Traditional Land Cover Classifiers[J],International Journal of Remote Sensing,1996,17(5):1075-1082.
[6]D.K. McIver, M.A. Friedl.Using prior probabilities in decision-tree classification of remotely sensed data. Remote Sensing of Environment 81(2002):253-261.
[7]常庆瑞,蒋平安,周勇等.遥感技术导论[M].北京:科学出版社,2004.