高光谱图像植被类型的CART决策树分类
2013-10-15董连英邢立新李丽丽焦健楠
董连英,邢立新,潘 军,王 静,李丽丽,焦健楠
(吉林大学 地球探测科学与技术学院,长春 130026)
0 引 言
近年来,随着高光谱遥感分析处理技术的不断发展,使高光谱遥感应用的宽度和广度都大为扩展。高光谱遥感在植被中的应用研究一直得到广泛关注,其中以植被的高光谱遥感分类最多。高光谱遥感是将光谱技术与成像技术相结合,以纳米级的超高光谱分辨率对目标地物进行成像,同时获取数十至数百个波段,产生一条完整而连续的光谱曲线,能全面反映自然界中各种植被固有的光谱特性以及其间的细节差异,从而大大提高植被分类识别的精细程度和准确性[1,2]。
作为一种基于空间数据挖掘和知识发现的监督分类方法,决策树是一种有效的高光谱影像分类方法。决策树的基本思想是:按照一定的规则把遥感数据集逐级往下细分,以得到具有不同属性的每个子类别[3-5]。常规决策树的规则一般是根据经验和目视解译人为设定,受人为主观的影响较大。而CART(Classification and Regression Tree)算法可按一定的算法自动选择分类特征并确定节点阈值,能处理其他算法不能处理的非数值型数据,是决策树模型的典型代表[6]。目前CART算法用于多光谱遥感分类研究已比较成熟,而在高光谱遥感领域却较少。
笔者以长白山的EO_1Hyperion高光谱遥感图像为数据源,采用基于CART算法的决策树分类方法对图像进行分类,获得了较好的效果。
1 研究区概况及数据预处理
1.1 研究区概况
研究区位于长白山自然保护区境内,地理位置为127°53′~128°21′E,41°57′~43°1′N。该区域属于大陆性山地温带气候,四季较分明,年均气温-7~3 ℃,年平均降雨量700~1 400 mm,海拔为700~2 500 m。长白山自然保护区内植被类型不仅复杂多样,而且种类丰富。从长白山山顶到山脚,随着海拔高度的不同,形成了4个自然分带的植被:700~850 m为阔叶植被; 850~1 300 m为针阔混交林植被; 1 300~1 850 m为针叶林植被; 1 850~1 950 m为岳桦林植被。在长白山北坡局部地带还有长白松(美人松)的小片纯林。
1.2 数据选择及预处理
图1 Hyperion图像
由于长白山特殊的地理环境和气候条件,笔者选取的一景Hyperion数据成像时间是2010年8月12日(见图1),植被生长正茂盛时期。Hyperion是以推扫式获取光谱数据,共242个波段,其中1~70波段是可见光近红外波段(VNIR:Visible/Near-InfRared),71~242波段是短波红外波段(SWIR:Short Wave-InfRared),光谱分辨率为10 nm,空间分辨率为30 m。其他数据包括DEM(Digital Elevation Model)数据和1 ∶100 000的长白山林相图 。为便于后续处理,将所有数据投影统一到UTM(Universal Transverse Mercator)投影,分辨率为30 m。
a 坏线去除前后 b 条纹去除前后
242个波段中受水汽影响的20个波段为[7,8]:121~127、167~178和224;44个未定标波段为:1~7、58~76和225~242;2个重复波段为:56和57。另外还有一些质量较差的波段,对这些波段进行去除。保留波段为12~56,79~119,135~164,193~218共142个,对这些剩余波段进行处理,包括坏线修复、条纹去除以及Smile效应去除(见图2),最后利用FLAASH模块进行大气校正,将影像的辐射亮度值(DN)还原为地物的地表真实反射率,校正前后波谱曲线如图3所示。在大气校正前要将像元值转换为绝对辐射值,即将所有VNIR波段除以40和所有SWIR波段除以80。
a 大气校正前 b 大气校正后
2 降维及纯净训练样本提取
图4 MNF变换后特征值
植被的特征波段主要在VNIR波段内,波段间含有大量冗余信息和数据预处理带来的噪声,因此,常常需要进行降维处理[1]。通过对12~57波段进行MNF(Minimum Noise Fraction)变换,既能对数据降维,又能将影像噪声减到最小。经MNF变换后,特征值较大的前12波段占总信息量的80%(见图4)以上,因此,选择前12波段用于后续分析。
笔者借助纯净像元指数PPI(Pixel Purity Index)和N维可视化工具进行纯净像元提取[9,10]。在MNF变化的结果上计算纯净像元指数PPI,PPI的计算通过不断将N维散点图投影到随机的单位矢量实现,这样就将像元落到单位矢量端点的次数记录下来,该次数越多,像元可能越纯。之后选择阈值范围从PPI图像上获得感兴趣区,感兴趣区包含的像元就是较纯净的像元。所有的极值像元都已经找到后,一幅“像元纯度图”被建立。这些极值像元通过N维可视化技术以数据云的形式显示,人机交互式选取整幅影像中6种地物类型的纯净端元(见图5),波谱曲线如图6所示。将这6种端元输出为感兴趣区域(ROI:Region of Interset)作为训练样本,共计2 007个,其中草地179个,针阔混交林669个,针叶林539个,阔叶林171个,长白松213个,非林地236个。分析波谱曲线可知,各种植被的反射率光谱曲线具有明显的相似性,但由于吸收谷、反射峰和红边等特征位置不同,光谱变化强度存在差别。长白松属于针叶林,但在影像上色调和其他针叶林明显不同,反射率偏低,因此将长白松作为一种独立的植被种类。
图5 N维可视化空间 图6 端元波谱
3 分类方法
3.1 CART分类原理
CART算法的基本原理是通过对测试变量和目标变量构成的训练数据集的循环分析而形成的二叉树决策树结构。CART是一种有监督学习算法,即用户在使用CART进行预测前,必须首先提供一个学习样本集(Learning samples)对CART进行构建和评估,然后才能使用[11]。CART使用如下结构的学习样本集
其中X1~Xm称为属性向量(Attribute Vectors),其属性是可连续的,也可是离散的;Y称为标签向量(Label Vectors),其属性可是连续的,也可是离散的。当Y是连续的数量值时,称为回归树; 当Y是离散值时,称为分类树。
CART算法是从众多的预测属性(模型的输入属性)中选择一个属性或多个属性的组合,作为树节点的分裂变量,把测试变量分到各个分枝中,重复该过程建立一棵充分大的分类树,然后用剪枝算法对该树进行剪枝,得到一系列嵌套的分类树,最后用测试数据对该系列分类树进行测试,从中选择最优的分类树。
3.2 分类特征变量选择与分析
根据所选取的训练样本及研究区地形特征,采用CART算法进行计算分析,最终选择的变量有遥感影像光谱特征、影像纹理特征和地形特征。
3.2.1 光谱特征变量
笔者选取的光谱特征变量包括MNF变换后的432波段组合和植被指数。植被指数是度量植被信息重要参数之一,这里选用归一化植被指数(NDVI:Normalized Difference Vegetation Index,INDVI)和比值植被指数(RVI:Ratio Vegetation Index,IRVI)。NDVI是提取植物生长状态以及植被空间分布密度的最佳指示因子,RVI可以消除地形因子对影像信息的干扰[12]。植被指数计算如下
(1)
(2)
其中b1为近红外波段,b2为可见光红波段,近红外、红光波段分别选择波长833.83 nm和波长691.37 nm处。
3.2.2 纹理特征变量
灰度共生矩阵法是一种常用的纹理分析方法,它是图像中2个像素灰度级联合分布的统计形式,能较好地反映纹理灰度级相关性的规律[13]。目前纹理分析都是针对单个独立波段的,笔者针对MNF变化后的第1成分图像,利用ENVI软件计算出8个纹理测度(均值、方差、均匀性、对比度、相异性、熵、二阶矩和相关性),其中移动窗口为3×3,移动步长为1,移动方向为0°。
3.2.3 地形特征变量
植被分布存在不同尺度上的地域差异规律,而高程决定的垂直地带性又是山区植被分布的重要特征之一。长白山植被具有典型的垂直分布带,利用DEM数据提取坡度和坡向因子。
4 结果与分析
4.1 决策树模型构建
基于选取的变量,采用ENVI软件下决策树自动阈值分类CART算法补丁进行遥感影像的决策树分类,得出最优二叉树(见图7)。其中16个特征变量分别被标记为B1~B16。该算法自动选择最适合的分类特征并确定阈值,从而减少人为主观影响,其中B2指DEM值,B4指NDVI值,B7、B8分别指MNF变换后432波段合成中的3波段和2波段,B10、B12分别为纹理特征中的方差和对比度。首先通过NDVI确定阈值将部分非林地分离出来,此遥感影像成像时间是8月份,长白山植被长势茂盛,地表植被覆盖率较高,因此植被的NDVI指数较大。通过前面波谱曲线分析可知,草地整体的反射率较高,因此通过波段阈值将草地与其他植被分开。阔叶林、针叶林和针阔混交林光谱特征非常相似,仅用光谱很难区别,这时就要结合其他纹理信息和地形信息。
图7 最优二叉树
运行此决策树所得到的分类图如图8所示。为能较直观地查看CART决策树的分类效果,基于影像的光谱特征利用监督分类的最大似然法对实验区进行分类,得到的分类图如图9所示。
图8 决策树分类图 图9 最大似然法分类图
4.2 精度评价
误差矩阵方法是目前普遍推荐的对遥感影像分类精度的定量评价方法。结合前文提取的纯净端元,参考高分辨率影像和1 ∶100 000林相图,选取测试样本点数1 744个。利用误差矩阵与外业调查和目视解译相结合的方法,对分类结果进行评价,其分类结果精度分析分别如表1和表2所示。
表1 最大似然法分类精度
经计算得总体精度为84.40%,Kappa系数为0.79。
表2 CART分类精度
经计算得总体精度为90.31%,Kappa系数为0.84。
比较表1表2中的结果可知,该研究采用的基于CART决策树分类方法总体分类精度为90.13%,Kappa系数为0.84,而最大似然法总体分类精度为84.40%,Kappa系数为0.79。草地属于低矮植被,大部分被植株高大的针叶林、阔叶林等遮盖,其大部分像元是混合像元,因此精度不高。长白松天然分布区很狭窄,在长白山二道白河尚存小片纯林及散生林木,在影像上色调较深,和其他针叶林不易混淆。非林地和其他植被边界很明显,故其分类精度较高。两种分类方法中针阔混交林、针叶林和阔叶林之间存在一定的混分及错分现象,但最大似然法比CART方法严重得多。同时,对于一级阶地,CART方法明显边界更加清晰,漏分错分现象较少。最大似然法分类依赖于地物的光谱特征,而各植被类型之间的光谱特征又很相似。总之,无论从总体分类精度还是具体地类来看,CART分类精度均优于最大似然法,具有较强的实用性和优越性。
5 结 语
笔者以Hyperion高光谱图像为数据源,以长白山地区植被分类为例,探讨基于高光谱遥感数据的植被分类研究,在MNF变换的基础上采用PPI提取纯净训练样本,结合影像光谱、纹理和地形变量,利用CART决策树完成了植被分类。得到以下结论。
1)高光谱遥感图像具有丰富的光谱信息,然而仅依靠光谱特征分类是远不够的。尤其是长白山地形复杂,分类时地形因子的考虑是必要的。CART决策树法结合了光谱信息、纹理信息和地形信息,其结果精度优于最大似然法5.91%。
2)分类过程中,训练样本的选取十分关键,尽管使用的分类算法特别优越,但如果选择的训练样本不具有代表性,其分类结果也很难预测。
3)长白山地区的植被种类繁多,笔者提取的植被类别仅有6种,可对植被类型进行更细一步研究。
4)决策树分类方法提取信息的关键是特征变量及节点阈值的选取,通过CART算法能选取与分类任务相关的信息作为测试变量,并确定最佳分割阈值。此外,对分类阈值的选取及如何有效利用其他特征构建决策树进行分类,以提高精度是下一步需要解决的问题。
参考文献:
[1] 张兵,高连如.高光谱图像分类与目标探测[M].北京:科学出版社,2011.
ZHANG Bing,GAO Lian-ru.Hyperspectral Image Classification and Target Detection[M].Beijing:Science Press,2011.
[2]李海涛,顾海燕,张兵,等.基于MNF和SVM的高光谱遥感影像分类研究[J].理论研究,2007(5):90-93.
LI Hai-tao,GU Hai-yan,ZHANG Bing,et al.Based on SVM and MNF for Classification of Hyperspectral Remote Sensing Images[J].Theory Research,2007(5):90-93.
[3]刘勇洪,牛铮,王长耀.基于MODIS数据的决策树分类方法研究与应用[J].遥感学报,2005,9(4):405-412.
LIU Yong-hong,NIU Zheng,WANG Chang-yao.Research and Application of the Decision Tree Classification Using MODIS Data[J].Journal of Remote Sening,2005,9(4):405-412.
[4]王喆,陆楠,周春光.基于决策树归纳的聚类方法与实现[J].吉林大学学报:信息科学版,2003,21(2):132-137.
WANG Zhe,LU Nan,ZHOU Chun-guang.Clustering Method and Realization on Inductive Decision Tree[J].Journal of Jilin University:Information Science Edition,2003,21(2):132-137.
[5]MAHESH PAL,PAUL M MATHER.An Assessment of the Effectiveness of Decision Tree Methods for Land Cover Classification[J].Remote Sensing of Environment,2003,86(4):554-565.
[6]齐乐,岳彩荣.基于CART决策树方法的遥感影像分类[J].林业调查规划,2011,36(2):62-66.
QI Le,YUE Cai-rong.Remote Sensing Image Classification Based on CART Decision Tree Method[J].Forest Inventory and Planning,2011,36(2):62-66.
[7]谭炳香,李增元,陈尔学,等.EO_1 Hyperion高光谱数据的预处理[J].遥感信息,2005(3):36-41.
TAN Bing-xiang,LI Zeng-yuan,CHEN Er-xue,et al.Preprocessing of EO-1 Hyperion Hyperspectral Data[J].Remote Sensing,2005(3):36-41.
[8]DAVID G,GOODENOUNGH,ANDREW DYK,et al.Processing Hyperion and ALI for Forest Classification[J].IEEE Transactions on Geoscience and Remote Sensing,2003,41(6):1321-1331.
[9]邹卓阳,杨武年,杨颖,等.高光谱遥感技术在植被信息提取中的应用[J].测绘,2010,33(2):55-57.
ZOU Zhuo-yang,YANG Wu-nian,YANG Ying,et al.Application of Hyperspectral Remote Sensing Technology in Vegetation Information Extraction[J].Surveying and Mapping,2010,33(2):55-57.
[10]刘锋.高光谱数据降维及端元提取[D].北京:北京理工大学信息科学技术学院,2008.
LIU Feng.Hyperspectral Dimension Reduction and Endmember Extraction[D].Beijing:College of Information Science and Technology,Beijing Institute of Technology,2008.
[11]谭莹,翁源县.基于纹理信息及CART决策树技术的遥感影像分类研究[D].南京:南京林业大学风景林学院,2008.
TAN Ying,WENG Yuan-xian.Application of Texture Information and CART Decision Tree Technology for Image Classification Using Remote Sensing Data[D].Nanjing:College of Landscape Architecture,Nanjing Forestry University,2008.
[12]颜梅春.高分辨率影像的植被分类方法对比研究[J].遥感学报,2010,11(2):235-240.
YAN Mei-chun.Research and Contrast on Several Vegetation-Classification Methods of High-Resolution Satellite Image Data[J].Journal of Remote Sensing,2010,11(2):235-240.
[13]彭光雄,李京,何宇华,等.利用纹理分析方法提取CBERS02星CCD图像土地覆盖信息[J].遥感技术与应用,2007,22(1):8-13.
PENG Guang-xiong,LI Jing,HE Yu-hua,et al.Extracting Land Cover Information from CBERS-2’s CCD Using Texture Analysis[J].Remote Sensing Technology and Application,2007,22(1):8-13.