基于决策树分类的森林信息提取研究
2013-01-04严恩萍王家均
陈 利 ,林 辉 ,孙 华 ,严恩萍 ,王家均
(中南林业科技大学 a.林业遥感信息工程研究中心;b.林学院,湖南 长沙 410004)
基于决策树分类的森林信息提取研究
陈 利1,林 辉1,孙 华1,严恩萍1,王家均2
(中南林业科技大学 a.林业遥感信息工程研究中心;b.林学院,湖南 长沙 410004)
以株洲市为研究对象,采用2009年10月TM遥感数据和地面固定样地点数据开展土地利用分类研究,提取分析各种地类在TM遥感影像上的光谱特征曲线和各地类的归一化植被指数及归一化差异水体指数,依据提取的光谱特征曲线及植被指数建立了土地利用分类决策树模型,通过反复分类试验,筛选出最优的决策树分类模型的阈值。结果表明:通过典型地物波谱分析以及实验,区分植被与非植被的归一化植被指数的阈值为0.3,即大于0.3为植被,反之则为非植被;区分水体与非水体的归一化差异水体指数的阈值为1.5,即大于1.5为水体,反之则为非水体;从分类结果来看,基于决策树模型分类的总体精度为87.21%,Kappa系数为0.850 6,株洲市林地面积为703 421.49 hm2,非林地面积为422 470.61 hm2,林地覆盖率为62.5%,主要分布在株洲市的东南部,即攸县、茶陵县、炎陵县,占株洲市林地面积的73.0%。
森林信息;遥感信息;决策树分类;信息提取
森林是林木、伴生植物、动物及其与环境的综合体,是可再生自然资源,无时不处于消长交替的动态过程之中,具有经济、生态和社会三大效益。因而开展森林资源调查与监测,进行一定时间和空间内的森林资源状态连续性跟踪调查,掌握其现状和消长变化情况,为其制定林业方针政策、预测发展趋势、制定生产经营计划和中长期规划提供科学依据,为实现林业资源可持续利用,及时准确地了解林业用地的时空配置状况,在提高林业发展乃至经济社会发展科学决策水平,对促进林业和资源环境及社会经济可持续发展方面具有极其重要的意义。
随着遥感技术的不断进步与发展,遥感技术越来越受到各行各业的重视,遥感图像的分类在森林资源信息提取中起到了重要的作用,由于遥感平台多尺度、多层次、多角度、多波段地对地球进行着连续观测,各种先进的对地观测系统源源不断地向地面提供着丰富的数据源,我们应及时、准确地获取所需信息并加以利用,特别是遥感在林业上的应用[1]。
因为不同的地物具有不同的光谱特性,依据光谱间关系对遥感影像进行分析,建立基于地面特征的遥感信息模型及智能化提取遥感信息,是遥感应用分析的核心和基础。通过对地物波谱的比较,国内外的学者提出了各种植被指数模型,如归一化植被指数(NDVI)[2]。为了能够更好地提取城市水体信息,徐涵秋[3-4]对NDWI进行了改进,提出了改进归一化差异水体指数,汪金花等人[5]运用谱间关系方法、陈华芳等人[6]运用了差值法相结合的手段提取山区水体,研究表明该方法是消除阴影、提取水体信息效果较好的方法,在山区水体信息的提取中具有较广阔的应用前景。遥感影像分类方法有非监督分类、监督分类以及专家分类等方法。决策树分类算法具有清晰、直观、灵活、运算效率高等特点,在遥感分类方面具有很大的优势[7-8],决策树分类方法已经开始应用于各种遥感影像信息提取[9],并已被应用于许多分类问题。张爽[10]将决策树分类法应用到景观分类中,并讨论了样本点对分类精度的影像。陈宝政等[11]和申文明等人[12]利用决策树对TM遥感影像进行了分类研究。韩涛[13]利用决策树方法,对祁连山典型区的针叶林和灌木林进行了分类,并了解了黑河上游祁连山区水源涵养林十年间的变化状况。孙华等人[14]进行了面向对象的决策树分类技术研究。温兴平等人[15]利用决策树对广州市中部七区的ETM+影像进行信息提取,并通过影像的波段组合获得了比较高的分类精度。
本研究利用CART决策树算法对株洲市2009年10月TM遥感影像以及固定样地点数据进行土地利用分类,提取森林信息,并结合地物的遥感影像特征和地物的光谱特征信息进行分类,找出适合株洲市的决策树分类森林信息提取的最优模型,并能够及时准确获取森林信息,为株洲市林业的发展以及合理的规划提供了重要的决策依据。
1 研究区概况
株洲市位于湖南省东部,湘江下游,北纬 26°03′05″~ 28°01′07″, 东 经 112°57′30″~114°07′15″,东界江西省萍乡市、莲花县、永新县及井冈山市,南连衡阳、郴州两市,西接湘潭市,北与长沙市毗邻。株洲市位于罗霄山脉西麓,南岭山脉至江汉平原的倾斜地段上,市域总的地势东南高、西北低。北中部地形岭谷相间,盆地呈带状展布;东南部均为山地,山峦迭障,地势雄伟。株洲属亚热带季风性湿润气候,四季分明,雨量充沛,光热充足,年均气温17.6 ℃,年降水量1 280 mm,无霜期281 d,是名副其实的膏腴之地,适宜多种农作物生长,为湖南省有名的粮食高产区和国家重要的商品粮基地,长江流域第一个粮食亩产过吨的县(市)就产生在株洲管辖的醴陵市。研究区示意图见图1。
图1 研究区位置Fig.1 Location of studied area
2 研究方法
2.1 数据源
本研究采用Landsat TM遥感数据为数据源,获取时间为2010年10月17日,共3景影像,轨道号分别为p123r41、p122r41、p122r42,影像空间分辨率为30 m,共7个波段;以及2009年株洲市固定样地点200多个,森林资源二类调查分布图,1∶10000的地形图、行政边界矢量图等其他辅助数据。
2.2 遥感影像的预处理
在ENVI4.8遥感软件平台进行图像增强、图像拼接、裁切及几何校正等预处理[16-19]。经过野外考察、目视判读以及波段选择组合,发现TM4、TM5、TM3这3个波段假彩色合成影像对森林信息的提取效果较好,因此本研究采用453最佳波段组合,应用决策树分类技术对森林信息进行自动识别研究[20-22]。
2.3 植被指数的提取
本研究主要是针对森林信息提取,而植物生长状态及植被空间分布密度的最佳指示因子是归一化植被指数,与植被分布密度呈线性相关,通过实践证明INDVI对土壤背景的变化确实较为敏感。由于从Landsat TM遥感影像中提取出的水体中掺杂有居民地及裸地,并且一些小的水体无法被提取出来,因此,为了达到突出水体信息、抑制植被信息的目的,本研究采用归一化差异水体指数(INDWI)。植被指数的提取是通过遥感图像处理软件ENVI4.8进行的,在band match功能中输入各植被指数的计算公式,生成植被指数图像,并根据样地点GPS采集的地理坐标,输入到图像中提取研究区样地点的植被指数值。植被指数计算公式见表1。
表1 植被指数计算公式Table 1 Calculation formula of vegetation index
2.4 遥感图像光谱特征分析
本研究采用的是2009年10月17日的TM数据,此季节植被生长较好,同时也和固定样点地调查的时间一致,结合遥感分类的需要和湖南省二类森林资源调查的地类划分,以及本次研究的需要,将研究区地类分为针叶林、阔叶林、竹林、耕地、水域、建设用地、未利用地7种类型。在ENVI4.8遥感软件中,每种地类选取一定数量的样点,根据样地点GPS采集的地理坐标提取各波段的光谱值,计算各地物在每个波段的标准差、平均值等统计特征参数,得到地物光谱特征曲线(见图2),纵坐标表示各地物在遥感影像采样点的平均DN值。并在计算得到的植被指数影像中提取相应样点的INDVI及INDWI值,结果见图3。
图2 典型地物的波谱特征Fig.2 Spectral characteristics of typical objects
图3 典型地物的植被指数Fig.3 Vegetation index of typical objects
从图2、3可知,为了区别植被与非植被选取了归一化植被指数作为判断依据,归一化植被指数是一个用来对遥感数据进行分析,以确定被观测的目标区是否为绿色植被覆盖,以及植被覆盖程度的指标值,检测植被生长状态、植被覆盖度和消除部分辐射误差等。通过典型地物波谱分析以及反复试验结果表明,INDVI大于阈值0.3即为植被区,否则为非植被区。在非植被区,为了达到突出水体信息,采用归一化差异水体指数,即INDWI小于阈值1.5即为水域,否则为建设用地或者未利用地。为了区分建设用地以及未利用地,从图3的典型地物波谱特征可知,TM1-TM5大于阈值20即为未利用地,否则为建设用地。在植被区,为了区别耕地与其他林地,选取TM1波段,该波段对水体的穿透力强,易于调查水质或水深的情况,对叶绿素和叶绿素浓度反应敏感,对区分干燥的土壤及茂密的植物效果较好。TM1大于阈值85小于阈值100即为耕地,否则为林地。为了区别竹林和针阔叶林,通过波谱特征分析以及反复试验,TM1-TM4大于阈值0即为竹林,否则为针叶林或者为阔叶林。在区别针叶林和阔叶林中,通过试验以及波谱分析,最终确定TM1大于阈值75即为阔叶林,否则为针叶林。具体的决策树模型如图4所示。
图4 遥感影像决策树分类模型Fig.4 Remote sensing image classif i cation based on decision tree classif i cation model
在ENVI4.8软件中,利用决策树分类模型对研究区进行分类,并进行分类后处理,因为在分类结果中不可避免地会产生一些面积很小的图斑。无论从专题制图还是从实际应用的角度,都有必要对这些小图斑进行剔除或者重新分类。目前常用的方法有Majority/Minority分析、聚类处理和过滤处理。本研究主要是采Majority/Minority分析方法,此方法采用类似于卷积滤波的方法将较大类别中的虚假像元归到该类中,定义一个变换核尺寸,用变换核中占主要地位的像元类别代替中心像元的类别。分类结果如图5所示。
3 结果与分析
3.1 分类精度评价
通过精度分析,分类者能够确定分类的有效性以及改变分类模型,从而提高分类精度。使用者可以从分类结果中正确有效地获取分类结果中的信息。在选取了良好的采样方案和可靠的样本数据的基础上,对精度评价指标进行分类精度评价。通过野外调查固定样点记录的地类经纬度资料及二类调查森林资源分布图,精确地在遥感图像上选取各类地表真实感兴趣区,建立混淆矩阵,计算各种统计量,并进行统计检验,计算得出Kappa系数、总体精度、用户精度、制图精度、漏分误差、错分误差等分类精度。分类精度结果见表2。
图5 决策树分类结果Fig. 5 Result of decision tree classif i cation
表2 决策树分类精度Table 2 Decision tree classification accuracy
由表2可知,基于决策树模型分类的总体精度为87.210 1%,Kappa系数为0.850 6,高于一般的监督分类以及非监督分类的精度;从错分精度来看,阔叶林以及竹林错分精度比较高,建设用地错分精度最低;从漏分精度来看,建设用地漏分精度最高,高达32.92%,漏分精度最低的是水域;从制图精度来看,精度最高的是建设用地,为99.09%, 除了未利用地的制图精度低于80%外,其它都高于80%,制图精度都比较好,得到了比较好的分类效果。
3.2 森林覆盖信息提取分析
在ENVI4.8 中把分类的影像矢量化,导出矢量图层,通过ARCGIS软件把株洲各县界行政矢量图与该图层进行相交处理,并计算分类后各类的面积,得到林地面积为703 421.49 hm2,其中针叶林面积为506 283.08 hm2,阔叶林面积为192 337.35 hm2,竹林面积为4 801.06 hm2,非林地面积为422 470.61 hm2,林地覆盖率为62.5%。从空间分布来看,攸县林地面积为162 245.26 hm2,株洲县林地面积为45 074.21 hm2,茶陵县林地面积为175 437.05 hm2,醴陵市林地面积为134 074.48 hm2,炎陵县林地面积为175 680.61 hm2,株洲市区林地面积为10 909.88 hm2,分别占株洲林地面积的23.1%、6.4%、24.9%、19.1%、25.0%、1.6%。株洲的林地主要分布在东南部的攸县、茶陵县、炎陵县3个县,占株洲林地面积的73.0%。
4 结 论
(1)基于决策树的分类方法的森林信息提取获得了比较好的效果。通过典型地类波谱信息以及各植被指数的分析,并找出森林信息提取精度比较高的决策树阈值,为计算机自动分类的流程化和自动化提供了基础。
(2)从分类精度来看,基于决策树模型分类的总体精度为87.210 1%,Kappa系数为0.850 6,高于一般的监督分类以及非监督分类的精度。水域的分类精度最高,针叶林、阔叶林、竹林由于光谱特征相似程度比较高,地物情况相对比较复杂,出现了较多的错分情况。
(3)利用归一化植被指数、归一化差异水体指数可以更好地区分植被与非植被以及水体与非水体,通过典型地物波谱分析以及反复的实验,得出了区分植被与非植被NDVI的阈值为0.3,即大于0.3为植被,反之则为非植被;区分水体与非水体NDWI的阈值为1.5,即大于1.5为水体,反之则为非水体。
(4)分类结果表明株洲市林地面积为703 421.49 hm2,非林地面积为422 470.61 hm2,林地覆盖率为62.5%。从空间分布来看,林地主要分布在东南部的攸县、茶陵县、炎陵县3个县,占株洲市林地面积的73.0%。
总体分类效果比较好,可以满足一般性研究分析的精度要求,但是基于决策树的分类方法还存在不能充分利用分类地物的空间特征、分类决策规则与专家系统不易结合等缺点,在实际生产应用中还需要进一步深入研究以提高精度,如加入DEM(坡度、坡向)及其它地学先验知识等来辅助分类,使该方法更具有实用价值。
[1] 杨 桄,刘湘南.遥感影像解译的研究现状和发展趋势[J].国土资源遥感,2004,15(2):7-10.
[2] Rouse J W, Haas R H, Schell J A. Monitoring vegetation systems in the Great Plains with ERTS[J]. NASA: Third ERTS Symposium,1973, SP-351,1:309-317.
[3] 徐涵秋.基于谱间特征和归一化指数分析的城市建筑用地信息提取[J].地理研究,2005,24(2):311-320.
[4] 徐涵秋.利用改进的归一化差异水体指数(NDWI)提取水体信息的研究[J].遥感学报,2005,9(5):589-595.
[5] 汪金花,张永彬,孔改红.谱间关系法在水体特征提取中的应用[J].矿山测量,2004,4:30-32.
[6] 陈华芳,王金亮,陈 忠,等.山地高原地区TM影像水体信息提取方法比较—以香格里拉县部分地区为例[J].遥感技术与应用,2004,19(6):479-484.
[7] 李 爽,张二勋.基于决策树的遥感影像分类方法研究[J].地域研究与开发,2003,22(1):17-21.
[8] Friedl M A, Brodley C E. Decision Tree Classification of Land Cover from Remotely Sensed Data[J]. Remote Sensing Environment, 1997,61(3):399-409.
[9] McIver D K, Friedl M A. Using Prior Probabilities in Decisiontree Remotely Sensed Data[J]. Remote Sensing of Environment,2002,81:253-261.
[10] 张 爽,刘雪华,靳 强.决策树学习方法应用于生境景观分类[J].清华大学学报:自然科学版,2006,46(9):18-36.
[11] 陈宝政,蔡德利,张有利,等.利用决策树对TM遥感影像的分类研究[J].黑龙江八一农垦大学学报,2010,1:79-82.
[12] 申文明,王文杰,罗海江,等.基于决策树分类技术的遥感影像分类方法研究[J].遥感技术与应用,2007,22(3):333-337.
[13] 韩 涛.用TM资料对祁连山部分地区进行针叶林、灌木林分类研究[J].遥感技术与应用,2002,17(6):317-321.
[14] 孙 华,林 辉,莫登奎,等.面向对象的决策树分类技术[J].中南林业科技大学学报,2007,27(4):40-41.
[15] 温兴平,胡光道,杨晓峰.基于C5.0决策树分类算法的ETM+影像信息提取[J].地理与地理信息科学,2007,23(6):26-29.
[16] 李小娟,宫兆宁,刘晓萌,等.ENVI遥感影像处理教程[M].北京:中国环境科学出版社,2007:300-322.
[17] 邓书斌. 遥感图像处理方法[M].北京:科学出版社,2010:56-99.
[18] 陈 利,林 辉,孙 华.基于SPOT 5影像冷水江市岩溶区石漠化时空演变研究[J].中南林业科技大学学报,2012,32(8): 22-27.
[18] 汤国安,张友顺,刘咏梅,等.遥感数字图像处理[M].北京:科学出版社,2004:15-28 .
[20] 戴昌达,雷莉萍.TM图像的光谱信息特征与最佳波段组合[J].环境遥感,1989(4) :4-7.
[21] 桂 玲,孙 华,陈 利.基于中等分辨率遥感影像的桃源县竹林信息提取研究[J].中国农学通报,2012,28(01):85-91.
[22] 刘建平,赵时英,孙淑玲.高光谱数据最佳波段选择方法试验研究[J].遥感技术与应用, 2001, 16(1): 7-13.
[23] 田庆久,闵祥军.植被指数研究进展[J].地球科学进展,1998,13(4): 327-333.
Studies on information extraction of forest in Zhuzhou city based on decision tree classif i cation
CHEN Li1, LIN Hui1, SUN Hua1, YAN En-ping1, WANG Jia-jun2
(a. Research Center of Forestry Remote Sensing & Information Engineering; b. School of Forestry, Central South University of Forestry and Technology, Changsha 410004, Hunan, China )
By taking the forests in as the research object, using the TM remote sensing images taken in Oct. 2009 and ground-f i xed sample plots data, the land use classif i cation of Zhuzhou city was investigated. The spectrum curves of various land type on the TM remote sensing images were extracted and analyzed, the normalized differential vegetation index (NDVI) and normalized water vegetation index(NWVI) were obtained. According to the curves and indexes, the decision tree model of classif i cation was established.After repeated classif i cation test, the threshold value of decision tree classif i cation model was determined fi nally. The results show that through the analysis and test of typical geography objects spectrum, the NDVI threshold values were obtained, the NDVI distinguishing vegetation from non-vegetation was 0.3, namely the images that threshold with value greater than 0.3 is vegetation, contrarily is nonvegetation; the NWVI distinguishing water from non-water was 1.5, namely more than 1.5 is water, less than is non-water. From the results of classif i cation based on decision tree classif i cation model, the overall accuracy was 87.21%, the Kappa coeff i cient was 0.8506,the woodlands in Zhuzhou area was 703 421.49 hm2, non-forest land area was 422 470.61 hm2, the forest coverage rate was 62.5%,mainly in the south-east of Youxian, Chaling county, Yanling county, which occupies the entire Zhuzhou area forest land area by 73%.
forest information;remote sensing information; decision tree classif i cation; information extraction
S771.8
A
1673-923X(2013)01-0046-06
2012-10-10
“十二五”国家高技术研究发展计划(863计划)课题(2012AA102001):“数字化森林资源监测关键技术研究”;林业公益性行业科研专项(201104028):“林分结构与生长模拟技术研究”;国家重大专项项目(E0305/1112/02):“高分湿地资源应用监测示范”;湖南省高校科技成果产业化培育项目(11CY019)
陈 利(1987-),男,湖南衡阳人,硕士生,研究方向:林业遥感和地理信息系统;E-mail:csufcl@126.com
林 辉(1965-),女,湖北黄冈人,教授,博士,博士生导师,主要从事森林经理学、遥感技术与地理信息系统的教学和科研工作
[本文编校:谢荣秀]