基于自动阈值决策树分类的桉树提取研究
2020-10-10卢献健黄俞惠晏红波韦晚秋黎振宝
卢献健,黄俞惠,晏红波,韦晚秋,黎振宝
(桂林理工大学 测绘地理信息学院,广西 桂林 541006)
近年来,人工林种植面积的大幅增长在一定程度上促进了林业经济的发展,间接实现了对天然林的保护。桉树(EucalyptusrobustaSmith)作为我国最受欢迎的引进树种,其长势状况、生产力效率以及品质好坏等都是影响人工树种价值的重要因素[1]。如何准确、实时获取植被信息是实现林业精准管理的保证,而遥感技术是目前快速准确获取植被信息的有效方法之一。国内外学者在植被分类算法方面开展了大量研究,如,监督分类[2]、支持向量机分类[3]、随机森林分类等[4]自动、半自动的分类方法,其中决策树方法具有简单、快速和易于表达等优点,广泛应用于植被遥感监测。姚博等[5]采用Landsat 8 OLI 遥感影像,构建CART决策树分类算法提取成功研究区湿地信息,较最大似然分类法总精度提高30%左右,Kappa系数提高0.355。而在决策树分类过程中,在光谱特征的阈值确定方面,大部分研究均是通过大量与影像同步的实测样点训练获取阈值以构建决策树分类器,进而对植被进行提取。其不足是,同一个特征阈值不能直接用于多个影像,为高精度植被动态监测研究带来难点。围绕这个难点,阎大鹏等[6]提出了一种基于高斯拟合的分类阈值计算方法,成功实现了水生植被的分类与时空分布动态监测,这种方法需要同步的验证样本点才能进行植被识别,但也存在某些地区缺少样本点从而无法进行阈值确定,难以对植被进行快速、动态地监测的问题。同时,随着计算机技术的不断发展,遥感手段也不断完善,GEE平台(Google Earth Engine,平台网址为https://earthengine.google.com/)以其高时效、低成本、云共享的功能成为遥感技术处理方式的新兴技术,其在植被提取方面发挥了重要作用。例如,徐晗泽宇等[7]通过GEE 平台,采用随机森林法对赣南地区柑橘果园进行信息提取,精度达到93.15%,证明了 GEE 平台能够有效应用于大量遥感影像数据处理以及植被信息提取工作。广西地区地形复杂多样,桉树种植多数位于山区,地表遥感辐射信号因地形起伏造成的地形效应以及云的遮蔽效应,进一步加大了山区桉树特征信息提取的难度。有效运用GEE平台利用样本点实现自动阈值决策树分类法实现信息提取,提高工作效率与山区桉树特征识别的准确度,对人工林种植管理与生态保护等具有重要参考意义。
综上所述,本文提出了一种基于GEE平台的自动阈值决策树分类方法,实现基于Landsat 8遥感影像的桉树种植面积信息的高效提取。首先,采集连续多年覆盖桉树的固定样本点,避免了历史样本点缺失的问题。其次,对桉树样本点相关指数的分布规律进行统计分析,根据指数分布的特性自动确定决策阈值,提高工作效率。最后,采用总体精度Kappa系数对分类结果进行精度评定,并与随机森林分类结果比较,采用谷歌历史影像进行局部精度验证,证明本文方法的有效性与可靠性。
1 研究区域概况
九龙瀑布群国家森林公园地理位置如图1所示,地理坐标为20°01′30″~23°04′35″N,109°07′40″~109°10′50″E,行政区划分属广西南宁市横县境内[8]。该地区气候属南亚热带季风气候,雨量充沛、气候温和、夏湿冬干。其地势复杂,土壤主要是细石英岩和泥质粉砂岩发育形成的赤红壤,肥沃疏松,宜于种植树木。因此,研究区具有得天独厚的植被种植条件,植被种类繁多,形成了不同的园林景观效果。区内有着独具特色的沟谷季雨林景观,楠木(PhoebezhennanS.Lee)、马尾松(PinusmassonianaLamb)等高大乔木林与低矮的桃金娘(Rhodomvrtustomentosa)、野牡丹(Melastomacandidum)等[9]。四周引种桉树,并成为桉树常年种植基地,本文以此为研究区,为研究如何提取人工树种提供参考手段,为进一步探讨引种人工树种对原始景观生态是否产生影响提供数据支持。
图1 研究区域示意图Fig.1 Schematic diagram of the study area
2 数据源概况与数据预处理
本文选择的Landsat 8遥感影像由美国陆地卫星计划Landsat系列的第8颗卫星所拍摄,是美国国家航空航天局与美国地质调查局合作开发并由轨道科学公司(Orbital Science Corporation)建造的应用技术卫星影像图[10]。Landsat 8系列影像拥有12个波段信息,由陆地成像仪(Operational Land Imager,OLI)和热红外传感器(Thermal Infrared Sensor,TIRS)组成,其空间分辨率为30m(OLI)/100m(TIRS),重返周期为16d[11]。数据集大量应用于气候、林业、农业、大气、土地利用等领域,均取得突破性的研究成果。根据遥感影像数据特点,利用GEE平台的Landsat 8为数据源,其经过大气校正后发布使用,提高影像处理效率。影像通过筛选、去云、去条带、裁剪等预处理,得到研究区2013—2019年高质量的影像。此外,根据九龙瀑布群国家森林公园的地形与桉树生长特点,本文还选用了分辨率为90m SRTM的DEM数据,作为地形因子构建决策树的节点。
3 研究方法
3.3 桉树样本集的选取
影像分类结果的质量取决于样本点的选取质量。因桉树属于人工树种,其在影像上表现出排列整齐、纹理清晰的特点,较易与其它地物区分。故本文在谷歌历史影像上,通过目视解译的方法进行样本点采集,包括桉树、其它植被、建筑物、耕地、裸地、水系等5种地物类型。各地类样本点在2013—2019年谷歌历史影像上采集得到,共计874个,表1展示了各地类样本点的数量。其中,桉树样本点拥有种植地区较为固定、周期较长的特点,存在时空分布连续性。因此,采用空间分析法中的叠加分析,对桉树325个样本点进行空间叠加与筛选,得到连续7年种植桉树样本点共59个,形成包含不同龄期的桉树样本集,其分布如图2所示。在图中,桉树样本集包含了不同年份、不同龄期的桉树样本点,旨在提供因采集或影像成像质量不好带来的样本点缺失或历史样本点缺少的问题,为下文构建自动阈值决策树分类法提供了准确有效的数据基础。
表1 样本点选取信息表Tab. 1 Information of Sample selection
图2 桉树样本集Fig.2 Sample set of eucalyptus
3.3 决策树节点的确定
节点选择是构建决策树的重要环节,而遥感指数能够根据不同的植被反映出波谱信息,通过线性或者非线性的波段组合能够反映不同植物生长状况[12]。桉树在影像信息中的可见光红光波段有很强的吸收特性,在近红外波段有很强的反射特性,每一种指数都反映出不同的地物信息。其中:归一化植被指数(NDVI)[13]作为植被检测最为敏感的因子,可以有效地区分常绿、落叶植被;植被增强指数(EVI)[14]能同时减少来自大气和土壤噪音的影响,稳定地反应所研究区域植被的情况;差值植被指数(DVI)[14]对土壤背景的变化极为敏感,引入调土壤调节植被指数(SAVI)[15]与优化型土壤调节植被指数(OSAVI)[16]能进一步减少土壤对植被提取的影响;垂直植被指数(PVI)能较好地消除土壤背景的影响,减低对大气的敏感度;比值植被指数(RVI)[17]是绿色植物的灵敏指示参数,用于反映植被的健康程度,绿色健康植被覆盖地区的RVI远大于1;湿度指数(Wet)[18]则作为环境因子。因此,桉树的生长与多种指数的变化密切相关,本文选取上述指数作为决策树构建的节点,如图3所示。图中展示了2013—2019年研究区域各个指数的变化情况以及计算方法,为统一纲量,使其范围在0~1之间变化,因此,对各个植被指数进行了标准化处理。
图3 研究区各指数信息图Fig.3 Information diagram of each index in the research area
3.3 自动阈值法
自动阈值决策树提取研究区桉树信息的一个关键是在于其能客观合理地确定决策树节点阈值,即各种指数的最佳阈值范围。本文采用的自动阈值法是基于GEE 平台中利用计算机程序语言进行编译,以实现指数阈值自动化识别,提高阈值确定效率与精度。根据各个指数值域变化情况,采用步长i=0.05的正态分布循环训练器对各指数值域两侧不断逼近,以分类总体精度与kappa系数达到最高为结束循环的条件,进而确定各指数唯一最佳阈值范围,其主要步骤如下所示:
1) 统计各指数值域范围。利用GEE平台对影像进行各指数计算,提取桉树样本集对应的指数数值,进行各种指数不同数值大小的像元个数统计与分析,结果如图4所示。可以看出,8种指数值域范围均具有规律性。
图4 各指数值域直方图Fig.4 Histogram of index range
2) 找出各个指数统计规律。指数变量受许多微小的独立因素影响,但整体符合中心极限定理,即服从正态分布。计算公式如式(1)所示,原理如图5所示。各个指数分布情况与正态分布曲线拟合,正态分布的曲线高峰位于正中央,分别向左右两侧逐渐均匀下降;
图5 正态分布原理图 Fig. 5 Schematic diagram of normal distribution图6 NDVI正态分布训练示意图Fig. 6 Schematic diagram of NDVI normal distribution
(1)
式中:x为对应桉树样本集计算指数数值,∂为标准差,a为指数数值的均值。
3) 各个指数阈值确定。各个指数的概率密度分布均可通过正态分布表征。本文为了提高最佳阈值的准确性,在构建决策树的节点处采用正态分布阈值循环训练,阈值∂采用步长i=0.05,从值域两端不断向中心极限逼近的过程寻找最佳阈值∂1与∂2,如图6所示,当分类总体精度与kappa系数达到最高时,结束循环,从而提高决策树节点阈值提取的准确性以及高效性。
3.3 决策树节点最佳阈值的确定
根据上文提出自动阈值法得到如图7 所示,可以看出:2013—2019年每年桉树连续样本点植被指数变化具有一定的规律性,20140910,20180918两期影像计算的NDVI,DVI,RVI,SAVI,OSAVI,EVI指数的阈值范围∂1,∂2均出现极小值现象,说明桉树的生长具有周期性,每隔3年出现1次极小值,3年一砍伐收成,因而造成各个指数突然大幅度降低,NDVI,DVI,RVI,SAVI,OSAVI,EVI指数均是利用近红外波段计算而来,证明其对桉树的信息的提取是敏感的;PVI,Wet指数在20140910,20180918年阈值范围∂1,∂2均出现极大值值现象,而PVI指数是由红波段和蓝波段计算,用于植被分类、水体识别,Wet指数作为湿度环境因子,对桉树生长环境中的湿度条件较为敏感。在2014年9月10日广西南宁发布暴雨橙色预警,2018年9月10日广西南宁发布暴雨黄色预警,因此造成PVI、Wet指数偏大,但其它时间阈值范围的起伏与其它植被指数一致。因此,本文选取的8种指数作为对决策树的训练学习具有一定的科学依据与有效性。
图7 2013—2019年阈值∂1,∂2变化统计图Fig. 7 Statistical graph of changes of thresholds ∂1and ∂2 from 2013 to 2019
3.3 自动阈值决策树的构建
由桉树样本集出发,影像数据为根节点,结合多种指数形成决策树节点,并与自动阈值法构建自顶阈值决策树,实现研究区桉树信息的自动化提取。根据研究区桉树实际情况共构建9层决策树,如图8所示。首先,选择第一层为NDVI指数在区分植被与水体的前提下,利用EVI与DVI指数进行桉树与其它植被的区分,再用RVI指数展现桉树生长的健康状况水平;其次,采用PVI,SAVI,OSAVI来消除土壤对植被分类的影响;最后运用环境因子与地形因子对外部条件进行决策树的制约。研究表明,桉树适生区位于海拔500m以下地区,因此,DEM决策节点阈值设定为小于等于500m。9层决策树的严谨决策共同制约着桉树信息提取的结果,可以有效避免单一指数分类造成的错分、漏分,从而提高了分类精度。
图8 决策树构建示意图Fig. 8 Schematic diagram of decision tree construction
4 结果与分析
4.4 研究区桉树总体分类效果
利用GEE将样本点随机抽样,按70%和30%分成训练点与测试点两组放入分类器进行桉树提取。为验证自动阈值决策树分类对桉树信息提取的准确性,利用随机森林算法对相同的实验数据进行桉树信息提取,并将两种方法的分类结果进行比较分析。整体而言,两种分类方法较为一致(图9、图10),桉树种植区主要分布在研究区四周,其中研究区西南侧地形相对平坦,桉树连片大规模种植;而在中部种植区域较为分散,桉树多数分布在远离居民地集聚地区的道路两侧。两种方法所提取的桉树种植信息与实际种植分布相一致,表明两种方法均取得较好的分类效果。具体来看,2013年9月研究区桉树种植规模较大,面积高达26.9km2,因2014年南宁出台饮用水水源保护区内禁止种植速生桉的政策,此后桉树种植有所下降;2015—2017年种植面积相对稳定,分别为23.1,25.3,24.4 km2;2019年桉树种植面积增加,达到30.6 km2,但斑块分布较为集中。
图9 2013—2019年研究区桉树随机森林分类结果Fig. 9 Random forest classification results of eucalyptus trees in the study area from 2013 to 2019
图10 2013—2019年研究区桉树自动阈值决策树分类结果Fig.10 Classification of eucalyptus automatic threshold decision tree in the study area from 2013 to 2019
4.2 局部分类效果分析
因研究区植被类型多样、分布复杂且地形地貌繁多,为进一步分析与验证本文所构建决策树的分类效果,充分考虑桉树的种植情况,根据谷歌影像,选择了2017年10月23日桉树生长区影像纹理清晰(验证区1)、桉树生长区位于建筑物周边(验证区2)、桉树生长区地形坡度较大(验证区3)与桉树生长区存在混合像元(验证区4)4个150m×150m的验证区域,其相关信息如表2与图11所示。从图11可以看出,谷歌历史影像上的桉树排列较规律且纹理较清晰,通过目视解译可以确定为桉树林。将本文自动阈值决策树分类结果与验证区影像进行叠合比较,可以容易地看出分类结果与谷歌影像上的桉树种植区域基本一致,说明分类结果较好(图12)。不同的验证影像桉树种植地区不一致,验证区1影像位于农耕作物附近,验证区2影像位于居民地附近,验证区3和4的影像位于森林灌木丛中,可见桉树具有较强的生存能力。此外,将依据谷歌影像目视解译得到的桉树面积与自动阈值决策树分类结果相比较,4个验证区平均面积重合率达到88.4%左右。从表2中可知,验证区1和3的面积重合率较高,而验证区2和4的较低,说明居民地周边树种较多与混合像元的对分类有一定的影响。但整体而言,自动阈值决策树分类在山区桉树信息提取方面具有可行性。
图11 研究区谷歌历史影像验证区Fig.11 Historical image verification area of Google-based research area
图12 验证影像与分类结果的对比图Fig.12 Comparative images of verification images and classification results
表2 验证区信息表Tab.2 Validation area information table
4.4 分类总体精度与kappa系数
利用分类总体精度与kappa系数对两种方法的分类结果进行评定,结果如表3所示。表中随机森林分类的总体精度达到0.81以上,kappa系数达到0.79以上,而自动阈值决策树分别达到0.85,0.82以上,两种分类效果表现较好。可见,本文提出的自动阈值决策树分类对研究区桉树提取具有一定的实用性,并较常规随机森林分类得到的分类总体精度与kappa系数都有所提高,精度提高4%左右,且平均分类总体精度达到0.88,平均kappa系数达到0.83,具有较好的分类效果。
表3 精度评定表Tab.3 Accuracy evaluation table
5 结论
本文针对山区桉树人工林特性,提出了一种基于自动阈值法决策树的分类方法进行桉树信息提取。该方法基于GEE平台调用多时相遥感影像,以九龙瀑布群国家森林公园为例,根据2013—2019年桉树样本集的多种指数的统计规律,确定决策节点阈值,实现决策指数阈值的自动确定。利用谷歌影像对分类结果的验证,验证结果表明:该方法能够有效识别山区桉树分布信息,分类总体精度达到0.88,平均kappa系数达到0.83,取得较好的分类效果。