APP下载

基于C5.0决策树算法的落叶松人工林提取研究

2020-05-25马婷刘思涵郭瑞霞

甘肃科技纵横 2020年4期
关键词:落叶松人工林决策树

马婷 刘思涵 郭瑞霞

摘要:如何有效提取落叶松人工林信息是落叶松人工林资源调查的关键。本文以黑龙江省佳木斯市桦南县孟家岗林场为研究试验区域,利用“高分一号”卫星影像(以下简称GF-1)并结合其他辅助数据,在分析落叶松人工林光谱信息的基础上,基于灰度共生矩阵方法提取了8种纹理信息,并根据落叶松人工林季相特征,提取研究区内植被的NDVI、DVI、RVI和EVI时间序列特征,建立基于C5.0决策树算法的落叶松人工林决策树模型,通过10次分类试验,筛选出最优的决策规则,用于落叶松人工林提取研究。结果表明,C5.0決策树算法能综合纹理信息、植被指数和光谱特征信息,自动寻找区分落叶松人工林的最佳特征组合及分割阈值,分类总体精度达到92.25%,Kappa系数为0.87,面积精度为92.79%,能有效地提取落叶松人工林信息。本研究可为森林资源调查提供理论基础与技术支持。

关键词 落叶松人工林;高分一号;C5.0决策树算法;植被指数时间序列信息;纹理特征

落叶松是我国北方地区造林和森林更新的主要树种之一,其木材结构细密,材质优良,抗腐蚀,抗压能力强,具有显著的社会和经济效益[1-3]。随着国家林业重点工程项目的稳步推进,落叶松人工林的造林面积逐年增加,针对落叶松人工林资源的调查也成为林业调查领域的一项新需求[4]。如何有效利用遥感影像获取落叶松人工林空间位置分布,及时准确掌握落叶松人工林资源信息,已成为落叶松人工林栽培关注的热点问题。目前,国内外学者针对落叶松人工林的研究多集中于抚育间伐、土壤特性、经营情况、病虫害和苗圃培育等方面,应用遥感影像探索落叶松人工林空间位置分布的研究鲜有报道[5-9]。因此,利用遥感手段快速获取落叶松人工林的空间位置分布,无论是理论研究和实际应用都有重要意义。

决策树算法具有灵活、直观、运算效率高等特点[10-12]。在林业遥感研究领域中,国内外学者利用决策树算法在森林类型精细分类、不同林地类型提取识别等问题上已进行了大量研究。2012年Suchenwirth等人通过提取遥感影像的光谱信息、空间信息和地形因子等,建立基于专家知识的决策树模型并进行决策树分类,从中提取了芦羊、硬木、白杨林和草地等植被[13]。2014年白秀莲等人基于Landsat TM数据和C5.0决策树算法,设计了一种基于多特征变量组合的数据集进行土地覆盖分类,结果表明当特征变量合适时,分类结果能够满足用户需求[14]。2015年梁守真等人尝试将多时相的Landsat TM数据与MODIS-NDVI数据组合,进行基于面向对象的决策树橡胶林信息提取实验,结果表明,综合考虑橡胶的季相特征,能有效获取橡胶林分布信息[15]。2018年王怀警等人综合多种特征变量,采用分层分类的策略,设计了一种基于星载高光谱Hyoerion数据的C5.0决策树森林类型精细分类方法,该方法能够有效提高森林类型分类精度[16]。2019年鲁楠等人利用国产“高分二号”(GF-2)数据,综合考虑植被季相和物候特征,设计了一种基于四季时相知识的CART决策树方法,进行森林类型分类实验,分类精度达到85.6%[17]。因阔叶林、针叶林和针阔混交林光谱信息相似,“同谱异物”和“异物同谱”现象严重,目前基于遥感影像进行阔叶林、针叶林和针阔混交林分类提取的精度较低,无法满足实际生产需要[18-21]。本文以GF-1遥感影像为主要数据源,结合地面样地和二类小班调查数据,提取遥感影像的光谱信息、纹理信息,并利用多时相Landsat 8 OLI遥感影像构建研究区的4种植被指数时间序列特征,获取落叶松人工林的季相信息,建立基于C5.0决策树算法的落叶松人工林决策树模型,探究针对C5.0决策树算法提取落叶松人工林信息的可行性,以期有效提取落叶松人工林信息。

1  研究区概况

本研究选取孟家岗林场作为研究区域,林场位于黑龙江省佳木斯市桦南县东北部,地理坐标为东经130°32′42″—130°52′36″,北纬46°20′16″—46°30′50″,总面积约为14466.7hm2,属东亚大陆性季风气候[22]。林场地处完达山西麓,年平均气温2.7℃,海拔168—575m。该林场是以经营针叶树种为主的人工林用材基地,其中人工造林面积约为11095.9hm2,占林场总面积的76.7%。主要树种有落叶松(Larix gmelini)、樟子松(Pinus sylvestris)、红松(Pinus koraiensis)和云杉(Picea asperata)等[23]。

2  数据与数据处理

2.1  遥感影像数据及预处理

GF-1卫星是由我国自行研制并发射的高分辨率对地观测卫星,其上搭载的PMS相机成像幅宽60km[24,25]。利用2017年7月6日GF-1卫星影像进行研究,包括2m分辨率的全色影像和8m分辨率的多光谱影像。辅助数据包括多时相高质量Landsat 8 OLI遥感影像、无人机拍摄的0.5m分辨率CCD数据、2014年森林资源二类调查数据和孟家岗林场地面调查样地数据。

Landsat 8 OLI遥感影像下载于中国科学院地理空间数据云平台(http://www.gscloud.cn/),因冬季孟家岗林场植被几乎被积雪覆盖,本文选择春季、夏季和秋季的遥感影像用于获取落叶松人工林季相信息。影像详细信息如表1所示。为降低植被反射率受到大气、光照等因素的影响[26-28]。采用ENVI5.3软件平台进行辐射定标、FLAASH大气校正、几何校正、RPC正射校正、Gram-schmidt图像融合和拼接裁剪等影像预处理操作。

2.2  样本数据

参考森林资源二类调查数据提供的研究区植被分布信息,将林场内土地覆盖划分为6种类别,分别是落叶松、红松、樟子松、云杉、阔叶树及裸地。解译空间分辨率为0.5m的CCD数据,并结合林场中各土地类别所占面积权重布设样地,共布设了420块28.28m28.28m的样地作为训练样本。

采用地面调查样点作为分类验证样本。2017年6月,以孟家岗林场为主要调查区域进行外业调查。利用手持GPS获取样地中心点地理坐标,记录树种组成、郁闭度和龄组等信息。经实地调查,共获取了395个有效的土地覆盖类型样点。

3  研究方法

3.1  特征变量提取与分析

3.1.1  光谱信息

GF-1遥感影像包括蓝光波段(450nm-520nm)、绿光波段(520nm-590nm)、红光波段(630nm-690nm)和近红外波段(770nm-890nm),能反映地物最基本的光谱信息[29]。研究选取预处理后影像的光谱信息作为特征变量。

3.1.2  纹理信息

灰度共生矩阵是一种基于像素灰度值统计的纹理信息提取方法,已成为最广泛的纹理信息提取方法之一[30-32]。本文首先对预处理后2m分辨率的GF-1遥感影像进行主成分分析(PCA),采用灰度共生矩阵方法,基于第一主成分不同窗口大小进行纹理提取,考虑运算时间和窗口面积,共设置3×3、5×5、7×7、9×9和11×11五种窗口大小进行试验。通过训练样本数据计算均方差值和J-M可分离度[33],最终选择窗口大小为9×9的8个纹理测度,包括均值、方差、协同性、对比度、相异性、信息熵、二阶矩和相关性。

3.1.3  季相信息

落叶松林独特的季相信息是区别其他針叶林的重要特征。植被指数时间序列特征能直观地反映植被基本的季相信息[34]。本次试验利用预处理后的多时相Landsat 8 OLI遥感影像提取研究区内不同森林类型的归一化植被指数(NDVI)、差值植被指数(DVI)、比值植被指数(RVI)和增强型植被指数(EVI),构建相应的植被指数时间序列特征。

3.2  C5.0决策树算法

C5.0决策树算法是在C4.5的基础上通过对运行效率、内存大小和分类精度等方面进行改进得到的[35,36]。该算法将C4.5算法和Boosting算法相结合,通过计算比较每一个特征变量的信息增益率,选择具有最大信息增益的特征变量进行拆分节点,不断重复该过程,从而确定最佳特征变量组合和最优分割阈值[37]。该算法的核心是利用信息熵减少速度来选择每一个分支上的特征变量。信息熵计算公式[35]如下:式中,表示信息,表示信息发生的概率。

C5.0算法在进行节点拆分过程中,通过十折交叉法不断检验样本数据,对节点进行自下而上的逐层修剪与合并,以提高分类精度[38-40]。当遇到样本数据过多或者不足时,算法会自动进行剔除和权重调整,从而得到一个最佳的决策树模型。C5.0算法具有运行速度快,占用内存小,容错率高等优点[41]。

3.3  C5.0决策规则建立

本研究是基于IBM SPSS Moder18.0软件平台建立的C5.0决策树分类规则。首先将光谱信息、纹理信息和4种植被指数时间序列特征进行特征变量组合,通过训练样本数据构建一组具有多特征信息的训练样本数据集。然后将该数据集导入IBM SPSS Moder18.0软件中进行C5.0决策分析,采用专家模式进行全局修剪,剪枝程度为75%,子节点最小记录数为2,Boosting试验数为10,最终生成10组C5.0决策分类规则。根据决策分类规则,在ENVI 5.3软件平台建立相应的C5.0决策树进行分类,最后将分类结果进行分类后合并。通过对10组分类图进行目视解译和精度评价,选择最佳决策分类规则,并得到一个最优的分类决策树。最优分类决策树如图1所示。

注:B13波段—6月16日NDVI,B18波段—4月28日NDVI,B19波段—6月16日DVI,B22波段—10月6日DVI,B25波段—6月16日RVI,B34波段—10月6日EVI,B35波段—10月22日EVI。

4  结果与分析

4.1  落叶松人工林提取结果与精度评价

为了准确提取落叶松人工林信息,防止其他植被因混交造成错分、漏分等现象,影响落叶松人工林提取结果。本试验将分类结果进行合并,红松、樟子松、云杉和阔叶树合并成一类,落叶松林为一类,裸地为一类。分类结果如图2所示。分类结果与CCD数据表现出较好的一致性(图3)。为验证该模型的适用性和落叶松人工林提取精度,采用混淆矩阵法进行精度评价,分类总精度为92.25%,Kappa系数为0.87。混淆矩阵精度评价如表2所示。落叶松人工林用户精度为97.06%,分类精度较高,说明其他类型错分成落叶松人工林的像元较少。落叶松人工林制图精度为83.73%,精度较差,说明落叶松人工林错分到其他类型的像元较多。为了进一步验证提取的落叶松人工林信息,利用ArcGIS 10.1软件对提取的落叶松人工林进行面积计算。提取到的落叶松人工林面积为4888.57hm2,二类调查数据中落叶松人工林统计面积为5268.63hm2,面积精度为92.79%。说明基于C5.0决策树算法的落叶人工林决策树模型可以有效提取落叶松人工林信息。

4.2  错分、漏分现象分析

参考二类调查数据和CCD数据,分析分类结果图可得,落叶松人工林错分点和漏分点主要分布在落叶松幼龄林区域和针叶林混交区域,如图4所示,分析该图可得:

(1)不同龄组提取效果不同,提取效果依次为:落叶松成熟林>落叶松中龄林>落叶松幼龄林。落叶松成熟林和中龄林提取效果较好,而落叶松幼龄林提取效果较差,出现错分点、漏分点较多(图4(a))。成熟林和中龄林冠形较大且相邻树冠间互相交织,光谱反射率稳定,季相信息明显。落叶松幼龄林冠形小且相邻树冠间隙大,光谱反射率受土壤等因素影响较大,易出现错分漏分现象。

(2)在针叶林混交地带,不同植被间的界限较为模糊,所以不易区分。对比不同针叶林与落叶松人工林混交区域发现,提取效果依次为:红松>樟子松>云杉。在与红松或者樟子松混交区域,可以将落叶松人工林较好的提取出来,错分、漏分现象较少。但在与云杉混交区域,错分、漏分现象比较严重,落叶松人工林和云杉难以区分,见图4b所示。为探究发生原因,本文计算了研究区域4种针叶林的NDVI均值,构建相应的NDVI时间序列曲线,如图6所示。分析该图可得,4月末期,落叶松人工林的NDVI低于0.4,说明春季落叶松人工林绿叶覆盖度低,生物量小。随着季节变化NDVI值逐渐增大,在6、7、8月份NDVI值均高于0.8,说明夏季绿叶覆盖度和生物量高,落叶松人工林长势好。而后逐渐衰减,10月下旬NDVI值降低至0.28。这与落叶松人工林的季相特征一致,落叶松属落叶乔木,春季叶子逐渐发芽,绿叶覆盖度逐渐升高;夏季叶子完全长出,绿叶覆盖度和生物量达到最高;秋季叶子逐渐掉落,绿叶覆盖度降低,NDVI值也逐渐减小。红松和樟子松的NDVI时间序列曲线与落叶松人工林差异较大,因红松和樟子松属常绿乔木,叶子不会随季节变化而掉落,所以NDVI指数全年在0.7-0.9附近波动。而云杉的NDVI时间序列曲线与落叶松人工林有些相似,春季NDVI值较低,而后逐渐增高;夏季NDVI值达到最高0.85,之后伴随秋季到来逐渐降低。云杉虽然属于常绿乔木,但随着季节变化叶子会有部分脱落,所以春季和秋季云杉的绿叶覆盖度和生物量减少。因相似的季相特征,导致落叶松人工林和云杉在混交区域难以区分。

5  结论

本研究利用GF-1遥感影像和Landsat 8 OLI影像,并结合多种特征信息,建立了一种基于C5.0决策树算法的落叶松人工林决策树模型,提取落叶松人工林信息。研究结论如下:

(1)C5.0决策树算法可以充分利用遥感影像的光谱、纹理和季相等辅助信息进行落叶松人工林提取,分类总精度较高,提取效果良好。为快速获取落叶松人工林空间位置分布提供了一种新的方法。

(2)C5.0决策树算法可以自动进行特征变量选择,并确定分割阈值,运行速度较快,占用内存较小等特点。

(3)不同龄组的落叶松,提取效果不同。提取效果依次为:落叶松成熟林>落叶松中龄林>落叶松幼龄林。出现这种情况原因是,龄组越小的落叶松,冠层小且相邻树冠间隙大,光谱反射率受土壤等因素影响越大。

(4)在针叶林混交地带,落叶松人工林提取效果较差。尤其是云杉和落叶松人工林混交区域。出现该现象原因是,云杉属于常绿针叶林,但随着季节变化,叶子有部分脱落,导致与落叶松人工林NDVI时间序列曲线相似,使得混交区域难以区分。

今后需要进一步研究在针叶林混交地带,如何提高落叶松人工林提取精度,以便有效地提取落叶松人工林信息。

参考文献:

[1] 李艳霞, 张含国, 张磊,等. 长白落叶松纸浆材优良家系多性状联合选择研究[J]. 林业科学研究, 2012, 25(6):712-718.

[2]赵国武. 日本落叶松(北海道种源)生长规律及生长优势的调查分析[J]. 辽宁林业科技, 1993(3):25-27.

[3]金虎范. 林分密度对华北落叶松人工林凋落物分解影响的研究[D]. 北京林业大学, 2010.

[4] 任宝平. 兴安落叶松人工林生长过程及林分密度的调查研究[J]. 内蒙古电大学刊, 2010(2):73-75.

[5]施双林, 薛伟. 落叶松人工林抚育间伐技术的研究[J]. 森林工程, 2009, 25(3):53-56.

[6]王利东. 不同间伐抚育强度对华北落叶松人工林土壤物理性质变化影响的研究[J]. 河北林果研究, 2012, 27(1):6-9.

[7]唐伟东. 落叶松人工林抚育间伐技术的研究[J]. 林业勘查设计, 2016(2):61-63.

[8]陈洪明, 陈立新, 王殿文. 落叶松人工林土壤酸度质量与养分关系研究现状及趋势[J]. 防护林科技, 2004(5):46-49.

[9]日本落叶松人工林林分结构与生长量预测研究[D]. 北京林业大学, 2007.

[10]基于决策树方法的遥感影像分类研究[D]. 内蒙古师范大学, 2012.

[11]基于决策树技术的遥感影像分类研究[D]. 南京林业大学, 2006.

[12]张宇. 决策树分类及剪枝算法研究[D]. 哈尔滨理工大学, 2009.

[13] Suchenwirth L, F?rster M, Cierjacks A, et al. Knowledge-based classification of remote sensing data for the estimation of below and above-ground organic carbon stocks in riparian forests[J]. Wetlands Ecology & Management, 2012, 20(2):151-163.

[14] 白秀蓮, 巴雅尔, 哈斯其其格. 基于C5.0的遥感影像决策树分类实验研究[J]. 遥感技术与应用, 2014, 29(2).

[15] 梁守真,陈劲松,吴炳方,陈工.应用面向对象的决策树模型提取橡胶林信息[J].遥感学报,2015,19(03):485-494.

[16] 王怀警, 谭炳香, 房秀凤, et al. C5.0决策树Hyperion影像森林类型精细分类方法[J]. 浙江农林大学学报, 2018(4).

[17] 鲁楠,王新杰,汪锦,傅峰.依据季相特征GF-2影像的植被分类[J].东北林业大学学报,2019,47(03):62-67.

[18] 于泉洲, 王绍强, 黄昆,等. 基于Hyperion高光谱数据的温带森林不同冠层结构的光谱特征分析[J]. 光谱学与光谱分析, 2015, 35(7):001980-1985.

[19]田静, 邢艳秋, 姚松涛,等. 基于元胞自动机和BP神经网络算法的Landsat-TM遥感影像森林类型分类比较[J]. 林业科学, 2017, 53(2):26-34.

[20]张智超, 范文义, 孙舒婷. 基于多种分类器组合的森林类型信息提取技术研究[J]. 森林工程, 2015, 31(3):75-80.

[21]魏云敏. 利用遥感影像估测塔河地区森林可燃物载量的研究[D]. 东北林业大学, 2007.

[22] 陈琛,李涛.浅谈杨树速生丰产林营造技术要点[J].农民致富之友,2015(17):99-99.

[23]黑龙江省孟家岗林场人工红松枝条分布数量的研究[D]. 东北林业大学, 2016.

[24] 刘兆军.“高分一号”遥感相机填补国内高分辨对地观测空白[J].航天返回与遥感, 2013(2).

[25]王利民, 刘佳, 杨福刚,等. 基于GF-1卫星遥感的冬小麦面积早期识别[J]. 农业工程学报, 2015, 31(11):194-201.

[26]Wang P, Zhang J, Lan Y, et al. Radiometric calibration of low altitude multispectral remote sensing images[J]. Transactions of the Chinese Society of Agricultural Engineering, 2014, 30(19):199-206.

[27]Danaher T, Wu X, Campbell N. Bi-directional reflectance distribution function approaches to radiometric calibration of Landsat TM imagery[C]// IEEE International Geoscience & Remote Sensing Symposium. 2001.

[28] 马东辉, 柯长青. 南京冬季典型植被光谱特征分析[J]. 遥感技术与应用, 2016, 31(4):702-708.

[29] 贾玉秋, 李冰, 程永政, et al. 基于GF-1与Landsat-8多光谱遥感影像的玉米LAI反演比较[J]. 农业工程学报, 2015, 31(9):173-179.

[30]Siqueira F R D, Schwartz W R, Pedrini H. Multi-scale gray level co-occurrence matrices for texture description[J]. Neurocomputing, 2013, 120(10):336-345.

[31]楊德坤, 侯德文, 步亚东. 灰度共生矩阵在纹理特征提取中的发展[J]. 信息系统工程, 2012(1):136-136.

[32]Metzler V, Palm C, Lehmann T, et al. Texture classification of gray-level images by multiscale cross co-occurrence matrices[C]// International Conference on Pattern Recognition. 2007.

[33] Dabboor M, Howell S, Shokr M, et al. The Jeffries–Matusita distance for the case of complex Wishart distribution as a separability criterion for fully polarimetric SAR data[J]. International Journal of Remote Sensing, 2014, 35(19):6859-6873.

[34] Zhang C S, Hui L I. Estimation of sub-pixel NDVI time series based on down-scaling technique[J]. Science of Surveying & Mapping, 2013, 8002(1):44.

[35] Liu D, Yang F, Wei H, et al. Vegetation Classification Method Based on C5.0 Decision Tree of Multiple Classifiers[J]. Journal of Graphics, 2017.

[36]Meng W, Gao K, Wang L, et al. A Novel Hyperspectral Classification Method Based on C5.0 Decision Tree of Multiple Combined Classifiers[C]// Fourth International Conference on Computational & Information Sciences. 2012.

[37]Meng W, Gao K, Wang L, et al. A Novel Hyperspectral Classification Method Based on C5.0 Decision Tree of Multiple Combined Classifiers[C]// Fourth International Conference on Computational & Information Sciences. 2012.

[38]Gao K, Liu Y. A hyperspectral classification method based on experimental model of vegetation parameters and C5.0 decision tree of multiple combined classifiers[C]// International Conference on Optical Instruments & Technology. 2015.

[39]Defries R S, Chan J C W. Multiple criteria for evaluating machine learning algorithms for land cover classification from satellite data.[J]. Remote Sensing of Environment, 2000, 74(3):503-515.

[40] Hong-Chao Q I, Yuan Q I, Zhen X U. The Study of the Northwest Arid Zone Land-Cover Classification Based on C5.0 Decision Tree Algorithm at Wuwei City,Gansu Province[J]. Remote Sensing Technology & Application, 2009.

[41] 劉丹, 杨风暴, 卫红,等. 基于多分类器的C5.0决策树植被分类方法[J]. 图形学报, 2017, 38(05):96-102.

猜你喜欢

落叶松人工林决策树
落叶松病虫害防治措施探讨
汤原县林业局有林地面积的特点与分析
关于落叶松病虫害防治技术探究
简述一种基于C4.5的随机决策树集成分类算法设计
东北地区落叶松种植技术
高峰林场桉树人工林与其他树种人工林之间土壤差异分析及对策
决策树学习的剪枝方法
阿尔卑斯山上的落叶松
南宁地区灰木莲人工林经济效益评价研究
决策树在施工项目管理中的应用