基于随机森林模型的陆地卫星-8遥感影像森林植被分类1)
2016-07-15张晓羽李凤日甄贞赵颖慧
张晓羽 李凤日 甄贞 赵颖慧
(东北林业大学,哈尔滨,150040)
基于随机森林模型的陆地卫星-8遥感影像森林植被分类1)
张晓羽李凤日甄贞赵颖慧
(东北林业大学,哈尔滨,150040)
摘要以黑龙江省漠河县为研究区域,采用陆地卫星-8遥感影像为数据源,结合影像的光谱信息和数字高程模型辅助数据,分别采用最大似然分类法(MLC)和随机森林模型法(RFM)对研究区森林植被进行分类,并分析和评价光谱特征变量对模型的重要性、2种分类方法对森林植被类型分类的适用性。结果表明:随机森林分类方法的总体分类精度为81.65%、卡帕(Kappa)系数为0.812。与传统的MLC方法相比,RFM法均提高了3种森林类型的生产者精度和使用者精度,其中针阔混交林精度提高最多。通过分析特征变量的重要性,发现高程、归一化植被指数、红光波段、近红外波段、短波红外波段对模型分类精度有较重要的影响。说明随机森林模型方法结合多源信息是森林植被类型遥感分类的一种有效手段。
关键词随机森林模型法;陆地卫星-8遥感影像;森林植被分类
森林植被分类研究,在保护并合理的利用森林植被资源、对促进生态系统的可持续发展、维持国家和区域性的生态安全都具有重要的作用。通过结合遥感数据和一些机器分类算法,如最大似然、神经网络、决策树等进行森林植被的分类,是诸多学者致力于研究的问题。然而,传统的分类方法存在着分类精度低、分类速度慢和难处理大数据等问题,为解决上述问题,随机森林分类法得到了广泛的应用。
随机森林法是近年来一种比较流行的分类技术,是一种新型高效的组合分类器,优越性远胜于传统的分类方法[1]。在国外,应用随机森林做遥感图像分类的研究起步较早,M. Pal[2]等以陆地探测卫星系统(Landsat ETM+)多光谱图像为数据源,利用随机森林分类法对土地覆盖进行分类,并与迭代算法、集成学习算法、支持向量机分类算法在分类精度和分类速度等方面比较优劣性,实验表明随机森林法更具有优势,是一种很好的遥感图像分类算法。P. O. Gislason et al[3]将随机森林用于多光谱数据和数字高程模型(DEM)、坡度、坡向等对多元数据进行土地覆盖分类,并与分类和回归树决策树法相比较,得出随机森林在精度上优于决策树。随机森林用于陆地卫星和高光谱数据与地理和纹理辅助数据组成多元数据对土地覆盖进行分类;还有,对树种的分析等[4-12]实验表明,随机森林表现出了对噪声的不敏感性、分类更快更稳定的特点[13-14]。近几年,国内也有一些学者应用随机森林对遥感图像分类[15-18],但目前将随机森林方法与高程、坡度数据组成多元数据进行林业调查,包括树种识别的研究较少。本文以陆地卫星-8遥感影像为数据源,结合光谱特征以及DEM辅助特征构建随机森林模型,对黑龙江省漠河县森林植被进行分类,并与传统的最大似然分类法(MLC)进行精度的对比分析,同时对分类模型的参数和变量重要性进行评价与分析,探讨基于多源信息的随机森林模型在森林植被分类上应用的可行性。
1研究区概况
漠河县位于黑龙江省西北部(见图1),是中国最北且全年气温最低的县。地理坐标为北纬52°10′~53°33′,东经121°07′~124°20′,全县总面积18 367 km2,属于寒温带大陆性季风气候。由于大陆及海洋季风交替影响,冬季气候寒冷、干燥而漫长;夏季雨量充沛且降水集中,日照时间长,气候湿热;春季降雨量偏少,干旱,多为大风天气,易发生森林火灾;秋季常因为气温骤降而有大面积的冻害发生。该区域受地理和气候条件的影响,土层薄,植物生长周期短;野生植物种类相对较少,主要乔木树种有兴安落叶松(Larixgmelini(Rupr.))、樟子松(PinussylvestrisL. var.mongolicaLitv)、白桦(BetulaplatyphyllaSuk)、杨树(Populusspp.)、柳树(Salixspp.)等;土壤主要为森林土、草甸土和沼泽土。
图1 研究区示意图
2研究方法
本研究基于光谱特征和地形特征等变量构建随机森林模型,对漠河县森林植被类型进行分类,并将分类结果与传统的最大似然法进行分类精度比较。针对随机森林树数量和特征变量数量的选择问题、各变量对分类精度的重要性等进行系列分析,具体流程见图2。
图2 研究方法流程图
2.1特征提取
首先考虑到陆地卫星-8遥感影像的特点,充分利用1~7波段的光谱信息;并考虑到植被指数可以反映不同的植被类型,且比单波段信息监测植被更为稳定,以及研究区处于山区地形的多样化,选用3种具有代表性的植被指数:归一化植被指数(NDVI)、比值植被指数(RVI)、差值植被指数(DVI)和地形因子的高程、坡度、坡向共13个分类特征。
光谱特征提取:本研究分类的地物类型,除非林地外都属于植被类型。为能准确区分非林地、林地以及各种不同的植被类型,选取3种植被指数作为遥感图像分类的特征量进行分类实验。植被指数是从多光谱遥感图像中获取的,是一种对植被的生长状况、覆盖程度以及生物量等具有一定指示意义的数值。选定RVI、DVI、NDVI为特征量,原因:NDVI是目前在使用遥感图像进行植被分类研究中最广泛应用的植被指数,是植被生长状态和植被覆盖度最佳指示因子;RVI在植被生长茂盛、植被覆盖率较高时对植被更为敏感,对于绿色植被类型,RVI值较高,对非林地如裸地和水体等RVI值较低;DVI对土壤背景变化极为敏感,适用于植被发育早中期或植被覆盖率较低的植被监测[19]。
DEM及辅助因子的提取:DEM是进行二维地形空间模拟的基础,DEM可以派生出多种地形因子,其中坡度、坡向、高程作为其中最重要的地形因子可以被合理的应用到植被分布研究中。坡度一般是指过地表面任一点的切平面与水平地面的夹角,表示地表面在该点的倾斜程度;坡向为地表面上任一点的切平面的法线矢量在水平面投影,与过该点的正北方向的夹角;高程为地面上任意一点的海拔高度。本此研究以ArcGIS软件为平台,以漠河县的DEM数据为基础,利用其空间分析模块,执行命令面分析;再由坡度和坡向函数实现地形因子的提取。
2.2分类系统的建立
主要根据黑龙江省大区域土地利用类型和主要林分类型,考虑到陆地卫星-8遥感影像的可分程度及漠河县二类调查森林植被类型的具体情况,将研究区的土地利用类型主要分为林地和非林地。由于本研究主要针对林地进行研究,最终将非林地剔除,所以将林地分为阔叶林、针叶林和针阔混交林;将非林地暂且划分为居民地、水体、道路、农田等。
2.3分类方法
随机森林基本原理:随机森林由Leo Breiman于2011年提出。它通过逐步引导重采样技术,从原始训练样本集中有放回的重复随机抽取N个样本,生成新的训练样本集合;然后,根据自助样本集生成k个分类树,组成随机森林;新数据的分类结果,按分类树投票多少形成的分数而定。由于随机森林是由多棵分类和回归树决策树组合构成的新型机器学习算法[20],所以其实质是对决策树算法的一种改进;单棵树的分类能力可能很小,将多个决策树合并在一起,每棵树的建立依赖于一个独立抽取的样品,森林中的每棵树具有相同的分布,分类误差取决于每一棵树的分类能力和它们之间的相关性。特征选择,采用随机的方法去分裂每个节点,然后比较不同情况下产生的误差。能够检测到的内在估计误差、分类能力和相关性,决定选择特征的数目。
随机森林具体实现过程:①首先采用逐步引导抽样技术从原始数据集中抽取N个训练集,每个训练集的大小约为原始数据集的2/3。②为每个训练集分别建立回归树,产生由N棵决策树组成的森林;在每棵树生长过程中,从全部M个特征变量中随机选取m个(m≤M),在这m个属性中根据基尼(Gini)指数最小原则选出最优属性进行内部节点分支,使每棵树充分生长,通常不进行剪枝操作。③最后集合N棵决策树的预测结果,采用投票的方式决定新样本的类别。④每次抽样,约有1/3的数据未被抽中,这部分数据通常称为袋外数据(OOB);利用袋外数据进行内部误差估计,产生OOB误差,OOB被用来预测分类的正确率。
本文随机森林算法通过Weka软件中的随机森林模块和R软件平台实现。首先选取训练样本感兴趣区域,对于遥感图像存为TIFF格式。通过调用Weka库中的训练分类器,分别设置生长树的数量(N)和特征变量的数量(m),建立随机森林模型。然后,利用Gdal软件读取TIFF格式待分类遥感图像每个像元的所有波段的信息,将其转换为随机森林模型所需要的ARFF格式的文件类型,使用分类方法对遥感影像进行分类,并存储分类结果在遥感图像处理平台中显示。在该算法分类过程中,通常只需要设定2个参数,生长树的数量(N)和节点分裂时输入特征变量的数量(m);通过本次研究发现,当N≥400时,各分类情况OOB误差趋于稳定,且由于前面的采样过程为随机采样,保证了随机性;所以,即使不对其进行剪枝,也不会出现过拟合现象。
最大似然分类法:又称贝叶斯分类,是经常使用的监督分类方法之一,而且被认为是一种稳定性最好的分类器[21]。它是通过求出每个像素对于各类别归属概率,把该像素分到归属概率最大的类别中的方法。最大似然分类使用高斯概率密度函数。简单说,最大似然分类法是通过计算样本的统计值得到概率密度函数值,在实际应用中,最大似然分类是分类精度最高的分类器之一。
2.4数据处理
遥感数据源:采用的光谱数据是美国陆地卫星-8于2013年6月获取的3景漠河县遥感影像,LC81220232013173LGN00、LC81220242013144LGN00、LC81230232013244LGN00,空间分辨率为30 m,3幅影像数据成像质量均良好且清晰无云覆盖。
辅助数据:另外选取漠河县界矢量数据,美国太空总署(NASA)和国防部国家测绘局(NIMA)联合测量的SRTM3地形数据,分辨率为90 m、投影为坐标UTM WGS84以及2010年森林资源二类调查数据。调查内容主要包括各类林地的面积、权属、森林覆盖率、林木蓄积、株数和与森林资源有关的自然地理环境、生态环境因素,以及2010年8月布设的用于检验分类精度的255块固定样地数据,样地每块面积为0.06 hm2,按8 km×8 km间距布设;调查信息主要包括树种组成、优势树种名称、胸径、树高、郁闭度和土壤信息等。各林分类型固定样地数量:针叶林108块、阔叶林93块、针阔混交林54块(见图3)。
数据预处理:遥感影像预处理主要是对图像中无关信息进行消除,恢复可用的真实信息,最大限度地简化数据,增强可用信息的可检测性,从而改进特征识别,提高提取的可靠性[22]。本文使用的陆地卫星-8数据已经具有UTM-WGS84投影,所以需要在遥感图像处理平台中对其进行辐射定标、利用大气校正模块进行大气校正,图像裁剪和镶嵌,最后利用革兰氏施密特频谱锐化(Gram-Schmidt Spectral Sharpening)融合方法对多光谱和全色影像进行图像融合处理。
3结果与分析
3.1分类精度检验
依照本文的分类系统,分别通过最大似然和随机森林模型对研究区各种地物类型进行分类,得到研究区的初步分类图。然后通过分类后处理的方法包括将聚类和剔除非林地等,得到研究区的分类结果(见图4),利用漠河县的255个固定样地点对其进行精度检验。
图3 固定样地分布图
(a)最大似然分类法(b)随机森林分类法
图42种分类方法的分类结果比较
为了对2种分类方法的分类精度进行定量评价,分别计算总体精度、卡帕(Kappa)系数、3种植被类型的使用者精度和生产者精度(见表1)。与传统的最大似然法相比,随机森林分类法的总体精度为81.15%,提高了6.09%;Kappa系数为0.812,提高了1.8%;另外,2种分类方法对针叶林的识别度均较高,其次为阔叶林,但是对针阔混交林的识别程度最低,这与针阔混交林的构成复杂性有关,造成光谱特征易被混淆。针叶林、阔叶林、针阔混交林的生产者精度,分别提高了2.87%、1.24%、4.1%;使用者精度分别提高了4.15%、6.67%、5.55%。由此可见,基于植被指数和地形因子的随机森林分类法,比最大似然法分类精度都有明显的提高,随机森林相对于最大似然分类法有更好的分类效果。
表1 2种分类方法分类精度的对比
3.2生长树和特征变量数量对分类精度的影响
在随机森林模型分类中,生长树的数量和特征变量的数量对分类结果有影响。本试验中,首先固定生长树的数量为100,将特征变量的数量由1~10进行分类,得到在生长树数量固定条件下,随着特征变量数量的改变,总体的分类精度也随之变化(见表2)。当特征变量数量为3和4时,与特征变量数量为5(最优参数)的总体分类精度较相近,说明分类精度对特征变量数量的设置并不特别敏感,无特别大影响。当设置特征变量数量为5时,将生长树的数量分别设定为1、5、10、50、100、200、400、800、1000进行试验,得到分类精度结果(见表3)。由表3可见,随着生长树数量的增加,分类精度呈上升的趋势,当生长树数量为800或1000时,总体分类精度较高且浮动不大,趋于稳定。
3.3特征变量重要性
对于多源数据的分类,在各种不同类型特征变量数量较多时,需要了解这些特征变量对分类结果的贡献,以便挑选出较重要的特征变量。随机森林通常可提供4种特征变量重要性度量,其中OOB平均下降精度、Gini指数平均下降精度为最常用的2个测度。根据Gini指数和OOB估计计算特征变量重要性(见表4)。
表2 生长树为100棵时分类精度随特征变量数量的变化
表3 特征变量为5时分类精度随生长树数量的变化
表4 Gini指数、OOB估计计算特征变量的重要性
从Gini指数看,对分类结果有较重要影响的是高程、5波段、6波段、7波段、归一化植被指数、3波段、坡度等;从OOB误差估计看,贡献性较大的特征变量,依次是归一化植被指数、高程、4波段、6波段、7波段、比值植被指数、5波段,各种变量的重要性几乎与上一种结果相同,只是重要性顺序有差别;说明这2种计算特征变量重要性的方法是比较可靠的。另外,结合研究区地物类型分布的实际情况分析,研究区处于山区位置,地形起伏较大,所以高程特征变量的重要程度较高;又由于研究区内森林植被类型丰富,其中又包括水体、裸地,所以红光波段、近红外波段、短波红外波段、NDVI的重要性较高,这都与实际情况相符合。综合以上分析,在随机森林分类的过程中,尽量选择能够识别样本间差异的特征,选择与研究区所在地理位置相关的地形信息,根据最优的特征变量进行分类,不仅可以提高分类速度,还可以提高分类精度。
4结论与讨论
本研究结合黑龙江省漠河县陆地卫星-8遥感影像光谱特征和地形特征,通过建立随机森林模型分类法和最大似然分类法对森林植被类型进行分类,对比2种方法的分类结果,结果表明:随机森林分类法在中高分辨率的遥感影像植被分类中,比最大似然法更具优势,分类速度快、精度高,是一种有效的分类方法。
研究了随机森林参数设置对分类精度的影响程度,结果表明:分类精度对参数设置不敏感,通常情况下,使用默认参数,即可达到理想的分类效果,如果选择适当的模型参数可获得更好的分类结果。
另外,也对随机森林不同特征变量的重要性和随机森林计算特征变量重要性的可靠性与实用价值进行了研究,结果表明:随机森林不同的特征变量对模型的贡献程度不同,对分类精度有不同的影响,计算的特征变量重要性可靠,且筛选重要特征变量后的分类精度较之前有所提高,模型训练时间缩短,具有很好的实用价值。
本研究尚存在缺陷:首先考虑到本次研究使用的陆地卫星-8遥感影像的分辨率和波段数量的限制;其次,在训练样本的选择上,由于缺少足够的实地调查信息以及判读者的局限性,进而影响分类样本的准确选取;另外,研究区处于山区,地形复杂,只是简单的结合3种典型的植被指数(如RVI、DVI、NDVI)和由DEM提取的高程、坡度、坡向辅助数据作为特征变量构建随机森林模型,也具有一定的局限性。此外,想要取得更高的分类精度,在今后的研究中需要使用高分辨率的高光谱影像,并结合影像的纹理特征和几何特征构建更精确的随机森林分类模型,对森林植被类型作进一步的细化,这是值得进一步研究的方向。
参考文献
[1]BERIMAN L. Random forests[J]. Machine Learning,2001,45(1):5-32.
[2]PAL M. Random forest classifier for remote sensing classification[J]. International Journal of Remote Sensing,2005,26(1):217-222.
[3]GISLASONPO,BENEDIKTSSONJA,SVEINSSONJR.Randomforestsforlandcoverclassification[J].PatternRecognitionLetters,2003,27(4):294-300.
[4]CAO L, COOPS N C, INNES J L, et al. Tree species classification in subtropical forests using small-footprint full-waveform LIDAR data[J]. International Journal of Applied Earth Observation and Geoinformation,2016,49:39-51.doi:10.1016/j.jag.2016.01.007.
[5]JUEL A, GROOM G B, SVENNING J C, et al. Spatial application of Random Forest models for fine-scale coastal vegetation classification using object based analysis of aerial orthophoto and DEM data[J]. International Journal of Applied Earth Observation and Geoinformation,2015,42:106-114.
[6]OTHMANI A, VOON L F C L Y, STOLZ C, et al. Single tree species classification from Terrestrial Laser Scanning data for forest inventory[J]. Pattern Recognition Letters,2013,34(16):2144-2150.
[7]DALPONTE M, BRUZZONE L, GIANELLE D. Tree species classification in the Southern Alps based on the fusion of very high geometrical resolution multispectral/hyperspectral images and LiDAR data[J]. Remote Sensing of Environment,2012,123(3):258-270.
[8]IMMITZER M, ATZBERGER C, KOUKAL T. Tree Species Classification with Random Forest Using Very High Spatial Resolution 8-Band WorldView-2 Satellite Data[J]. Remote Sensing,2012,4(9):2661-2693.
[9]RODRIGUEZ-GALIANO V F, CHICA-OLMO M, ABARCA-HERNANDEZ F, et al. Random Forest classification of Mediterranean land cover using multi-seasonal imagery and multi-seasonal texture[J]. Remote Sensing of Enviroment,2012,121:93-107.
[10]RODRIGUEZ-GALIANO V F, GHIMIRE B, ROGAN J, et al. An assessment of the effectiveness of a random forest classifier for land-cover classification[J]. ISPRS Journal of Photogrammetry and Remote Sensing,2012,67(1):93-104.
[11]HAM J, CHEN Y, CRAWFORD M M, et al. Investigation of the random forest framework for classification of hyperspectral data[J]. IEEE Transactions on Geoscience & Remote Sensing,2005,43(3):492-501.
[12]NAIDOO L, CHO M A, MATHIEU R, et al. Classification of savanna tree species, in the Greater Kruger National Park region, by integrating hyperspectral and LiDAR data in a Random Forest data mining environment[J]. ISPRS Journal of Photogrammetry & Remote Sensing,2007,307(1/2/3):62-70.
[13]MIAO X, HEATON J S, ZHENG S, et al. Applying tree-based ensemble algorithms to the classification of ecological zones using multi-temporal multi-source remote-sensing data[J]. International Journal of Remote Sensing,2012,33(6):1823-1849.
[14]CLARK M L, ROBERTS D A. Species-level differences in hyperspectral metrics among tropical rainforest trees as determined by a d tree-base classifier[J]. Remote Sensing,2012,4(12):1820-1855.
[15]马玥,姜琦刚,孟治国,等.基于随机森林算法的农耕区土地利用分类研究[J].农业机械学报,2016,47(1):297-303.
[16]黄婷,赵自明.基于随机森林和MR8滤波器的图像分类研究[J].嘉应学院学报(自然科学版),2015,33(2):26-32.
[17]刘海娟,张婷,侍昊,等.基于RF模型的高分辨率遥感影像分类评价[J].南京林业大学学报(自然科学版),2015,39(1):99-103.
[18]王栋,岳彩荣,田传召,等.基于随机森林的大姚县TM遥感影像分类研究[J].林业调查规划,2014,39(2):1-5.
[19]潘琛,杜培军,罗艳,等.一种基于植被指数的遥感影像决策树分类方法[J].计算机应用,2009,29(3):777-780,797.
[20]方匡南,吴见彬,朱建平,等.随机森林方法研究综述[J].统计与信息论坛,2011,26(3):32-38.
[21]ZHENG Mingguo, CAI Qianguo, QIN Mingzhou. The Effect of Prior Probabilities in the Maximum Likelihood Classification on Individual Classes[J]. Photogrammetric Engineering & Remote Sensing,2009,75(9):1109-1117.
[22]王玉丽,马震.应用ENVI软件目视解译TM影像土地利用分类[J].现代测绘,2011,34(1):11-13.
Forest Vegetation Classification of Landsat8 Remote Sensing Image Based on Random Forests Model
Zhang Xiaoyu, Li Fengri, Zhen Zhen, Zhao Yinghui
(Northeast Forestry University, Harbin 150040, P. R. China)//Journal of Northeast Forestry University,2016,44(6):53-57,74.
Taking Mohe County of Heilongjiang Province as study area, with the Landsat8 remote sensing images as data source, and the spectral signatures of the image and DEM as additional data, we classified the types of forest vegetation based on classification method of the Maximum Likelihood Classifier (MLC) and random forest model (RFM). We analyzed the importance of the characteristics variables of the spectral for the model, and evaluated the suitability of two methods in forest vegetation classification. The overall classification accuracy and the Kappa coefficient of RFM were 81.65% and 0.812, respectively. Compared with the MLC method, the RFM method improved the user accuracy and production accuracy for three forest types. By analyzing the importance of the variables, elevator, NDVI, red band, NIR band, and short wave IR band played an important role in classification accuracy. Therefore, the RFM based on multiply types of data is a fast and effective method in the classifications of forest vegetation types.
KeywordsRandom forest model (RFM); Landsat8 remote sensing image; Forest vegetation classification
第一作者简介:张晓羽,女,1989年2月生,东北林业大学林学院,硕士研究生。E-mail:949205203@qq.com。 通信作者:赵颖慧,东北林业大学林学院,副教授,E-mail:zyinghui0925@126.com。
收稿日期:2015年11月23日。
分类号S757.2;S771.8;TP751
1)科技部科技基础性工作专项项目(2013FY111600-7)。
责任编辑:张玉。