基于多分类器集成的落叶松人工林提取*
2022-01-18李崇贵汤伏全
马 婷 李崇贵 汤伏全 吕 杰
(西安科技大学测绘科学与技术学院 西安 710054)
森林是陆地生态系统的主体,是人类社会发展不可或缺的重要资源。丰富的森林资源,是生态良好的重要标志,是经济社会发展的重要基础,是美丽中国建设的重要内容。为了及时掌握森林资源现状及其消涨动态,科学管理森林,定期开展森林资源清查已成为林业重要的基础性工作和公益性事业。落叶松(Larixspp.)是我国北方地区造林和森林更新的主要树种之一,具有速生、材质好、抗性强、适应性广等特点,及时准确掌握落叶松人工林资源信息,有效获取落叶松人工林空间位置分布,对促进落叶松人工林合理种植、提升其资源培育和管理水平并实现可持续经营具有重要的理论价值和现实意义(刘林,2013;张茂震等,2009;郭瑞霞等,2020)。
遥感技术是20世纪60年代兴起的一种探测技术,具有覆盖面积广、重访周期短、获取成本低等优点,是森林树种识别和森林资源调查的重要手段(Zhuetal.,2021;Liuetal.,2020)。近年来,国内外学者应用遥感技术在森林树种识别和森林类型分类方面开展了大量研究,从传统的参数模型算法,如李小梅等(2010)基于CHRIS高光谱数据,采用最近邻法和最大似然法对长白山自然保护区进行了森林类型精细分类;到非参数模型算法,如刘怡君等(2016)基于机载AISA EagleⅡ数据并结合LiDAR,采用支持向量机识别了普洱山主要树种;Yu等(2017)对多空间变量特征进行优选,基于随机森林提取并绘制了刺槐(Robiniapseudoacacia)林的健康水平;再到深度学习算法,如郭颖等(2020)利用GF-2影像,采用双支FCN-8S深度学习算法有效提取了油松(Pinustabulaeformis)、红松(Pinuskoraiensis)和白桦(Betulaplatyphylla)等树种。传统的参数模型算法发展较成熟,但由于其自身原理、影像质量和分类系统等因素影响,难以完整有效地对目标进行特征化表达,分类结果存在不确定性;非参数模型算法过分依赖训练样本,会导致数据过拟合;深度学习算法能够根据大量特征集进行自学习,但其对样本集、运算能力和计算机性能要求较高,目前工程化应用还存在一定难度。多分类器集成策略以传统分类算法为基本单元,通过投票或自适应等方式给每个分类器分配合适的权重和参数确定集成规则(周星等,2015;李敏等,2019;Oualietal.,2010),其集成了各分类器的优点,降低了单一分类器的不确定性,可获得比单一分类器更高的精度。王怀警等(2019)利用高光谱数据设计一种基于支持向量机和随机森林的多分类器组合算法,有效提高了森林类型识别精度。栗旭升等(2020)基于最近邻、支持向量机、贝叶斯、CART决策树和随机森林算法构建一种多分类器自适应树种识别方法,该方法优于任一单分类器的分类结果。陈春秀等(2021)联合GF-6与ZY-3影像设计一种基于支持向量机和随机森林的多分类器投票组合算法,有效识别了准格尔山楂(Crataegussongarica)。
然而,在森林类型分类识别时,最大的难点是森林复杂群落结构中树种间存在“同物异谱”和“同谱异物”现象,当前研究除了利用多源数据融合以及优化不同分类算法外,根据不同树种间存在的光谱差异进行特征化表达也是提高识别精度的有效方法(梁守真等,2015;马婷等,2020)。Immitzer等(2019)利用多时相Sentinel-2影像对中欧森林的针叶林和阔叶林进行精细分类,分类精度比单时相影像提高12.8%。Nelson(2017)在对瑞典6种树种进行光谱分析的基础上,选择5、7和8月影像进行多时相组合分类,总精度达86%。Bolyn等(2018)利用5和10月的Sentinel-2影像对比利时11种树种进行分类,总精度达92%。多时相特征分类的关键在于找到目标植被与其他植被具有时空差异的特征变量,落叶松是一种落叶针叶乔木,春季叶子生长初期、秋季落叶期和冬季休眠期与其他针叶林的光谱信息不同,在树冠结构和叶子形态等方面与阔叶树存在空间纹理差异,这些显著的时空特征差异为落叶松识别提供了可靠的理论基础。目前,国内外对落叶松提取方面的研究较少(Busettoetal.,2010;郭振华等,2019)。
鉴于此,本研究以黑龙江省孟家岗林场为研究区,基于Landsat8 OLI影像分析不同物候期树种间的光谱差异,确定落叶松人工林识别的关键波谱和物候期,在此基础上,结合GF-1 PMS1影像提取落叶松的纹理、形状等特征信息,同时辅以地形信息,建立不同物候相的多特征数据集,通过多种特征组合方案,探索多时相、多特征数据集下一种基于多分类器集成的落叶松人工林快速识别方法,以期为落叶松人工林后续监测与管理提供参考。
1 研究区概况与数据
1.1 研究区概况
研究区位于黑龙江省佳木斯市桦南县东北部孟家岗林场,130°32′—130°52′E,46°20′N—46°30′N。属东亚大陆性季风气候(王磊等,2008),年均气温2.7 ℃。林场有林地面积13 079 hm2,森林覆盖率80.4%,人工林以针叶林为主,其中落叶松林、樟子松(Pinussylvestrisvar.mongolica)林、红松林和云杉(Piceaasperata)林约占人工林面积的80%;天然林以阔叶林为主,包括白桦林、椴树(Tiliatuan)林、蒙古栎(Quercusmongolica)林和山杨(Populusdavidiana)林等(王霓虹等,2014)。
1.2 研究数据
1.2.1 遥感数据 以GF-1 PMS1和Landsat 8 OLI无云或少云影像(云量<10%)为主要数据源。GF-1影像具有高空间分辨率,全色波段空间分辨率2 m,多光谱波段空间分辨率8 m,可提取丰富的纹理信息用于识别针叶林和阔叶林;因单景幅宽60 km,无法实现研究区全覆盖,故选择同日成像2景影像进行拼接。Landsat 8 OLI影像具有丰富光谱分辨率,谱段范围0.43~1.38 μm,包含1个全色波段和8个多光谱波段,丰富的光谱信息有利于不同植被间的识别提取。为了研究落叶松人工林季相规律,获取不同时相的Landsat 8 OLI影像16景,以2017和2018年为主,2015和2016年影像补充缺少月份(Lietal.,2017;Royetal.,2014)。影像基本信息见表1。
表1 影像基本信息Tab.1 Image basic information
1.2.2 辅助数据 选择森林资源二类调查数据和CCD(charge coupled device)航片数据作为辅助数据。森林资源二类调查数据为2014年全国森林资源二类调查孟家岗地区数据,数据详细记录了调查时间、调查地面、地物类型、优势树种、小班面积、树种组成、土壤类型和环境状况等60多种属性信息;CCD航片数据由中国林业科学研究院机载观测系统LiCHy(LiDAR,CCD and hyperspectral)获取,传感器为中型机载相机DigiCAM-60,机载平台为国产运-5(Y-5)小型飞机,飞行高度为1 000 m,时间为2017-05-31—2017-06-16,空间分辨率为0.5 m。森林资源二类调查数据和高分辨率CCD航片数据(图1a)均由中国林业科学研究院资源信息研究所提供。
1.2.3 分类系统 根据林场内植被分布情况和影像识别能力,将研究区划分为有林地和非林地,有林地按森林外貌划分为阔叶林和针叶林。考虑到落叶松人工林提取难点为针叶林间的混淆问题,结合林场树种抚育信息和种植面积,将针叶林精细划分为落叶松林、红松林、樟子松林和云杉林,阔叶林不进一步划分。非林地为非森林区域,如农田、居民地等,并非研究重点,也不再进一步划分。研究区天然林主要为阔叶林,不将其单独划分。
1.2.4 样本数据 训练样本通过森林资源二类调查小班数据获取(图1a)。利用森林资源二类调查小班数据获取树种分布信息,并计算不同树种分布面积占林场面积比例,根据面积所占权重确定每种类别的样本数量。利用CCD航片数据通过目视解译构建420个样方,大小为28.28 m×28.28 m,其中落叶松林91块、红松林60块、云杉林63 块、樟子松林73 块、阔叶林77 块、无林地56块。
验证样本通过野外调查获取。2017年6月,利用手持GPS在研究区内采集395个样点,以样点为中心调查记录30 m×30 m范围内树种的详细信息,包括树种类型、龄组和郁闭度等(图1b)。共获取133 块落叶松林样地、33 块红松林样地、98 块云杉林样地、80 块樟子松林样地、32 块阔叶林样地、19 块无林地。
图1 研究数据Fig.1 Study data
2 研究方法
2.1 数据预处理
研究使用的遥感影像为预处理产品,GF-1 PMS1为2A级产品,Landsat8 OLI为L1T级产品,均已经过系统性的辐射校正和几何校正,Landsat 8 还经过几何精校正和地形校正。故首先对GF-1和Landsat 8 数据进行辐射定标和FLAASH大气校正,将DN值转换为地物真实反射率。然后利用DEM对GF-1进行正射校正,并采用Gram-Schmidt图像融合方法获得2 m分辨率的多光谱数据。接着应用双线性内插法将Landsat 8重采样至2 m分辨率,与GF-1影像分辨率保持一致。最后利用孟家岗林场矢量边界对预处理后的GF-1和Landsat 8进行拼接裁剪(Kongetal.,2016)。
2.2 落叶松人工林物候期确定
利用预处理后的16景Landsat8 OLI影像,结合训练样本,获取林场内5种树种的归一化植被指数(normalized difference vegetation index,NDVI)时间序列曲线。对该曲线进行分析,确定识别落叶松人工林的最佳物候期为生长期和落叶期。本研究选择4月Landsat8 OLI(生长期)、6月landsat8 OLI(生长旺盛期)、10月Landsat8 OLI(落叶期)和多时相(4月Landsat8 OLI和10月Landsat8 OLI)影像作为基础数据。
2.3 特征提取
首先对基础数据进行主成分分析,采用灰度共生矩阵法提取GF-1影像8个纹理特征,即相关性(correlation)、协同性(homogeneity)、二阶矩(second moment)、相异性(dissimilarity)、对比度(constrast)、信息熵(entropy)、方差(variance)和均值(mean)(Mengetal.,2016);其次提取地形特征,采用地形模型提取研究区数字高程模型(digital elevation model,DEM)的坡度(slope)和坡向(aspect)信息。
2.4 特征筛选
随机森林(random forest,RF)是一种CART决策树集成算法(Breiman,2001;Cutleretal.,2004)。该算法首先从初始样本中随机选择M个样本,然后采用bootstrap方法对原始数据进行有放回抽取,构建多个子数据集生成数株决策树,每株决策树都对新数据进行一次决策分类,最后通过投票法对待分类样本进行预测或归类,由于抽取样本的随机性,存在部分样本未参与训练,即袋外样本(out-of-bag,OOB),以其作为分类后误差统计检测RF预测性能的好坏(Statnikovetal.,2008)。
变量重要性(variable importance measures,VIM)是利用RF算法置换变量时,获取2次OOB偏差率再计算其误差均值(Strobletal.,2008)。具体算法如下:
(1)
(2)
VIM以各特征参与分类时的贡献量为标准,减少了特征间相关性对排序的影响,保证了多特征变量排序的准确性(Belgiuetal.,2016)。本研究首先基于RF算法对提取的特征变量进行VIM测定,根据测定结果对特征因子进行排序,采用序列后向搜索法筛选特征因子。序列后向搜索法是从特征数据集中依次除去末端特征(重要性最低),计算分类正确率,逐次迭代选取分类正确率最高的特征集作为最优特征集,是目前常用的RF特征选择方法之一(王全才,2011)。然后采用ENVI-FX面向对象分割算法提取GF-1影像中落叶松人工林的形状和面积因子。最后将提取的特征分别与基础数据的近红外波段(NIR)和短波红外波段(SWIR1、SWIR2)构建NIR-SWIR多特征数据集。特征提取在ENVI5.3和IDL8.5(64-bit)平台中完成,具体分类数据集见表2。
表2 分类数据集Tab.2 Classification data set
2.5 分类方法
2.5.1 单分类器分类 1)MLC 最大似然分类(maximum likelihood classification,MLC)是利用统计法以最大似然比贝叶斯判决准则为基础,假设待分类地物呈正态分布,统计影像上各地物类型的归属概率,构建各地物相应的判别函数集进行分类识别(Baird,2001)。
2)RF RF特征数量由数据集维数决定。
3)SVM 支持向量机(support vector machine,SVM)是常用的非参数机器学习算法,其核心思想是利用核函数设置约束条件,通过样本间最远距离构建不同树种的最优超平面,从而精确识别树种(刘向东等,2005;王健峰等,2012)。本研究核函数采用线性函数和高斯径向基函数(Gaussian radial basis function,GRBF),目标函数为C-支持向量机(C-SVM),采用网格搜索法进行参数寻优,利用十折交叉法验证。
4)BP BP神经网络(back-propagation neuron network,BP)是一种按照误差逆向传播算法训练的多层前馈神经网络,包含输入层、隐藏层和输出层(戚王月等,2019),其核心思想是当输入层不满足期望输出时,会沿误差负梯度方向逐次对各神经元的权值和阈值进行反复调节,直至误差达到要求。本研究选择对数函数(Logistic)作为活化函数,训练贡献阈值为0.9,训练率为0.2。
2.5.2 分类器组合 以MLC、RF、SVM和BP作为基分类器,通过级联结构与并联结构相结合的方式进行分类器组合。
假设研究区影像地物类型分为M个类别:
Ci∩Cj=Ø(i≠j;i∈M;j∈M);
(3)
P=C1∪C2∪C3…∪CM。
(4)
式中:P为给定的模式空间,即待分类影像;Ci和Cj为分类的类别。
1)以MLC、RF、SVM和BP为子分类器,对4个物候期的特征数据集进行初步分类(主要土地覆盖类型分类),包括落叶松林、红松林、樟子松林、云杉林、阔叶林和无林地,根据分类结果构建混淆矩阵Mk:
(5)
根据式(6),计算出落叶松人工林的生产者精度pk(X∈Ci)和用户精度pk(X∈Cj),并求出用户精度和生产者精度的均值:
(6)
(7)
然后将各级联分类器的置信度tk作为判定条件,并取95%作为置信区间。利用子分类器对待分类数据集依次进行分类,若结果在该置信区间内,终止分类,否则利用下一分类器对该数据集继续分类,直至满足上述条件。若子分类器结果均无法满足上述条件,则采用并联结构进行分类,即各子分类器并行分类,结果将统一传递到组合决策器中共同决策。
3)采用投票法确定子分类器的组合策略。根据式(8)计算子分类器的权重系数(表3),得到多分类器组合分类结果。将非落叶松人工林类别合并、去除细碎小斑块以减少其他因素对落叶松人工林分类精度的影响,得到落叶松人工林提取结果并进行总体精度评价。
投票组合策略为:
Tk(X)=
式中:X代表地物类型,本研究为落叶松人工林;Tk(X)为子分类器k获得的投票分数。
3 结果与分析
3.1 落叶松人工林物候期
落叶松人工林识别的关键是找到其与其他地物的特征差异。落叶松属于落叶针叶乔木,根据其物候特征并结合NDVI时间序列曲线(图2)发现,3月末—5月为落叶松人工林生长季,NDVI曲线呈显著上升趋势,其值最高达0.79;6—8月为落叶松叶子生长茂盛期,NDVI达全年顶峰,其曲线在0.8~0.9处小幅波动;10—11月为落叶松叶子脱落期,NDVI曲线呈显著下降趋势,其值最低至0.19。从曲线中可看出,落叶松人工林生物量随季节变化呈周期性波动,反映了其显著的季相特征。红松、樟子松和云杉属于常绿针叶乔木,叶片发育和叶绿素含量受季节影响较小,全年均保持较高生物量,因此在生长期和落叶期,落叶松人工林与常绿乔木植被特征差异最为显著。图3a-c分别展示了4月、6月和10月不同地物的波谱曲线,可以看到,在落叶松人工林生长期(4月),落叶松与常绿针叶乔木在红光波段(Red)、近红外波段(NIR)、短波红外1(SWIR1)和短波红外2(SWIR2)波谱差异较大,该阶段常绿针叶乔木波谱曲线与典型绿色植被光谱曲线一致,在红光和短波红外波段波谱较低,在绿光和近红外波段形成2个明显的反射峰;而该阶段落叶松和阔叶树叶子刚发芽,叶内细胞和叶冠结构未成熟,叶绿素含量较少,叶片对光源不敏感,因此二者波谱曲线相似,在红光波段和短波红外反射率均较高,但受植被本身生化性质和冠层结构影响,二者在近红外波段差异较大。在落叶松叶子生长旺盛期(6月),叶片大部分已发育成熟,叶绿素含量丰富,叶片对光源反应强烈,其波谱曲线与典型绿色植被光谱曲线表现一致,该阶段落叶松人工林与其他植被波谱差异较小。在落叶松人工林落叶期(10月),树种间波谱差异性与生长期相似,此时落叶松叶内细胞衰老死亡,叶片逐渐脱落,表现为对红外光谱反射不强烈,而对红光和短波红外1光谱较为敏感,反射强烈,与常绿乔木差异明显。该阶段由于落叶松人工林和阔叶树叶内物质积累和叶片脱落时间存在差异,二者波谱曲线虽然相似,但在近红外和短波红外1波谱值相差较多。非林地在任何物候期反射率均偏高,与落叶松人工林光谱差异较大,对落叶松人工林识别干扰较小。因此,生长期和落叶期近红外、短波红外1和短波红外2波段的光谱信息对识别落叶松人工林有很大帮助。
图2 NDVI时间序列曲线Fig.2 NDVI time series curve
图3 不同时期不同地物波谱曲线Fig.3 Spectral curves of different objects in different periods
3.2 特征提取与特征选择
本研究共提取14个特征变量,利用VIM对除形状和面积因子外的12个特征变量进行测定,结果见图4。图4a为特征变量重要性排序,变量重要性分值越高,表明变量重要性越大,即对分类结果影响越大,可以看出,归一化植被指数分值最高,其次为相异性,说明归一化植被指数和纹理的相异性对植被分类较为重要,而坡度和坡向分值较低,对分类结果影响较小。根据特征筛选方法,基于变量重要性分值对特征变量排序,其结果为归一化植被指数、相异性、相关性、对比度、方差、信息熵、均值、协同性、二阶矩、数字高程模型、坡度、坡向。图4b为采用序列后向搜索法的分类精度与特征数量的关系,可以看出,分类精度随特征数量减少呈先上升后降低趋势,在特征数量为7个时,分类精度达到最高值78.9%。前期曲线呈上升趋势说明无关和冗余的特征变量存在增加了分类的复杂度,对分类结果起负向作用,剔除这些“多余”特征,可有效提高落叶松人工林分类精度;后期曲线呈下降趋势说明前7个特征变量对落叶松人工林分类贡献较大,将这7个特征变量进行组合可以提高落叶松人工林识别精度。因此,本研究选择前7个特征变量作为VIM筛选的特征集,即变量重要性分值大于5的特征,分别为归一化植被指数、相异性、相关性、对比度、方差、信息熵和均值。
图4 变量重要性测定Fig.4 Importance of characteristic variables
3.3 单分类器参数设定与权重系数
利用子分类器对8种分类方案进行分类。RF参数设置为:单一特征影像生长期、生长旺盛期、落叶期和多时相特征数量分别为3、3、3、4,决策树数目分别为100、110、100、150;基于NIR-SWIR多特征数据集的生长期、生长旺盛期、落叶期和多时相特征数量均为4,决策树数目分别为150、130、200、200。SVM参数设置为:除基于NIR-SWIR多特征数据集中多时相影像参数设置为高斯RBF核函数、惩罚因子C为10.0、Gamma参数为0.01外,其余参数均设置为线性核函数、惩罚因子C均为0.01。BP参数均设置为:活化函数为对数函数(Logistic),最大允许误差RMS为0.1,训练迭代次数为1 000。
子分类器分类精度与权重系数见表3、4。可以看出,基于单一特征影像分类,在生长期,MLC识别落叶松人工林效果最好,赋予的权重最大(26.5%);在生长旺盛期、落叶期和多时相影像中,BP识别落叶松人工林效果较好,赋予的权值也是最大的。基于NIR-SWIR多特征数据集分类,在生长期和落叶期,MLC识别落叶松人工林效果最好,赋予的权重分别为27.3%和28.5%;在生长旺盛期,BP赋予的权重最大;在多时相影像中,由于SVM参数优化,SVM落叶松人工林分类精度最高,赋予的权重最大。这说明多分类器组合策略综合了各分类器优点,落叶松人工林生产者精度和用户精度的均值越高,即落叶松人工林分类精度越高,在该组合策略中,赋予的权值越大。
表3 单一特征子分类器分类精度与权重系数①Tab.3 Single feature sub-classifier overall accuracy and weight coefficient
3.4 分类器组合分类结果分析
表5所示为多分类器组合分类结果。可以看出,多分类器集成的分类精度均高于80%,在同一时相下均高于其任一分类器精度,分类效果最好,说明多分类器集成的分类策略可以提升分类性能,有效提高落叶松人工林分类精度。对比不同时相影像的分类精度可知,在绝大多数分类器中,多时相影像的分类精度较好,其次是生长期和落叶期影像,生长旺盛期影像分类精度最差。生长期和落叶期落叶松人工林的NIR-SWIR波谱与其他植被差异较大,该阶段是提取落叶松人工林的关键物候期,而包含落叶松人工林关键物候期的多时相数据具有更丰富的物候信息,可以反映落叶松人工林的季相特征,更有利于落叶松人工林提取。相比单一特征影像分类,NIR-SWIR多特征数据集的分类精度显著提高,分类效果较好,分类精度均高于80%,其中包含多时相的NIR-SWIR特征数据集提取效果最好,分类精度达93.7%,Kappa系数为0.89,落叶松人工林生产者精度达95.4%,用户精度达99.2%;其次是落叶期和生长期的特征数据集,分类效果也较理想,分类精度分别为90.6%和88.3%。表6所示为落叶松人工林提取精度,多时相NIR-SWIR特征数据集提取精度达96.3%,提取效果最佳。这说明通过多分类器集成策略可有效提取落叶松人工林,实现落叶松人工林高精度提取。
表4 基于NIR-SWIR多特征数据集的子分类器分类精度与权重系数Tab.4 Overall accuracy and weight coefficient of sub-classifier based on NIR-SWIR multi-feature data set
表5 多分类器组合分类结果Tab.5 Classification results of multiple classifier combinations
表6 落叶松人工林面积提取情况Tab.6 Area statistics and comparative analysis of larch plantations
图5所示为采用多分类器集成算法对多时相NIR-SWIR特征数据集进行分类的结果。图5b为去除细碎斑块合并后的落叶松人工林分类图;图5c为落叶松人工林提取图。图6所示为采用多分类器集成算法对不同物候期特征数据集进行落叶松人工林提取的局部比较图,基于多时相NIR-SWIR特征数据集提取的落叶松人工林,图斑较为整齐,碎小斑块较少,局部细节清晰,斑块完整,与CCD航片数据呈现出较好的一致性,提取效果最佳。生长期和落叶期影像提取的落叶松人工林整体效果较好,基本与CCD航片数据一致,但局部细节有不足。而生长旺盛期影像提取的落叶松人工林效果较差,错分现象严重,部分斑块缺失。总体来看,多时相NIR-SWIR特征数据集的落叶松人工林提取效果最佳,生长期和落叶期提取的落叶松人工林效果较好。
图5 多时相特征数据集分类图Fig.5 Classification diagram of multi-temporal characteristic data set
图6 不同时期落叶松人工林提取详细比较Fig.6 Detailed comparison of larch plantation extraction from different periods
4 讨论
4.1 特征信息对分类的影响
不同地物自身的光谱特征不同,基于遥感影像进行地物识别的潜在理论是地物之间存在差异性。本研究的落叶松人工林,与研究区内其他针叶乔木相比具有独特的物候特征,与其他落叶阔叶乔木相比具有不同的纹理特征,这使得多时相数据与多特征因子组合在落叶松人工林提取方面具有显著优势。无论是单一特征影像还是NIR-SWIR多特征数据集分类,在任一分类器下,多时相影像的分类精度均高于生长期和落叶期影像,而生长旺盛期影像分类效果最差。其原因是单一时相影像包含的信息量有限,用于反映地物间的特征差异较少,而多时相影像包含落叶松人工林更多的物候信息,可反映出落叶松人工林独特的季相特征,增加了落叶松人工林与其他植被的差异性(项铭涛等,2018;梁守真等,2015)。落叶松人工林不同物候期的光谱特征分析发现,生长期和落叶期是与其他植被差异性最大的时期,故生长期和落叶期提取落叶松人工林效果较好,采用VIM特征筛选时,NDVI作为反映植被生物量差异的指数,VIM评分最高;而地形特征评分最低,对总体贡献度较小。其主要原因在于研究区地势相对平坦,不同植被垂直地带性规律无法较好体现,该结论与栗旭升等(2020)和刘鲁霞等(2019)结论一致,在地形起伏较小的区域,地形因子对植被分类具有一定局限性。
4.2 分类器组合算法对分类的影响
多分类器组合分类中,无论是单一特征影像还是NIR-SWIR多特征数据集,其分类结果均优于任一单分类器的分类结果。其原因是多分类器组合策略综合了子分类器的优势,使其优势互补,提高了分类器对地物的识别能力(王怀警等,2019)。李春干等(2010)利用多分类器组合策略进行森林分类时发现,子分类器自身的分类性能也是影响组合分类器精度的关键因素,而置信度tk决定哪个分类器以何种形式参与结合的过程,tk对于组合分类器的组合策略影响较大。本研究将置信度tk按照各级联分类器中落叶松人工林正确分类的样本对应函数确定,使得对落叶松人工林识别能力强的分类器更能发挥其分类效果。当将森林类型特征代入分类器进行训练,对落叶松人工林正确识别率高的分类器又会赋予更高的权重,这进一步保证了对落叶松人工林识别能力强的子分类器在组合中发挥的能力。对子分类器来说,参数设置是影响其分类性能的关键。张晓羽等(2016)对RF参数进行试验时发现,特征变量数量对分类精度影响在1%以内,特征变量数量大于3时分类精度变化稳定在0.1%以内,决策树数目对分类精度影响在2%以内,当其大于100时其精度变化稳定0.3%以内。基于前人经验(Evansetal.,2009)及时间复杂度,本研究将RF特征变量数量设置为3或4,特征变量数量设置在100~200之间,通过多次试验确定RF参数,图7为特征变量为3时随决策树数目变化分类精度的变化,可以看到,决策树数目在100~200之间时,决策树数目变化对分类精度影响较小,与张晓羽等(2016)结论一致。SVM和BP参数设置对分类精度影响较大(王宏涛等,2015),但关于SVM参数寻优,目前并没有统一方法,常用方法为网络搜索法、遗传算法和粒子群算法等(王健峰等,2012;王建国等,2016)。徐晓明(2014)在SVM分类中对这3种寻优方法进行比较发现,网络参数寻优结果最为理想,但耗时长不适合数据量过大的分类,遗传算法和粒子群算法对样本数量要求较高且易陷于局部最优。考虑到本研究数据量不大,因此选择网络参数寻优法确定SVM参数。SVM对NIR-SWIR多特征数据集分类效果较好,在4个物候期落叶松人工林生产者精度均高于80%,用户精度均高于90%;但对单一特征数据集的分类效果较差,落叶松人工林生产者精度均低于80%,其可能原因是单一特征影像维数较少,在像元难以区分的地方,SVM构造的最优决策面过于复杂影响了其分类性能(周宽久等,2009)。BP的关键在于构建合适的神经网络模型,本研究通过多次对样本进行反复训练从而确定其参数。BP对单一特征影像和NIR-SWIR多特征数据集的分类效果均较好,对单一特征数据集其分类精度均在79%以上,对NIR-SWIR多特征数据集均高于89%,尤其是生长旺盛期影像,NIR-SWIR多特征数据集分类精度较单一特征影像精度提高10%,主要原因在于加入更多特征信息,使得BP发挥其更强的自学习能力,分类精度更好(郝睿等,2016)。
图7 决策树数目与分类精度Fig.7 Number of decision trees and overall accuracy
5 结论
本研究从多时相、多特征和多分类器角度,探讨适合落叶松人工林提取的最佳物候期和光谱波段,利用不同物候相的多特征数据集,结合最大似然、随机森林、支持向量机和BP神经网络构建的多分类器集成算法,有效提取了落叶松人工林。在落叶松人工林生长期和落叶期,叶内细胞处于发育和衰老状态,冠层绿度较差,与常绿针叶林在红光-短波红外波段波谱差异较大,与阔叶林在红光和短波红外 1 波段波谱差异较大。该时期落叶松人工林与其他植被特征差异显著,在多次分类下,分类效果均较好,因此生长期和落叶期是提取落叶松人工林的关键时期。不同时相影像相比,单一时相数据包含的信息量有限,而多时相数据包含落叶松人工林更多的物候信息,增强了与其他植被的差异性,有利于落叶松人工林提取。不同多特征数据集相比,NIR-SWIR特征数据集包含落叶松人工林更丰富的关键信息,采用该数据集可显著提高落叶松人工林的识别能力。在多分类器组合策略下,落叶松人工林总精度可达93.8%,面积提取精度达96.3%,该算法充分发挥各子分类器分类优势,实现了落叶松人工林的高精度提取。