APP下载

多分类器组合森林类型精细分类

2019-05-17王怀警谭炳香王晓慧房秀凤李世明

遥感信息 2019年2期
关键词:权值分类器光谱

王怀警,谭炳香,王晓慧,房秀凤,李世明

(中国林业科学研究院 资源信息研究所,北京 100091)

0 引言

森林作为地球上可再生自然资源及陆地生态系统的主体,对人类生存和发展起着不可替代的作用。准确地识别森林类型和树种是掌握森林资源状况、获取森林生态系统资源信息的关键。遥感技术具有覆盖范围大、重访周期短、应用成本低等优势,在森林区划、森林资源调查、森林类型精细识别[1]、植被制图[2]、动态变化监测等方面具有巨大的应用潜力。遥感图像分类是信息提取的有效手段,能及时、准确地掌握森林类型、分布、面积、结构、现状及动态变化情况。航天多光谱遥感数据(如TM,SPOT)限于其光谱分辨率,对森林类型的分类很难达到树种(组)级别,不足以满足实际的生产需求;而机载高光谱则限于其昂贵的成本难以广泛使用。航天高光谱遥感可以大范围获取地物光谱连续的图像数据,提升目标物体精细识别的能力。利用星载高光谱遥感数据开展森林类型精细分类,对详细掌握森林资源状况、生物量及碳储量意义重大;同时满足国家对森林资源管理和监测的高层次需求,为自然资源管理、环境保护与监测、生物多样性和野生动物生态状况调查等研究提供技术支撑,具有重要的学术和社会意义。此外,开展星载高光谱森林类型精细分类研究,对我国GF-5号星载高光谱遥感数据应用具有借鉴意义和参考价值。

利用高光谱遥感影像开展土地利用类型分类和森林类型识别已有较多研究,主要集中在非参数化智能化分类、多源遥感数据与辅助信息综合分类[3-5]、知识挖掘和专家系统、多时相复合分类[6-7]、面向对象[8-9]、新方法引入与分类策略[10-11]、机器学习算法、多分类器组合[12-15]等方面,并且在植被分类、林地信息提取、森林类型精细识别[16-17]、树种(组)分类[18-19]、动态变化监测等方面获得广泛的应用。

诸多研究均表明,运用多分类器组合技术可提高分类精度。如自适应增强算法(AdaBoosting)[13]、自助聚合法(bootstrap aggregation,Bagging)算法和权值重置和组合(Arcing)算法[20]、随机子空间、人工数据集构建差异性集成(DECORATE)法[14]、投票规则集成法[11]等。多分类器组合方法大多根据分类器的统计性能赋予该分类器相应的权值,而未考虑分类器对每个样本的识别能力,输出的结果总是按照预先设定好的固定的权值进行线性集成[21]。本文应用的自适应权值法是根据分类器分类可靠性概率矩阵的特征值,自适应地赋予分类器以相应权值,减少了人为因素带来的影响,更合理、切合实际。

传统的基于像元的分类技术利用像元的光谱信息赋予像元以不同的地物类型,比较成熟和稳定,但是该类分类方法往往忽视空间信息,或者对空间信息利用不充分。在没有辅助数据或者辅助数据较少的情况下,如何利用已知样本点所提供的空间位置信息(或其他来源的辅助数据)提高分类精度值得深究。

本文综合利用影像光谱信息、纹理信息、地形因子以及野外调查样地数据,根据典型地物光谱差异,将光谱特征相近的地物分为同一层,即采用分层分类的策略。针对同一层内不易区分的几种类别,分别以SVM和RFC分类器进行分类。采用自适应权值法结合2个机器学习算法的优势,实现森林类型优势树种(组)级别分类,使森林类型分类精度得到了有效提升。

1 研究区概况及数据获取

1.1 研究区概况

研究区地理坐标范围:127°42′55″E~128°16′48″E,41°41′49″N~42°51′18″N,中心区域位于吉林省延边朝鲜族自治州白河林业局境内,图1为研究区地理位置,研究区覆盖面积约为4.05×104hm2,南临长白山保护区,森林覆盖率约为85%。森林植被组成和树种成分较为复杂,属阔叶混交、针叶混交和针阔混交林带,基本特点为次生林,萌生起源为主,兼有实生林及实生树木。该区域属温带大陆性山地气候,年降水量在700~1 400 mm之间,6至9月份降水占全年降水量的60%~70%。总的特点是冬季漫长凛冽,夏季短暂温凉,春季风大干燥,秋季多雾凉爽。研究区自北向南海拔逐渐升高,有明显的垂直气候变化,因此,植被的分布存在较明显的地带性。

1.2 实验数据

本研究获取2015年7月9日Hyperion L1R级影像一景,覆盖范围127.97°E~128.23°E,41.93°N~42.98°N,影像幅宽7.7 km×185 km,光谱范围355~2 500 nm,光谱分辨率10 nm,共有242个波段,空间分辨率30 m。此外,获取了白河林业局林区边界矢量图及研究区30 m分辨率DEM数据。

对Hyperion影像的预处理包括坏波段剔除、坏线修复、Smile效应校正、辐射校正、大气校正、光谱平滑去噪、几何校正、研究区裁剪,利用DEM数据和野外采集的GPS坐标点对影像进行正射校正,消除或减弱由地形引起的辐射差异,剔除质量较差的波段,最终保留148个波段用于研究,表1所列为保留的波段及对应波长区间,图1为影像假彩色合成图。

表1 保留的Hyperion影像波段

1.3 外业数据

2016年9月3日至9日,以Hyperion影像覆盖范围为主要调查区域进行了外业调查,样地大小为直径45 m圆形样地,在样地中心采用GPS手持机(Trimble Geo Explorer 6000)记录样地中心位置坐标,同时对样地进行多个角度拍摄,记录森林类型、树种组成、优势树种(组)、郁闭度、林龄、林下灌木种类,海拔、坡度、坡向、经营活动等主要调查因子,详实反映样地及其周围林分或植被生长状况,使每个样地的纹理、属性和位置信息一一对应。调查共采集Hyperion条带覆盖区域实测样地81个,为实现该区域内森林类型分类提供基础和验证数据,样地在Hyperion影像上的空间位置如图1所示。由于地形等因素限制,对不能抵达观测的个别样地详尽记录其相关属性,并在图纸中标记其相对位置,在当地经验丰富的工作人员配合下详尽地掌握其相关信息。此外,还获取了研究区部分二类调查数据作为精度验证的辅助数据。

图1 研究区Hyperion影像及样地分布图

2 分类方法

根据遥感影像分类的主要步骤和高光谱遥感影像的特点,本文主要从分类系统及样本、分类策略、特征提取、特征选择、分类方法4个方面展开论述。

2.1 分类系统及样本选择

根据研究区地表覆盖状况和应用需求,参考《森林资源数据采集技术规范 第1部分:森林资源连续清查》[22]中地类划分标准与《森林资源规划设计调查技术规定》[23]中林地分类系统,结合遥感影像特点、森林类型及树种(组)精细识别能力,综合考虑类别科学、系统性及层次性,将研究区主要森林类型划分为美人松林、落叶松林、樟子松林、杨树林、白桦林、柞树林、阔叶混交林、针叶混交林、针阔混交林、灌木林地、无立木林地及湿地12类。而非森林并非研究重点,不再进一步细分,故只分为耕地、园地、水域、未利用地及建设用地5类,建立表2所示的5级分类系统。

表2 分类系统

其中,阔叶混交林由水曲柳、胡桃楸、椴树、榆树、色木、枫桦等硬阔类树种组成的慢生阔叶混交林;针叶混交林主要由人工落叶松、云杉、红松和臭松组成;无立木林地主要指火烧迹地;灌木林地是指附着有灌木树种,或因生境恶化矮化成灌木型的乔木树种;湿地类型主要包括湿草甸、湿地公园、主题公园、灌从湿地等;园地主要有人参、天麻、灵芝、蓝莓等。

由于样地可达性及工作量等因素限制,野外调查的样地数据比较有限,因此需对样本进行适量扩充,具体做法是:根据地物在空间分布具有连续性的特点,综合已测样地位置、纹理、影像中光谱曲线及记录表中相关信息,充分利用高光谱影像的精细光谱特征,重点针对森林类型,围绕样地周边像元进行拓展,当拓展样本与已测得样地的光谱、纹理及记录表中相关信息相匹配时,即可判定该拓展样本的类别,样本最终选择结果见表3。

表3 地类列表及样本数量

2.2 分类策略

根据影像中地物光谱反射差异,选择反射率差异较大的特征波段对地物进行分层,先区分出易于区分的类别并进行掩膜处理,以减少其对后期分类工作的干扰,利于提高分类精度。将光谱特性相近的地类分为同一层,随后在层次间对地类进一步细分,本文的分类策略见图2。针对层次间光谱特征较为相似的地类,综合纹理信息和地形因子,分别采用SVM和RFC分类器进行细分。为综合2个分类器的优势,提高森林类型分类精度,采用自适应权值法组合2个分类,得到最终分类结果。

图2 高光谱影像森林类型分类策略

2.3 特征提取

高光谱遥感数据波段多,波段间相关性较高,在进行分类研究时,通常需进行特征提取或特征选择,以达到降维或波段优选的目的。常通过微分变换的导数谱、对数变换、微分对数变换相结合、主成分分析(principal components analysis,PCA)[24-26]等进行高维数据的压缩。经试验对比,本文采用PCA法进行降维,选取PCA的前4个分量(信息含量达99%以上)参与分类。

高光谱遥感影像不仅包含高分辨率的光谱信息,还具有一定的空间信息(纹理信息、数学形态学信息等),综合利用光谱特征和空间特征能够提高分类精度。对于光谱特征相似的物体,往往通过它们的纹理差异加以区分[27]。根据研究区地类特征和影像纹理特征差异,经过实验,选取PCA前3个分量分别计算其对应的8个显著纹理特征参与影像分类,选取的纹理特征[28]包括均值、方差、一致性、对比、相异性、信息熵、二阶矩和相关性。

研究区主要森林类型及优势树种(组)本身的生态学特性(如喜光、喜阴)、树种群落特征和生态适应范围(如柞树多生长在向阳的山坡上)、垂直向分布特征等较为明显,因此将数字高程模型(DEM)、坡度(aspect)、坡向(slope)作为树种分类的有效特征和辅助信息,以期进一步提高森林类型识别精度。

综上,参与分类的特征变量包括PCA前4个分量、PCA前3个分量分别对应的8个纹理以及研究区地形因子(即DEM、aspect、slope),共计31个特征波段。

2.4 分类方法

1)支持向量机。SVM是一种优秀的机器学习算法[15],在解决小样本、非线性及高维模式识别中表现出精度高、运算速度快、泛化能力强的特有优势,并能够推广应用到函数拟合等其他机器学习问题中;但是,SVM分类器的参数设定对分类结果有较大影响,关于SVM参数的优化选取,国际上并没有公认统一的最好的方法,目前较常用的SVM参数寻优算法主要有实验法、网格搜索法、遗传算法[29]寻优法、粒子群算法寻优等。实验法是指通过大量的实验比较来确定,非常费时且不易得到最优参数。网格搜索法是将待搜索参数在一定的空间范围中划分为网格,遍历网格中所有的点来进行参数寻优。此方法在寻优区间足够大且步距足够小的情况下可寻得全局最优参数,但较为费时。而其他的参数寻优算法较为复杂且易陷入局部最优,鉴于此,本文采用网格搜索法进行SVM参数寻优。网格搜索采用交叉验证思想来验证分类性能,采用K折交叉验证(K-fold cross-validate,K-fold CV),即将原始数据分成K组(一般是均分),将每个子集数据分别做一次验证集,其余的K-1 组子集数据作为训练集,得到K个模型,用这K个模型验证集的分类准确率均值作为此K-fold CV下分类器的性能指标[30],通过K-foldCV可以得到每个像元分为不同类别的概率,本研究采用了十折交叉验证。

2)随机森林。随机森林(random forest,RF),顾名思义是由很多互不关联的决策树组合而成,其结果由诸多决策树结果投票得来。随机性表现在数据层和特征层:①数据的随机选取:从原始的数据集中有放回抽样构造子数据集,利用子数据集来构建子决策树;森林中的每一棵决策树都会针对新数据做一次“决策”,最后通过投票表决得出最终的结果。②特征的随机选取:与数据集的随机选取类似,随机森林中子树的每一个分裂过程并未用到所有的待选特征,而是从所有待选特征集中随机选取一定的特征,之后再在随机选取的特征中选取最优的特征。这样可使得随机森林中的决策树都能够彼此不同,提升系统的多样性,从而提升分类性能;通过这一过程也能综合衡量不同变量的重要性。随机森林分类器在预测过程中能得到每个像元属于每一类地物的后验概率,也即对于每一个像元,都有概率向量。

3)自适应权值多分类组合模型。多分类器组合源于模式识别领域[31-32],是通过融合不同的特征或者不同的具有互补性的分类器,以期提高最终的分类精度,是一种测量级分类器组合策略。其理论依赖于不同分类器分类精度不同且同一分类器对不同类别分类精度也不相同。自适应权值组合分类器模型依据分类器分类可靠性概率矩阵的特征值,自适应地调节分类器权重进行集成[21]。张华等人应用该法组合最大似然法、马氏距离法、最小距离法进行多光谱遥感影像土地覆盖分类研究,并取得了较好的结果,且证实该方法确实优于其他多分类器组合策略。而该方法对非参数化分类器组合及其在星载高光谱数据中的应用却未见报道,本文应用此模型组合非参数化分类器,以期能提升高光谱数据森林类型分类精度。

(1)

式中:N为分类数目,k为分类器个数,利用多分类器组合进行分类,则像元X的最终后验概率为

(2)

(3)

3 结果与分析

本节将主要从地物光谱特征分析、地物分层方案、分类结果及精度评价方面展开论述。

3.1 光谱特征分析与地物分层方案

根据样本在影像中的位置对影像进行分类统计,求取不同波段反射率均值,得到各类别的光谱曲线,为了方便观察与制图,此处反射率数据放大了一万倍。图3所示为各类别在影像中的反射率曲线,可用于分析各类别的光谱差异及可分性。

图3 典型地物光谱曲线

由光谱曲线可见,建设用地在蓝光到红光区间反射率呈直线上升趋势,不同于其他地类;植被在447 nm处有明显的吸收谷,绿光区间有反射峰,红光区间有吸收谷,近红外区间有明显的反射峰;水体在整个光谱区间内反射率较低,较易区分;柞木林和灌木林在近红外到短波红外区间反射率较其他植被高很多;园地的植被光谱反射有其独特之处,在蓝光到绿光区间内,反射率先快速上升(反射峰约在540 nm处)而后趋于平稳,其在447 nm处的吸收谷消失尤为特别,近红外区间的反射峰值明显小于其他植被;耕地在中红外区间表现出较强的反射特性,在1 659 nm处达到峰值,在2 000 nm之后的波长范围内,反射率较其他地类高许多。针叶类树种在近红外区间光谱反射率弱于阔叶类树种;樟子松、美人松、湿地、无立木林地4类的光谱曲线较为相近,水体反射率较低,但因混有各种杂质,仅利用特征波段难以较好地区分,故与此4类分为同一层;白桦、杨树、落叶松、阔叶混交、针叶混交、针阔混交6种地类光谱曲线差异不明显,不易区分,需辅以其他信息方能加以区分。由于影像分辨率较低,混合像元效应严重,建筑用地与周围的低矮植被很难区分,故将建筑用地与以上6类分为同一层,在后期进一步进行细分。根据地物光谱曲线差异选择特征波段,对研究区地类进行分层,特征波段选择、特征波段阈值和分层策略见图4。

图4 地物分层分级方案及阈值

3.2 分类结果与精度评价

根据分层策略,在第4、7层中分别都使用SVM和RFC分类器进行细分。采用网格参数寻优法寻找第4和第7层中地物SVM分类的最优参数,其中第4层地物SVM分类参数为:线性核函数、惩罚系数C为0.01;第7层SVM分类器参数为:高斯RBF核函数、惩罚系数C为10.0、gamma参数为0.01。在使用RFC分类器对2层中地物分类时使用的参数均为:CART算法、变量纯度度量指标为Gini系数、树的数目为500、单棵数最大深度为-1(完全生长)、叶子节点最少记录数位2、叶子节点最少记录百分比-1(表示无限制)、单颗数最大记录数100万。将不同层次的分类结果进行决策级融合,得到最终分类结果。最后将2种分类方法得到的丰度矩阵输入自适应权值法模型进行组合,从而得到3种方法的分类结果(图5)。

图5 研究区地物分类图

为验证方法的适用性和森林类型识别的精确性,采用分层随机抽样产生独立验证样本,检验样本数与训练样本数比例约为1∶3,参考高分辨率影像,对森林类型进行精度验证,选取总体精度、Kappa系数、使用者和生产者精度作为评价指标,SVM、RFC及自适应权值多分类器组合分类法森林类型精度评价见表4。

表4 森林类型精度验证

由上表对比可知,SVM分类器对落叶松、樟子松和杨树的识别精度较低;RFC分类器对落叶松和杨树分类精度较低。SVM分类器对美人松和柞木分类精度较高;RFC分类器对樟子松、白桦、柞木、阔叶混交林和针叶混交林分类精度较高,可见2个分类器确有互补性。SVM和RFC 2个分类器对杨树分类精度均较低,主要是由于杨树样地数较少,且其与白桦混交严重,加之杨树与白桦光谱特征、形态特征均较为相似,导致杨树很难被区分出来;但SVM分类器对杨树的分类精度优于RFC分类器,可见在样本数较少的情况下,SVM分类器性能优于RFC分类器。总体而言,RFC分类器对绿色植被的识别能力优于SVM分类器。

从类型来看,美人松、樟子松的分类精度优于落叶松,主要的原因是由于后者分布比较分散,在空间上的连续性较差,而前者则多为人工林,分布比较集中,尤其是美人松。柞树的分类精度高于白桦和杨树,主要由于柞树多生长在向阳的山坡上,且大片分布,生长聚集,而其他2类则混淆严重,后期可考虑将杨树合并到白桦进行分类,以此提高分类精度。

对比3种方法结果可知,自适应权值多分类器模型可较好地综合两分类器各自的优势,多数类型的分类精度均得到了有效改善,尤其是对分布较集中的美人松精度提升明显,其分类精度提升了5.85%;但并非所有类型的分类精度都得到了提升,组合分类器对樟子松和杨树的分类精度介于SVM和RFC 2个分类器之间,可见组合分类器并非是对2个分类器的简单加和。组合分类器的总体分类精度和Kappa系数均明显优于单一分类器,分别较RFC分类器分别提高3.38%和0.042,使得组合后的分类器具有更好的稳定性。

4 结束语

4.1 分类结果讨论

经过对RFC分类器分类过程中特征波段重要性的分析,对分类贡献较大的前8个特征变量依次为(按降序排列)第3主成分、第1主成分、第3主成分相关性、第1主成分相关性、第1主成分一致性、第2主成分相关性、第3主成分一致性、第3主成分二阶矩。可见,在光谱特征较相似时,相关性、一致性和二阶矩3个纹理特征对森林类型进一步区分较好。

训练样本选择准确对分类准确至关重要,野外调查时间与影像成像时间相隔约一年,研究中忽略了此间变化给结果带来的影响。由于训练样本数量有限,不同地类训练样本数量不同,训练样本数较少,可能导致其分类精度较低(如杨树)。由于影像分辨率为30 m,部分地物尺寸较小,多为混合像元,导致此类地物较难区分。纹理信息有助于提高某些地物分类精度,但限于影像空间分辨率,地物尺寸较大时纹理信息贡献更多,例如流线状的河流和道路。纹理因子对分类的贡献率与影像分辨率间的关系,有待进一步探究。

4.2 结论

本文基于SVM分类器和RFC分类器各自的优势,利用特征值的自适应权值模型组合2种分类器,对Hyperion高光谱影像进行森林类型精细识别研究,得出以下结论:①在对森林覆盖类型丰富区域进行精细分类时,采用分层分类的策略是降低问题复杂性的有效方法,在充分利用高光谱影像光谱特征的基础上,还应充分挖掘纹理及其他辅助数据对分类的价值,其中,相关性、一致性和二阶矩3个纹理特征对提升森林类型分类精度贡献较大。②自适应权值法多分类器组合策略可以综合不同分类器的优势,总体分类精度的得到明显提高,提升分类器稳定性,多数类别分类精度均得到有效提升。③基于特征值的自适应权值分类器组合模型充分考虑了不同分类器对不同像元的分类效果,根据每个像元的概率矩阵特征,自适应地调整单个分类器权值,使性能好的分类器具有较大的权值,对组合分类器的个数没有限制,易于被人们理解和接受,避免了人为参与,是提高森林类型分类精度的有效方法。本文的研究工作需进一步完善:实验缺少野外实测光谱数据作为佐证;研究仅对SVM分类器和RFC分类器进行度量级组合,并未与其他分类器组合策略(如投票法)进行对比研究;组合分类器的个数在后期应当增加,且不仅局限于非参数化分类器,以增大各分类器间差异性。

猜你喜欢

权值分类器光谱
基于三维Saab变换的高光谱图像压缩方法
一种融合时间权值和用户行为序列的电影推荐模型
高光谱遥感成像技术的发展与展望
CONTENTS
基于MATLAB的LTE智能天线广播波束仿真与权值优化
基于差异性测度的遥感自适应分类器选择
基于实例的强分类器快速集成方法
基于权值动量的RBM加速学习算法研究
星载近红外高光谱CO2遥感进展
基于层次化分类器的遥感图像飞机目标检测