APP下载

基于随机森林特征变量优化的湿地植物分类与密度反演

2021-05-14刘曙光DORZHIEVNARadnaevaLarisaNIKITINAElena

关键词:长江口植被指数差值

刘曙光,董 行,娄 厦,DORZHIEVNA Radnaeva Larisa,NIKITINA Elena

(1. 同济大学土木工程学院,上海200092;2. 同济大学长江水环境教育部重点实验室,上海200092;3. 俄罗斯科学院西伯利亚分院贝加尔湖自然管理研究所,乌兰乌德670047,俄罗斯联邦布里亚特共和国)

湿地是地球生态系统的重要组成部分,在净化环境、保护生物多样性、蓄滞洪水以及调节气候等方面发挥着不可替代的作用[1]。植物群落分布是湿地植物的主要特征之一,在维护湿地生态稳定、保护湿地环境等方面均具有重要的意义。20世纪90年代,大部分学者采用实地调查的方法分析湿地植物群落特征的分布规律,如张利权等[2]通过实地调查,分析了上海市南汇海堤外海三棱藨草的分布格局。但实地调查往往受时间、天气、地形限制,且需要耗费大量的时间和财力。

与实地调查相比,遥感技术具有经济、便捷等优势。在利用遥感数据进行植物及地物分类的研究中,监督分类方法是较为常用的方法,其中最大似然法、支持向量机、决策树算法以及基于决策树的随机森林算法均属于应用较为广泛的监督分类方法。孙楠[3]利用Landsat‒8影像对比了最大似然法、支持向量机、CART(classification and regression tree)等方法对长江口湿地的分类结果,发现CART 算法精度最优。但CART算法存在过度拟合和非全局的局部最优解等问题[4]。基于上述问题,Breiman[5]提出一种基于CART 算法的机器学习算法,即随机森林算法,该算法通过集成学习有效解决了上述问题。Amani 等[6]利用多源多时相遥感影像对加拿大5 个试点的湿地进行分类,并对比了最大似然法、支持向量机、CART算法和随机森林算法的分类结果,指出随机森林算法的性能最好。

已有研究表明,随机森林算法与其他方法相比,在湿地植物分类中具有相对较高的精度。然而由于地物光谱反射率相近或地物反射能量衰减导致光谱差异减弱,湿地植物存在“异物同谱”的问题[7]。因此,本研究选取多时相遥感影像及特征变量,并根据当地湿地植物物候特性进行特征优化,用以提高“异物同谱”像元的识别精度,分析滨海湿地植物群落空间分布特征。最后,通过多元线性回归模型反演外来入侵植物互花米草的植物密度,实现对互花米草的精确检测、识别与密度反演。

1 研究区域与数据

1.1 研究区域

长江三角洲位于30°45′30″—32°11′56″N,121°04′20″—122°28′40″E,北至江苏省启东市,南至杭州湾北部。长江口滨海湿地面积最大的3处湿地为崇明东滩湿地、九段沙湿地以及南汇促淤区湿地,如图1所示。

1.2 数据及预处理

Landsat‒8 OLI 影像从美国地质调查局官网获取,重访周期16 d,影像包含9个波段(海岸、蓝、绿、红、近红外、短波红外1、短波红外2、全色、卷云),空间分辨率30 m,其中全色波段空间分辨率15 m。本文选用2018年12月,2019年1月、4月、5月、7月共5景低云量退潮期影像,利用ENVI 5.3平台进行辐射定标和大气校正。遥感影像的处理及实地测量数据的收集均在WGS‒84坐标系下进行。

1.3 训练样本及验证样本

样本的选取与分类精度直接相关。由于Landsat‒8 OLI 影像中生长期的芦苇与互花米草像元各波段反射率相近,本文通过实地调查结果结合当地湿地植物物候特性建立判读标志,通过目视解译Google Earth 高空间分辨率影像进行训练样本和验证样本的选取。

湿地植物信息实地调查于2019年5月—10月在上海市南汇促淤工程附近开展。沿岸选取18 个测点进行测量,测点位置见图1a 和表1。采用样方法测量,选取100 cm×100 cm样方计量植株数量,并用手持GPS 记录样方坐标。将研究区域分为芦苇、互花米草、海三棱藨草、光滩和水体5 种地物类型,生成训练样本时,选择具有代表性的纯净像元或实地考察结果所对应像元。生成验证样本时,利用ArcMap 生成随机点522 个,根据Google Earth 高空间分辨率影像(按照Google Earth 使用条款仅用其影像辨识边界信息)、RGB 假彩色组合和植物物候特性的夏、冬季影像对比判定样本点地物类型。根据前人研究[8],红波段(B4)、近红外波段(B5)、短波红外1(B6)3个波段RGB假彩色组合能够体现的植物类型较丰富,可用于植物分类研究,本文获取了研究区域夏季冬季假彩色影像,可以较为清晰地辨识出冬季还未枯萎的互花米草植株范围。每种类型验证样本点均在60~150个之间。

2 研究方法

随机森林算法通过Bagging 算法将多个CART决策树集成,根据所有决策树投票获得最终结果。基于随机森林模型的分类流程见图2。该过程中设定决策树数量(N)和生成决策树节点分裂时输入特征变量数量(m)两个参数。研究表明[9],决策树参数设置对分类精度影响不敏感,故本文选取参数默认值构建分类模型。

图1 研究区域Fig.1 Study regions

光谱特征及植被指数等指数是区分不同地物的最主要特征,本文利用ENVI 5.3 中大气校正、波段计算及图层叠加工具,提取了遥感影像7 个波段反射率及7 种指数作为特征变量。波段反射率分别为:海岸波段(B1)、蓝波段(B2)、绿波段(B3)、红波段(B4)、近红外波段(B5)、短波红外1(B6)、短波红外2(B7)。指数特征包括:归一化差异植被指数(NDVI)[10]、比值植被指数(RVI)[10]、差值植被指数(DVI)[10]、改 进 的 归 一 化 差 异 水 体 指 数(MNDWI)[11]以及缨帽变换中的3 个分量(亮度BI、绿度GVI、湿度WI)[12]。

长江口湿地优势植物为芦苇、海三棱藨草以及互花米草3 种,其中芦苇与互花米草的光谱特性相近,“同谱异物”现象明显,影响了两种植物的分类精度。芦苇与互花米草均在4月的返青期出现新旧植株交杂。7 月芦苇种群生物量等各项生物指标达到峰值,而互花米草群落于9 月达到最高峰。两种植物的各项生物指标均在冬季降至最低,芦苇群落地上部分于11月全部枯萎,而互花米草在冬季冠层仍呈现黄绿色[13]。通过实地测量记录坐标及部分目视解译,选取研究区域各类地物纯净像元,计算各地物的像元光谱反射率均值,获得两者光谱曲线,如图3所示。通过对比夏、冬季两景遥感影像的假彩色组合(图1b、1c、1e、1f、1g、1h),冬季互花米草在假彩色组合影像中呈绿色,芦苇与海三棱藨草已枯萎,与裸地颜色相近,体现出两者的物候特性差异性,有助于目视解译植被的种类。

表1 测点位置及互花米草平均密度Tab.1 Locations of observation sites and average density of spartina alterniflora

图2 基于随机森林模型的分类流程图Fig.2 Classification process based on random forest model

图3 长江口湿地植被光谱曲线Fig.3 Spectral curves of wetland vegetation in Yangtze River estuary

基于植物的物候特性差异性,本文对随机森林模型中的特征变量进行了优化。将夏季(7 月)影像的植被指数与冬季(12月)影像的植被指数的差值定义为植被指数季节差值(VSDI),将其作为为特征变量之一,以提高分类精度。相关计算公式如下:

式中:VSDI(1)为归一化植被指数季节差值,表示夏季归一化植被指数与冬季归一化植被指数差值;VSDI(2)为比值植被指数季节差值,表示夏季比值植被指数与冬季比值植被指数差值;VSDI(3)为差值植被指数季节差值,表示夏季差值植被指数与冬季差值植被指数差值;VNDVI(s)、VNDVI(w)分别为夏季、冬季归一化植被指数;VRVI(s)、VRVI(w)分别为夏季、冬季比值植被指数;VDVI(s)、VDVI(w)分别为夏季、冬季差值植被指数。

本文采用随机森林算法和极大似然算法、单时相和多时相特征集合以及基于物候特性差异性优化的特征变量对长江口滨海湿地植物进行了分类,并采用混淆矩阵(confusion matrix)的方法,通过计算制图精度、用户精度、总体精度以及Kappa系数对分类精度进行评价[14]。植物密度是反映植物特征的重要参数之一,能够反映湿地生态环境的变化。目前对于植物密度的研究主要以实地测量为主,难以获取大范围植物密度数据。凌成星[15]采用遥感影像提取的光谱特征及植被指数特征18个自变量,通过相关性分析及逐步回归得到以B5、DVI、RVI、NDVI为自变量的最优多元线性回归模型[16]。该方法为湿地植物密度空间特征分析提供了新的思路。因此,本文在植物分类的基础上,以B5、DVI、RVI、NDVI为自变量结合实测数据,构建长江口滨海湿地植物密度反演模型,分析长江口湿地植物密度空间分布的特征。模型回归系数的显著性通过决定系数R2和构造检验统计量F检验评价[16]。

3 结果与讨论

3.1 不同分类算法、特征集合及特征优化后分类结果与分析

本文通过对比选用不同分类算法、特征集合以及特征优化后的分类结果精度,分析了不同分类算法对所选取的特征集合的适用性及其产生精度差异的原因,并讨论了选用同种算法的情况下不同特征集合对分类结果精度的影响。通过提取Landsa‒8 OLI 遥感影像的光谱特征(每景影像提取7 个光谱特征:B1~B7)、指数特征(每景影像提取7个指数特征:NDVI、DVI、RVI、MNDWI、BI、GVI、WI)以及本文提出的优化特征变量(VSDI(1)、VSDI(2)、VSDI(3)),构建3组特征集合。特征集合A为单时相光谱特征及单时相指数,即2019 年7 月遥感影像提取的7 个光谱特征和7个指数特征;特征集合B为多时相光谱特征及多时相指数,即2018 年12 月,2019 年1 月、4月、5 月、7 月5 景遥感影像提取的共35 个光谱特征和35个指数;特征集合C为多时相光谱特征、多时相指数特征及优化特征变量(即2018 年12 月,2019 年1月、4月、5月、7月5景遥感影像提取的共35个光谱特征和35 个指数特征以及3 个植被指数季节差值VSDI(1)、VSDI(2)、VSDI(3))。采用随机森林算法和最大似然法分别对长江口湿地植被进行分类,共设计5种实验方案进行对比研究(表2)。

表2 不同分类方案分类精度比较Tab.2 Comparison of classification accuracies in different cases

随机森林算法分类及最大似然法分类结果如图4 所示。其中图4a~4d 为崇明东滩湿地,图4e~4h为九段沙湿地,图4i~4l 为南汇促淤区;图4a、4e、4i为方案1分类结果,图4b、4f、4j为方案3结果,图4c、4g、4k 为方案2 结果,图4d、4h、4l 为方案4 结果。由图4 可以看出,长江口滨海湿地植物呈明显的条带状或弧形空间分布格局,由低潮带至高潮带依次分布海三棱藨草、互花米草、芦苇群落。植物群落面积大小依次为互花米草、海三棱藨草、芦苇。其中,互花米草在九段沙下沙及南汇促淤工程区分布面积占比较大,主要分布在中高潮滩,海三棱藨草在南汇促淤区的分布面积较大,主要分布在中潮滩,芦苇主要分布于崇明东滩、九段沙中沙及下沙的高潮带。

图4 不同分类方案分类结果Fig.4 Classification results of different cases

对比选用特征集合A条件下的随机森林算法和最大似然法分类结果(图4a、4b、4e、4f、4i、4j)发现,最大似然法分类结果中崇明东滩高潮带(M、N 区域)有斑点状互花米草分布,九段沙下沙中潮带至高潮带间(Q 区域)有大面积海三棱藨草分布,均为互花米草与海三棱藨草之间相互误分的像元。对比选用特征集合B 时2 种方法分类结果(图4c、4d、4g、4h、4k、4l)发现,最大似然法分类结果中崇明东滩低潮带、九段沙低潮带(R区域)有大面积海三棱藨草,均为裸地被误分为海三棱藨草的像元。对比采用随机森林算法选用不同特征集合的分类结果(图4a、4c、4e、4g、4i、4k)发现,选用特征集合A时九段沙中、高潮带(P、Q 区域)有大面积海三棱藨草分布,均为互花米草被误分为海三棱藨草的像元。对比采用最大似然法选用不同特征集合时的分类结果(图4b、4d、4f、4h、4j、4l)发现,选用特征集合A 时Q 区域有大量互花米草被误分为海三棱藨草的像元,选用特征集合B时R区域有大量光滩被误分为海三棱藨草的像元。基于以上分类结果,与实际目视情况(图1)相比,选用随机森林算法和特征集合B的误分、漏分最少。

由表2可知,在对特征集合A(低维特征集合)的处理上,随机森林算法和最大似然法的总体精度和Kappa系数相近。当选用特征集合B时,特征集合维数变高,使用随机森林算法总体精度及Kappa 系数随之增加,而使用最大似然法的分类精度降低。产生这种现象的原因可能是,最大似然法将地物各特征变量的分布假定为正态分布,而由于各类地物的光谱特性及植被指数等特征变量的分布具有高度的复杂性与随机性,很难获取完备的训练样本,选取的训练样本数据的统计信息与正态分布偏离,在特征集合维数较低时,误差并不明显,随着特征集合维数提高,无法准确获取各类别概率密度函数,所构造的多元正态分布模型误差增大,导致分类精度降低。而构建随机森林模型的CART 决策树,其建立决策树过程中选取特征变量采用最小基尼系数的原则,即样本集合中随机抽取2个样本属同类别的概率最大,并且在以一定数量的CART 决策树构建随机森林模型的过程中,采用Bagging 原理进行集成,大大提高了模型的泛化能力,使得随机森林模型具有较高的稳定性和处理高维数据集的能力,因而特征集合维数变高,分类精度也随之提高。说明随机森林算法在处理高维数据集方面优势显著。

采用随机森林算法进行分类时,选取的特征集合对结果具有一定的影响。选用特征集合A 的情况下,3 种植被的制图精度及用户精度较选用特征集合B 的情况明显偏低。选用特征集合B 的总体精度比选用特征集合A 的提高5.2%,Kappa 系数提高0.7,说明选取多时相特征变量能有效提高分类精度。

选用特征集合C的随机森林算法分类结果如图5a~5c所示。相比同样选用特征集合B的随机森林算法法分类结果,M 区域中部分误分为互花米草的芦苇像元被正确分类,R 区域中部分被误分为互花米草的像元被正确分为海三棱藨草。受崇明东滩冲淤变化影响,崇明东滩互花米草相较海三棱藨草处于潮滩的前沿。由于长江口水动力条件及含沙量改变,崇明东滩北部淤涨、南部侵蚀,导致东滩北部高程增加[17],更适宜互花米草的生长。同时,崇明东滩湿地土壤盐度北部高于南部,也导致了耐盐性更强的互花米草在北部生长[17]。

图5 方案5分类结果Fig.5 Classification results in Case 5

加入植被季节指数差值作为特征变量前后分类结果(图4c、4g、4k、图5a、5b、5c)及混淆矩阵如表2所示,可以看出,总体分类精度提高了1.73%,说明植被指数季节差值的计入,有利于分类精度的提高。除去水体与光滩,芦苇、互花米草与海三棱藨草的制图精度较高,均在80%以上。芦苇的用户精度较低,不足80%。互花米草与海三棱藨草的用户精度较高,均在85%以上。植被指数季节差值加入特征集合进行特征变量优化后,互花米草、海三棱藨草的制图精度均有不同程度提高,说明该2 类漏分的像元变少。芦苇、互花米草和海三棱藨草的用户精度均有提高,说明3类植物的误分像元变少。3种地物的制图精度及用户精度提高表明,植被指数季节差值加入有利于区分光谱特性相似但物候性有差异的地物。芦苇的制图精度与用户精度较低,主要原因可能是互花米草在长江口滨海湿地的竞争性大于芦苇,芦苇生长呈斑块状且面积较小,因此单个像元中可能存在混合生长的2种植被。

基于以上分析,最终选取总体精度最高的分类方法和特征集合(即随机森林算法和特征集合C),以其分类结果利用ENVI5.3 进行后处理以减少图中的椒盐现象,最终得出长江口滨海湿地植物分类情况,如图6a~6c所示。

图6 长江口滨海湿地植物分布图Fig.6 Distributions of vegetation species in coastal wetlands of Yangtze River estuary

3.2 植物密度空间分布反演——以互花米草为例

利用2019年7月—9月实地调查获得的18个测站的互花米草密度以及遥感影像(2019年7月29日)提取的对应坐标点像元近红外波段反射率(VB5)、归一化植被指数(VNDVI)、差值植被指数(VDVI)、比值植被指数(VRVI)数据,进行多元线性回归参数计算及回归结果分析,获得互花米草密度反演结果如下式所示:

根据上述多元线性回归反演模型,去除部分异常值,获得长江口滨海湿地互花米草密度的空间分布图,如图7所示。

计算结果表明,长江口湿地互花米草的密度值多数在100~300 株·m-2之间,且沿低潮带至高潮带呈增长趋势。模型决定系数R2为0.792 8,经F检验,自变量与因变量之间线性关系显著。该方法也可用于其他类似区域的植物特征反演分析。

图7 长江口滨海湿地互花米草密度空间分布图Fig.7 Distributions of Spartina alterniflora density in coastal wetlands of Yangtze River estuary

4 结论

本文采用Landsat‒8 影像以及实地调查数据,利用随机森林算法,对长江口滨海湿地植被群落进行分类。在提取多时相光谱特征、植被指数和水体指数的基础上,基于植物物候特性进行了特征变量优化,获得了长江口芦苇、互花米草和海三棱藨草3种优势物种的空间分布。同时,以外来入侵物种互米花草为例,根据多元线性回归模型,以遥感影像提取的光谱特征及植被指数为因变量对滨海湿地植物密度进行反演,获得了长江口互米花草密度的空间分布特征。本文提出的分析方法和获得的分析结果,可用于长江口湿地生态环境的管理与保护,也可应用于其他类似地区的湿地环境研究。本文主要结论如下:

(1)为了更加精确识别长江口滨海湿地植物群落分布特征,提出了基于优化特征变量集合的随机森林模型,实现了长江口滨海湿地优势植被的精确分类,总体精度达到87.55%。基于植物分类算法比选,随机森林算法较传统最大似然法在处理高维特征集合时总体精度提高10%以上。本文通过随机森林模型的特征集合优化,构造了73 个特征变量(35个光谱特征变量、35个指数特征变量及3个优化特征变量),与单时相特征集合分类结果相比,总体精度提高近7%。

(2)通过植物密度反演方法,获得互花米草的密度为100~300 株·m-2,所建立的多元线性回归模型,决定系数与F值验证显示其线性关系显著,反演公式能较为精确地计算互花米草密度值。该研究成果可以为长江口入侵物种互花米草生态治理提供基础资料,该方法也可应用于类似地区湿地植物密度反演。

(3)受水动力条件间接影响,长江口滨海湿地植物分布呈明显条带状或弧形分布格局,沿低潮带至高潮带方向依次分布海三棱藨草、互花米草、芦苇。通过像元统计,研究区域中3 种湿地优势植物总面积约为266.6 km2。 互花米草面积最大,为145.4 km2,占湿地植物总面积54.5%,芦苇与海三棱藨草面积分别为46.7 km2、74.5 km2,占比分别为17.5%和27.9%。崇明东滩前缘出现弧形互花米草群落,该区域受水动力条件影响,高程与盐度增加,更适宜耐盐性强的互花米草生长。

本研究基于长江口滨海湿地植物物候特性提出了植被指数季节差值,探讨了其对分类精度的影响,但存在一些不足:所采用的分类方法是基于像元的分类方法,存在部分“椒盐现象”,后续研究可结合面向对象分类方法,在一定程度上提高分类精度。

作者贡献说明:

刘曙光:指导研究方案和论文撰写,全文审阅。

董 行:数据收集与处理,设计论文框架,撰写论文。

娄 厦:提出研究思路,审阅及修订论文。

DORZHIEVNA Radnaeva Larisa:提供研究思路与技术指导。

NIKITINA Elena:提供研究思路与技术指导。

猜你喜欢

长江口植被指数差值
沉睡的船
基于无人机图像的草地植被盖度估算方法比较
红细胞压积与白蛋白差值在继发性腹腔感染患者病程中的变化
台风对长江口表层悬沙浓度的影响
关注
长江口南槽航道安全通航对策
清丰县新旧气象观测站气温资料对比分析