基于随机森林的洞庭湖苔草叶绿素含量估测研究
2022-06-29陈斌
陈 斌
(广东生态工程设计研究院有限公司,广州 510630)
叶绿素是植被进行光合代谢的重要载体,其含量与植被光能转化、生理固碳等功能有着密切的联系,是监测植被生长状况重要的生化参数之一,准确快速地对叶绿素含量进行定量估测对植被生境具有重要意义。高光谱遥感技术为估测植被叶绿素含量提供了极大的便利,当前常用的方法主要可归纳为2种经验模型和物理模型。前者主要是基于植被光谱指数与叶绿素含量的经验或半经验关系,从而建立起有效的估算模型,该方法的主要优点是建模方便,但模型的普适性较差。相比而言,物理模型具有较为清晰的机理,且模型通常具有一定的普适性,但该模型对调参的依赖高,尤其在缺参的条件下极大影响精度。总而言之,在植被叶绿素含量遥感估测研究方面,在方法上仍有进一步改进的空间。
随机森林(random forest, RF)可以很好地预测上千个解释变量的贡献,不需过多调参,具有抗噪能力强、多元共线性不敏感等优点。随机森林算法已经被广泛应用到各方面的研究[1-2]。当前RF模型应用于湿地植被叶绿素含量估测的相关研究还鲜有报道。该文以洞庭湖湿地最大的建群种植物—苔草为研究对象,以6种植被光谱指数为输入变量,在R软件平台上建立叶绿素含量随机森林估测模型,以期为植被叶绿素定量估测提供新的方法和思路。
1 数据及方法
1.1 数据采集
利用FieldSpec 4便携式地物光谱仪,于2018年11月1到3号对洞庭湖湿地最大的建群种—苔草(Carexcinerascens)的光谱数据进行采集。同时利用 SPAD-502叶绿素仪测定苔草叶绿素SPAD值。后续的实验中,划分31组叶绿素SPAD值数据为训练样本用以建模,另取30组数据用于检验模型的估测效果[1-3]。
1.2 植被光谱指数
该文采用多种植被光谱指数作为RF模型的输入变量,通过优化模型的参数,从而提高模型的预测精度。6种光谱指数具体表达及与SPAD值的相关系数如表1中所示。
表1 植被光谱指数选取
1.3 随机森林的实现
该研究基于R软件平台,运行(1)中的命令以建立随机森林模型,运行(2)中的命令利用检验样本对模型估测效果进行检验。
rf=randomForest(S1~.,data,ntree=1000,mtry=3)
(1)
predict(rf, new.data,type=”response”)
(2)
其中S1表示输出变量,在该文中为叶绿素SPAD值;data表示输入路径;ntree表示随机森林模型中单棵树性能的树节点预选变量个数,一般ntree值应不小于100;mtry表示分类树每个节点用以二分数据的自变量个数,mtry值等于解释变量数目的平方根。在该文中先采用mtry=3、ntree=1 000进行建立模型。predict为预测分类函数,其中rf为基于预测样本的随机森林建模结果,new.data在本文中表示输入的检验样本,type表示对输入样本进行预测[4-6]。
1.4 模型性能评价方法
该文根据三项指标对模型结果做出评价,分别为平均绝对误差(MAE)、平均误差平方和(MSE)和相对误差平方和(NMSE),指标数值越小表示模型的预测值与真实值间的差异越小,随机森林对叶绿素预测能力越强。三项指标公式表示如(3)~(5)所示。
(3)
(4)
(5)
2 实验结果
图1为基于随机森林模型的叶绿素SPAD预测值和真实值间的相关图。同时,将该模型效果与多元线性 (Multiple linear regression, MLR)和一元线性回归模型(A linear regression, ALR)作为对比(图2和表2)。结合图表结果可见,RF模型对植被叶绿素SPAD预测效果优于其它两种模型。总而言之,RF模型表现出了优越的预测性能[7-9]。
图1 基于RF的预测效果
图2 基于MLR的预测效果
表2 光谱指数表现效果
3 结论
该文利用随机森林模型对洞庭湖典型植被苔草的叶绿素进行了估测。在该方法中,首先选取了6种植被光谱指数作为随机森林模型的输入变量,通过优化模型参数,进而对植被叶绿素含量进行估测,最后将该模型的估测效果与多元线性回归模型进行了比较分析[10-11]。研究表明,利用随机森林模型可以很好地对植被叶绿素进行估测,随机森林模型构建简捷、数据处理能力强大。从模型预测的精度结果可以看出,相比较一元和多元线性回归模型,随机森林模型具有更优的预测性能(R2=0.94)[12-13]。