基于随机森林的洞庭湖苔草叶绿素含量估测研究

2022-06-29陈斌

林业科技情报 2022年2期

陈斌

(广东生态工程设计研究院有限公司，广州 510630)

叶绿素是植被进行光合代谢的重要载体，其含量与植被光能转化、生理固碳等功能有着密切的联系，是监测植被生长状况重要的生化参数之一，准确快速地对叶绿素含量进行定量估测对植被生境具有重要意义。高光谱遥感技术为估测植被叶绿素含量提供了极大的便利，当前常用的方法主要可归纳为2种经验模型和物理模型。前者主要是基于植被光谱指数与叶绿素含量的经验或半经验关系，从而建立起有效的估算模型，该方法的主要优点是建模方便，但模型的普适性较差。相比而言，物理模型具有较为清晰的机理，且模型通常具有一定的普适性，但该模型对调参的依赖高，尤其在缺参的条件下极大影响精度。总而言之，在植被叶绿素含量遥感估测研究方面，在方法上仍有进一步改进的空间。

随机森林(random forest, RF)可以很好地预测上千个解释变量的贡献，不需过多调参，具有抗噪能力强、多元共线性不敏感等优点。随机森林算法已经被广泛应用到各方面的研究[1-2]。当前RF模型应用于湿地植被叶绿素含量估测的相关研究还鲜有报道。该文以洞庭湖湿地最大的建群种植物—苔草为研究对象，以6种植被光谱指数为输入变量，在R软件平台上建立叶绿素含量随机森林估测模型，以期为植被叶绿素定量估测提供新的方法和思路。

1 数据及方法

1.1 数据采集

利用FieldSpec 4便携式地物光谱仪，于2018年11月1到3号对洞庭湖湿地最大的建群种—苔草(Carexcinerascens)的光谱数据进行采集。同时利用 SPAD-502叶绿素仪测定苔草叶绿素SPAD值。后续的实验中，划分31组叶绿素SPAD值数据为训练样本用以建模，另取30组数据用于检验模型的估测效果[1-3]。

1.2 植被光谱指数

该文采用多种植被光谱指数作为RF模型的输入变量，通过优化模型的参数，从而提高模型的预测精度。6种光谱指数具体表达及与SPAD值的相关系数如表1中所示。

表1 植被光谱指数选取

1.3 随机森林的实现

该研究基于R软件平台，运行(1)中的命令以建立随机森林模型，运行(2)中的命令利用检验样本对模型估测效果进行检验。

rf=randomForest(S1～.,data,ntree=1000,mtry=3)

(1)

predict(rf, new.data,type=”response”)

(2)

其中S1表示输出变量，在该文中为叶绿素SPAD值；data表示输入路径；ntree表示随机森林模型中单棵树性能的树节点预选变量个数，一般ntree值应不小于100；mtry表示分类树每个节点用以二分数据的自变量个数，mtry值等于解释变量数目的平方根。在该文中先采用mtry=3、ntree=1 000进行建立模型。predict为预测分类函数，其中rf为基于预测样本的随机森林建模结果，new.data在本文中表示输入的检验样本，type表示对输入样本进行预测[4-6]。

1.4 模型性能评价方法

该文根据三项指标对模型结果做出评价，分别为平均绝对误差(MAE)、平均误差平方和(MSE)和相对误差平方和(NMSE)，指标数值越小表示模型的预测值与真实值间的差异越小，随机森林对叶绿素预测能力越强。三项指标公式表示如(3)～(5)所示。

(3)

(4)

(5)

2 实验结果

图1为基于随机森林模型的叶绿素SPAD预测值和真实值间的相关图。同时，将该模型效果与多元线性 (Multiple linear regression, MLR)和一元线性回归模型(A linear regression, ALR)作为对比(图2和表2)。结合图表结果可见，RF模型对植被叶绿素SPAD预测效果优于其它两种模型。总而言之，RF模型表现出了优越的预测性能[7-9]。

图1 基于RF的预测效果

图2 基于MLR的预测效果

表2 光谱指数表现效果

3 结论

该文利用随机森林模型对洞庭湖典型植被苔草的叶绿素进行了估测。在该方法中，首先选取了6种植被光谱指数作为随机森林模型的输入变量，通过优化模型参数，进而对植被叶绿素含量进行估测，最后将该模型的估测效果与多元线性回归模型进行了比较分析[10-11]。研究表明，利用随机森林模型可以很好地对植被叶绿素进行估测，随机森林模型构建简捷、数据处理能力强大。从模型预测的精度结果可以看出，相比较一元和多元线性回归模型，随机森林模型具有更优的预测性能(R2=0.94)[12-13]。