基于高光谱与机器学习算法的芦苇叶片叶绿素含量估测
2023-11-14刘雅辉张清文高汇锋
管 铖,刘雅辉,张清文,李 想,高汇锋
(1.华北理工大学 矿业工程学院,河北 唐山 063210;2.北华航天工业学院 遥感信息工程学院,河北 廊坊 065000)
引言
叶绿素是芦苇(Phragmites australis)进行光合作用的主要色素,同时参与其光合作用、呼吸作用和能量代谢等各种生理过程[1]。作为滨海湿地中的本土植被,芦苇不仅能够抑制水中蓝藻生长,还可以涵养水源,维持良好的湿地生态环境,芦苇长势亦可反映滨海湿地生态系统的变化[2],对保护滨海湿地植被多样性及其可持续利用具有重大意义。芦苇叶绿素含量为表征其生长状况重要指示因子,直接反映其光合作用能力。分光光度法、荧光分析法等传统叶绿素含量检测方法不仅流程复杂、 耗时长,且测定过程易受溶剂、温度和溶解度等因素影响,不利于大样本下叶绿素含量监测[3]。高光谱技术可以检测叶绿素含量的细微变化,具有高分辨率、无损、精准等优点,因而被广泛用于植被生长状况监测[4]。
目前,国内外在高光谱估算植被叶绿素方面开展大量研究,为准确估算茶叶中的氮和叶绿素含量,Yamashita 等采用可见光和近红外高光谱数据,构建了机器学习模型,以确保其精确度达到1.4~2.0 的阈值[5];袁小康等对夏玉米在不同灌溉量下的生长情况进行研究,分析了其冠层光谱特征及叶绿素含量的变化规律,结果表明植被指数与叶绿素含量之间存在较高的相关性,相关系数的最小绝对值达到了0.812[6];为了探究芦苇粉大尾蚜虫害对芦苇叶绿素含量和高光谱反射率之间的影响,窦志国等采用光谱全波段对芦苇叶片叶绿素含量进行反演建模,结果表明无论是在健康芦苇还是受虫害影响的芦苇中,叶绿素含量的预测偏差比率RPD 均大于3,表明该模型具有较高的预测精度[7]。已有研究表明利用高光谱遥感技术检测植被叶绿素含量已较为成熟,但植被高光谱数据采集过程中易受到外界环境、湿度和使用仪器等影响,光谱中出现干扰噪声[8]。为了消除这些干扰噪声并增强光谱有效信号,古志钦等采用一阶导数处理原始光谱曲线,分析不同时期内互花米草和芦苇叶片的光谱特征,研究发现相比于互花米草,芦苇在相同程度的持续淹水胁迫下表现出更强的适应能力[9];为探究微分技术对水稻叶面积指数、叶绿素浓度与群体光谱反射率间的影响,刘伟东等采用单相关分析和逐步回归方法,发现叶绿素浓度与光谱数据之间的相关明显优于叶面积指数[10];张雪茹等采用倒数、对数、微分等15 种典型数学变换方法处理原始光谱,以探究低温胁迫下冬小麦不同变换后的光谱与叶绿素含量之间的关系,研究表明二阶微分变换处理叶绿素含量校正模型的R2和RMSE 分别为0.930、0.340,验证模型的R2为0.753[11];顾峰等基于富含“红边”光谱的哨兵2 号影像及其衍生的一阶微分、二阶微分影像,提取了23 种对叶绿素敏感的宽波段光谱指数,发现在干旱区绿洲植被(棉花、芦苇、杨树、大枣)影像中,经一阶微分再提取的植被指数相比原位光谱植被指数建立的叶绿素含量估测模型效果更好[12]。光谱数学变换处理可以有效地对植被光谱数据进行降噪和分解,其光谱对叶绿素含量的估测能力得到明显提升,并且基于数学变换和植被指数构建的模型具有较高的稳定性[13]。近年来,机器学习算法已应用于叶绿素含量预测中,随机森林算法通过选择随机样本和特征生成多个决策树,以并行方式获取预测结果[14]。冯海宽等利用苹果叶片高光谱数据构建叶绿素含量估测模型,结果显示相较于典型线性回归模型,随机森林能够展现出更高精度和更准确的预测能力[15];为了探究传统回归模型和核极限学习机回归算法在叶绿素含量估测方面的准确性,郭松在大田玉米冠层尺度构建了叶片叶绿素模型,研究发现机器学习算法在叶绿素含量预测方面表现出优于传统回归算法的趋势,并且基于原始光谱的狮群算法优化的核极限学习机回归是最优模型[16];利用极限梯度提升、偏最小二乘法和人工神经网络算法构建冬小麦叶绿素浓度估测模型,Zhang 等探讨不同算法下冬小麦叶绿素浓度的高光谱敏感波段分布,研究发现基于融合数据构建的极限梯度提升算法展现出最佳的预测效果[17]。
本文选择典型芦苇湿地为研究区,利用实测芦苇叶片高光谱反射率和LCC 数据,通过芦苇原始光谱及其变换光谱,基于连续投影算法筛选特征波段并构建植被指数,采用极限梯度提升、支持向量机和随机森林回归算法对芦苇LCC 进行估测建模,并分析模型效果优劣,旨在为芦苇长势及湿地生态系统健康状况遥感监测提供参考。
1 材料与方法
1.1 研究区概况
研究区位于华北理工大学校园内,面积约为560×380m2,属于温带半湿润气候,夏季炎热多雨,冬季寒冷干燥,年平均气温11.2℃,年降水量648.1 mm。该区域湿地物种多样性丰富,有利于亚洲东部候鸟在不同季节的迁徙过境和栖息繁殖[18]。四季分明的温带气候及较为复杂的生态环境使得研究区群落以草本层群落为主,其中芦苇集中大量分布[19]。研究区内其他代表植被为稗(Echinochloa crusgalli)和碱蓬(Suaeda salsa)。
图1 研究区地理位置与采样点
1.2 数据测定与方法
1.2.1 叶绿素含量测定
2022 年5 月27~28 日选取华北理工大学典型芦苇湿地,进行野外调查和数据测定,依据全面性、代表性和典型性的样地选取原则,在典型芦苇群落中随机设置均质样地,内部布设0.5m×0.5m 的子样方,随机选取各子样方内芦苇冠层上部、中部和下部共3 片健康成熟叶片,迅速带回实验室。芦苇叶片叶绿素含量使用CCM-200plus 叶绿素仪测定。测量时使用纸巾轻轻擦净芦苇叶片表面灰尘并按顺序放置,在每片叶子中部测定叶绿素含量,避开叶脉,每个子样方点共获取3 个叶绿素含量值,取其平均值作为该子样方最终叶绿素含量。
1.2.2 叶片光谱反射率测定
采用ASD 公司生产的FieldSpec4 获取芦苇叶片高光谱反射率,光谱范围为350~2500nm,采样间隔在350~1000nm 波段范围为1.4nm,1000~2500 nm 波段范围为2nm,重采样间隔为1nm。为确保数据科学可靠,每10 分钟作一次白板校正。光谱测定与叶绿素含量测定位置一致,每次测定10 条光谱曲线,每个子样方上中下层叶片共获取30 条光谱曲线,使用ViewSpec Pro 软件取平均值作为该子样方原始光谱信息。
1.3 数据处理与特征构建
为提高光谱叶绿素估测模型的精度,减小光谱获取过程中产生的随机噪声,首先对芦苇平均光谱反射率进行Savitzky-Golay 卷积平滑得到原始光谱反射率F。为突出光谱特征波段,对平滑后的芦苇原始光谱曲线进行对数(logR)、倒数一阶微分(R′)处理。
利用Pearson 相关分析方法分析不同数学变换下芦苇叶片光谱反射率与其叶绿素含量间的关系,首先,在相关性较高的可见光近红外敏感范围内结合连续投影算法,用Kennard-Stone 样本迭代,进行芦苇叶片光谱矩阵列波段投影操作,经过矢量投影操作创建波段组,当RMSECV 最小时,选择对应列向量数为2 的波长组合作为特征光谱。参考相关研究选取3 种物理意义较为明确的光谱指数,包括归一化植被指数 (Normalized differential vegetation index, NDVI)、差值植被指数(Difference vegetation index, DVI)和比值植被指数(Ratio vegetation index, RVI),结合连续投影算法筛选出可见光各波段对应的特征波段,计算植被指数[20],其中,RBLUE:420~490nm,RGREEN:500~590nm,RRED:625~760 nm,RNIR:760~1220nm,(见式1~3)。并结合不同数学变换下芦苇可见光敏感波段范围内筛选出2 的特征光谱作为模型建模参数[21,22]。
式中,RRED 与RNIR 分别为波段625~760nm与760~1220nm 范围内经连续投影算法筛选后的最优波段。
1.4 模型建立与精度分析
经芦苇光谱采集与LCC 含量测定,本研究共得到有效样本数据106 个,采用随机法划分数据集,其中70%作为训练集进行模型建立,30%作为验证集以验证模型的精度,分别得到建模样本75,预测样本31 个。本文采用极限梯度提升、支持向量机和随机森林回归算法对芦苇LCC 进行估测建模。其中,极限梯度提升算法是一种基于决策树的集成模型,通过引入正则化项和树结构的剪枝来避免过拟合问题,具有运行速度快、准确度高和可调参数多等优点。与传统机器学习模型相比,极限梯度提升算法可以拟合因变量和自变量之间复杂的非线性关系,同时对于变量类型具有很高的宽容度[23]。
支持向量机是将非线性的数据映射到高维数据特征空间,使得自变量与因变量在高维空间中具有良好的线性回归特征,进而实现原始空间中的非线性回归。支持向量机通过结构风险最小化原则,降低了数据量的高度依赖[24]。
随机森林回归是通过对多个决策树集成融合,将不同决策树的预测平均值作为最终的预测结果。随机森林回归模型对数据要求低,能够处理高维数据,具有极强的拟合能力,能够识别自变量与因变量之间复杂的非线性关系,拥有很好的抗噪声能力,不易出现过拟合现象[25]。
机器学习回归算法均在R 语言上完成,使用caret 包、xgboost 包、randomForest 包和e1071 包搭建,并通过网格搜索法对参数进行优选,得到最佳叶绿素估测模型。
基于验证样本集,选取决定系数(R2)、均方根误差(Root mean squared error,RMSE)和相对分析误差(Relative percent deviation,RPD)3 个指标评价模型精度,决定系数越大,均方根误差越小,建模精度越高,相对分析误差越大,模型越稳定[26]。评价指标公式如下:
2 结果与分析
2.1 芦苇叶片光谱特征
不同处理方法下的湿地植被芦苇叶片光谱反射率曲线如图2 所示,生长旺盛季芦苇具有健康绿色植物典型光谱特征,数学变换后的芦苇叶片光谱特性明显改变。芦苇叶片原始光谱的可见光波段,受到叶绿素等色素吸收作用的影响,叶片反射率较低,390nm 蓝光波段和670nm 红光波段附近叶绿素吸收辐射形成吸收谷,在550nm 绿光波段附近吸收相对减少,形成绿色反射峰。670~770nm 的近红外波段有一个反射“陡坡”,即红边特征,芦苇叶片的细胞结构和叶片中色素在近红外波段保持的高度透过性导致了“红边”光谱特征的产生,在近红外区域叶片反射率较大,770~940nm 内表现出高反射率特征。在短波红外波长范围,芦苇叶片的光谱特征主要受叶片所含水分的影响,尤其以1440nm、1930nm 波段为中心的水分吸收带处,形成明显的波谷。
图2 不同处理方法下反射光谱曲线
2.2 相关性分析
将芦苇叶片原始及变化光谱反射率分别与其叶绿素含量进行逐波段相关分析,得到各反射率与叶绿素含量的相关系数随波长的变化规律。从图3可以看出,原始光谱反射率R 与对数logR 的反射率与叶绿素含量相关系数随波长的变化曲线波形类似,两者的叶片光谱反射率是在红光、绿光区与叶绿素含量关系密切。709nm 波长处的芦苇原始光谱反射率R 与其叶绿素含量的相关系数绝对值最大(r=-0.683)。经数学变换处理后,变换光谱与芦苇叶片叶绿素含量相关系数有不同程度的提高,对数(logR)在720nm 处相关系数达到-0.73,与原始光谱相比提高0.06;倒数(1/R)相关系数曲线与原始曲线相反,最大相关系数较原始光谱仅提升0.004;一阶微分(R′)变换后相关性提升效果较为明显,最大相关系数在764nm 达到0.892,表明微分处理可以更为有效消除光谱背景噪声的干扰,提高光谱对芦苇LCC 的敏感度,凸显芦苇叶片光谱特征,有利于筛选相关性较高的波段。
图3 不同光谱变换下的芦苇叶片光谱反射率与叶绿素含量相关性
2.3 模型构建与精度评价
选取不同处理方法下的植被指数和特征波段为自变量,以芦苇叶片叶绿素含量LCC 为因变量,采用极限梯度提升、支持向量机和随机森林回归算法分别建立原始光谱反射率R 及其数学变换下的叶绿素含量预测模型。由表1 可以看出,基于植被指数和特征波段构建的芦苇叶片叶绿素含量模型经过数学变换的模型效果都优于原始光谱,其中一阶微分(R′)>倒数>对数(logR)>原始(R),四种光谱变换下,XGBoost 模型R2集中于0.697~0.766,SVM 模型R2集中于0.547~0.761,RFR 模型R2集中于0.845~0.974。对比三种机器学习算法XGBoost模型回归中一阶微分(R′) 变换建立的模型性能较好,R2为0.766,RMSE 为1.595,相比原始光谱建模结 果,R2提 升 了0.069,RMSE 降 低 了0.159;SVM模型中一阶微分(R′)变换建立的模型性能较好,R2为0.761,RMSE 为0.422,相比原始光谱建模结果,R2提升了0.214,RMSE 降低了0.156;RFR 模型中一阶微分(R′)变换建立的模型性能最好,为三种机器学习算法中的最优模型,通过独立验证样本建立的1:1 线可知实测值与预测值符合度较好(图4),R2为0.974,RMSE 为0.208,相比原始光谱建模结果,R2提升了0.129,RMSE 降低了0.005。在相同光谱处理下,RFR 模型预测结果表现最优,XGBoost与SVM 建模精度依次降低,但三种方法均能达到可靠的估算精度,其中高光谱经过一阶微分变换后芦苇叶片反射率与叶绿素含量间的关系对于LCC模型建立最为有利,光谱中噪声被有效消除。
3 结论
本文基于实测芦苇叶片光谱与LCC 含量,经过不同光谱变换处理后,通过连续投影算法选取特征波段并构建植被指数,采用极限梯度提升、支持向量机以及随机森林回归模型建立芦苇湿地叶片叶绿素含量的高光谱预测模型,均达到较好的估计效果,具体结论如下:
(1)数学变换处理后,芦苇叶片光谱与叶绿素含量相关系数有不同程度的提高。其中,一阶微分(R′)>对数(logR)>倒数>原始(R)。表明一阶微分(R′)相关性提升效果较为明显,且光谱与叶绿素含量在764nm 处最大相关系数达到0.892。
(2)基于植被指数和特征波段构建的芦苇叶片叶绿素含量模型表明经过数学变换的模型效果都优于原始光谱,其中一阶微分(R′)>倒数>对数(logR)>原始(R)。表明微分处理可以凸显芦苇叶片光谱特征,提高建模精度。
(3)三种机器学习中,一阶微分结合随机森林回归建立的模型R2为0.974,RMSE 为0.208,RPD为4.297 是预测华北理工大学湿地芦苇叶片叶绿素含量的最优模型。