APP下载

基于Stacking集成学习的猕猴桃叶片叶绿素含量估算

2023-08-04符欣彤常庆瑞张佑铭张子娟郑智康

干旱地区农业研究 2023年4期
关键词:反射率猕猴桃波段

符欣彤,常庆瑞,张佑铭,张子娟,郑智康,李 铠

(1.西北农林科技大学资源环境学院,陕西 杨凌 712100;2.中国农业科学院农田灌溉研究所,河南 新乡 453002)

中国是全球主要的猕猴桃栽培和出口国之一[1]。秦岭北麓和渭河河谷平原是我国猕猴桃优势产区,猕猴桃产业为当地经济发展做出巨大贡献。叶绿素作为植物光合作用的必要物质,其含量与植物营养和健康状态高度相关,是监测植物生长状况的重要指标[2]。因此,快速获取猕猴桃叶片叶绿素含量(Leaf chlorophyll content, LCC)对及时调整和优化猕猴桃栽培管理具有重要意义。

近年来,高光谱技术以其快速、有效、无损监测的优势在植物叶绿素含量估测方面得到广泛应用[3-5]。目前,国内外学者对植物叶绿素含量的高光谱估算研究主要集中在两个方面:一方面是以原始光谱及各种变换光谱筛选的特征波段作为自变量建立估测模型。如Yamashita等[6]利用不同氮营养条件下的高光谱特征波段建立了高性能绿茶叶绿素含量估算模型;Guo等[7]建立了基于一阶微分光谱特征波段的烟草LCC估算模型;郭松等[8]研究了不同变换光谱的特征波段与玉米叶绿素含量之间的相关关系。另一方面是利用光谱指数进行叶绿素含量估算。何桂芳等[9]发现利用比值植被指数建立的模型精度最高,可以实现石楠LCC的准确估算;Cui等[10]发现红边叶绿素吸收指数/三角植被指数对小麦叶绿素含量的反演性能最好;彭晓伟等[11]通过分析不同植被指数与叶绿素含量的相关性,构建了谷子叶绿素含量估测模型。可见基于高光谱反射率信息的作物叶绿素含量估算研究已较为成熟,但研究对象主要集中在小麦[12]、玉米[13]、水稻[14]、棉花[15]等大田作物,针对经济树木,尤其是猕猴桃树的研究相对较少。同时,大多数研究都是基于单一模型,很难全面反映叶绿素含量的变化特点,容易出现估测精度不高、泛化性能不佳等问题[2]。神经网络和决策树等传统机器学习模型拟合精度与参数设置密切相关,往往训练集效果较好,但测试集表现欠佳[16]。Stacking集成学习策略通过将多个弱学习器集成强学习器来提高模型的准确性和鲁棒性[17],在柑橘叶片氮含量估算[18]、夏玉米覆盖度估测[19]、苜蓿产量估算[20]等研究中表现较好。

本研究以秦岭北麓国家杨凌农业高新技术产业示范区猕猴桃为对象,通过分析猕猴桃叶片叶绿素含量(LCC)与各高光谱参数间的相关性,筛选模型的输入特征,集成随机森林、极限梯度提升树等5种学习器,构建基于Stacking集成学习的猕猴桃LCC估算模型,并与其他单一模型进行对比,以验证模型有效性,旨在实现对猕猴桃LCC的准确估算,进而为猕猴桃生长信息的快速获取和果园精细化管理提供技术支持。

1 材料与方法

1.1 研究区概况和样本采集

试验区位于陕西省杨凌农业高新技术产业示范区五泉镇蒋家寨村(108°01′20″E,34°18′11″N),地处秦岭北麓渭河河谷平原。该地区地形平坦,土壤肥沃,海拔高度535~560 m,属于暖温带半湿润大陆性季风气候。年平均温度12.9℃,年均降水量 635.1 mm,年均日照时数2 163.8 h,具有夏热多雨、冬寒干燥、春暖多风等明显的大陆性季风气候特征,适宜猕猴桃种植。

采样时间为2021年8月14日,此时正值猕猴桃壮果期。在试验区选取栽植年限超过15 a的健康无病害猕猴桃园8个,果树品种均为‘徐香’。每个猕猴桃园选取10株健康果树作为样点,每个样点分别采集不同方位、不同长势的5片健康叶片,80个样点共400片。叶片采集后迅速用密封袋封装,放置在保鲜箱内,运回实验室进行光谱反射率与叶绿素含量测定。

1.2 项目测定

1.2.1 叶片高光谱反射率测定 猕猴桃叶片高光谱反射率采用便携式非成像地物光谱仪SVC HR-1024i(Spectra Vista公司,美国)测定,光谱探测范围为350~2 500 nm,其中350~1 000、1 000~1 850、1 850~2 500 nm光谱分辨率分别为3.5、9.5 nm和6.5 nm。为保证试验的科学性和数据的可靠性,光谱测定前进行多次白板校正,直到校正结果稳定,并用纸巾将叶片擦拭干净,不附着泥土、灰尘等杂质。按照编号依次将叶片平整置于叶片夹上,从叶柄至叶尖分段选择3个部位各测量2次(避开叶脉),每个叶片均可获得6条高光谱反射率曲线,每个样本5个叶片共获得30条高光谱反射率数据,取其平均值作为该样点叶片的最终高光谱数据。

1.2.2 叶绿素含量测定 采用分光光度计法测定光合色素含量,将光谱采集后的叶片洗净,避开叶脉,选取中间部分剪成碎条,每个样本0.2 g加入95%浓度乙醇,置于暗处浸提48 h至叶片发白,过滤,25 ml定容。用分光光度计分别测定470、649、665 nm波长的吸光度,再依据公式[21]计算叶绿素含量(mg·g-1)。

1.3 研究方法

1.3.1 光谱数据处理 叶片色素对光谱反射率的影响主要集中在可见光范围,所以本研究以380~1 000 nm范围的高光谱反射率数据为基础进行猕猴桃LCC估算。首先,利用光谱仪自带软件对高光谱数据重采样到1 nm;然后利用SG滤波法(Savitzky golay filter)对重采样后的高光谱数据进行平滑处理,SG滤波与其他光谱平滑方法相比,能更有效地保留光谱的变化信息;最后对平滑后的光谱进行一阶导数变换,得到猕猴桃叶片一阶导数光谱。

1.3.2 光谱参数选取 为削弱环境因素的影响,常采用特征波段、三边参数和植被指数等光谱参数描述作物的光谱响应特征。首先分析猕猴桃叶片原始光谱反射率与LCC之间的相关性,选取相关关系满足显著性检验(P<0.001)的敏感区域作为输入量,LCC作为响应量,以RMSE最小为原则,通过编程实现连续投影算法(Successive projections algorithm, SPA),从敏感区域中筛选出特征波段。SPA是一种新兴的降维方法,实现光谱大幅度降维的同时能够保证特征波段之间共线性最小,近年来其在作物高光谱信息的研究中应用广泛[22]。

不同波段光谱反射率以加、减、乘、除等运算构建的光谱指数具有降低背景噪声干扰、突出植物生长特征的优点。本研究主要从两个方面选取光谱指数,一是在前人研究基础上选取了与LCC相关性较好的传统光谱指数;二是利用Matlab软件构建了一阶导数光谱敏感区域内任意两波段组合的3类优化光谱指数,即比值(RSI′)、差值(DSI′)、归一化(NDSI′)光谱指数,并计算这3类优化光谱指数与猕猴桃LCC间的相关系数(r),根据r最大原则,筛选基于各波段组合的优化光谱指数进行研究。本研究所选择的11类传统光谱指数和构建的3类优化光谱指数见表1。

表1 光谱指数及其计算公式或定义

1.4 Stacking集成学习模型构建

Stacking是一种通过元模型将多个基模型进行组合的集成算法,本质是一种并行结构的多层学习系统,其学习框架有初级学习器和次级学习器两级,在训练阶段,次级学习器由初级学习器产生[19]。Stacking集成学习对模型的鲁棒性和泛化能力有显著提高,由于Stacking模型最终效果受到基模型的影响,因此基模型应有较好的学习能力,且各基模型间相互独立。

本研究选择随机森林(Random forest, RF)、极限梯度提升树(Extreme gradient boosting, Xgboost)、K-近邻(K-nearest neighbor, KNN)、LightGBM算法(Light gradient boosting machine, LightGBM)和岭回归(Ridge regression, RR)为基模型,以线性回归(Linear regression, LR)为元模型构建猕猴桃LCC估算模型。RF是通过集成学习的思路将多棵树集成的一种算法,基本单元是决策树,具有高度并行化和泛化能力强的优势。Xgboost是Boosting算法的一种实现方式,适用于回归和分类,优点是支持自定义损失函数,从而减小训练过程中目标值和真实值之间的偏差。KNN算法的基本思想是找出一个样本的K个最近邻居,通过计算其属性的平均值得到估算结果,该算法有成熟的理论和广泛的应用。相比于其他Boosting算法,LightGBM增加了梯度单边采样(GOSS)和互斥特征绑定(EFB),可以在小样本情况下获得高精度预测结果。RR常用于处理多重共线性问题,是对普通最小二乘法的深化,通过改变正则化项系数来控制减少特征变量系数的程度,从而避免过拟合。

基于Stacking集成学习的猕猴桃LCC估算模型构建过程如图1所示,具体步骤如下:

(1)将猕猴桃叶片高光谱特征数据集划分为原始训练集M和测试集T,按照五折交叉验证将训练集样本随机分为5个子集(M1、M2、M3、M4、M5)。

图1 Stacking集成学习算法构建

(2)选择一种基模型进行训练,利用M2、M3、M4、M5中样本建立模型,对M1和T中样本进行预测,得到M1的预测值x1和T的预测值y1。

(3)利用M1、M3、M4、M5中样本建立模型,对M2和T中样本进行预测,得到M2的预测值x2和T的预测值y2。以此类推,得到训练集样本M的预测结果X1(由x1、x2、x3、x4、x5合并得到),测试集T的预测结果Y1(由y1、y2、y3、y4、y5取均值得到)。

(4)选择其他基模型,重复步骤(2)、(3),分别得到M的预测结果X2、X3、X4、X5和T的预测结果Y2、Y3、Y4、Y5。

(5)将第一层得到的结果合并,获得新的训练集X={X1,X2,X3,X4,X5}和新的测试集Y={Y1,Y2,Y3,Y4,Y5}。将X和Y作为元模型的输入特征,进行第二层模型的训练,最终得到猕猴桃LCC的估测结果,实现对基模型学习能力的综合。

本研究数据处理及建模在Excel 2016、Matlab 2019b和Pyhton 3.7中完成,为缓解小样本的过拟合问题,采用网格搜索和5折交叉验证训练模型,模型网格搜索结果见表2。

1.5 评价指标

分别采用决定系数(R2)、均方根误差(RMSE)、平均绝对误差(MAE)和相对预测偏差(RPD)共4个指标对预测模型进行评价,R2越接近1,RMSE和MAE越小,说明模型拟合程度越优,模型越准确。RPD能衡量模型估算值和实际值之间的偏差程度,当RPD<1.5时,认为模型不具备预测能力;当1.5≤RPD<2.0时,模型只能对样本进行粗略估计;当2.0≤RPD<2.5时,模型预测结果较好;当2.5≤RPD<3.0时,模型预测结果很好;当RPD≥3.0时,模型具有极好的预测能力[23]。

2 结果与分析

2.1 猕猴桃LCC统计分析及光谱响应

2.1.1 猕猴桃LCC特征 采用分层抽样将2021年猕猴桃壮果期80个样本按照3∶1划分为训练集60个样本和测试集20个样本。猕猴桃LCC全部、训练和测试样本的基本统计值如表3所示。训练集猕猴桃LCC最大值为4.12 mg·g-1,最小值为0.33 mg·g-1,平均值为2.14 mg·g-1,变异系数为47.19%;测试集猕猴桃LCC最大值为3.97 mg·g-1,最小值为0.40 mg·g-1,平均值为2.11 mg·g-1,变异系数为47.86%。统计结果表明试验样本叶绿素含量有较高离散程度,可作为开展叶绿素含量变化及光谱响应研究的素材。

表2 各模型主要参数网格搜索结果

表3 猕猴桃LCC统计描述

2.1.2 猕猴桃叶片光谱特征 选取样本中叶绿素含量最小值、最大值和中位数所对应的猕猴桃叶片高光谱反射率曲线,分析其变化特征(图2)。由图2可以看出,不同叶绿素含量的猕猴桃叶片高光谱反射率曲线变化趋势基本一致,可见光波段光谱反射率较低,红外波段反射率较高,呈现“一峰两谷一平台”的特点。由于叶绿素具有吸收红蓝光、反射绿光的特性,高光谱反射率在绿光波段550 nm附近形成反射峰,在蓝光波段440 nm附近和红光波段660 nm附近出现2个反射谷,与一般绿色植被光谱特征相符。680 nm以后,高光谱反射率迅速攀升,并在近红外波段(780~1 000 nm)形成高反射区段,这主要是叶片细胞对近红外辐射的强烈反射所致。不同叶绿素含量的叶片高光谱反射率存在明显差异,在可见光波段(380~780 nm),高光谱反射率随叶绿素含量的增加而降低,叶绿素含量分别为0.33、1.84 mg·g-1和4.12 mg·g-1时,对应的高光谱反射率归一化均值分别为0.369、0.210、0.158,相较于最小值分别有43.22%和57.24%的降幅。在近红外波段(780~1 000 nm),高光谱反射率则随叶绿素含量的增加而升高,3种叶绿素含量对应的高光谱反射率归一化均值中,较最小值的增幅分别为8.96%和11.93%。

2.2 叶片高光谱反射率、高光谱参数与猕猴桃LCC相关性

2.2.1 叶片高光谱反射率与LCC相关性 猕猴桃叶片原始光谱(OS)和一阶导数光谱(FD)反射率与LCC的相关性如图3所示。猕猴桃叶片原始光谱反射率与LCC在380~759 nm波段负相关,其中波段380~745 nm通过0.001相关性检验,敏感波段数量为366个;在708 nm波段相关性最高,相关系数为-0.869。760~1 000 nm波段,原始光谱反射率与LCC表现为正相关,相关性有所降低,仅有14个波段极显著(P<0.001),集中分布在969~982 nm波段,相关系数最高为0.364(976 nm)。总体而言,可见光波段猕猴桃叶片光谱反射率受色素含量影响较大,而近红外波段受含水量等情况影响,其相关性低于可见光波段。

一阶导数光谱通过相关性检验(P<0.001)的敏感波段有519个,除409 nm(相关系数-0.369)外,其余集中分布在438~553、556~671、674~707、711~931、962~975 nm和978~994 nm波段,最大正、负相关系数分别为0.914(754 nm)和-0.908(530 nm)。一阶导数光谱的敏感波段数量和相关系数绝对值均大于原始光谱,表明一阶导数光谱可突出光谱特征信息,提高数据利用率。

图2 不同叶绿素含量的猕猴桃叶片高光谱反射率曲线

2.2.2 叶片高光谱参数与LCC相关性 在相关性分析筛选出的敏感区域内,利用连续投影算法提取原始光谱对猕猴桃LCC的特征波段。从380~745 nm和969~982 nm包含的380个波段中,优选出5个特征波段,分别为533、565、697、705 nm和715 nm。

图3 不同类型光谱反射率与叶绿素含量关系

表4 猕猴桃LCC与高光谱参数的相关性

2.3 猕猴桃LCC估测模型构建及精度评价

将选取的高光谱参数作为RF、Xgboost、KNN、LightGBM和RR的输入变量,构建基模型。以LR为元模型,将各基模型的估测结果作为输入特征,构建Stacking集成模型。各模型估测结果见表5。

由表5可知,各模型建模精度均较高,训练集和测试集R2分别在0.840和0.730以上。在测试集中,Stacking集成模型表现最佳,R2为0.807,MAE和RMSE分别为0.334和0.136;与RF、Xgboost、KNN、LightGBM和RR相比,其R2平均提高约0.036,MAE和RMSE平均降低0.046和0.316。同时,Stacking模型的RPD值最大(7.443),远高于其他模型,说明该模型具有极好的预测能力。图4为各模型测试集猕猴桃LCC实测值与估算值的拟合图,其中虚线为1∶1线,实线为拟合线,拟合方程斜率越接近1,截距越接近0,说明模型效果越好。由图4可知,各模型均存在不同程度的低值高估、高值低估现象,这可能是由于猕猴桃LCC低值与高值的样本较少,使得训练样本包含的信息不全面所致。其中Stacking模型拟合方程的斜率(0.7563)最接近1,截距(0.4015)最接近0,说明该模型能够在一定程度上改善模型低值高估和高值低估情况。综合来看,Stacking模型能够综合基模型优点,提高模型的鲁棒性和泛化能力,是进行猕猴桃LCC估算的最优模型。

表5 单一模型与Stacking模型对比

表6 其他模型与Stacking模型对比

此外,为了证明Stacking集成模型的估算效果优于其他单一模型,试验还对支持向量回归(Support vector regression, SVR)、自适应增强(Adaptive boosting, Adaboost)和决策树进行训练。由表6可知,在测试集中,相较于SVR、Adaboost和决策树模型,Stacking集成模型的R2分别提高了0.006、0.044和0.077,平均提高约0.042;MAE分别降低了0.045、0.034和0.064,平均降低约0.048;RMSE分别降低了0.360、0.370和0.392,平均降低约0.375;RPD分别提高了5.412、5.452和5.534,平均提高约5.465。即相比于其他集成策略模型和常用机器学习模型,Stacking模型的拟合能力和预测精度均有所提升,预测结果较好。

3 讨 论

叶绿素是植物光合作用所需的重要物质,其含量直接影响植物的正常生长发育,因此快速、准确地获取叶绿素含量具有重要价值[24]。本研究表明,猕猴桃叶片光谱反射率在蓝光波段440 nm和红光波段660 nm附近形成反射谷,这主要是由于叶片需要吸收红蓝光进行光合作用,而红外线不易产生光合作用,因此在红外波段出现高反射平台,与一般绿色植被光谱特征相符[25]。连续投影算法能够消除光谱数据的共线性,减少信息冗余。本研究在相关分析的基础上,利用连续投影算法对原始光谱进行特征波段提取,最终从380~1 000 nm范围内包含的621个波段中筛选出5个特征波段,实现了光谱数据大幅度降维,但与前人筛选波段数量和位置不一致[26],可能是研究对象不同所致。

光谱变换可以削弱光谱的背景噪声,提高数据精度,一阶导数变换是常见光谱变换方法之一。本研究表明,一阶导数光谱较原始光谱与猕猴桃LCC相关性更高,敏感波段数量更多,说明一阶导数变换能更好地突出光谱特征,这与姚霞等[27]、郭松等[8]和王玉娜等[5]研究结果一致。本研究基于一阶导数光谱敏感波段构建的3类优化光谱指数与猕猴桃LCC的相关系数均高于0.93,加之前人研究表明基于一阶导数光谱构建的光谱指数在植物理化参数估算方面表现较好[28],因此本研究构建的3类优化光谱指数作为模型的输入特征是可行的。但是,本研究仅进行了一阶导数变换,未能全面捕捉猕猴桃叶片高光谱反射率的特征信息,未来研究可尝试多种光谱变换方法。

目前,Stacking集成策略已应用于植物生长监测领域[18-20],但利用Stacking算法估算猕猴桃LCC的研究尚不多见。本研究集成5种学习器,构建了基于Stacking集成学习的猕猴桃LCC估算模型,结果证明Stacking集成模型的性能优于单一模型,这与前人研究结果一致。张宏鸣等[19]基于Stacking集成学习建立了夏玉米覆盖度估测模型,R2可达0.95;Feng等[20]利用Stacking方法对苜蓿产量进行估算,模型精度在各条件下均有提升;陈志君等[29]研究表明Stacking集成策略在模拟膜下滴灌玉米的蒸散量和作物系数方面表现较好,R2分别为0.90和0.89。本研究及相关研究均表明Stacking算法能在植物理化参数估算中提高模型估测精度和泛化能力,但集成效果受基模型学习能力的影响。已有研究表明不同基模型组合的Stacking集成算法预测结果有一定差异[30],因此后续研究可对更高性能的基模型组合进行探索。

本研究仅反映了秦岭北麓壮果期猕猴桃情况,今后还需探索该方法对其他生育时期是否具有普适性;同时,冠层尺度高光谱反射率信息和猕猴桃LCC的关系亦有待深入研究。

4 结 论

1)不同叶绿素含量的猕猴桃叶片光谱反射率变化趋势基本一致,但在可见光波段(380~780 nm),高光谱反射率随叶绿素含量的增加而降低;在近红外波段(780~1 000 nm),高光谱反射率则随叶绿素含量的增加而升高。基于相关性分析和连续投影算法筛选出的原始光谱特征波段分别为533、565、697、705 nm和715 nm。

2)选取的11个传统光谱指数和构建的3类优化光谱指数与猕猴桃LCC均有良好的相关性,除红边面积和土壤调节指数(P<0.005)外,其余均通过0.001相关性检验。3类优化光谱指数与猕猴桃LCC的相关性极好,相关系数均高于0.930。传统光谱指数中与猕猴桃LCC相关性最高的是红边位置,相关系数为0.914。

3)与单一模型相比,Stacking集成模型估测精度更高,相对预测偏差(RPD=7.443)明显高于其他模型,具有极好的预测能力,可作为估算猕猴桃LCC的新方法。

猜你喜欢

反射率猕猴桃波段
影响Mini LED板油墨层反射率的因素
近岸水体异源遥感反射率产品的融合方法研究
具有颜色恒常性的光谱反射率重建
摘猕猴桃
提取猕猴桃的DNA
摘猕猴桃
化学腐蚀硅表面结构反射率影响因素的研究*
养个猕猴桃
M87的多波段辐射过程及其能谱拟合
日常维护对L 波段雷达的重要性