APP下载

基于RF-VR的紫丁香叶片叶绿素含量高光谱反演

2021-11-27肖志云王伊凝

浙江农业学报 2021年11期
关键词:紫丁香波段叶绿素

肖志云, 王伊凝

(内蒙古工业大学 电力学院,内蒙古机电控制重点实验室,内蒙古 呼和浩特 010051)

绿色植物的生长过程离不开光合作用,叶片叶绿素含量及其动态变化与光合作用能力密不可分,检测叶片叶绿素含量,对植物的长势监测和精准农业的实施具有重要意义[1-3]。目前叶绿素含量测定方法主要分两种:化学测定法[4]需要破坏植物样本,耗时且费力;SPAD(soil plant analysis development)叶绿素测定仪通过测量叶片对两个波段(红波段和近红外波段)的吸收率,计算当前叶片中叶绿素的相对含量,但其只可实时测出局部点光谱对应的SPAD值,无法反映整张叶片各像素点的叶绿素分布差异,对仪器精度有很高的依赖性。叶绿素含量的变化会引起植物反射光谱特征的变化。高光谱技术[5]具有图谱信息合一的优势,既可以利用多波段光谱对叶片叶绿素含量进行定量反演,又可以利用图像像素点分布进行叶绿素分布可视化研究,这就为利用高光谱技术获取植物生化参数提供了理论基础,但由于高光谱所含波段数量大,波段间相关性强导致数据中冗余信息增多,当下关键问题是,对高维的高光谱数据降维,达到简化模型的目的,同时保持甚至提高模型的预测能力。

早期学者们利用相关性分析法[6-8](correlation analysis,CA)探究植物生理参数与其光谱反射率(或经不同数学变换后的光谱反射率)的关系,选取相关系数高的波段作为敏感波长。但其只考虑了单波段与植物生理参数间的相关性,未考虑各波段间的共线性,难以解决光谱数据的冗余问题,而且所选波段较集中,只考虑某一段波长范围的重要性,未考虑到其他波段,造成光谱数据的浪费。而后学者们尝试采用敏感变量优选方法[9]从全波段内剔除无关变量,优选出敏感变量,减少数据量从而简化模型。常用的变量优选方法包括竞争性自适应重加权算法(competitive adaptive reweighted sampling,CARS)、无信息变量消除算法(uninformative variable elimination, UVE)、移动窗口偏最小二乘法(moving window partial least square ,MWPLS)等。Li等[10]通过小波变换结合UVE技术简化模型并提高了偏最小二乘回归(PLSR) 模型预测的稳定性。赵艳茹等[11]、邵园园等[12]利用CARS方法筛选敏感波段,简化模型后得到比全波段还要高的PLSR预测精度。结果表明,对原始光谱进行敏感波段优选既可以降低模型复杂度,又能很好地提高模型的精度和稳定性。随机蛙跳算法(random frog,RF)通过在特征空间模拟一条平稳分布的马尔科夫链来计算每个变量被选择的概率,从而进行重要变量的筛选,被证明是一种较优的变量优选算法。如龙燕等[13]利用连续投影法(SPA)结合RF优选出最佳波段,用于建立偏最小二乘回归模型(PLSR)预测番茄的硬度;孙红等[14]用CA和RF算法筛选到的敏感波段建立PLSR模型,结果表明,相比于CA法,RF算法筛选的敏感波段分布范围更广且对马铃薯叶片含水率预测性能更优;孙红等[15]基于马铃薯叶片成像高光谱数据,利用RF-PLSR模型反演出不同位置叶片逐像素点的叶绿素值。研究中大部分使用线性回归(LR)、神经网络(NN)、偏最小二乘回归(PLSR)等算法来建立回归模型,各模型均有其特点和优势,因为PLSR可有效解决高光谱数据波段间的共线性和信息冗余问题[16-18],应用最为普遍。随着机器学习方法[19]日渐成熟,被广泛应用于高光谱反演中。金秀等[20]优选并组合了4个单模型,对集成算法进行了优化,结果显示梯度提升树算法(GBT)对土壤磷含量的预测精度最高。研究表明,采用机器学习算法可有效提高植物生理参数反演精度,明显优于传统方法,但将机器学习方法融合的建模方法并不多见,与单个机器学习建模算法相比,融合建模方法对异常值和噪声的敏感度更低,预测稳定性能更优。

本研究利用高光谱成像技术获取紫丁香叶片光谱信息,针对叶片叶绿素含量基于随机蛙跳(random frog,RF)方法筛选敏感波段,建立具有低复杂度和高稳定性的投票回归器(vote regressor,VR) 模型,并与全波段以及其他经典变量提取方法筛选出的敏感波段建立的偏最小二乘回归(partial least squares regression,PLSR)和投票回归(VR)模型的预测结果进行比较,同时结合伪彩色技术绘制紫丁香叶片叶绿素含量可视化分布图,探索RF算法结合VR模型快速估测叶片叶绿素含量的可行性,以期为大面积监测紫丁香冠层叶片养分分布和生长状况提供技术支持。

1 材料与方法

1.1 试验样本

实验对象为紫丁香,研究区选定在内蒙古工业大学校园内(呼和浩特市),研究对象为2020年5月采集于开花期的紫丁香叶片。根据校园紫丁香树的分布情况,同时保证实验结果具代表性,在每棵紫丁香树的东、西、南、北四个方位,随机采集100个完整无损叶片样本入袋密封并编号,后带回实验室低温冷藏的同时进行实验测定。

1.2 丁香叶片高光谱图像信息获取

本文采用芬兰Specim IQ高光谱成像系统,一款带有集成操作系统和控制装置的手持式扫帚系统,采集丁香叶片光谱成像数据,结构如图1所示,该系统主要由高光谱相机、可控载物台、植物叶片样品、2个卤素灯电源、计算机及相应配套控制软件组成。高光谱相机摄像头分辨率为512×512像素,光谱范围为400~1 000 nm,光谱分辨率为7 nm,设置载物台和镜头之间的距离为20 cm,系统曝光时间为15 ms,为消除基线漂移须测量前预热20 min,然后将已编号丁香叶片放于载物台正对相机,最终得到一个同时包含图谱信息的三维数据块。

1,样品;2、3,卤素电源;4,可控载物台;5,高光谱相机;6,数据传输线;7,计算机;8,三脚架。1, Leaf sample; 2, 3, Light source; 4, Storage platform; 5, The Specim IQ hyperspectral camera; 6, Transmission data line; 7, Computer; 8, Tripod.图1 高光谱成像系统Fig.1 Hyperspectral imaging monitoring system

在数据采集实验过程中,光照强度不均匀或暗电流等因素都会对实验结果产生影响,故需要对采集好的高光谱图像进行黑白板校正,最终得到校正后的原始光谱数据Rraw,校正公式如下:

(1)

式中:Rraw为黑白板校正后图像数据;W为白板数据;B为黑板数据;I为原始图像数据。

1.3 叶绿素含量测定

本文采用手持式植物参数检测仪对划分区域进行无损检测,以SPAD值作为叶绿素含量参考指标[21]。测量时避开叶脉和不平整区域,每片叶片主叶脉左右各选取3个感兴趣区域(ROI),并对3个感兴趣区域求平均,每片叶子可得2个SPAD值,最终通过对100个丁香叶片样本的测量,获得200个SPAD值。在测定SPAD值过程中对测量区域用马克笔标记测量范围并编号,以便获取相应位置光谱。

1.4 光谱预处理

卷积平滑(savitzky golay,SG)滤波算法可以减少噪声干扰,使光谱曲线更加平滑。光谱微分技术(spectral differentiation technology)通过计算光谱的n(n取1,2,3,…)阶微分值来确定光谱曲线的极值点选取光谱响应波段。应用光谱微分技术能够消除大气效应和植物背景的影响,将光谱曲线间的微小差异放大,可以更明显地反映出不同叶绿素含量的植物的光谱响应差异。故在波段筛选和建模前,选用卷积平滑(SG)和二阶微分处理(second derivative,SD)对原始光谱数据进行预处理[22-23],获得SG-SD预处理后的叶片光谱反射率RSG-SD。

1.5 基于RF的特征波长提取方法

作为一种高效降维方法,随机蛙跳[24-25](random frog,RF)算法在特征空间建立一条具有平稳分布特性的马尔科夫链,计算得到一个一维概率矩阵,每个概率值代表每个波段被选择的概率大小。相比较于经典变量优选算法,该算法具有随机搜索的特性,能够利用较少的变量迭代建模。RF算法主要的运算步骤包括以下4步:

(1)输入一个初始波段子集F0,初始化时包含K个随机波段,设定迭代次数N;

(2)在原始波段子集F0基础上选出一个候选波段子集F*,包含K*个波段;对初始波段子集F0建立PLS模型,计算并降序排列各波段的绝对回归系数:若K*=K,则F*=F0;若K*K,前Q个波段构成候选子集F*;

(3)选择F*替代原波段子集F0,迭代N次后完成计算;

(4)计算N次迭代后每个波段被选择的概率值,此概率值大小被作为变量是否被选取的标准,概率值越大说明此波段越被优先筛选。

1.6 基于VR的叶绿素含量预测方法

本研究提出的投票回归器(vote regressor,VR)[26]是一种分步非参数方法,融合了线性模型和非线性模型两大类建模方法,与传统回归模型和单个机器学习算法相比,能更好地处理偏离点和噪声,平衡它们各自的弱点。建模流程如图2,具体运算步骤如下:

图2 投票回归器算法流程图Fig.2 Voting regression algorithm flow chart

(1)多元线性回归(multivariate linear regression,MLR)通过最小化误差平方寻找最佳拟合函数预测叶绿素含量fMLR。

(2)利用梯度提升回归(gradient boosting regression,GBR),通过串行地生成多个弱学习器,来拟合各分类器先前累加模型的损失函数的负梯度,使加上该弱学习器后的累积模型损失往负梯度的方向减少来预测叶绿素含量fGBT。

(3)利用随机森林回归[27](random forest regressor,RFR)模型,以决策树为基学习器构建Bagging,在生成树的时候, 每个树的每个节点都是随机生成的,每个节点的拆分变量由少量随机选择的变量生成,形成多个决策树,对结果取平均可得叶绿素含量的预测值fRFR。

(4)计算并返回三者的平均预测值,最终模型对叶绿素含量预测结果如式(2):

(2)

建立定量分析模型后,需选择有效评估模型预测能力的指标,本研究选用决定系数R2进行模型的评估,R2值在0和1之间,值越接近1,表明预测精度越高。本文数据处理与建模在Matlab2016和Python3.7软件中完成。

2 结果与分析

2.1 丁香叶片光谱曲线分析

本文利用ENVI5.3提取丁香叶片编号区域的平均光谱值。Rraw曲线走势总体符合绿色植物叶片的光谱响应特性(图3-A),主要特征包括在可见光的绿波段对叶绿素的强反射现象导致出现“波峰”现象,由于可见光红波段对叶绿素的强吸收现象导致出现“波谷”现象,且在近红外区(750~800 nm)光谱反射率急剧上升后不再变化,形成近红外强反射平台。从图3-B中可以看出,Rraw经SG-SD预处理后,由叶绿素含量差异导致的光谱曲线的等级差异得到有效消除,光谱曲线的微小细节特征被放大了。

图3 紫丁香叶片样本原始光谱曲线Rraw(A)和预处理后光谱曲线RSG-SD(B)Fig.3 original spectral curve Rraw (A) and pretreated spectral curve RSG-SD (B) of syringa oblata leaves

2.2 丁香叶片SPAD值统计

200条样本SPAD值的分布范围在18.3~44.3,平均值为32.4,其中SPAD值主要集中在22.9~41.3,采用SPXY(sample set partitioning based on joint X-Y distance)算法将200个样本中160个样本划分为建模集,其余40个划分为验证集,它是基于统计学角度的一种样本集划分方法,综合考虑光谱和化学性质的差异来选择建模集,划分结果如表1所示。

表1 样本SPAD值统计与划分

2.3 特征波长筛选

2.3.1 CA、CARS、MA-UVE、MWPLS算法特征变量筛选

全波段光谱数据量大且波谱间信息重叠现象严重,需要进行敏感波段优选以简化模型提升模型效率。本研究利用随机蛙跳算法(RF)和相关系数法(CA)、自适应重加权算法(CARS)、无信息变量消除算法(UVE)、移动窗口偏最小二乘法(MWPLS)进行敏感波段的筛选,而后对其筛选结果进行建模,并对比和分析其建模精度。图3为CA、CARS、UVE、MWPLS算法从SG-SD光谱数据中提取的特征波长在一条原始光谱曲线上的分布。

基于CA算法从RSG-SD中提取出相关系数绝对值大于阈值0.8的31个波段(图4-A),CA算法的优点是计算简单,计算公式直观且比较容易理解,但其选择的特征波长较集中,所选敏感波段集中在485~710 nm,如果只考虑此段波长范围的重要性,难以解决光谱数据的冗余问题,未考虑到其他波段,造成光谱数据的浪费。

基于CARS算法从RSG-SD中共选择29个波段(图4-B),所选敏感波段集中在420~690 nm、800~920 nm,CARS算法选择的敏感波段不稳定,而且存在大量冗余信息,这些无用信息会影响重要变量的优选。

图4 CA(A)、CARS(B)、UVE(C)和MWPLS(D)算法筛选变量分布图Fig.4 Distribution map of variables selected by CA(A), CARS(B), UVE(C) and MWPLS(D) method

基于UVE算法从RSG-SD中筛选敏感波段,通过交叉验证,RSG-SD的变量个数为40个(图4-C)时,模型精度达到最高,所选敏感波段集中在420~620 nm、700~750 nm、800~1000 nm。UVE可以尽可能消除无用波段,但其并未确定对紫丁香叶绿素敏感性强的波段,计算量大,耗时长,且筛选出的变量建模精度相对较低。

基于MWPLS 算法筛选最优波段区间,但本研究中其筛选出波段数量为190个(图4-D),所选区间为420~980 nm,只剔除掉14个波段,未解决光谱数据冗余问题。

2.3.2 RF算法特征变量筛选

随机蛙跳(random frog,RF)算法与PLSR方法相结合,计算PLSR模型中所有变量的回归系数,将各变量绝对值大小作为迭代过程中每次该变量是否被选择或者提出的依据,后基于不同的波长点具有不同的概率值进行敏感波段的选择,运行结果如图5-A,横轴代表波段,纵轴代表某波段被选择的概率值,概率值越大说明该波段越重要。设定0.3作为叶片叶绿素含量对应的筛选敏感波段的阈值,最终基于Rraw和RSG-SD分别筛选出49个和35个敏感波段,图5-B为RF算法对RSG-SD筛选出的35个敏感波段在一条原始光谱曲线上的分布状况,分布在420~450 nm、500~590 nm、620~650 nm、700~800 nm、850~900 nm、950~1 000 nm。RF算法既降低了波段间的多重共线性,又能更全面地提取与叶绿素含量相关的敏感波段,所选出的波段范围更分散,跨度更广。

图5 RF运行结果每个波段被选择概率(A)和波长筛选结果(B)Fig.5 Results of of RF, Probability of each wavelength selected (A) and wavelength selected results (B)

2.4 PLSR建模

表2 不同变量筛选方法PLSR建模精度

2.5 VR建模

基于RF、CA、CARS、MWPLS和UVE算法选择出的敏感波段和全波段(FULL),对Rraw和RSG-SD建立VR模型。表3中可看出,经SG-SD处理后的光谱数据的建模精度较原始光谱数据均有不同程度提高,但对RSG-SD建立的CA-VR、RF-VR、CARS-VR、UVE-VR、MWPLS-VR模型的精度相比于FULL-VR模型提高不多,各精度值相差微小,说明采用VR建模对于叶绿素含量预测精度的提高效果不大,但建模过程中输入的波段数却大大减少,表明VR模型可以更好地解决变量间复杂的非线性关系,VR模型对异常值和光谱噪声的敏感度更低,使模型预测稳定性能更优。在建模前对原始光谱数据进行预处理和敏感变量筛选,在保证模型预测度的同时大大降低了模型的复杂度。图7为对RSG-SD建立RF-VR模型后建模集和验证集样本叶绿素含量实测值和预测值的散点图。

图6 RF-PLSR模型预测值和实测值散点图Fig.6 Scatter diagram of predicted and measured values for the RF-PLSR model

表3 不同变量筛选方法VR建模精度

图7 RF-VR模型预测值和实测值散点图Fig.7 Scatter plot of predicted and measured values for the RF-VR model

2.6 紫丁香叶片叶绿素含量分布反演图

由上得, RF波段优选算法结合VR模型可有效预测紫丁香叶片上各个像素点的叶绿素含量。具体步骤如下:

(1)获取敏感波段下的纯紫丁香叶片高光谱图像;

(2)提取图像每个像素点的反射率;

(3)将(2)中结果代入RF-VR模型中求出各像素点SPAD值,得到灰度图像;

(4)利用伪彩图技术将灰度图转化为彩色图,得到紫丁香叶片叶绿素分布图(图8)。

图8可以直观地看出紫丁香叶片上叶绿素的分布情况,伪彩色图中颜色的差异和相同颜色深浅程度差异代表了紫丁香叶片中叶绿素浓度的差异。图中,叶脉两侧叶绿素分布均匀,叶脉部分主要显示为蓝色(SPAD值为10~20),叶肉部分主要显示为绿色(SPAD值为20~40),叶肉中的叶绿素含量较叶脉整体偏高。叶片首端颜色主要显示红色(SPAD值为40~50),叶片末端显示黄色(SPAD值为30~40),首端叶绿素含量高于末端。图中叶片外黑色区域为数据采集背景,叶片内黑色区域是由于叶片边缘光照强度不均匀或阴影导致,故不可代表此区域SPAD值。总之,最终根据RF-VR模型比较准确地预测出了叶片叶绿素含量分布。

3 结论

综上,利用高光谱成像技术结合光谱预处理技术和RF-VR模型能够较好地对紫丁香叶片叶绿素含量反演和叶绿素分布可视化表达。但仍存在不足,本实验数据仅采集于紫丁香开花期,未考虑本模型是否同样适用于紫丁香其他时期,采样范围也局限于校园内。因此,今后应扩大采样范围和采样时段以期提升模型精度和普适性。

猜你喜欢

紫丁香波段叶绿素
Ku波段高隔离度双极化微带阵列天线的设计
最佳波段组合的典型地物信息提取
新型X波段多功能EPR谱仪的设计与性能
紫丁香
最佳波段选择的迁西县土地利用信息提取研究
提取叶绿素
人教版小学语文二年级上册第5课《一株紫丁香》教学设计
锌对白菜和香葱叶绿素含量的影响研究
绿茶保存要精心
紫丁香