油茶叶片叶绿素含量高光谱估测的偏最小二乘模型参数选择
2022-02-04王芳东严志雁赵小敏国佳欣
王芳东,严志雁,赵小敏,郭 熙,周 洋,国佳欣
(1.江西农业大学 江西省鄱阳湖流域农业资源与生态重点实验室,江西 南昌 330045;2.江西省农业科学院 基地管理中心,江西 南昌 330200;3.江西省农业科学院 农业经济与信息研究所,江西 南昌 330200)
【研究意义】油茶(Camellia oleiferaAbel)作为世界四大木本食用油料植物之一,是中国南方山地丘陵地区主要经济林树种,是振兴区域经济,脱贫致富的优势产业[1]。叶绿素是绿色植物进行光合作用的物质基础,与植物生长发育及氮素状况具有良好的相关性,是评价植物长势和营养丰缺状况的重要指标[2]。及时掌握油茶叶片叶绿素含量对油茶施肥调控、丰产高效具有指导意义,快速获取油茶叶片叶绿素含量十分必要。近年来,高光谱遥感技术凭借无损害、实时等优点成为了监测叶绿素含量的重要手段[3-4]。高光谱遥感技术波段数多、数据信息量大,如何从高维数据中选择有效光谱参数是建立准确稳定估测模型的关键。【前人研究进展】国内外学者利用敏感波段、植被指数、光谱特征等高光谱参数,在估算植物叶绿素等区域生态参数方面做了大量的研究与应用[5-9]。茹克亚·萨吾提等[10]利用对数变换和1.2阶微分计算的植被指数(NDVI、DVI、RVI、MSR705、MSR670,800、CI)建立的PLSR 模型的估算精度最优。岳学军等[11]采用原始光谱及其变换形式作为模型输入矢量,在小波去噪的基础上利用PLSR 算法实现了对柑橘叶片叶绿素含量的精确估算,建模和验证R2分别达到0.87 和0.86。于汧卉等[12]利用小波系数构建的PLSR 模式反演冬小麦叶绿素的精度要高于植被指数反演,确定连续小波变换和PLSR 模式结合能对冬小麦叶绿素很好的估算。Singh等[13]利用敏感波段及构成的光谱指数在估测高粱叶绿素取得了较好的结果。洪帅等[14]分析了12 种植被指数与棉花叶片叶绿素含量的关系,并确定了多元回归模型估测棉花叶片叶绿素含量的精度要高于单指数回归模型。现有研究不断丰富了高光谱参数,为大尺度估测叶绿素含量提供了一定的科学依据。
【本研究切入点】PLSR 算法作为一种有效的统计方法被大量运用到植被叶绿素含量的估算研究中。以往研究在利用该模型时,主要以单个高光谱参数如敏感波段、植被指数、高光谱特征为模型输入,对多个高光谱参数综合建模研究较少,这导致光谱数据无法充分利用,从而影响模型精度。高光谱估测对象集中在玉米、棉花、冬小麦等大田作物,对油茶等经济作物却鲜有报道。【拟解决关键问题】本研究以南方丘陵区不同品种油茶为试验样本,利用182个叶片光谱数据,结合实测油茶叶片叶绿含量,综合比较敏感征波段、光谱指数、高光谱特征和全波谱(400~1 350 nm)4 种不同高光谱参数分别构建偏最小二乘回归模型,并进行精度验证。从多维高光谱数据深度挖掘有效高光谱参数,提高油茶叶绿素含量的估算精度,为定量遥感发展提供科学支持和参考。
1 材料与方法
1.1 测定指标与方法
1.1.1 叶片样品采集 油茶叶片采集于江西省林木育种中心油茶示范基地(28°44′~28°95′N,115°65′~116°65′E),该基地为典型的南方丘陵区,适宜油茶生长,基地油茶种植管理水平一致,油茶树龄为9 年。为获取不同含量的叶绿素油茶叶片,试验采用不同品种油茶为试验材料,于2019 年7 月25日(油茶果实膨大期)采集了江西省主推的赣石84-8、赣6、赣无2、赣70、赣兴48、赣抚20、赣68和赣无1等8个不同油茶树品种182 棵油茶的叶片,不同品种间油茶树差异明显。每颗油茶树按东、西、南、北、中5 个方位,在冠层外围各取1片充分展开、无损、无病虫害的健康顶三叶,每个方位采集3片叶,每颗树采集15片叶。
1.1.2 叶片光谱测定 油茶叶片光谱采用美国ASD公司FildSpec 4背挂型地物光谱仪进行测定,该光谱仪波段范围为350~2 500 nm,光谱分辨率分别为3 nm(350~1 000 nm)和10 nm(1 000~2 500 nm),采样间隔分别为1.4 nm(350~1 000 nm)和2 nm(1 000~2 500 nm)。测定前用脱脂棉擦拭干净叶片,用叶片夹夹住叶片中部(避开叶脉),每片叶测5次光谱,以5次光谱均值作为该叶片的光谱反射值,以15片叶的光谱反射平均值作为该棵油茶树的叶片反射率,共采集到182个光谱数据。
1.1.3 叶片叶绿素含量测定 采用分光光度法测定油茶叶片叶绿素含量。每个油茶叶片样本剪碎混匀,称取0.4 g装入25 mL浓度为99%的丙酮和无水乙醇体积比2∶1混合的萃取液。置于避光处24 h。将萃取液装入石英比色皿,测定645,663 nm处的吸光度A645和A663,利用式(1)、式(2)和式(3)计算叶绿素a、叶绿素b和总叶绿素t。
式(1)、(2)和(3)中:A663与A645分别为663 nm与645 nm的吸光度;Chla、Chlb与Chlt分别为叶绿素a与叶绿素b与总叶绿素含量,单位为mg/g。
以15片叶的叶绿素含量平均值作为该棵油茶叶片叶绿素含量,共获取182个叶绿素含量数据。
1.2 高光谱参数选择与模型构建
PLSR 集典型相关分析、主成分分析和多元线性回归分析为一体,在降低光谱分析维数的同时,从高维数据中找到影响因变量(叶绿素含量)的主控因子,使构建的模型更具有鲁棒性[15]。本研究采用PLSR模型估测油茶叶绿素的含量,选择了敏感特征波段、光谱指数、高光谱特征参数、全波谱4 种不同的高光谱参数分别作为建模输入自变量。敏感特征波段选择原始光谱的一阶微分数据与油茶叶片叶绿素含量相关性较优的波段;光谱指数参考前人研究常用的与叶绿素有关的14个光谱指数(表1),选择相关性较强的光谱指数;高光谱特征参数指基于光谱位置和光谱面积等提取的13 个特征参数[16](表2),选择与油茶叶绿素相关性较优的高光谱特征参数;由于叶绿素对叶片光谱的响应波段主要位于可见光和近红外波段,选择400~1 350 nm 波段作为全波谱输入量,输入波段数为951个。
表1 光谱指数计算公式Tab.1 Spectral index formula
表2 高光谱特征参数Tab.2 Hyperspectral characteristic parameter
1.3 数据处理
采用Viewspc pro 6.0 对原始光谱数据400~1 350 nm 范围进行重采样,采样间隔为1 nm。通过SPSS 22.0进行高光谱参数与油茶叶片叶绿素含量相关分析。利用Python3.6编程进行PLSR 模型构建,Origin-Pro 2016绘图。
综合分析油茶叶片叶绿素含量的代表性及稳定性,将182个样本按4∶1随机划分为建模集和验证集两部分,其中建模集样本数为136 个样本,验证集有46 个样本,样本统计见表3。为验证模型精度,采用决定系数(R2)、均方根误差(RMSE)、预测偏差比(RPD)作为精度评价指标。R2和RPD 越大,且RMSE 越小,说明预测效果好。当RPD<1.5时,表明模型无法对样本进行预测;当1.5<RPD<2时,表明模型只能对样本进行粗略预测;当2<RPD<2.5时,表明模型有较好的预测样本的能力;当RPD>2.5时,表明模型有很好的预测样本的能力[24]。综合建模和验证检验结果,选择出最佳估算模型。式(4)为均方根误差计算公式,式(5)为预测偏差比计算公式,
表3 油茶叶片叶绿素含量统计特征Tab.3 Statistical characteristics of chlorophyll content in Camellia oleifera leaves (mg·g-1)
式(4)中n为样本数量,ym和yp分别为油茶叶片叶绿素含量实测值与预测预期。式(5)中,STDEV 表示验证集样本实测值的标准偏差。
2 结果分析
2.1 不同油茶叶片叶绿素含量反射光谱特征
为明确不同叶绿素含量油茶叶片的高光谱特征,参照油茶叶绿素含量概率密度分布图(图1),以182 个样本叶绿素含量平均值为参考,按样本值大小分布把样本分成高(1.30~1.53 mg/g)、中(1.07~1.30 mg/g)、低(0.83~1.06 mg/g)3 个不同叶绿素含量等级。以每个等级叶片反射光谱平均值代表该等级的叶绿素含量反射光谱,形成不同叶绿素含量反射光谱,见图2。从图2 可以看出,不同叶绿素含量的油茶反射光谱曲线变化趋势基本一致,有明显的变化规律。在蓝光(490~530 nm)和红光(650~690 nm)波段范围内的497 nm 和690 nm 处出现2 个吸收谷;绿光波段(510~560 nm)范围的550 nm 处出现一个反射“绿峰”;在700~770 nm 波段范围内,反射光谱曲线急剧上升,具有陡而近于直线的形态,形成“红边”现象;在近红外区受油茶叶片内部细胞结构的控制,叶片光谱反射率表现为一个高的反射区。通过对比不同叶绿素含量叶片反射率可知,叶绿素含量不同,油茶叶片反射率大小表现不同,随着叶绿素含量的增加,在可见光范围内反射率逐渐降低,在近红外区反射率逐渐增大。整体而言,在可见光和近红外范围内(400~1 350 nm),除760~800 nm 波段外,不同叶绿素含量油茶的光谱反射率曲线变化比较明显,较为容易区分。
图1 叶绿素含量概率密度分布Fig.1 Probability density distribution of chlorophyll content
图2 不同叶绿素含量叶片反射率Fig.2 Reflectance of leaves with different chlorophyll contents
2.2 相关性分析及最优高光谱参数选择
为选出易反映油茶叶片叶绿素含量变化能力的高光谱参数,本研究对一阶导反射光谱、光谱指数和高光谱特征参数与油茶叶片叶绿素含量进行相关性分析。
2.2.1 一阶导反射光谱与叶绿素相关性分析 一阶导反射光谱与叶绿素含量相关性如图3所示。从图3可以看出,叶片叶绿素与一阶导光谱相关性较大的波段主要集中于可见光区域。在480~553 nm 和677~736 nm 2 个波段范围,两者呈极显著负相关;在554~676 nm 波段范围,两者呈极显著正相关,且在波段564 nm处两者存在最大正相关,相关系数为0.82;油茶叶片叶绿素素与波段565,568,569,570 nm的相关系数分别为0.81、0.80、0.81 和0.81,均在0.80 以上。因此,本研究选取波段564,565,568,569,570 nm 5个波段为指示油茶叶片叶绿素含量变化的敏感波段。以上述5 个敏感波段的一阶导数光谱反射率值作为模型输入自变量,构建油茶叶片叶绿素含量的PLSR估算模型。
图3 一阶导光谱反射率与油茶叶片叶绿含量的相关性Fig.3 Correlation between first-order spectral reflectance and green content in Camellia oleifera leaves
2.2.2 光谱指数与叶绿素相关分析 对光谱指数与油茶叶片进行相关性分析可知,14 个光谱指数与油茶叶片叶绿素含量的相关系数绝对值在0.06~0.74(表4)。RVI、NDVI、NPCI和BmSR705光谱指数与叶绿素含量呈正相关,相关性系数较低(P>0.01);其余的光谱指数中,除PRI指数外,DVI、SAVI、MCARI、TCARV、OSAVI、VARI、VOG2和VOG1等光谱指数均与叶绿素含量呈负相关,并达到了极显著水平(P<0.01)。通过比较相关系数发现,在所选的光谱指数中,与叶片叶绿素含量的最大负相关性的指数为TCAR,相关系数为-0.74;BmND705指数与叶绿素含量存最大正相关,相关系数达0.56。为提高模型精度,本研究选择与叶绿素含量极显著相关的DVI、SAVI、MCARI、TCARI、OSAVI、BmND705、VARI、VOG2 和VOG1 等9 个光谱指数为模型的输入变量。
2.2.3 高光谱特征参数与叶绿素相关分析 通过对原始光谱的一阶微分处理,本研究提取了包括蓝边、黄边、红边幅值、位置、绿峰反射率13个油茶叶片高光谱“三边”特征参数,对高光谱特征参数与油茶叶片叶绿素含量值进行相关分析,相关系数结果见表4。高光谱特征参数与油茶叶片叶绿素含量的相关系数绝对值在0.04~0.80,除蓝边位置(λb)外,其余的高光谱特征参数均与油茶叶片叶绿素含量呈极显著相关。油茶叶片叶绿素与蓝边内最大一阶微分值(Db)呈最大负相关,相关系数为-0.78,与黄边面积(SDy)呈最大正相关,相关系数为0.80。本研究选择呈极显著相关的Db、Dy、Dr、λy、λr、Rg、Rr、SDb、SDy、SDr、SRg和SRr 12个高光谱特征参数作为自变量,油茶叶片叶绿素含量作为因变量,建立偏最小二乘回归模型。
表4 高光谱参数与油茶叶片叶绿素含量的相关系数Tab.4 Correlation coefficients between hyperspectral parameters and chlorophyll content of Camellia oleifera leaves
2.3 基于不同高光谱参数的叶绿素含量估测
以敏感波段、光谱指数、高光谱特征参数和全波段4 种不同光谱参数分别作为自变量,构建PLSR模型,建模与验证结果见表5。从建模和验证结果看,以高光谱特征参数为自变量构建的PLSR 模型和以全波段(400~1 350 nm)为自变量构建的PLSR 模型的R2都在0.80 以上,RPD 值均大于2,RMSE 均较小,表明以高光谱参数和全波谱建立PLSR 模型都能较好的估测油茶叶片叶绿素含量,模型稳定性强,准确度高。
表5 不同高光谱参数建模与验证结果Tab.5 Comparison of different parameter modeling and verification results
利用验证样本对模型预测能力进行检验,形成实测值与预测值1∶1 拟合图,结果如图4 所示。通过系统比较以敏感波段、光谱指数、高光谱特征参数和全波段4 种不同自变量分别建立的PLSR 模型相关参数可以看出,与其他高光谱参数相比,基于全波段光谱数据(400~1 350 nm)建立的预测模型,其模型评价参数均最优,表现出了最好的预测能力;基于高光谱特征参数建立的预测模型精度参数略低于最优模型,但明显高于光谱指数和敏感波段所建立的预测模型,并接近最优模型的预测水平;基于敏感波段建立的PLSR模型预测精度表现最低。
图4 PLSR模型对实测值与预测值的1∶1拟合结果分析Fig.4 The 1∶1 fitting result of PLSR model for measured value and predicted value
3 讨论
本研究在获取油茶叶片光谱和实测叶片叶绿素含量数据的基础上,综合分析了油茶叶片一阶微分光谱敏感波段、光谱指数和高光谱特征参数不同高光谱参数与叶绿素含量的相关性,并筛选出最优高光谱参数分别作为模型输入,利用PLSR方法建立了油茶叶片叶绿素含量估算模型。
选择不同的高光谱参数作为PLSR 模型的输入,模型的估测精度有所差异。以敏感波段为自变量构建的PLSR 模型其建模R2、RMSE、RPD 分别为0.69、0.06 和1.81,验证R2v、RMSEv、RPDv分别为0.68、0.06 和1.79,该光谱参数建立的PLSR 模型预测决定系数不高,RSME 较大,其模型的样本验证RPD 值介于1.5~2.0,说明敏感波段建立的模型只能粗略的对油茶叶片SPAD 值进行预测,模型准确度和精度较低。Zeng 等[25]研究表明由于敏感波段包含的数据信息量相对太少,利用其反演植物生化参数方面存在一定的差距。
光谱指数是光谱数据经线性和非线性组合,构成的对地物有一定物理意义的各种模型,光谱指数可减少外界因素(大气状态)带来的数据误差,提高信息提取精度[26]。以光谱指数为输入自变量建立的PLSR 模型,虽能较好的预测油茶叶片叶绿素含量(RPD>2),精度比敏感波段高,但预测精度低于洪帅等[14]学者建立的模型,这与本研究采用的光谱指数是直接引用或参考前人的研究有关,忽略了光谱指数可能存在地域、植物等方面差异[27-29]。
由于植被的色素、内部组织结构、水分和干物质对光谱的吸收作用,在光谱的可见光-近红外区域形成了红谷、绿峰等明显的光谱吸收特征,这些光谱特征与植物的单位面积叶绿素含量有关[30]。提取高光谱“三边”位置、面积和幅值等12 个高光谱特征参数作为输入自变量,建立的PLSR 模型估测叶绿素含量取得了较好的效果,其建模和验证R2都在0.80 以上,建模与验证R2分别为0.81 和0.80、RPD 值分别为2.31 和2.28,且RMSE 较小,RPD 大于2,能较好的估测油茶叶片叶绿素含量。此结果与丁希斌等[31]的研究相类似,说明利用微分光谱技术来确定高光谱特征区域,将此应用到油茶叶片SPAD 值的反演是可行的。
基于全光谱(400~1 350 nm)建立的PLSR模型,其建模与验证的R2分别为0.84和0.85、RPD值分别为2.52和2.59,RPD大于2.5,与其他输入参数相比,其建立的预测模型精度最高,这可能与输入数据包含了951个波段,其包含更多有用的光谱信息有关,此结论与Wang等[32]研究结果一致。
以全波段为输入量建立PLSR 模型时,输入波段量有951 个,包含了对叶片叶绿素含量不敏感的波段,存在大量无关信息,增加了运算量,降低了模型运算速度,模型精度与稳定性也会受到影响,导致该模型的推广与应用存在弊端[33];以高光谱特征参数构建预测模型时,输入自变量只有12 个输入参数,与全波段输入量相比,减少了939 个,减少了98.73%,高光谱特征参数在490~760 nm 波长范围内选取,既考虑了单个波段反射率未反映的光谱信息,且提取了对叶片叶绿素含量敏感显著的波段,保证了模型精度与稳定性,大幅度减少了模型的运算量,提高了模型运算速度,使构建的模型更具有实用和推广价值。
油茶品种不同,同一时期叶片的叶绿素含量不一,不同生长期的叶片,其叶绿素含量也不同。本研究仅研究了南方丘陵地区油茶果实膨大期一个时期的叶片叶绿素含量值的估测模型,其模型对于其它生育阶段的适用性有待进一步验证。
4 结论
本研究采用偏最小二乘回归(PLSR)方法建立南方丘陵地区的油茶叶片叶绿素含量的高光谱预测模型,重点探讨了不同高光谱参数分别作为输入自变量用于建模和预测精度的差异,明确了利用PLSR模型估测油茶叶片叶绿素含量的有效高光谱参数。结果表明,(1)基于全波段建立的PLSR 模型预测油茶叶片叶绿素含量最优,建模R2、RMSE、RPD 分别为0.84、0.04 和2.52,验证R2、RMSE、RPD 分别为0.85、0.04和2.59。(2)基于高光谱特征参数建立的PLSR模型预测效果略低,建模与验证R2分别为0.81和0.80,RPD 值分别为2.31 和2.28,能较好的估测油茶叶片叶绿素含量,与全波段相比其输入量降低了98.73%,减少了模型运算量,提高了模型运算速度,更适合应用推广。(3)以敏感波段与光谱指数所建立的PLSR模型预测油茶叶绿素含量效果表现较差,其预测R2分别为0.68和0.75,模型稳定性不强、准确度不高。