甘蓝型油菜叶绿素荧光参数的高光谱预测
2023-10-19曹正邓渊文双雅高志强
曹正邓渊, 文双雅, 高志强
(湖南农业大学农学院,湖南长沙 410128)
油菜是我国第一大植物油源,每年可提供约520万t优质食用油。冬油菜作为越年生植物,可以使耕地在冬季能更有效地利用起来,增加土地利用效率,使农民在农闲期也有收入。叶绿素荧光参数可反映植物光合作用机理和光合生理状况,是作物逆境胁迫研究中的重要指标,同时作为植物与环境之间的纽带,对于研究植物光合作用与环境之间的关系具有重要意义[1]。其中,Fv/Fm表示为光系统Ⅱ(PSⅡ)中的最大光量子产量,对于研究作物生理变化和逆境胁迫具有重要意义[2]。胡能兵等利用Fv/Fm在不同胁迫时间和PEG浓度下的变化差异进行耐高温胁迫育种研究[3];Poudyal等为了实现在生长发育前期对番茄的耐热性进行监测,通过Fv/Fm,针对高温胁迫条件下的耐热性,对不同基因型番茄进行筛选[4];王淦等用Fv/Fm监测了木薯在干旱胁迫下受到的影响,结果表明,品种的抗旱性越强,Fv/Fm的下降速度越慢,并且会延后内源乙烯含量的上升时间[5]。
在不同的研究中,使用叶绿素荧光仪对荧光参数进行测定时,根据不同标准,有5、10、15、20、30 min 等[6-10]。在目前Fv/Fm监测手段中,Fm作为光系统Ⅱ(PSⅡ)反应中心完全关闭时的荧光产量,通常需要叶片经过20 min暗适应才可测得[11],监测速度较慢,时间成本上升。同时,可监测叶绿素荧光参数的监测仪器造价高昂,很多科研人员难以承担。这2个方面的不足大大阻碍了叶绿素荧光参数Fv/Fm的研究。因此,如何在快速无损且低成本的前提下精确监测Fv/Fm是一个亟待解决的科学问题,具有重要的现实意义。
光谱技术由于具有无损、快速、精度高等优点,目前已被广泛应用于各类作物生理状态的监测中[12-13]。例如,谭昌伟等通过分析高光谱植被指数与紧凑型玉米整个生育期的Fv/Fm相关关系,建立了相应的高光谱监测模型,结果表明,Fv/Fm与所选的植被指数呈极显著正相关;其中,基于相关系数最高的结构敏感色素指数(SIPI)所建立的监测模型的决定系数(R2)达到0.812 6,均方根误差(RMSE)达到0.082[14]。Zhang等用植被指数对不同盐度海滩的盐地碱蓬叶片叶绿素荧光参数的相关性进行了回归分析,结果表明,680 nm和935 nm是叶绿素荧光最敏感的高光谱波段,其中,植被指数(R680 nm-R935 nm)/(R680 nm+R935 nm)和(R680 nm/R935 nm)具有较高的相关系数和较低的均方根误差,进而对Fo、Fm、Fv/Fm等多种叶绿素荧光参数进行了预测[15]。由此可见,利用光谱反射来对Fv/Fm进行预测是可行的,但由于使用植被指数进行预测模型的构建时,其拟合公式固定而导致模型的精度不高,而通过机器学习进行预测模型的构建是提升模型精度的一个重要途径。
基于此,本试验采集甘蓝型油菜薹期叶片的光谱和叶绿素荧光参数Fv/Fm,分别使用Savitzky-Golay卷积平滑(SG)、标准正态变换(SNV)和多元散射校正(MSC)组成3种方法对原始光谱进行预处理,然后通过竞争性自适应重加权算法(CARS)挑选特征波段,进而建立并对比偏最小二乘回归(PLSR)、支持向量回归(SVR)和径向基神经网络(RBFNN)3种预测模型的精度,甄选出精度最高的建模方法,从而为高光谱快速无损监测Fv/Fm提供技术支撑以及为实时监测油菜生理状况提供方法路线。
1 材料与方法
1.1 试验设置及供试材料
试验全程均在面积为20 hm2的湖南农业大学浏阳教学科研综合平台基地(28°30′N,113°84′E)进行,试验时间为2021年9月至2022年5月。供试材料为湘杂油787,为湖南农业大学农学院油菜育种团队选育的甘蓝型中熟杂交油菜品种,是湖南省主推的种植品种。播种时间为2021年9月29日,收获时间为2022年5月6日。播种方式采用直播,播种时统一施用复合肥(氮磷钾有效营养配比为 18 ∶ 12 ∶ 10),主区因素P为播种量,设3个水平,分别为高密(P1:4.608 kg/hm2)、中密(P2:3.456 kg/hm2)和低密(P3:2.304 kg/hm2);裂区因素B为施肥量,设3个水平,依次为低肥(B1:300 kg/hm2)、中肥(B2:600 kg/hm2)和高肥(B3:900 kg/hm2)。一共设置9个处理,进行4次重复,共计36个小区,各小区的面积为258 m2(86 m×3 m),每小区施硼砂16.5 kg/hm2。
1.2 数据采集
本研究在2022年2月26日对油菜叶片叶绿素荧光参数、叶片反射率数据进行采集。在样本小区中心位置各选取3株具有代表性的冬油菜植株,选取1张完全展开的绿色叶片,分别测量其光谱反射率和叶绿素荧光参数。用美国ASD-FieldSpec 3地物波谱仪完成叶片光谱反射率的采集,选用的光谱范围为350~2 500 nm,光谱分辨率为3nm @ 350~1 000 nm、10 nm @ 1 000~2 500 nm。首次使用需预热15 min,测试每个样品前都进行白板定标。每个样品重复测量5次,将5次数据进行平均后得出的平均反射率作为该样品的实际光谱反射率。一共采集540条原始光谱数据,平均后得到108条实际光谱反射率。
叶绿素荧光参数的收集采用捷克PSI-FluorPen-FP110手持式叶绿素荧光仪。每张叶提前进行20 min暗适应,仪器夹在叶片上进行测量,要确保地物波谱仪和叶绿素荧光仪所测量的为同一叶片位置,且叶绿素荧光参数与叶片光谱反射率的获取时间间隔不超过10 min;然后使用FlourPen导出所测得的初始荧光Fo和最大荧光产量Fm参数值,进而通过计算得到108条Fv/Fm。Fv/Fm的数学公式如下:
Fv/Fm=(Fm-Fo)/Fm。
(1)
1.3 数据分析方法
由于高光谱数据存在严重的共线性和冗余干扰信息,因而需要在全波段的基础上进行光谱预处理和特征波段提取[16-17]。本试验所有计算均通过Matlab 2018a编辑代码完成,绘图均使用Origin 2021。使用SG平滑进行第1次预处理。SG平滑是在移动平滑的基础上进行改进,其原理为:假设存在一个拟合点xk,在xk的左右两侧各自选取m个数据点,将选取的2m+1个数据点进行多项式拟合,当数据点的实际值与拟合值差值的平方和最小时完成拟合,完成后将xk进行平移,重复相同的计算,使整条曲线最终趋于平滑[18-20]。然而在叶片光谱的采集过程中,由于所采集叶片上颗粒不同或者光的散射水平不同,导致所采集光谱信息中出现大量冗余甚至错误的信息,因此需要对原始光谱信息进行散射校正。MSC通过计算得出的平均光谱作为“理想光谱”,通过一元线性回归,将原始光谱向着“理想光谱”平移、靠拢,从而提升光谱信息的准确性。而SNV则是对每条光谱曲线完成标准正态化,从而修正散射带来的误差。SNV与MSC主要是算法上的差异,而二者共同的优势都是不会改变光谱曲线的趋势即样品对光谱的吸收信息,保存了原始信息的完整性。本研究分别使用SG平滑、SNV和MSC进行光谱的预处理,使用竞争自适应重加权采样法(CARS)对波段中的特征波长进行提取,该算法是将蒙特卡洛采样与PLSR模型回归系数相结合的特征变量筛选方法。筛选特征波长后通过Kennard-Stone(KS)算法划分训练集和测试集,通过PLSR、SVR和RBFNN 3种不同算法进行模型构建,采用R2、RMSE和相对分析误差(RPD)3个参数对模型精度进行评估。R2的取值范围为0~1,数值越接近1且RMSE越小,说明预测模型的精度越高。而RPD通过判断预测值与实测值之间的偏离情况,对模型的预测能力进行说明,若RPD≤1.5,模型无法对样本进行预测;若1.5 (2) (3) (4) 本试验的108条Fv/Fm数据经过整理后的结果如表1所示。以0.05为差值,将Fv/Fm分为 0.65≤Fv/Fm<0.7、0.7≤Fv/Fm<0.75、0.75≤Fv/Fm<0.80、0.80≤Fv/Fm<0.85这4个区间,并挑选出每个区间所对应的原始光谱数据计算该区间平均光谱曲线,结果如图1所示。由图1可知,4个区间的原始光谱曲线趋势基本一致,皆在550 nm附近出现反射峰,在680 nm附近出现吸收谷,但在 580~680 nm附近,4条曲线出现一定程度的差异,反映了Fv/Fm越高、光谱反射率越低的规律。这可能主要是叶绿素荧光光谱范围为640~800 nm的叶绿素荧光参数更为敏感[23];同时,由于Fv/Fm与相同环境下光合速率存在正相关关系[24],Fv/Fm值高的样本,对光能的吸收率越大,对太阳辐射的反射越少,从而导致在叶绿素吸收波范围内原始光谱曲线反射率相比Fv/Fm值低的样本更低。 表1 光系统Ⅱ最大光化学产量Fv/Fm 本试验在SG平滑的基础上各使用SNV和MSC进行散射校正,即使用SG、SG-SNV和SG-MSC 3种预处理方法对获取的原始光谱数据进行预处理,3种预处理方法中SG的多项式阶数均设置为2,平滑窗口大小设置为11,结果如图2所示。图2-c和图2-d相比图2-a对光谱曲线的散射差异有明显优化,同一波段下不同样本的反射率差异变小。由于SG仅完成对谱线的平滑,因此相对于原始光谱无明显变化。 在完成对原始数据的平滑和散射校正后,使用CARS对处理后的3组光谱进行特征波段的选取,CARS中主成分数设置为25,交互验证次数为5,筛选波长数为50。由图3可知,SG、SG-SNV、SG-MSC 3种预处理方法分别在400~1 000 nm范围内筛选出10、24、20个特征波段。图3-a中,10个特征点均在可见光范围(400~780 nm)内,且主要集中在400~450 nm。图3-b中,特征点主要集中在400~450 nm和550~650 nm,在该范围内存在多个影响植物光合作用的叶绿素a、叶绿素b和类胡萝卜素等光合色素的吸收峰[25]。图3-c中,特征点主要集中在400~500 nm和950~1 000 nm,有1个特征点位于747 nm处,而叶绿素荧光光谱在 690 nm 和740 nm附近存在2个波峰[23]。 将上述3种预处理方法通过CARS算法筛选出的10、24、20个特征点分别作为自变量x输入,使用PLSR、SVR和RBFNN构建Fv/Fm预测模型,结果如表2所示。 表2 不同算法下的模型结果 由表2可知,在3种预处理方法下,SG-SNV和SG-MSC相较于SG,模型精度有较大提升;在SG-SNV和SG-MSC中,SVR和RBFNN 2种基于机器学习构建的模型,从精度上相比于PLSR也有较大提升,这主要是因为机器学习的非线性拟合能力相对更强[26]。其中,RBFNN的建模精度略大于SVR,效果最优为SG-SNV中的RBFNN,训练集R2为0.928 8,RMSE为0.008 8;测试集R2为0.907 2,RMSE为0.011 5,RPD为3.417 6,模型对样本的预测能力极好。将该模型得出真实值与预测值进行拟合,结果如图4所示。由此表明,本试验所使用的预处理方法可以有效去除光谱数据中的噪声,且利用RBFNN模型对Fv/Fm有较好的预测效果。 本研究结果表明,基于机器学习所构建的模型相比PLSR模型有显著效果。在李斌等的研究中,以SNV-CARS-SPA-SVR建立的Fv/Fm预测模型精度最高,其测试集R2为0.911 7,RMSE为0.010 8[27],也证明了机器学习能有效提高模型对Fv/Fm的预测能力。 RBFNN作为机器学习算法中的一种,是一种性能优良的前馈性神经网络,具备优秀的自学能力,对非线性问题有较强的映射能力,在农业领域获得广泛应用。刘占宇等用主成分分析将一阶微分光谱压缩,把得到的主分量光谱输入RBFNN,对病害严重度进行预测,得出的RMSE为7.73%,结果证明可以对胡麻斑病导致的水稻病害程度进行快速准确的预测[28]。冯旭萍等在鉴定CRISPR/Cas9诱导水稻突变体的研究中,通过二阶导数对特征波长进行提取,输入RBFNN模型,其建模集和验证集的分别达到了92.25%和89.5%,表明使用高光谱成像技术结合化学计量学方法,鉴别水稻CRISPR/Cas9突变体是可行的,为快速准确地鉴定水稻育种中大量突变体提供了理论基础[29]。 本研究基于高光谱技术,仅对薹期甘蓝型油菜叶片Fv/Fm进行预测,在后续的试验中应对油菜全生育期进行预测并对比,筛选出用于Fv/Fm预测的最佳时期。张永江等报道玉米同一叶片中不同部位Fm、Fv/Fm的参数值有显著差异[30]。因此,甘蓝型油菜叶片不同位置Fv/Fm差异性,应加入到未来的研究方向中。同时模型的普适性还需要进行验证,需进一步完成对模型的优化,探索可用于Fv/Fm预测的最佳模型,为甘蓝型油菜实时监测提供更有力的技术。 本研究以甘蓝型油菜薹期植株作为材料,采集叶片光谱与对应的叶片Fv/Fm,通过SG、SG-SNV和SG-MSC 3种方法完成对原始光谱的预处理,结果表明,SG-SNV和SG-MSC 2种方法对原始光谱曲线有明显优化。运用CARS算法完成特征波长的选取,基于3种预处理方法,分别筛选出10、24、20个特征点,进而将所筛选的特征波长作为自变量x,输入完成PLSR、SVR和RBFNN 3种预测模型的构建。本研究结果表明,在上述3种构建的模型中,SG-SNV-RBFNN的精度最高,该方式下建立的预测模型训练集R2为0.928 8,RMSE为0.008 8,测试集R2为0.907 2,RMSE为0.011 5,RPD为3.417 6。2 结果与分析
2.1 Fv/Fm与原始光谱曲线分析
2.2 光谱预处理及基于CARS算法的特征波段筛选
2.3 模型的构建与分析
3 讨论与结论