基于BiPLS-CARS-PLS的哈密瓜冠层叶片SPAD值反演建模

2022-10-26郭俊先李雪莲

浙江农业学报 2022年10期

郭阳，郭俊先，史勇，*，李雪莲，黄华

(新疆农业大学 a. 机电工程学院；b. 数理学院，新疆乌鲁木齐 830052)

光合作用是作物产量的根本来源，叶片是植物进行光合作用的主要器官，而光合作用强弱主要与叶绿素相关，同时光合作用越强植物长势越好，这使得叶片叶绿素含量会影响植物生长和营养水平。传统方法是采用化学方法在实验室内测定叶片叶绿素a和叶绿素b等元素，但这种测量方法具有破坏性、费时费力等缺点；研究发现，使用SPAD叶绿素仪测定的结果与化学方法获得的结果相关性很高，这表明可以用叶绿素相对含量(SPAD值)来表征叶绿素含量，但叶绿素仪的检测普遍存在费时，以及在大田检测的使用中精度受天气和光照强度的影响等问题。因此，利用光谱分析技术可以为大田哈密瓜冠层叶片SPAD值预测提供一种新的研究思路。

目前，近红外光谱已经成为在工农业生产过程质量监控领域中不可或缺的重要分析手段之一，这与该技术具有的本质特点是分不开的，主要包括测试方便、仪器成本低、分析速度快等特点，利用近红外光谱可以实现对待测目标的理化指标和理化性质进行无损检测。光谱技术在植物叶绿素的无损测定中同样应用广泛。例如闫明壮等采用光谱和图像纹理特征融合技术检测绿萝叶片的叶绿素含量，其建立的模型校正集决定系数为0.961 2，预测集决定系数为0.957 1。刘宁等在比较过随机森林(RF)、竞争性自适应重加权采样算法(CARS)、蒙特卡罗无信息变量消除算法(MU-UVE)3种特征筛选算法后，发现RF筛选的特征波长变量能够较全面地反映马铃薯叶绿素的相关信息，最优的结果为0.786，交叉验证均方差(RMSECV)为3.145。李雪等利用CARS对经过一阶求导和标准正态变换预处理过的光谱数据进行特征筛选，然后结合偏最小二乘算法(PLS)建立了油菜籽叶绿素的定量预测模型，结果表明，该模型可以准确预测，决定系数为0.944 6，RMSECV为1.36。吴文强等基于PCA-BP神经网络算法对桃树叶片SPAD值的预测研究效果非常显著，模型的预测精度最高可达到0.974。陈晓等提取光谱全波段的前5个主成分，然后分别结合多元线性回归和BP神经网络建立甘蔗叶片叶绿素的预测模型，最终预测精度为0.892。康丽等运用CARS、主成分分析(PCA)选取特征变量，然后分别结合PLS、支持向量回归(SVR)、BP神经网络(BPNN)构建了水稻叶片SPAD值估测模型，通过对比分析得出最优模型为PCA-BPNN，其预测集决定系数为0.808 2。王璐等使用CARS、PCA、连续投影算法(SPA)对经过预处理的大豆冠层叶片光谱数据进行特征波长的提取，将提取的特征波长作为输入变量分别结合偏最小二乘回归(PLS)和多元线性回归(MLR)建立冠层叶片SPAD定量分析模型，对比模型效果表明CARS-MLR效果最佳，其校正集和预测集的均方根误差分别为5.67和5.94。以上所述是利用光谱技术对作物叶绿素的研究检测，但对预处理过的光谱数据都是在全波段的基础上进行单一的特征波长提取和数据压缩，而这可能存在特征选择方法在筛选特征波长的时候会出现获得的数量较多的情况或者数据处理易受到样本个数的影响的问题；数据压缩的本质是通过线性和非线性的特征提取算法将光谱数据从高维度空间映射到低维度的空间中，然后将低维度空间内的数据作为预测模型的输入变量来建立预测模型，但是实质上参与模型运算的光谱数据量并没有减少，故单一的特征波长选择和数据压缩可能导致模型的精度出现误差。先对预处理过的光谱数据进行波段的选择，再结合特征波长提取对组合区间的波长进行选择，这种数据降维的方法在农作物的叶绿素检测中还未见报道。

综上，本研究以新疆特色农作物哈密瓜冠层叶片为例，使用基于BiPLS的特征波段选择和CARS、连续投影算法(SPA)、遗传算法(GA)、MC-UVE相结合的光谱数据降维的方法，结合PLS、极限学习机(ELM)建立新疆哈密瓜植株生长期冠层叶片叶绿素相对含量(SPAD值)的定量分析预测模型，以期实现光谱技术对新疆哈密瓜植株生长的无损监测。

1 材料与方法

1.1 试验地点

选取新疆哈密地区巴里坤县三塘湖镇中湖村为试验地点，该地形呈西高东低之势，气候干燥酷热多风，属典型的大陆性气候。试验田位置为东经93°51′，北纬43°48′，土壤类型为砂壤土，pH值6.8，碱解氮含量126.42 mg·kg，有效磷含量267.52 mg·kg，速效钾含量41.91 mg·kg。

试验田按照滴灌量，追肥量两因子进行全因素组合设计，每个处理划分3个重复区。于2020年6月27日在甜瓜的成长期施加氮磷钾复合肥(N+ PO+KO)，施肥量设为3个水平，分别为低(72 kg·hm)、中(90 kg·hm)、高(108 kg·hm)；滴灌量设为2个水平，分别为过盈和缺水，加上对照组一共7个处理，21个重复区，每个处理中有一个重复是专门用来做破坏实验，试验所用的叶片样本都在该重复区内采摘，实验田按照大田管理方式进行管理。

1.2 试验样本与数据采集

于2020年在哈密瓜植株成长期(M1)、开花期(M2)、结果期(M3)、成熟期(M4)随机取25个哈密瓜叶片样本，一共采集100个作为实验样本。用浙江托普云农生产的TYS-B叶绿素测定仪避开主叶脉在叶片左、中、右3个点采集叶片叶绿素的相对含量(SPAD值)，每个点采集3次数据，取平均值作为参考值，最后取3个点的平均值作为样本叶绿素的参考值，该仪器的测量精度优于±3.0 SPAD，重复性优于±0.3 SPAD(SPAD值介于0～99.0)，测量样本SPAD值的同时用黑色水笔在采集过光谱的位置做好圆圈标记，并保证水笔的墨水不能弄到叶绿素仪测量过的位置。结合前人的研究可以确定叶绿素仪测定的SPAD值与通过化学方法测定的叶绿素含量显著相关。因此，SPAD值可以作为光谱数据的参考值。

对叶片光谱数据的采集由于实验设备性质的限制，采用离线的方式采集叶片光谱数据。在田间将样本采摘并装进密封袋内进行编号，带回实验室，使用美国海洋光学公司的Maya2000微型光纤光谱仪，光谱测定范围为200～1 234 nm，光谱采样间隔为0.2 s。主要工作参数设置包括积分时间为7 200，扫描次数为10，平滑点数为3。采集光谱数据时避开主叶脉，在叶片左、中、右3个点采集近红外数据，再用3次数据的平均值作为样本的原始光谱。

1.3 反向区间偏最小二乘法

反向区间偏最小二乘法(BiPLS)是以间隔偏最小二乘法(iPLS)为基础，对光谱数据进行特征波段选择的方法，该方法是一种只进不出的算法，其基本原理是将全光谱数据等均分成N个子区间，然后对全光谱数据建立PLS的回归预测模型，以均方根误差(RMSE)作为模型的评价，对各个子区间进行剔除，每次剔除的子区间是RMSE值最小所对应的子区间，最终对所有剔除出来的子区间联合建模。

1.4 特征波长选择

为进一步降低输入变量的维度，提高模型的预测精度，本研究在BiPLS的基础上分别结合GA、CARS、MC-UVE、SPA4种常见的特征波长选择算法，对BiPLS筛选出来的联合子区间进行特征波长的选择，进而实现数据降维，简化模型，提高模型预测精度的目的。

1.5 建模方法及评价参数

极限学习机(ELM)相比于前馈神经网络等在运算过程中不需设定大量的参数，且运算速度更快，只需按照实际情况选择合适的激励函数(AF)，在算法运行过程中随机产生网络的输入权值及隐含层单元偏置，且不需要调整，比较容易实现。因此，ELM具有学习速度快，高强的泛化能力促使模型只有唯一的最优解等特点。偏最小二乘法(PLS)是一种基于因子分析的多变量校正方法，在分析过程中，自变量和因变量数据的分解同时进行，并将因变量引入自变量数据分解过程中，使得自变量与分析组分相关。并且该方法在定量分析中应用非常广泛。

预测模型的评价指标为相关系数()和均方根误差(RMSE)。其中校正集均方根误差为RMSEC，预测集均方根误差为RMSEP；校正集相关系数为、预测集相关系数为，预测模型的相关系数越大表示相关性越高；预测模型的RMSEP越小，模型的预测效果越好。

2 结果与分析

2.1 样本划分

考虑到SPXY(sample set partitioning based on joint x-y distance)算法能同时研究光谱特征与样本理化性质的能力，使用该划分方法按照3∶1的比例将原始数据划分为样本校正集和预测集，其结果如表1所示。

从表1中可以看出，甜瓜叶绿素相对含量SPAD值的最大值和最小值都被划分到了校正集中，并且划分到预测集的数据值都在校正集区间内，表明利用SPXY划分的样本集的分布合理，使得定量分析模型也能得到较好的结果。

表1 甜瓜叶绿素相对含量 SPAD 值

2.2 光谱预处理

本研究分别用多元散射校正(MSC)、标准正态变量交化(SNV)、标准化(Autoscales)、Savitzky-Golay卷积平滑法(SG-平滑)、归一化(normalization)、移动平均平滑(moving average，MA)对原始近红外光谱数据进行预处理；标准正态变量变换一般用来消除样本表面散射及光程变化带来的光谱误差；多元散射校正可以减小光谱数据的差异；卷积平滑法可以消除基线漂移；标准化可以使所有波长变量都有相同的权重。

表2是以7个经过预处理和原始的光谱数据作为变量结合PLS建立预测模型来选取最优的光谱预处理方法，模型的评价指标为最佳主成分个数(PC)、剩余预测残差(RPD)，其中RPD小于1表示模型效果差，无法应用；RPD为1.0～1.4表示模型仅能分辨出理化性质的高低，无法用做定量预测；RPD为1.4～2.0表示模型一般，可能用于定量预测；RPD大于2.0表示模型可用于定量分析。

由表2可见，原始光谱做多元散射校正时，建立的PLS模型预测集为0.799 6，RMSEP为1.214 4，最佳主成分个数相对其他方法是最少的，只有5个最佳主成分，RPD为2.233 9，RPD大于2表示建立的模型可用于模型预测分析。因此，选取经过多元散射校正的光谱变量作为后续分析的输入变量。

表2 不同预处理方法的叶绿素含量PLS模型RPD值对比

2.3 基于BiPLS的特征区间选择

在全波段下进行数据降维和建模时，全波段的近红外光谱信息中会存在一些与叶片叶绿素含量无关的光谱信息，这样不仅会影响模型的准确性还会影响计算速度。因此，本研究使用反向区间偏最小二乘法(BiPLS)将全波段的光谱分成不同的区间，然后选择相关性最好的区间进行数据降维。不同区间总数的划分结果如表3所示。

表3 不同区间总数的划分结果

由表4可确定将全光谱数据等分成16个子区间，然后把这些子区间进行联合建模，当筛选出3个子区间时，其光谱反射率变量区间范围分别为[313～416]、[1248～1352]、[1560～1664]，RMSECV的值最小为1.306 5，此时入选的光谱变量个数为312。

表4 子区间优选结果

2.4 CARS结合BiPLS筛选特征波长

图1为CARS算法筛选特征波长变量过程。由图1可知，在特征波长变量筛选过程中，可以看出变量总数在不断减少，直至达到最优迭代次数。当RMSECV为1.085 3时，对应的最优迭代次数为63，然后确定从原始312个波长中筛选的特征波长变量为13个，分别为527.73、537.25、538.15、540.25、547.20、967.00、978.10、1 080.21、1 081.47、1 085.68、1 106.69、1 107.11、1 110.68 nm。

a，变量优化过程；b，RMSECV变化趋势；c，回归系数变化。a， Variable optimization process； b， Change trend of RMSECV； c， Change of regression coefficient.图1 CARS筛选光谱变量过程Fig.1 CARS screening spectral variable process

2.5 MC-UVE结合BiPLS筛选特征波长

MC-UVE就是消除无用的光谱信息，筛选出与SPAD相关性高的光谱波长，设定迭代次数为=1 000，然后将波长变量按照8个变量为一组把312个波长变量划分成39组；然后以迭代累加的方式，使用每次叠加的变量构建PLS模型，选取PLS的最大值的组数作为最终选取的变量个数，其过程如图2和图3所示。

图2 光谱变量稳定图Fig.2 Spectral variable stability map

图3 MC-UVE筛选光谱变量个数Fig.3 The number of spectral variables screened by MC-UVE

从图3得出的最大值为0.813 2，对应的组数为9组，因此筛选前9组作为最佳变量，一共有72个特征波长变量。

2.6 GA结合BiPLS筛选特征波长

本研究中，GA的控制参数设置为：初始种群数为100(样本数为100个)，变异概率0.01，遗传迭代次数为100，变异概率0.5。图4为GA所选光谱变量的频率，一共筛选出28个特征光谱变量，分别为550.82、939.63、1 078.10、528.18、1 080.21、567.53、940.48、942.20、1 078.52、529.54、557.15、567.98、940.06、942.63、1 086.94、529.09、941.77、1 076.42、527.73、551.27、943.05、1 079.00、1 087.36、1 080.63、1 076.00、1 075.58、557.60、577.20 nm。

图4 光谱变量频率图Fig.4 Spectrum variable frequency chart

2.7 SPA结合BiPLS筛选特征波长

使用SPA算法对经过BiPLS选择的312个光谱变量进行特征波长选择，进一步降低光谱数据的维度。设置SPA的变量选择为1到20，变量的选择过程如图5所示，当RMSE的最小值为1.017 8时，选择的最优变量数为8，分别为563.01、537.70、547.20、949.48、1 084.84、1 074.73、1 089.89、1 102.50 nm。

图5 SPA优选变量过程Fig.5 The SPA optimization variable process

2.8 建模分析

采用BiPLS以及与特征波长筛选算法相结合的共5种数据降维方法，其最终得到的变量数为312、8、28、13、72，再分别结合PLS、ELM建立预测模型，经过对比研究发现，最优降维方法为BiPLS-CARS，其分析结果如表5所示。

表5 数据降维下结合PLS的建模预测效果

从两个模型的所有结果，可以分析出偏最小二乘法(PLS)整体的预测效果是要优于极限学习机(ELM)的，极限学习的预测精度主要受隐含神经元个数和激励函数的影响，而隐含神经元个数没有固定的方法确定，一般设置为样本的个数，故极限学习机虽然具有学习速度快等优点，但同时模型预测精度也会受到样本个数的影响，可能这也是ELM的所有模型精度普遍都低于PLS的原因；同时两个模型中校正集均方根误差(RMSEC)与预测集均方根误差(RMSEP)之差的绝对值越小，表明所建立的预测模型稳健性越好，模型的精度越高。从表5和表6中通过对比分析，可以发现最优的预测模型为MSC+BiPLS+CARS+PLS，模型中校正集均方根误差(RMSEC)与预测集均方根误差(RMSEP)之差的绝对值最小为0.078 9，表明模型的稳健性最优。

表6 数据降维下结合ELM的建模预测效果

3 结论与讨论

基于光谱技术结合化学计量法对大田哈密瓜冠层叶片的叶绿素含量的无损检测进行了研究，利用MSC、SNV、Autoscales、SG-平滑、Normalization、MA共6种光谱预处理方法对冠层叶片的原始光谱数据进行预处理，然后结合PLS算法筛选出最优的光谱预处理方法，对其处理过的光谱数据利用BiPLS以及与GA、CARS、MC-UVE、SPA的组合算法提取特征波长，分别结合线性模型PLS与非线性模型ELM分析冠层叶片叶绿素的预测模型效果。结果表明：(1)不同预处理方法结合PLS建立的定量预测模型中，最优的预处理方法为MSC，其预测集的相关系数和均方根误差RMSEP分别为0.799 6与1.214 4，可以看出全波长下建立的定量预测模型精度不是很高。(2)为提高模型的精度，将MSC预处理过的光谱变量，使用BiPLS对其进行特征区间选择，分别结合PLS和ELM建立了预测模型，其中最优模型预测集的和RMSEP分别为0.922 9和1.135 2，通过对比分析可以发现，模型的预测精度得到了极大的提升，模型也更加稳健，但BiPLS筛选出来的联合子区间的变量数高达312个，其使得模型的精度和稳健性仍然有提升的空间，同时过高的数据维度也会使模型计算时间耗时过长。(3)本研究分别利用GA、CARS、MC-UVE、SPA 4种特征波长选择算法对BiPLS筛选出的联合子区间进行特征波长提取，进而实现数据降维的目的；同时结合PLS和ELM建立了预测模型，发现在经过BiPLS特征区间选择的基础进行特征波长选择后，所有的模型预测精度都有所提升，这表明特征区间选择和特征波长选择相结合，不仅能实现数据降维的目的，还能提高模型的预测精度，其最优的预测模型为MSC+BiPLS+CARS+PLS，预测集的和RMSEP分别为0.942 4与1.006 2。

本研究在利用光谱技术建立大田哈密瓜冠层叶片叶绿素含量无损检测的过程中，主要分析了特征区间选择和特征波长选择相结合下对模型的影响，同时实现了数据降维的目的，极大提升了模型的效果。但样本的数量还相对较少，同时建立的叶绿素反演模型只是针对当地试验田内的哈密瓜品种，对于其它产地和其它品种的叶绿素反演是否精确还需进一步的研究。因此，在未来的研究中增加不同地区和不同品种哈密瓜叶片样本，同时针对不同生育期分别建立其SPAD值的反演模型，提高预测模型的适普性，以此来实现对大田哈密瓜植株生长的无损监测，为哈密瓜生长的田间管理提供理论依据。