APP下载

基于VSURF-CA的小麦条锈病高光谱病情指数估测模型

2024-03-04梅广源李荣梅新陈日强樊意广程金鹏冯子恒陶婷赵倩赵培钦杨小冬

中国农业科学 2024年3期
关键词:条锈病波段光谱

梅广源,李荣,梅新,陈日强,樊意广,程金鹏,冯子恒,陶婷,赵倩,赵培钦,杨小冬

基于VSURF-CA的小麦条锈病高光谱病情指数估测模型

梅广源1,2,李荣2,梅新2,陈日强1,樊意广1,程金鹏1,冯子恒1,陶婷1,2,赵倩1,2,赵培钦1,2,杨小冬1

1北京市农林科学院信息技术研究中心/农业农村部农业遥感机理与定量遥感重点实验室,北京 100097;2湖北大学资源与环境学院,武汉 430062

【目的】条锈病对小麦生长和产量造成严重威胁,为确保有效防控,精准监测尤为关键。利用遥感技术构建小麦条锈病估测模型,能快速、准确地估测病情指数(DI),为精准防控提供技术支持。【方法】利用ASD光谱仪获取小麦不同生育期(抽穗期、灌浆期和成熟期)高光谱数据,采用随机森林变量选择(VSURF)方法结合相关性分析(CA)对原始光谱(OR)和一阶微分光谱(FD)进行特征波段筛选。使用随机森林(RF)对比不同数据集的特征波段建模结果,确定模型效果最佳的特征集。随后借助偏最小二乘回归(PLSR)、极致梯度提升(XGBoost)以及反向传播神经网络(BPNN),对比特征集在不同算法中的建模效果。通过对比建模效果,确定针对全生育期小麦条锈病病情指数的最佳估测模型。为了验证特征集在不同生育期中的效果,利用特征集在3个生育期重新构建模型,并对比模型效果。【结果】对不同数据集进行特征筛选,并使用RF构建条锈病DI估测模型,通过比较模型效果,确定VSURF-CA-FD特征集(绿光范围的537 nm以及近红外范围的821和846 nm)在RF模型中的估测效果最好。采用RF算法构建的模型表现出优异的精度,2为0.89,RMSE为12.34。这些特征波段在其他算法构建的模型中也展现出良好的精度:XGBoost模型的2为0.87,RMSE为13.15;BPNN模型的2为0.84,RMSE为15.19;PLSR模型的2为0.69,RMSE为20.92。使用不同生育期的冠层微分高光谱数据进行验证,利用VSURF-CA-FD特征集构建RF模型,对比模型发现在小麦生长的早期(抽穗期)2为0.54,RMSE为1.29,NRMSE为0.21,能满足估测病害的要求;小麦生长的中期(灌浆期),模型的2表现较好,2为0.66,RMSE为12.24,NRMSE为0.21;小麦生长晚期(成熟期),模型效果好于前两个时期,2为0.75,RMSE为10.77,NRMSE为0.15。【结论】使用VSURF-CA方法筛选出的特征波段,能构建出对小麦条锈病病情指数具有出色估测效果的RF模型。研究结果可为预测早期和中期条锈病病情指数提供有价值的思路和方法。

高光谱估测模型;小麦条锈病;病情指数;VSURF;特征选择

0 引言

【研究意义】小麦是世界最重要的粮食作物之一[1]。中国是世界上小麦条锈病发生面积最大、危害损失最重的国家[2],在1950、1964、1990、2002年发生了4次病害全国大流行,分别造成60、30、26和10亿kg的产量损失[3-4]。传统的小麦条锈病调查方法仅限于田间取样调查,存在耗时、费力且具有破坏性等局限性[5]。遥感技术的发展使得远距离、非接触、大范围、及时地对作物无损监测和识别成为可能。因此,利用遥感技术及时获取小麦条锈病的发病情况对于监测小麦病虫害具有重要的现实意义。【前人研究进展】利用遥感技术对病虫害监测可以根据所使用的传感器类型进行区分,主要包括RGB遥感监测、多光谱遥感监测和高光谱遥感监测[6]。RGB遥感监测主要利用RGB图像提供的颜色、纹理、形态进行病害监测,其优点是数据获取方便,数码相机、手机均可获取RGB图像[7]。近年来,许多学者利用RGB图像对病害程度和病害类别进行遥感监测,取得了较好的结果。例如Dubey等[8]对RGB图像进行处理,以颜色、纹理和形状为特征,对健康苹果和其他3种病害苹果进行了区分;Abdu等[9]基于3种深度学习算法对1 400张马铃薯叶片RGB图像进行病虫害识别,分类精度分别为95.61%(AlexNet)、97.37%(ResNET-50)、94.30%(VGG-16);Ferentinos[10]基于特定的卷积神经网络框架,开发专门通过叶片RGB图像识别作物病害的深度学习模型,其中使用VGG卷积神经网络的模型分类成功率达到99.53%。由于RGB图像局限于人眼可见的光谱范围,无法捕捉到一些病虫害引起的细微变化或提供更详细的光谱信息。多光谱遥感是一种利用多个离散的窄频带传感器获取地物反射的电磁辐射遥感技术。与传统的RGB遥感相比,多光谱遥感能够提供更丰富的光谱信息,从而实现更精确的病害指数提取、病害识别与病害时空监测[11]。例如Nebiker等[12]使用多光谱数据构建的NDVI指数对马铃薯病害进行了定性研究,在生育期早期成功检测到马铃薯枯萎病;Xiao等[13]使用mRMR特征筛选方法对多光谱数据构建的植被指数进行筛选,发现RVI、ARI和TVI可以很好地监测苹果树的火疫病;Su等[14]利用无人机多光谱遥感数据监测小麦条锈病,对比不同时期小麦冠层的变化发现,红色和近红外波段能够对发病中后期冠层进行有效区分,但对于发病早期(接种后9和25 d)不敏感。高光谱遥感监测作物病害的方法逐渐受到广泛关注,研究人员希望通过高分辨率的光谱数据尽可能早地对作物最小生理变化来识别以确定病害的发生[15]。学者们从原始高光谱数据和经过一阶微分高光谱数据出发,发现受病害胁迫的小麦冠层反射率在绿边、黄边、红边以及近红波段区别于健康小麦[16-18],并以此构建监测模型识别病害。蒋金豹等[19]对小麦高光谱数据进行一阶微分处理,通过高光谱一阶微分变量进行小麦条锈病严重度反演,构建的SDr′/SDg′模型估测误差在7%左右,能很好地监测作物早期病害情况;刘佳等[20]利用春玉米冠层高光谱绿边核心区一阶微分之和与红边核心区一阶微分之和的乘积构建的植被指数,能在抽雄期很好地区分健康玉米和受大斑病影响的病害玉米,表明对作物冠层高光谱进行一阶微分处理在病害识别上有很好的应用;Ren等[21]通过研究锈病孢子菌落对冠层高光谱的影响,获得敏感光谱带,并以此构建YROI指数,能准确、稳健地定量识别锈病严重程度;Huang等[22]使用光化学反射指数(PRI)来量化条锈病在冠层和田间水平上的病害严重程度。虽然上述研究利用各种植被指数得到了较好的结果,但植被指数仍然会忽视光谱曲线的有效信息,从而影响模型的监测精度。因此,有必要提高光谱曲线的有效利用率[23]。高光谱数据量多,信息丰富,波段之间存在高度相关性,若直接使用全波段数据,会包含大量冗余的无效信息,从而对结果产生影响。针对这一问题,众多学者提出了相关的解决方法,例如,使用多种方法对高光谱数据进行特征提取、降维,以获取光谱敏感因子[24-26]。Zhang等[27]通过连续小波分析对冠层光谱进行筛选,整理出6个小波特征,中心波长430—930 nm不等,比例因子为4—8。使用上述小波特征构建的判别模型平均总体准确率为77%。高媛等[28]将快速独立分量分析法应用到小麦条锈病冠层光谱反射数据进行特征提取,根据得到的独立分量与病情指数(disease index,DI)的相关性最终在468—523、558—713以及1 410—1 563 nm处挑选冠层光谱特征6个,并结合日光诱导叶绿素荧光指数,用多核支持向量机方法来组合不同特征和核函数,建立病情指数估测模型。上述方法能够有效地去除高光谱影像的冗余信息,然而,如何选择能反演作物病害的特征波段,从而提高模型运行的稳定性和适用性,仍需要进一步探究。【本研究切入点】基于高光谱数据开展小麦条锈病病情指数估测模型研究,首先需要开展特征波段筛选,机器学习算法在特征选择方面具有自动化、高效性的优点,随机森林变量选择(variable selection using random forest,VSURF)在特征变量选择中具有显著的优势[29-30]。只使用VSURF法对高光谱进行特征选择,会因为高光谱数据多,导致运行效率慢。因此在相关性分析(correlation analysis,CA)的基础上使用VSURF,既保证了波段与病情指数的相关性,又能利用VSURF法的变量选择能力。【拟解决的关键问题】将VSURF与CA结合,开展小麦条锈病冠层全波段光谱和一阶微分光谱数据的特征光谱筛选,使用偏最小二乘回归、随机森林、极致梯度提升、反向传播神经网络4种机器学习算法构建估测模型,并开展4种模型的精度对比分析和适用性评价,为条锈病病情指数精确评估提供有效的解决方案。

1 材料与方法

1.1 试验设计

小麦试验于2021年3—5月在甘肃省农业科学院甘谷试验站进行(34°45′N,105°17′E)。如图1所示,该试验站为甘肃省及国家区域试验品种条锈病抗性评价基地,于3月26日全面接种条锈菌,分别于接种后26 d(4月21日,抽穗期,发病早期)、45 d(5月10日,灌浆期,发病高峰)以及58 d(5月23日,成熟期,发病末期)获取冠层高光谱数据,并同步记录病情指数调查数据。本试验共采集63个样本点,样方为50 cm×50 cm的正方形,初次样本点随机在研究区内收集,之后的生长期均在同一位置收集,以确保可重复性。由于成熟期49和59号样本数据损坏,因此共实际获取187个样本数据。

图1 无人机正射影像

1.2 地面高光谱数据及预处理

冠层光谱数据获取采用美国ASD公司生产的便携式地物光谱仪Field Spec 4 HR NG,波长范围为350—2 500 nm,该光谱仪的光谱分辨率和采样间距在350—1 000 nm范围内分别为3和1.4 nm,在1 000—2 500 nm范围内为6和1.1 nm。分别于小麦3个生育期进行测量。每个样本小区重复测量10次,取其平均值作为该样本小区的平均光谱值。每次测量前后均用标准的参考板进行辐射校正,并将光谱曲线重采样至1 nm。

光谱数据在某些光谱范围内受到水蒸气吸收的影响,信噪比较低。参考文献[31],仅对400—1 350、1 400—1 800及1 950—2 350 nm的光谱范围进行处理分析。为了消除光散射和噪声影响的无信息光谱,使用SG平滑对光谱数据进行降噪处理,SG平滑后的数据如图2-a所示。由于数据采集时,作物生长情况、叶片含水量不同,灌浆期的小麦冠层光谱是明显高于其他两个时期的,这就会导致图2-d所示的情况——病情指数相同,但反射率范围差距较大。图2-d中,灌浆期病情指数为85的样本点,冠层反射率最大值介于0.5—0.6,成熟期样本点的冠层光谱最大值则在0.3—0.4附近。同时为了消除土地背景噪声的影响[32],将对SG平滑后的光谱进行归一化处理,记为OR数据,如图2-b、2-e所示。之后对OR进行光谱变换,获取一阶微分光谱,记为FD数据,如图2-c、2-f所示。

a:不同时期SG平滑光谱曲线(样本编号ID=2)SG smoothed spectral curves at different time points (sample ID=2);b:不同时期归一化光谱曲线(样本编号ID=2)Normalized spectral curves at different time points (sample ID=2);c:不同时期一阶微分曲线(样本编号ID=2)First-order derivative curves at different time points (sample ID=2);d:不同时期相同病情指数样本点SG平滑光谱曲线(病情指数=85)SG smoothed spectral curves for sample points with the same DI at different time points (DI=85);e:不同时期相同病情指数样本点归一化光谱曲线(病情指数=85)Normalized spectral curves for sample points with the same DI at different time points (DI=85);f:不同时期相同病情指数样本点一阶微分曲线(DI=85)First-order derivative curves for sample points with the same DI at different time points (DI=85)

1.3 小麦条锈病病情指数调查

小麦条锈病病情指数获取参照国家标准GB/T15795—2011《小麦条锈病测报技术规范》进行。其中,病叶率是指发病叶片数占调查叶片总数的百分率,用以表示发病的普遍程度。严重度即病叶上病斑面积占叶片总面积的百分率,用分级法表示,分别为1%、5%、10%、20%、40%、60%、80%和100%对应1、2、3、4、5、6、7、8级共8个级别,按照公式(1)进行计算。

式中,为病叶平均严重度;为严重度;l为严重度对应的叶片数,为调查总叶数。

本试验中,调查样方小区中每株上两片叶,统计样本点病叶率,分别记录各严重度的小麦叶片数。

病情指数=××100 (2)

式中,为病情指数;为病叶率;为病叶平均严重度。不同生育期DI分布如图3所示。

图3 不同时期病情指数分布

1.4 研究方法

1.4.1 特征波段选择方法 VSURF是一种基于随机森林的特征选择方法,可以用于筛选具有预测能力的变量数据集,以提高建模的效率和精度[33-34]。VSURF在选择简洁的特征变量方面具有优势,然而由于RF具有较高的复杂性,效率较低,尤其是在高光谱数据这类具有大量变量的情况下[35]。尽管已经将ASD高光谱数据中水汽噪声的部分剔除,但仍然有上千条光谱数据。本研究提出VSURF和CA相结合的方法,即先对光谱数据和DI进行CA处理,获取与DI具有高相关性的波段,在此基础上使用VSURF特征筛选方法,获得特征波段,以此来减少输入变量,提高运行效率。

VSURF选择变量时主要有两个步骤:第一步为阈值处理,对变量排序和剔除不重要的变量;第二步为变量选择,在这一步中有两个变量集可供选择,分别为解释变量和预测变量。解释变量被定义为与响应变量高度相关的变量集,其可能存在一些冗余;预测变量被定义为数量较少、冗余度较低,且足以对响应变量进行足够好的预测的变量集。具体步骤如下所示。

a阈值处理步骤:在这一步中,首先需要对变量进行重要性(variable importance,VI)排序,VI是一个平均值,按照式(3)计算得到:

b变量选择步骤:解释变量的选择方式:按照第一步中计算的VI,由大到小的顺序抽取第一步中的变量构建RF嵌套模型,每个模型重复运行25次,计算每个模型的平均袋外误差。首先找到RF嵌套模型的最小袋外误差,理想情况下,将选择具有最小袋外误差的模型中所包含的变量,但是为了避免过拟合现象的发生,将在最小袋外误差的基础上加上其标准差。袋外误差满足上述条件的模型,构成模型的变量即为解释变量。

预测变量的选择方式:同样按照VI的大小从高到低抽取解释变量来构建模型,与解释变量不同的是使用更严格阈值来选择变量。只有在模型的袋外误差减小大于阈值时才会添加变量,阈值的具体公式如下:

式中,为阈值处理步骤中保留的变量个数,′为解释变量中的变量个数,是使用个变量构建的RF模型的袋外误差。

c波段合并:ASD光谱仪采集的1 nm分辨率的光谱数据是设备插值出来的,相近波段所蕴含的光谱信息也相似,因此本文对提取的相近特征波段进行合并,合并方法:按照VI对相邻波段(±10 nm)给予权重,并重新赋值给重要性最高的波段。

1.4.2 小麦条锈病病情指数估算模型算法 选取4种算法构建小麦条锈病病情指数估算模型。

偏最小二乘回归(partial least squares regression,PLSR)通过将自变量(特征)和因变量(目标)投影到新的低维空间,寻找它们之间的最大协方差方向[36]。其在处理多变量数据时特别有用,尤其是存在高度相关性或多重共线性的情况下[37-38],例如小麦的冠层光谱数据[39-40]。在本文中PLSR的主成分数量被设置为2,其余参数默认。

随机森林(random forest,RF)在处理大规模数据和高维特征的问题时表现出色,并且对于处理缺失值和异常值也相对鲁棒[41]。它能够有效地捕捉特征间的非线性关系,并且不需要对数据进行过多的预处理。此外,随机森林还可以评估各个特征的重要性,并用于特征选择和变量重要性分析[42]。在本文中,RF中树的数量被设置为100,其余参数默认。

极致梯度提升(eXtreme gradient boosting,XGBoost)通过集成多个弱学习器(通常是决策树)并优化梯度提升过程,不仅能够有效地处理高维特征和大规模数据,还具有特征选择、正则化等功能,使其成为机器学习领域中备受推崇的算法之一,被广泛应用于回归和分类任务[30,43-44]。本文中XGBoost的相关参数设置如下:学习率设置为1;树的最大深度设置为5;随机抽样比例设置为0.8;最小样本权重设置为1。

反向传播神经网络(back-propagation neural network,BPNN)是一种基于人工神经网络的机器学习算法,通过反向传播算法来训练网络,逐步调整神经元之间的权重,以实现从输入到输出的复杂映射关系学习,在图像识别、自然语言处理等领域取得显著成就[45-47]。本文中BPNN的相关参数设置如下:第1个隐藏层设置为10,第2个隐藏层设置为5;激活函数类型为relul;优化权重求解器为adma;L2正则化项的惩罚参数设置为0.001;学习率设置为constant;最大迭代次数为100 000。

1.4.3 验证方法及模型评价指标 K折交叉验证是机器学习中常用的模型评估方法,用于评估模型的泛化能力[48]。它通过将数据集划分为若干个互不重叠的子集(称为“折”或“fold”),然后在每次训练和测试中使用不同的子集来进行模型训练和测试。本文中使用十折交叉验证。

为了量化不同模型对小麦条锈病预测效果,本文采用决定系数2、均方根误差(root mean square error,RMSE)、标准均方根误差(normalized root mean square error,NRMSE)3个指标评估每个模型的性能和预测精度[49]。模型评估指标公式如下:

2值越高,该模型的预测能力越强。RMSE值越小,模型的实测值与预测值之间的偏差就越小。NRMSE为归一化处理后的RMSE,范围介于0—1。

2 结果

2.1 小麦条锈病特征波段选择

首先对小麦条锈病OR和FD数据进行CA处理,初步选择出高相关性波段。随后在此基础上使用VSURF方法,得到特征波段。

2.1.1 相关系数选择高相关性波段 相关系数可以反映变量之间的线性相关程度,将OR数据、FD数据与DI进行CA处理(图4)。OR数据中黄光范围(587—709 nm)、红光及近红范围(737—927 nm)的较高(||>0.6);FD数据则有较多的波段显示出较高的相关性,其中蓝绿范围(448—503 nm)、黄光范围(536—692nm)、红边范围(710—753 nm)、近红外范围(773—885、1 041—1 073、1 215—1 248 nm)、以及短波红外范围(1 531—1 577、1 726—1 754 nm)均有较高的(||>0.6),其中540—564、679—881、1 065—1 071、1 237—1 243、1 560—1 574、1 729—1 745 nm的||>0.7;791—805、842—870 nm的||>0.8。

根据图4,将||>0.6的波段挑选出来进行下一步分析,其中OR数据有335个波段满足条件,记为CA-OR;FD数据有437个波段满足条件,记为CA-FD。FD数据的高相关性波段多,绝对值较大,后续试验中将使用这部分数据进行进一步特征选择,记为CA-FD。

图4 不同处理后的光谱数据与小麦条锈病病情指数间相关系数(n=187)

2.1.2 使用VSURF对数据集进行特征选择 使用VSURF对不同处理的冠层光谱数据进行特征选择,对比VSURF在OR、FD数据以及CA-OR、CA-FD数据的运行时间、波段选择效率,同时将使用选择的特征波段构建RF模型,初步比较4种数据所得到的特征波段的建模效果。

以OR数据为例,对OR数据使用VSURF方法进行特征选择,运行结果如下:在VSURF方法的阈值处理步骤中,依据VI对OR数据集中的所有变量进行排序,如图5所示,黑色曲线为变量的平均VI,红线为VI的阈值。

图5 变量重要性曲线图

图6将解释阈值如何确定。根据变量和VI的标准差绘制变量的VI标准差曲线(图6中的黑色曲线),使用CART进行拟合(图6中的绿色曲线),图6-b中的红色虚线为CART预测的最小值(0.12),即为VI的阈值。在这一步中将保留平均VI超过阈值的变量,共512个变量。

图6 变量重要性标准差曲线

图7展示了解释变量如何确定,将上一步中保留的512个变量按照VI由大到小依次作为输入变量,DI为响应变量,构建25次嵌套RF模型,获得不同输入变量个数模型的平均袋外误差,如图7所示,横坐标为嵌套模型的输入变量个数,纵坐标为嵌套模型的平均袋外误差,红线为最小袋外误差加上其模型的袋外误差标准差。变量个数为191时,构建的嵌套模型满足此条件,此191个变量入选为解释变量。

图8展示的是获取预测变量时嵌套RF模型的平均袋外误差。方法如下:抽取解释变量构建模型,当使用9个变量时,袋外误差最小,添加解释变量中其他变量并不能减少袋外误差,因此保留了此9个波段作为预测变量。

图7 解释变量的随机森林袋外误差曲线

图8 预测变量的随机森林袋外误差曲线

除OR数据外,还将对FD数据以及CA-OR、CA-FD数据使用VSURF进行特征选择,记录预测变量个数、不同数据集的运行时间,具体如表1所示。

表1 对不同数据集进行VSURF特征选择

2.2 对不同数据集特征选择波段进行RF模型构建

VSURF使用内嵌的RF模型对不同数据集进行特征选择,为了对比不同特征波段集对病害的估测能力,使用RF算法对各数据集进行DI估测模型构建,比较不同数据集的估测效果。主要分为两个部分:首先比较由VSURF筛选出的4个数据集在RF模型中的建模效果;其次比较合并邻近波段对模型效果的影响。

当使用VSURF-OR数据集作为特征变量时,模型的十折交叉验证集2为0.86,RMSE为14.07,NRMSE为0.14,验证集的散点图如图9-a所示。当使用VSURF-FD数据集作为特征变量时,如图9-b所示,使用的变量在4个数据集中个数最多,为17个特征变量;其2为0.87,RMSE、NRMSE分别为13.24、0.13。当将OR、FD数据与CA相结合,并使用VSURF对其进行特征选择,利用所得到的特征数据集CA-OR、CA-FD构建RF模型,模型结果如下:使用VSURF- CA-OR特征数据集作为特征变量时,2为所有RF模型中最低值(0.84);RMSE和NRMSE为最高值(14.95和0.15)(图9-c)。使用VSURF-CA-FD作为特征变量时,变量个数较前3个变量集少,为6个特征变量;模型的2为所有模型中的最高值(0.90);RMSE和NRMSE为所有RF模型中的最低值(11.84和0.12)(图9-d)。

经过比较,VSURF-CA-FD数据集波段个数较少,2和RMSE、NRMSE较高,此数据集的具体波段如表2所示(波段按照重要性排序)。观察对CA-FD数据使用VSURF得到的预测变量可以发现,特征波段中有较多的相邻波段,考虑到波段的相似性,将邻近波段进行合并,使用表2中的3个波段构建RF模型,模型散点图(图9-e)。由图9-e可知,波段合并后,模型的2为0.89,相较于原数据集的模型2仅减少0.01;RMSE为12.34,相较于原数据集,仅增加0.5;NRMSE则同为0.12。

对VSURF-CA-FD数据集中的相邻特征波段进行合并,所构建的RF模型与原数据集模型变化不大,而所使用的波段个数由6个减至3个,减少50%,因此将使用波段合并后的数据集替代VSURF-CA-FD,作为后续试验的输入数据。

a:VSURF-OR数据集VSURF-OR dataset;b:VSURF-FD数据集VSURF-FD dataset;c:VSURF-CA-OR数据集VSURF-CA-OR dataset;d:VSURF-CA-FD数据集VSURF-CA-FD dataset;e:VSURF-CA-FD数据集(合并相邻波段)VSURF-CA-FD dataset (removing adjacent bands)

表2 合并相邻波段后的特征波段

2.3 基于不同建模算法的病情指数估算模型

机器学习算法可用于分析和利用信息丰富的数据集以及高维观测数据,已被广泛应用于遥感数据的分析以及病害建模反演[50-52],但针对不同作物及病害种类所选用的机器学习算法存在差异,即使同一病害,不同条件下不同机器学习方法的性能也各不相同[26]。

为了验证使用VSURF方法筛选出的特征波段在其他模型中也能具有较好的估测效果,使用PLSR、RF、XGBoost、BPNN 4种机器学习算法,对波段合并后的VSURF-CA-FD数据集进行模型构建,并比较各算法的优势。对比4种机器学习算法构建的模型(图10),其中RF算法构建的模型2最高,为0.89,同时也拥有4个算法中最低的RMSE和NRMSE,分别为12.34和0.12。其次为XGBoost模型,2为0.87,RMSE为13.15,NRMSE为0.13,与RF模型差距不大。BPNN模型的2较低,为0.84,RMSE较高,为15.19,NRMSE为0.15,同时由图10-d可见,有少部分样本点的预测值与实际不符,<0或>100,该情况在PLSR模型中更为明显,如图10-a所示。PLSR模型的2最低,为0.69,RMSE、NRMSE最高,分别为20.92、0.21。

综上,使用VSURF结合CA对FD数据筛选得到特征波段数据集,在4种机器学习算法中,基于RF算法构建的模型具有最高的估测精度。

a: PLSR; b: RF; c: XGBoost; d: BPNN

2.4 RF模型验证不同生育期数据

由于前文所构建的模型为全生育期模型,并不能很好地体现出模型在每个生育期的估测效果,为了证明使用VSURF-CA所筛选出的特征波段在不同时期的估测效果,对不同生育期的数据按7﹕3的比例随机划分为建模集和验证集,其中抽穗期和灌浆期建模的样本个数为46,成熟期建模样本个数为45;3个时期的验证样本个数相同,均为18。使用VSURF-CA-FD特征集中的3个特征波段对每个时期建模集构建DI估测模型,建模方法为RF,用验证集进行验证(图11)。在小麦抽穗期2为0.54,在3个生育期中为最低值;其RMSE为1.29,在3个生育期中最低,这与抽穗期整体发病程度不高有关,整体发病程度不高,模型的预测值较少,导致误差较小,RMSE较低(图11-a)。在小麦灌浆期,2为0.66,较抽穗期的2高;此外RMSE、NRMSE均为3个时期的最高值(12.24、0.21)(图11-b)。在小麦成熟期,模型对病害的估测效果要好于前两个时期,2为0.75,较抽穗期高0.21;NRMSE为0.15,为3个时期中的最低值(图11-c)。

3 讨论

3.1 特征波段筛选方法

CA通过相关系数来反映波段与病情指数(DI)之间的线性相关程度,数值越高表示该波段对DI越重要。通过CA可知,使用FD数据能获取更高的相关性波段。一方面,FD数据相较于原始光谱对作物的病害胁迫更为敏感[53],反映光谱曲线的变化幅度。另一方面,模型的估测效果需要自变量与因变量一定的相关性作为基础。因此当使用特征波段构建RF模型估测DI时,OR数据比FD数据所构建的模型差:VSURF-OR数据集比VSURF-FD数据集2低0.01,RMSE高0.83;VSURF-CA-OR数据集比VSURF-CA- FD(波段合并前)数据集2低0.06,RMSE高3.11。这证明FD数据对于估测DI有较高的应用潜力[17,54]。同时OR与DI之间高相关性波段较少,对OR相关数据使用VSURF筛选特征波段时,运行时间是FD数据的1.99倍,VSURF-CA-OR数据的运行时间是VSURF-CA- FD(波段合并前)数据的1.63倍,说明使用VSURF进行特征选择时,相关性高的变量运行时间较短。

a:抽穗期The heading period;b:灌浆期The grain-filling period;c:成熟期The maturity period

对比VSURF-FD数据与VSURF-CA-FD(波段合并前)数据所构建模型发现,VSURF-CA-FD(波段合并前)数据所构建的RF模型较VSURF-FD数据好,VSURF-FD数据中有17个变量,是VSURF-CA-FD(波段合并前)数据的2.83倍,但模型效果并没有VSURF-CA-FD(波段合并前)数据好。说明相较于直接使用FD数据,VSURF与CA相结合,可以充分利用其优势,保留较少变量的同时构建更稳健的模型[55]。

本研究还将相邻波段进行合并,VSURF-CA-FD数据集由原来的6个特征波段合并为3个特征波段。对比波段合并前后的VSURF-CA-FD数据集构建的RF模型,2下降0.01,RMSE增加0.5,NRMSE同为0.12,但仍然好于其他VSURF筛选后的数据集所构建的模型。相邻波段所蕴含的信息相似,在VSURF进行特征选择时,相邻的波段很容易得到类似的重要性,因此同时被选中为特征波段,虽然更多的波段信息能使模型估测更贴近实际,但同时也使得输入变量繁杂。通过对比波段合并前后的VSURF-CA-FD数据集构建的模型,说明合并相邻波段对模型的影响较少,同时能使输入变量更加简洁,更具有实际意义。

VSURF-CA-FD数据集波段合并后的3个特征波段分别为绿光范围的537 nm和近红外范围的821、846 nm。可见光范围具有较多的高相关波段,这是由于小麦受条锈病的胁迫,导致叶绿素减少、叶片变枯黄,以及色素的变化。然而使用VSURF-CA进行特征选择时,可见光附近没有多少波段被选中,大多被选中的波段存在于红光区域与近红外区域,这是由于小麦受到条锈病胁迫时,植被内部结构的破坏导致发病小麦在红光区域的反射率降低[17]。对于VSURF来讲,红光、近红光谱附近的变化足以区分病害小麦和健康小麦,并定量识别出小麦条锈病的具体DI值。

综上,VSURF选择的特征波段能够很好地定量识别小麦条锈病的病害程度。这进一步强调了特征筛选在识别小麦条锈病DI方面的重要性,使用合适的特征筛选方法可以更为高效地利用光谱信息。

3.2 特征波段在不同模型中的表现

随机森林(RF)算法对数据集的适应能力强,具有很好的抗噪性能和极强的拟合能力但不会产生过拟合现象[56]。同时,RF算法也可以通过对变量进行重要性评价完成变量特征筛选,例如张春兰等[57]利用相关系数分析(CC)和袋外误差(OOB)与RF相结合,优选变量并确定最佳变量个数,所构建的OOB-RF模型使用重要性前两个光谱指数作为输入变量时建模效果最佳,证明了RF算法在特征选择上的可行性。本文使用的VSURF也基于RF算法,利用VI对变量进行排序,再通过嵌套的RF模型确定误差较小的变量集作为特征变量。得到的VSURF-CA-FD数据集在RF模型中有较好的DI估测效果,为了验证数据集在其他模型中也具有较好的效果,除RF算法外,还使用了PLSR、BPNN、XGBoost 3种机器学习算法构建DI估测模型。

通过比较,在4种机器学习算法所构建的模型中,RF模型的效果最好,这与特征变量是通过RF模型筛选有关,同时由于RF是集成学习算法,有助于将弱学习器组合起来形成强学习器,且对数据共线性不敏感,具有很好的抗噪声能力,同时不易陷入过度拟合[58]。RF算法的主要思想是通过构建多个决策树,并将其预测结果进行综合,从而提高整体的预测准确性和稳定性,使得它能够用较少的变量构建出较好的模型,同时具备较好的泛化性能。

XGBoost和RF均属于集成方法的类别,都是通过组合多个弱回归器来创建一个更强大的模型。与XGBoost不同的是,RF是使用Bagging技术,通过随机采样生成多个子模型,然后将它们的结果进行平均或投票。而XGBoost使用Boosting技术,迭代地训练多个弱模型,并依据它们的性能来加权组合,修正先前模型的错误。在本文中利用VSURF-CA-FD特征数据集,RF算法和XGBoost算法构建的模型效果类似,具有相近的2,证明VSURF-CA-FD特征数据集能在其他模型中也发挥较好的估测效果。

BPNN算法是一种前向传播和反向传播的迭代学习算法,自身具有对变量进行降维的功能,具有较强的非线性映射能力,在处理大数据集方面具有优越的性能[59],在建模过程中要保证样本量足够的大(一般认为样本数n>50即为大样本事件)[60]。在本文中,使用VSURF-CA-FD数据集中的3个特征波段构建BPNN模型对小麦条锈病DI进行估测,2可达到0.84,RMSE为15.19,NRMSE为0.15。BPNN模型有较好的非线性解释能力[60],因此能得到较好的估测效果。但同时BPNN模型估测低病害时存在模型饱和的情况,即在病害早期,对相似的低病害样本点,估测出相同的估测值。这一点导致对于早期病害估测效果不佳,同时也影响了整体的估测效果。这种情况的发生可能是由于病害早期严重度普遍较低,不同严重度之间光谱的区分度不够大。

相较于前3种机器学习算法,PLSR算法在利用特征变量对DI进行估测时,效果较差,PLSR将主成分分析与多元线性回归相结合,其最大的优势是能在自变量存在多重共线性的情况下有效构建回归模型[61]。PLSR是一种线性回归方法,其假定目标变量与特征之间存在线性关系。如果数据包含复杂的非线性关系,PLSR可能无法很好地捕捉这些复杂性,从而导致拟合效果最差。这与蒋小敏[62]的研究相一致:使用ANN、MLR、PLSR、PCR建立小麦条锈病冠层病害严重度估算模型,最终ANN所构建的模型为最优估算模型。

综上,使用VSURF-CA-FD数据集,构建的最好的DI估测模型为RF模型,XGBoost、BPNN模型也有较好的效果,PLSR则效果较差。VSURF与CA相结合的方法能选择出有代表性的特征波段,所筛选的特征波段在不同模型中能呈现出较好的效果。

3.3 模型在不同生育期的表现

小麦条锈病早中期的估测一直以来是学者们研究的重点,及时发现、尽早治疗可以大幅度减少产量损失、降低农药使用量。在病害早期,DI介于0—5,植株受病害的影响较小,难以用肉眼分辨出健康小麦和病害小麦。在中期,病害程度快速变严重,其中有样本点的DI增幅>90(例如:抽穗期DI=0.06,灌浆期DI=98)。病害早期,小麦只有较少面积的叶片受到影响,形成孢子堆。由于孢子堆对表皮的破坏,植株的蒸腾作用加速,造成叶片水分流失。以往的研究对于早期的病害估测误差较大,因为受到病害的影响较小,难以与正常小麦区别。

本研究使用VSURF与CA相结合的方式,筛选出VSURF-CA-FD特征数据集,使用RF算法构建模型,得到全生育期的病害估测模型,并使用十折交叉验证对187样本点进行DI估测。在全生育期模型的抽穗期部分,样本点的DI均不高,大部分集中在0—1,少部分DI达到6。对于这部分数据估测难度较大,该时期样本点之间DI的差距往往仅有小数位,这需要模型对数据十分敏感,在抽穗期存在对低病害高估的情况,从而导致估测误差较大。为了验证VSURF-CA-FD特征数据集在单独生育期中对条锈病的敏感性,本文单独对3个时期构建DI估测模型,同时与全生育期模型具有差异性,此处将数据集按照7﹕3的方式划分为建模集和验证集。

在构建的不同生育期RF模型中,抽穗期的2为0.54,RMSE为1.29,NRMSE为0.21。2相较于生长晚期较低,此时主要的误差由于DI相对较大的样本点产生,这与整体DI在2—6范围内的样本点数量较少有关,导致这部分的训练效果较差。在灌浆期,条锈病迎来暴发式增长,此时病害逐渐由内部的生理生化向外部形态结构发展[63],小麦叶片出现黄化、干枯等明显外部病症。抽穗期样本点的DI分布在40—100,不同样本点之间的发病程度相差较大,在灌浆期,模型的2为0.66,RMSE、NRMSE最高,分别为12.24、0.21。成熟期属于小麦生长晚期,模型的2为0.75,RMSE为10.77,NRMSE为最低值0.15。此时小麦已大部分发育成熟,大部分样本点的发病程度达到相似水平,DI变化幅度较小,样本点的DI集中在80—100。使得模型对于这部分数据可以有充足的数据进行学习训练,从而导致在成熟期模型的效果好于前两个时期。

综上,本研究使用VSURF-CA-FD数据构建的RF模型,能在不同时期有较为稳定的表现。

4 结论

通过使用VSURF和CA相结合的方法对小麦冠层FD光谱进行特征选择,筛选出仅包含3个波段的特征变量集(537、821、846 nm),该方法在小麦冠层光谱数据处理过程中不仅提高了处理速度,还能有效地减少冗余特征变量。

通过对比特征变量集在不同机器学习算法中对小麦条锈病病情指数的估测效果,结果表明虽然特征变量集在4种算法构建的模型中都有较好的效果,但选择合适的算法能有更好的精度,例如VSURF方法是由RF算法改进而来的,当使用RF算法构建模型时,更能发挥RF算法在复杂、非线性问题上的优势。

分别使用小麦不同生育期数据对VSURF-CA-FD特征数据集进行验证,生育期早期条锈病的病情指数估测较为困难,相较于生育期晚期,模型估测效果较差。小麦条锈病发病迅速,从抽穗期到灌浆期病情指数爆发性增长,如何在发病早期及时识别,是研究的重点。

综上所述,本研究通过VSURF结合CA的特征筛选方法,成功优化了小麦地面冠层光谱数据的处理过程,提高了模型的预测精度,为小麦生育期估测模型的构建提供了有力支持。

[1] 冷伟锋. 小麦条锈病遥感监测及网络信息平台构建[D]. 北京: 中国农业大学, 2015.

LENG W F. Remote sensing monitoring of wheat yellow rust and development of network platform for the disease information[D]. Beijing: China Agricultural University, 2015. (in Chinese)

[2] 陈万权, 康振生, 马占鸿, 徐世昌, 金社林, 姜玉英. 中国小麦条锈病综合治理理论与实践. 中国农业科学, 2013, 46(20): 4254-4262. doi: 10.3864/j.issn.0578-1752.2013.20.008.

CHEN W Q, KANG Z S, MA Z H, XU S C, JIN S L, JIANG Y Y. Integrated management of wheat stripe rust caused byf. sp.in China. Scientia Agricultura Sinica, 2013, 46(20): 4254-4262. doi: 10.3864/j.issn.0578-1752.2013.20.008. (in Chinese)

[3] 万安民, 赵中华, 吴立人. 2002年我国小麦条锈病发生回顾. 植物保护, 2003, 29(2): 5-8.

Wan A M, ZHAO Z H, WU L R. Reviews of occurrence of wheat stripe rust disease in 2002 in China. Plant Protection, 2003, 29(2): 5-8. (in Chinese)

[4] 万安民. 小麦条锈病的发生状况和研究现状. 世界农业, 2000(5): 39-40.

Wan A M. Occurrence and research status of wheat stripe rust. World Agriculture, 2000(5): 39-40. (in Chinese)

[5] 孙瑞琳, 孙全, 孙成明, 刘涛, 李冬双, 吴峰峰. 基于不同平台的小麦病虫害遥感监测研究进展. 中国农机化学报, 2021, 42(3): 142-150.

SUN R L, SUN Q, SUN C M, LIU T, LI D S, WU F F. Recent advances in remote sensing monitoring on wheat pests and diseases based on different platforms. Journal of Chinese Agricultural Mechanization, 2021, 42(3): 142-150. (in Chinese)

[6] 江静. 基于冠层和区域尺度的小麦条锈病遥感监测[D]. 合肥: 安徽大学, 2020.

JIANG J. Remote sensing monitoring of wheat yellow rust based on canopy and regional scale[D]. Hefei: Anhui University, 2020. (in Chinese)

[7] 郭安廷. 基于成像遥感的小麦条锈病监测方法研究[D]. 北京: 中国科学院大学(中国科学院空天信息创新研究院), 2021.

GUO A T. Research on the methods of wheat yellow rust monitoring based on imaging remote sensing[D]. Beijing: University of Chinese Academy of Sciences (Aerospace Information Research Institute, Chinese Academy of Sciences), 2021. (in Chinese)

[8] DUBEY S R, JALAL A S. Apple disease classification using color, texture and shape features from images. Signal, Image and Video Processing, 2016, 10: 819-826.

[9] ABDU A M, MOKJI M M, SHEIKH U U. Deep learning for plant disease identification from disease region images//Intelligent Robotics and Applications: 13th International Conference, ICIRA 2020. Kuala Lumpur, Malaysia, 2020: 65-75.

[10] FERENTINOS K P. Deep learning models for plant disease detection and diagnosis. Computers and electronics in agriculture, 2018, 145: 311-318.

[11] 孙刚, 黄文江, 陈鹏飞, 高帅, 王秀. 轻小型无人机多光谱遥感技术应用进展. 农业机械学报, 2018, 49(3): 1-17.

SUN G, HUANG W J, CHEN P F, GAO S, WANG X. Advances in UAV-based multispectral remote sensing applications. Transactions of the Chinese Society for Agricultural Machinery, 2018, 49(3): 1-17. (in Chinese)

[12] NEBIKER S, LACK N, ABäCHERLI M, LäDERACH S. Light-weight multispectral UAV sensors and their capabilities for predicting grain yield and detecting plant diseases. The International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences, 2016, 41: 963-970.

[13] XIAO D Q, PAN Y Q, FENG J Z, YIN J J, LIU Y F, HE L. Remote sensing detection algorithm for apple fire blight based on UAV multispectral image. Computers and Electronics in Agriculture, 2022, 199: 107137.

[14] SU J Y, LIU C J, HU X P, XU X M, GUO L, CHEN W H. Spatio-temporal monitoring of wheat yellow rust using UAV multispectral imagery. Computers and electronics in agriculture, 2019, 167: 105035.

[15] 张竞成, 袁琳, 王纪华, 罗菊花, 杜世州, 黄文江. 作物病虫害遥感监测研究进展. 农业工程学报, 2012, 28(20): 1-11.

ZHANG J C, YUAN L, WANG J H, LUO J H, DU S Z, HUANG W J. Research progress of crop diseases and pests monitoring based on remote sensing. Transactions of the Chinese Society of Agricultural Engineering, 2012, 28(20): 1-11. (in Chinese)

[16] 刘良云, 黄木易, 黄文江, 王纪华, 赵春江, 郑兰芬, 童庆禧. 利用多时相的高光谱航空图像监测冬小麦条锈病. 遥感学报, 2004, 8(3): 275-281.

LIU L Y, HUANG M Y, HUANG W J, WANG J H, ZHAO C J, ZHENG L F, TONG Q X. Monitoring stripe rust disease of winter wheat using multi-temporal hyperspectral airborne data. Journal of Remote Sensing, 2004, 8(3): 275-281. (in Chinese)

[17] 蒋金豹, 陈云浩, 黄文江. 用高光谱微分指数监测冬小麦病害的研究. 光谱学与光谱分析, 2007, 27(12): 2475-2479.

JIANG J B, CHEN Y H, HUANG W J. Using hyperspectral derivative index to monitor winter wheat disease. Spectroscopy and Spectral Analysis, 2007, 27(12): 2475-2479. (in Chinese)

[18] 蔡成静, 王海光, 安虎, 史延春, 黄文江, 马占鸿. 小麦条锈病高光谱遥感监测技术研究. 西北农林科技大学学报(自然科学版), 2005, 33(S1): 31-36.

CAI C J, WANG H G, AN H, SHI Y C, HUANG W J, MA Z H. Remote sensing research on monitoring technology of wheat stripe rust. Journal of Northwest A & F University (Natural Science Edition), 2005, 33(S1): 31-36. (in Chinese)

[19] 蒋金豹, 陈云浩, 黄文江, 李京. 冬小麦条锈病严重度高光谱遥感反演模型研究. 南京农业大学学报, 2007, 30(3): 63-67.

JIANG J B, CHEN Y H, HUANG W J, LI J. Study on hyperspectral remote sensing retriveral models about winter wheat stripe rust severity. Journal of Nanjing Agricultural University, 2007, 30(3): 63-67. (in Chinese)

[20] 刘佳, 王利民, 杨福刚, 杨玲波. 基于高光谱微分指数监测春玉米大斑病的研究. 中国农学通报, 2019, 35(6): 143-150.

LIU J, WANG L M, YANG F G, YANG L B. Spring corn leaf blight monitoring based on hyperspectral derivative index. Chinese Agricultural Science Bulletin, 2019, 35(6): 143-150. (in Chinese)

[21] REN Y, HUANG W J, YE H C, ZHOU X F, MA H Q, DONG Y Y, SHI Y, GENG Y, HUANG Y R, JIAO Q J, XIE Q Y. Quantitative identification of yellow rust in winter wheat with a new spectral index: Development and validation using simulated and experimental data. International Journal of Applied Earth Observation and Geoinformation, 2021, 102: 102384.

[22] HUANG W J, LAMB D W, NIU Z, ZHANG Y J, LIU L Y, WANG J H. Identification of yellow rust in wheat using in-situ spectral reflectance measurements and airborne hyperspectral imaging. Precision Agriculture, 2007, 8: 187-197.

[23] CAO C L, WANG T L, GAO M F, LI Y, LI D D, ZHANG H J. Hyperspectral inversion of nitrogen content in maize leaves based on different dimensionality reduction algorithms. Computers and Electronics in Agriculture, 2021, 190: 106461.

[24] ZHANG J C, LIN Y, WANG J H, HUANG W J, CHEN L P, ZHANG D Y. Spectroscopic leaf level detection of powdery mildew for winter wheat using continuous wavelet analysis. Journal of Integrative Agriculture, 2012, 11(9): 1474-1484.

[25] ZHANG J, JING X, SONG X Y, ZHANG T, DUAN W N, SU J. Hyperspectral estimation of wheat stripe rust using fractional order differential equations and Gaussian process methods. Computers and Electronics in Agriculture, 2023, 206: 107671.

[26] TIAN L, XUE B W, WANG Z Y, LI D, YAO X, CAO Q, ZHU Y, CAO W X, CHENG T. Spectroscopic detection of rice leaf blast infection from asymptomatic to mild stages with integrated machine learning and feature selection. Remote Sensing of Environment, 2021, 257: 112350.

[27] ZHANG J C, WANG N, YUAN L, CHEN F N, WU K H. Discrimination of winter wheat disease and insect stresses using continuous wavelet features extracted from foliar spectral measurements. Biosystems Engineering, 2017, 162: 20-29.

[28] 高媛, 竞霞, 刘良云, 白宗璠. 基于多核支持向量机的小麦条锈病遥感监测研究. 麦类作物学报, 2020, 40(1): 118-126.

GAO Y, JING X, LIU L Y, BAI Z F. Remote sensing monitoring of wheat stripe rust based on multiple kernel SVM. Journal of Triticeae Crops, 2020, 40(1): 118-126. (in Chinese)

[29] MUSTAFA G, ZHENG H, LI W, YIN Y, WANG Y, ZHOU M, LIU P, BILAL M, JIA H, LI G,. Fusarium head blight monitoring in wheat ears using machine learning and multimodal data from asymptomatic to symptomatic periods. Frontiers in Plant Science, 2023, 13: 1102341.

[30] HUANG L S, LIU Y, HUANG W J, DONG Y Y, MA H Q, WU K, GUO A T. Combining random forest and XGBoost methods in detecting early and mid-term winter wheat stripe rust using canopy level hyperspectral measurements. Agriculture, 2022, 12(1): 74.

[31] 黄木易, 王纪华, 黄文江, 黄义德, 赵春江, 万安民. 冬小麦条锈病的光谱特征及遥感监测. 农业工程学报, 2003, 19(6): 154-158.

HUANG M Y, WANG J H, HUANG W J, HUANG Y D, ZHAO C J, WAN A M. Hyperspectral character of stripe rust on winter wheat and monitoring by remote sensing. Transactions of the Chinese Society of Agricultural Engineering, 2003, 19(6): 154-158. (in Chinese)

[32] ZHENG H B, CHENG T, ZHOU M, LI D, YAO X, TIAN Y C, CAO W X, ZHU Y. Improved estimation of rice aboveground biomass combining textural and spectral analysis of UAV imagery. Precision Agriculture, 2019, 20: 611-629.

[33] SPEISER J L, MILLER M E, TOOZE J, IP E. A comparison of random forest variable selection methods for classification prediction modeling. Expert systems with applications, 2019, 134: 93-101.

[34] GENUER R, POGGI J M, TULEAU-MALOT C. Variable selection using random forests. Pattern recognition letters, 2010, 31(14): 2225-2236.

[35] HUANG W L, MIN W K, DING J Q, LIU Y C, HU Y, NI W J, SHEN H F. Forest height mapping using inventory and multi-source satellite data over Hunan Province in southern China. Forest Ecosystems, 2022, 9: 100006.

[36] EZENARRO J, SCHORN-GARCíA D, ACEñA L, MESTRES M, BUSTO O, BOQUé R. J-Score: A new joint parameter for PLSR model performance evaluation of spectroscopic data. Chemometrics and Intelligent Laboratory Systems, 2023: 104883.

[37] SMIGAJ M, GAULTON R, SUáREZ J C, BARR S L. Canopy temperature from an unmanned aerial vehicle as an indicator of tree stress associated with red band needle blight severity. Forest Ecology and Management, 2019, 433: 699-708.

[38] DOS SANTOS F R, DE OLIVEIRA J F, BONA E, DOS SANTOS J V F, BARBOZA G M, MELQUIADES F L. EDXRF spectral data combined with PLSR to determine some soil fertility indicators. Microchemical Journal, 2020, 152: 104275.

[39] YUAN L, HUANG Y B, LORAAMM R W, NIE C W, WANG J H, ZHANG J C. Spectral analysis of winter wheat leaves for detection and differentiation of diseases and insects. Field Crops Research, 2014, 156: 199-207.

[40] GUO A T, HUANG W J, DONG Y Y, YE H C, MA H Q, LIU B, WU W B, REN Y, RUAN C, GENG Y. Wheat yellow rust detection using UAV-based hyperspectral technology. Remote Sensing, 2021, 13(1): 123.

[41] AZADBAKHT M, ASHOURLOO D, AGHIGHI H, RADIOM S, ALIMOHAMMADI A. Wheat leaf rust detection at canopy scale under different LAI levels using machine learning techniques. Computers and Electronics in Agriculture, 2019, 156: 119-128.

[42] RUAN C, DONG Y Y, HUANG W J, HUANG L S, YE H C, MA H Q, GUO A T, SUN R Q. Integrating remote sensing and meteorological data to predict wheat stripe rust. Remote Sensing, 2022, 14(5): 1221.

[43] JING X, ZOU Q, YAN J M, DONG Y Y, LI B Y. Remote sensing monitoring of winter wheat stripe rust based on mRMR-XGBoost algorithm. Remote Sensing, 2022, 14(3): 756.

[44] SHAFI U, MUMTAZ R, HAQ I U, HAFEEZ M, IQBAL N, SHAUKAT A, ZAIDI S M H, MAHMOOD Z. Wheat yellow rust disease infection type classification using texture features. Sensors, 2021, 22(1): 146.

[45] YAO Z F, LEI Y, HE D J. Early visual detection of wheat stripe rust using visible/near-infrared hyperspectral imaging. Sensors, 2019, 19(4): 952.

[46] RUAN C, DONG Y Y, HUANG W J, HUANG L S, YE H C, MA H Q, GUO A T, REN Y. Prediction of wheat stripe rust occurrence with time series sentinel-2 images. Agriculture, 2021, 11(11): 1079.

[47] JU C X, CHEN C, LI R, ZHAO Y Y, ZHONG X C, SUN R L, LIU T, SUN C M. Remote sensing monitoring of wheat leaf rust based on UAV multispectral imagery and the BPNN method. Food and Energy Security, 2023: e477.

[48] FUSHIKI T. Estimation of prediction error by using K-fold cross-validation. Statistics and Computing, 2011, 21: 137-146.

[49] 竞霞, 白宗璠, 高媛, 刘良云. 利用随机森林法协同SIF和反射率光谱监测小麦条锈病. 农业工程学报, 2019, 35(13): 154-161.

JING X, BAI Z F, GAO Y, LIU L Y. Wheat stripe rust monitoring by random forest algorithm combined with SIF and reflectance spectrum. Transactions of the Chinese Society of Agricultural Engineering, 2019, 35(13): 154-161. (in Chinese)

[50] PALLATHADKA H, RAVIPATI P, SAJJA G S, PHASINAM K, KASSANUK T, SANCHEZ D T, PRABHU P. Application of machine learning techniques in rice leaf disease detection. Materials Today: Proceedings, 2022, 51: 2277-2280.

[51] JACKULIN C, MURUGAVALLI S. A comprehensive review on detection of plant disease using machine learning and deep learning approaches. Measurement: Sensors, 2022, 24: 100441.

[52] SARKAR C, GUPTA D, GUPTA U, HAZARIKA B B. Leaf disease detection using machine learning and deep learning: Review and challenges. Applied Soft Computing, 2023, 145: 110534.

[53] 竞霞, 张腾, 邹琴, 闫菊梅, 董莹莹. 基于分数阶微分光谱指数的小麦条锈病遥感监测模型构建. 农业工程学报, 2021, 37(17): 142-151.

JING X, ZHANG T, ZOU Q, YAN J M, DONG Y Y. Construction of remote sensing monitoring model of wheat stripe rust based on fractional-order differential spectral index. Transactions of the Chinese Society of Agricultural Engineering, 2021, 37(17): 142-151. (in Chinese)

[54] 蒋金豹, 陈云浩, 黄文江. 利用高光谱红边与黄边位置距离识别小麦条锈病. 光谱学与光谱分析, 2010, 30(6): 1614-1618.

JIANG J B, CHEN Y H, HUANG W J. Using the distance between hyperspectral red edge position and yellow edge position to identify wheat yellow rust disease. Spectroscopy and Spectral Analysis, 2010, 30(6): 1614-1618. (in Chinese)

[55] 竞霞, 闫菊梅, 邹琴, 李冰玉, 杜凯奇. 基于CC-MPA特征优选算法的小麦条锈病遥感监测. 农业机械学报, 2022, 53(9): 217-225, 304.

JING X, YAN J M, ZOU Q, LI B Y, DU K Q. Remote sensing monitoring of wheat stripe rust based on cc-mpa feature optimization algorithm. Transactions of the Chinese Society for Agricultural Machinery, 2022, 53(9): 217-225, 304. (in Chinese)

[56] BREIMAN L. Random forests. Machine Learning, 2001, 45: 5-32.

[57] 张春兰, 杨贵军, 李贺丽, 汤伏全, 刘畅, 张丽妍. 基于随机森林算法的冬小麦叶面积指数遥感反演研究. 中国农业科学, 2018, 51(5): 855-867. doi: 10.3864/j.issn.0578-1752.2018.05.005.

ZHANG C L, YANG G J, LI H L, TANG F Q, LIU C, ZHANG L Y. Remote sensing inversion of leaf area index of winter wheat based on random forest algorithm. Scientia Agricultura Sinica, 2018, 51(5): 855-867. doi: 10.3864/j.issn.0578-1752.2018.05.005. (in Chinese)

[58] 王丽爱, 周旭东, 朱新开, 郭文善. 基于HJ-CCD数据和随机森林算法的小麦叶面积指数反演. 农业工程学报, 2016, 32(3): 149-154.

WANG L A, ZHOU X D, ZHU X K, GUO W S. Inverting wheat leaf area index based on HJ-CCD remote sensing data and random forest algorithm. Transactions of the Chinese Society of Agricultural Engineering, 2016, 32(3): 149-154. (in Chinese)

[59] 樊意广, 冯海宽, 刘杨, 边明博, 孟炀, 杨贵军. 基于冠层光谱特征和株高的马铃薯植株氮含量估算. 农业机械学报, 2022, 53(6): 202-208, 294.

FAN Y G, FENG H K, LIU Y, BIAN M B, MENG Y, YANG G J. Estimation of potato plant nitrogen content based on canopy spectral characteristics and plant height. Transactions of the Chinese Society for Agricultural Machinery, 2022, 53(6): 202-208, 294. (in Chinese)

[60] 夏天, 吴文斌, 周清波, 周勇. 冬小麦叶面积指数高光谱遥感反演方法对比. 农业工程学报, 2013, 29(3): 139-147.

XIA T, WU W B, ZHOU Q B, ZHOU Y. Comparison of two inversion methods for winter wheat leaf area index based on hyperspectral remote sensing. Transactions of the Chinese Society of Agricultural Engineering, 2013, 29(3): 139-147. (in Chinese)

[61] 王圆圆, 李贵才, 张立军, 范锦龙. 利用偏最小二乘回归从冬小麦冠层光谱提取叶片含水量. 光谱学与光谱分析, 2010, 30(4): 1070-1074.

WANG Y Y, LI G C, ZHANG L J, FAN J L. Retrieva of leaf water content of winter wheat from canopy hyperspectral data using partial least square regression. Spectroscopy and Spectral Analysis, 2010, 30(4): 1070-1074. (in Chinese)

[62] 蒋小敏. 小麦条锈病严重度近地面遥感估算方法研究[D]. 淮南: 安徽理工大学, 2021.

JIANG X M. Study on the estimation method of the severity of wheat stripe rust by near-ground remote sensing[D]. Huainan: Anhui University of Science and Technology, 2021. (in Chinese)

[63] 冯子恒, 宋莉, 张少华, 井宇航, 段剑钊, 贺利, 尹飞, 冯伟. 基于无人机多光谱和热红外影像信息融合的小麦白粉病监测. 中国农业科学, 2022, 55(5): 890-906. doi: 10.3864/j.issn.0578-1752.2022.05. 005.

FENG Z H, SONG L, ZHANG S H, JING Y H, DUAN J Z, HE L, YIN F, FENG W. Wheat powdery mildew monitoring based on information fusion of multi-spectral and thermal infrared images acquired with an unmanned aerial vehicle. Scientia Agricultura Sinica, 2022, 55(5): 890-906. doi: 10.3864/j.issn.0578-1752.2022.05.005. (in Chinese)

A VSURF-CA based Hyperspectral Disease Index Estimation Model of Wheat Stripe Rust

Mei GuangYuan1,2, Li Rong2, Mei Xin2, Chen RiQiang1, Fan YiGuang1, Cheng JinPeng1, Feng ZiHeng1, Tao Ting1,2, Zhao Qian1,2, Zhao PeiQin1,2, Yang XiaoDong1

1Information Technology Research Center, Beijing Academy of Agriculture and Forestry Sciences/Key Laboratory of Quantitative Remote Sensing in Agriculture, Ministry of Agriculture and Rural Affairs, Beijing 100097;2Faculty of Resources and Environmental Science, Hubei University, Wuhan 430062

【Objective】Stripe rust is a serious threat to the growth and yield of wheat. Accurate monitoring and diagnostic assessment are fundamental prerequisites for effective prevention and control of stripe rust. The objective of this study is to construct a wheat stripe rust estimation model using remote sensing technology, enable the rapid and precise estimation of the disease index (DI), and to provide technical support for precise prevention and control.【Method】The hyperspectral data of wheat at different growth stages (heading period, grain-filling period, and maturity period) were acquired through the ASD spectrometer. Initially, the variable selection using random forests (VSURF) method, combined with correlation analysis (CA), was applied to select characteristic bands from the original spectrum (OR) and the first-order differential spectrum (FD). Subsequently, the random forest (RF) algorithm was utilized to compare modeling results of characteristic bands from different datasets, identifying the feature set with the most effective model. Further, models such as partial least squares regression (PLSR), extreme gradient boosting (XGBoost), and back-propagation neural network (BPNN) were employed to compare the modeling effects of different feature sets within various algorithms. This comprehensive analysis aimed to determine the optimal estimation model for wheat stripe rust DI across the entire growth period. Simultaneously, to validate the effectiveness of the feature set across different growth stages, the feature set was used to rebuild models during each of the three distinct growth periods.【Result】The comparative analysis of model effects revealed that the VSURF-CA-FD feature set (537 nm in the green range and 821, 846 nm in the near-infrared range) demonstrated the most effective estimation within the RF model, achieving an2value of 0.89 and an RMSE of 12.34. These feature bands also exhibited precision in models constructed with other algorithms, including XGBoost (2: 0.87, RMSE: 13.15), BPNN (2: 0.84, RMSE: 15.19), and PLSR (2: 0.69, RMSE: 20.92). For models constructed during different growth stages, the early growth stage (heading period) exhibited an2value of 0.54, RMSE of 1.29, and NRMSE of 0.21, meeting the requirements for disease estimation. In the middle growth stage (grain-filling period), the model performed well with an2of 0.66, RMSE of 12.24, and NRMSE of 0.21. In the late growth stage (maturity period), the model’s effectiveness surpassed that of the previous two stages, with an2of 0.75, RMSE of 10.77, and NRMSE of 0.15.【Conclusion】Utilizing characteristic bands selected through the VSURF-CA method, an RF model with excellent estimation accuracy for wheat stripe rust DI can be established. The research outcomes will provide valuable insights and methodologies for predicting early and mid-stage stripe rust DI.

hyperspectral estimation model; wheat stripe rust; disease index (DI); VSURF; feature selection

10.3864/j.issn.0578-1752.2024.03.005

2023-08-30;

2023-11-08

国家重点研发计划(2023YFD2000105)、国家自然科学基金(41771469)

梅广源,E-mail:1147771963@qq.com。通信作者李荣,E-mail:rongli1015@126.com。通信作者杨小冬,E-mail:yangxd@nercita.org.cn

(责任编辑 岳梅)

猜你喜欢

条锈病波段光谱
基于三维Saab变换的高光谱图像压缩方法
小麦条锈病田间为害损失的初步分析
陕西安康:农技专家开展小麦条锈病普防工作
小麦条锈病持续控制的策略
215份小麦材料抗条锈病基因分子检测初报
M87的多波段辐射过程及其能谱拟合
星载近红外高光谱CO2遥感进展
日常维护对L 波段雷达的重要性
基于SPOT影像的最佳波段组合选取研究
苦味酸与牛血清蛋白相互作用的光谱研究