基于多源遥感数据和机器学习算法的冬小麦产量预测研究
2022-12-09李红叶宋成阳谢永盾陶志强肖永贵孟亚雄
甘 甜,李 雷,李红叶,宋成阳,谢永盾,陶志强,肖永贵,孟亚雄
(1.甘肃农业大学农学院,甘肃兰州 730070;2.中国农业科学院作物科学研究所,北京 100081)
小麦作为世界主要粮食作物[1],在我国播种面积约2 400万hm2,产量约1.3亿t,产量约占全世界的30%[2]。然而,由于耕地减少、气候变化和人口增加,我国小麦供求处于“紧平衡”状态,在我国人口压力大与耕地面积不足的大背景下,小麦产量关乎人民生活水平提高和国家粮食安全[3]。收获前及时、准确地监测预报小麦产量对于国民经济发展、粮食政策制定、粮食市场调节等均具有重要意义[4]。
遥感技术因其尺度大、效率高、无损伤等优点,被广泛应用于各类精准农业研究领域[5-6]。在各尺度遥感平台中,卫星遥感常被用于区域作物产量预测[7-8]。卫星平台视点高、视域广、数据采集快[9],但存在重访周期长、影像分辨率低、混合像元和气象条件限制等问题,对农业生产者的实际辅助效果甚微[10]。搭载各类传感器的无人机(unmanned aerial vehicle,UAV)低空遥感平台[11]具有快速灵活、空间分辨率高的特点,在精准农业领域受到广泛关注[12-13],利用其能够高通量获取作物冠层生长信息,并及时对产量做出预测[14-15]。基于地面高光谱遥感平台获取的连续精细的波段反射率数据具有信息丰富且光谱分辨率高特点[16]。无人驾驶地面车辆(unmanned ground vehicle,UGV)搭载的地面高光谱设备作为全新的高通量生理表型鉴定平台,其生理表型鉴定性能显著优于UAV平台[17]。采用单一平台获取的小麦产量相关信息往往不够全面,目前作物估产研究也大多限于同一遥感平台,将多个遥感平台数据结合的研究鲜有报道。
近年来,利用各尺度遥感数据作为机器学习算法输入特征,在建立作物性状评估模型时表现出较高的预测精度和鲁棒性[18],已广泛用于小麦、大豆、玉米等作物产量评估[19-21]。基于单一机器学习算法对作物性状的评估精度在不同生长环境下有所差异,而结合多种机器学习算法的集成学习有着更为稳定的预测能力[22]。Stacking是一种使用“学习法”的多模型结合策略,由Breiman于1992年提出[23]。通过次级学习器对多个初级学习器的输出结果再次训练,可将不同学习器解析数据的能力进行结合,并且在集成时使用多元线性回归(multiple linear regression,MLR)作为次级学习器,具有较好的集成效果[24]。Stacking集成通常能得到比单一学习器更高的预测精度,尤其对高光谱遥感等高维度数据进行训练时效果显著,已广泛应用于地理信息分类、植物光合能力评估和作物产量预测等领域[25-26]。
本研究基于冬小麦田间试验,通过无人机遥感平台、地面表型车平台及手持式冠层鉴定平台,选择灌浆期作为最佳生育期,获取RGB、多光谱和高光谱数据并分别构建光谱指数集,再以光谱指数集作为输入变量,通过决策树(decision tree,DT)、岭回归(ridge regression,RR)、随机森林(random forest,RF)、支持向量机(support vector machine,SVM)4种机器学习方法与集成算法(ensemble learning,EL)分别构建基于ASD-高光谱、UGV-高光谱、UAV-多光谱、RGB-颜色指数的冬小麦产量预测模型,并探讨4种遥感数据的预测精度及最优组合,以期为冬小麦产量预测提供新的思路和方法。
1 材料与方法
1.1 试验材料与田间设计
利用中麦175/轮选987重组自交系F7代群体中70个家系为试验材料,于2020年种植于中国农业科学院作物科学研究所昌平试验基地(116.24°E,40.17°N)。试验采用随机区组设计,2次重复,行距为0.2 m,小区面积为4.2 m2(3 m×1.4 m)。出苗后对缺苗断垅处进行移栽,确保苗全苗匀。田间管理按照北部冬麦区区域试验标准进行,并及时进行病虫害及杂草防控。
1.2 技术路线
按图1所示流程获取冬小麦冠层的光谱数据和各个小区的实际产量,并结合机器学习算法和集成算法,对小麦产量进行预测研究。
图1 技术路线
1.3 表型数据获取
1.3.1 无人机遥感影像获取与处理
使用DJI精灵4无人机搭载多光谱相机和可见光相机,于小麦灌浆期(5月29日)执行飞行任务,使用软件GS Pro2.0规划飞行任务,规划航线和航点任务的航向和旁向重叠率均设置为85%,无人机飞行高度设定为30 m,空间分辨率为每像素3.55 cm。获取数据后利用Pix4D 4.5.6软件进行影像拼接、辐射定标,结合ArcGIS软件提取小区的冠层信息,计算多光谱的反射率和RGB的DN值。
1.3.2 ASD高光谱数据获取与处理
采用高光谱辐射仪(Fieldspec 4,Analytical Spectral Devices ASD,Boulder,CO,United States)在小麦灌浆期测定冠层光谱。获取光谱后,利用ViewSpecPro(ASDInc,Boulder,Colorado)软件进行数据检查,获取反射率数据。
1.3.3 UGV高光谱数据获取与处理
利用UGV获取数据前,将单个小区的四个点进行坐标测定,将数据录入UGV的GPS模块中以实现对小区的自动划分。由于UGV自带稳定光源,在小麦灌浆期16:00-19:00采集数据。采集时车厢位于小麦冠层上方20 cm处,以0.7 m·s-1的速度进行移动测量。利用FieldExplorer分析软件中生成的csv和bmp文件,获得300~1 000 nm的光谱波段。
1.3.4 地面数据获取与处理
成熟后,使用小区联合收割机进行收获,晾晒后籽粒含水量约为6.5%时称重,并换算为公顷产量,共获得144个产量数据,以4∶1的比例划分为训练集与测试集。
1.4 光谱指数的选取
光谱指数是由不同波段的反射率以代数形式组合成的一种参数,可降低条件背景对光谱反射率数据的干扰,比单波段具有更高的灵敏性[27]。本试验选择29个多光谱指数[27-40]和32个高光谱指数[41-49]。
RGB光谱指数模型中波长为650 nm(红)、560 nm(绿)和450 nm(蓝)的光谱色为三原色,在软件的直方图中采集叶片图像的红光值(R)、绿光值(G)和蓝光值(B)。根据R、G、B算法组合得出33个RGB光谱指数[49-54]。
1.5 基于机器学习算法的小麦产量预测模型的构建
选取在农作物产量预测中广泛应用的4种传统机器学习算法[决策树(DT)、随机森林(RF)、支持向量机(SVM)和岭回归(RR)]用以构建产量预测模型[55],并使用典型的集成学习算法Stacking。交叉验证具有简单和通用的特点,能够有效避免过拟合问题[56]。算法集成是在每次划分后以SVM、RF、DT、RR为初级模型,以MLR为次级模型并使用10折交叉验证进行训练和测试。算法-传感器集成是以SVM 、RF、DT、RR四种机器学习算法和RGB、ASD、UAV、UGV四个传感器为初级模型,以MLR为次级模型并使用10折交叉验证法进行训练和测试。
1.6 模型验证
以10折交叉验证的10次验证结果的决定系数(coefficient of determination,r2)和均方根误差(root mean square error,RMSE)的平均值检验模型精度和预测能力。计算公式如下:
(1)
(2)
2 结果与分析
2.1 实测产量统计分析
采用SPSS软件进行P-P图检验,70个家系实测产量值呈正态分布(图2),产量最小值为 4 131 kg·hm-2,最大值为9 798 kg·hm-2,平均值为7 204 kg·hm-2,标准差为756 kg·hm-2,变异系数为10.49%。母本中麦175的平均产量为8 539 kg·hm-2,父本轮选987的平均产量为7 500 kg·hm-2,双亲在产量性状上有较大差异,群体平均产量低于双亲,说明该重组自交系具有丰富的遗传变异。
图2 小麦实测产量密度分布
2.2 光谱指数与产量的相关性
相关性分析(表1)表明,除高光谱指数DSI、PVI、MCARI外,其余指数与小麦实测产量均呈显著或极显著相关。RGB-颜色指数与产量多数呈极显著负相关,其中RBDI的相关性最高(r=-0.71),ExG的相关性最低(r=0.24)。UAV-多光谱指数与产量多数呈极显著正相关,其中NPCI和PSRI的相关性最高(r= -0.71),MNVI的相关性最低(r=0.39)。UGV-高光谱指数与产量也多数呈极显著正相关,其中PSRI的相关性最高(r=-0.73),PVI的相关性最低(r= -0.11)。ASD-高光谱指数与产量也多数呈极显著正相关,其中PSRI的相关性最高(r= -0.69),MCARI的相关性最低(r=-0.15)。由此可见,灌浆期各遥感平台数据均能获取与小麦产量相关的信息,且各平台间差异较小。因此,建立产量预测模型时使用全部光谱指数作为各模型的输入特征。
表1 光谱指数与冬小麦实测产量的相关性Table 1 Correlation between spectral index and measured yield of winter wheat
2.3 基于不同传感器冬小麦产量的预测精度
将各光谱指数分别作为DT、RR、RF、SVM算法的输入变量构建产量预测模型(表2)。结果表明,基于RGB预测产量精度最高的模型为SVM算法模型,r2为0.76,RMSE为 451.58 kg·hm-2;基于ASD预测产量精度最高的模型为RR算法模型,r2为 0.72,RMSE为501.73 kg·hm-2;基于UAV预测精度最高的模型为SVM算法模型,r2为0.75,RMSE为482.35 kg·hm-2;基于UGV预测产量精度最高的模型为RR算法模型,r2为0.72,RMSE为531.71 kg·hm-2。就传感器而言,RGB的预测能力最为稳定,且预测精度较高,平均r2为0.74;就算法而言,RR模型预测能力较为稳定,平均r2为0.73。
表2 基于不同传感器冬小麦产量预测精度Table 2 Estimation precision of winter wheat yield based on different sensors
2.4 基于集成算法的冬小麦产量预测精度分析
将DT、RR、RF、SVM四种初级学习器输出的预测产量作为输入特征建立冬小麦产量预测模型(图3)。结果表明,基于RGB的r2由初级学习器中预测精度最高的0.76(SVM)提升至 0.77,RMSE为481.80 kg·hm-2;基于ASD的r2为0.71,虽然r2并未提升,但RMSE降为 488.16 kg·hm-2;基于UAV的r2由初级学习器中预测精度最高的0.75(SVM)提升至0.77,RMSE降至479.45 kg·hm-2;基于UGV的r2由初级学习器中预测精度最高的0.72(RR)提升至 0.73,RMSE降至519.08 kg·hm-2。这说明利用Stacking方法能提高产量预测精度,具有比单一模型更优异的泛化能力。
图3 基于算法集成的小麦产量预测精度验证
为了进一步评估集成方法的性能,通过使用DT、RR、RF、SVM四种初级学习器和RGB、ASD、UAV、UGV四个传感器组合的集成方法来实现冬小麦产量预测。利用Stacking方法在验证集上冬小麦产量预测结果与实测产量结果做散点图(图4)。算法-传感器组合预测的r2为 0.79,RMSE为469.98 kg·hm-2,预测精度和能力大于上述的各种组合,并且RMSE也较低。用Excel软件对产量实测值和预测值两组数据进行t检验,得到P=0.64,说明两组数据差异不显著(P>0.05),模型集成的精度提高具有统计学 意义。
图4 基于算法-传感器集成的小麦产量预测精度验证
3 讨 论
小麦产量的精准预测对于提升育种工作效率具有重要意义。本研究分别获取了基于ASD和UGV的高光谱数据,两种传感器计算得到的GARI、NDRSR、VREI、SRI、ARVI、RENDVI和PSRI与产量的相关性均较高(r=0.58~0.73)。上述指数波长大多位于700~800 nm,说明700 nm和800 nm组合的高光谱指数对预测产量有很好的精度。这与崔怀洋等[57]的研究结果一致。
本研究通过比较基于UGV-高光谱和ASD-高光谱两种遥感技术建立的冬小麦产量预测模型发现,基于DT、RF、SVM、RR四种机器学习算法和集成方法建立的预测模型中,UGV预测精度均大于ASD。UGV以高光谱图像为载体,通过结合地表作物生理图像信息,形成了光谱与图像的结合,具有更高的光谱分辨率能敏感捕捉不同地物在光谱维上的细微差异,进而大大提高获取地物表型信息的能力。ASD仅得到冠层反射率,与图像相比,包含的信息较少。相比于其他作物长势监测平台,UGV因价格昂贵,导致国内小规模育种公司和科研单位难以用于实际。ASD预测精度虽低于UGV,但成本较低且便于携带,对于多环境田间表型调查更为高效实用。本研究还发现,RR模型较其他模型能获得较好的预测结果和稳定性,可能归因于共线数据分析模型的偏向性和大多数性状的综合关系[58-60]。
利用遥感平台可以避免估产过程中工作量大、人为干扰等不利因素[61]。将遥感数据与多个模型的优点结合起来,可以提高在各种生长条件下冬小麦产量预测的精度。集成学习方法通过组合不同的基础机器学习算法来增加算法的多样性,而基础机器学习算法的更多异质性的组合提高了集成学习模型的预测能力[60-62]。本研究将4种不同原理和内部结构的机器学习算法结合在一起,在预测冬小麦产量方面具有比单一学习机器更高的精度。此外,本研究还发现将无人机遥感平台、地面遥感平台和地面传统生理表型(产量)集于一体,提出近地面“天空地一体化”冬小麦产量预测模式,预测精度大于单个传感器和单个算法,r2为0.79,RMSE为469.98 kg·hm-2,证明了该模式可提高冬小麦产量预测能力。
本研究基于多源平台与算法的集成实现了对小麦产量的预测且效果较好,但存在一些问题需要改进:(1)研究中使用的机器学习模型均为经验模型,其优点在于方法简单,且可重复操作,但该类模型在更多种生长环境下实施时需要进一步地完善研究和验证其稳定性;(2) 研究中选用的生长阶段较少,缺乏对于小麦生长初期如返青期和拔节期等时期的产量预测精度研究。下一步研究内容可以包括:(1)在多种复杂生长条件下验证与本研究结论是否一致,并探索更多影响构建模型的因素,获得更优的机理解释;(2)本研究仅利用一年冬小麦数据分析,未来将针对多生长季时间序列数据进行深入探讨。
4 结 论
相对于高光谱和多光谱,RGB传感器预测产量精度最高;相对于传统机器学习算法DT、RF、SVM,RR机器学习算法预测产量精度最高。4种算法集成的模型预测精度高而且稳定,4种机器学习算法和四个传感器构成算法-传感器集成模型的预测精度最高,r2为0.79。这说明利用Stacking集成方法将不同算法、传感器进行结合,能够有效地提高产量预测精度,可为冬小麦育种工作中产量预测提供参考。