APP下载

基于气象因素的玉米单产堆栈集成学习建模与预测

2024-03-08李乾川许世卫张永恩庄家煜李灯华刘保花朱之洵刘浩

中国农业科学 2024年4期
关键词:单产气象玉米

李乾川,许世卫,张永恩,庄家煜,李灯华,刘保花,朱之洵,刘浩

基于气象因素的玉米单产堆栈集成学习建模与预测

中国农业科学院农业信息研究所,北京 100081

【目的】在世界气候变化加剧和气象灾害频发的背景下,探究气象因素对玉米单产的重要性并准确预测玉米单产对于促进农业生产和田间管理具有重要意义。本文旨在量化分析玉米各生育阶段气象因素对单产的重要性并建立高精度、高可靠性的玉米气象单产堆栈集成学习估测模型来预测单产。【方法】利用HP滤波法和移动平均法确定各县域趋势单产模型并分离出各县气象单产。采用轻量级梯度提升机(LightGBM)、Bagging和Stacking 3种集成学习方法,通过对中国12个省份596个县级行政区域和气象观测站跨度34年的日度气象数据和玉米产量数据进行分析,建立3种基于不同集成学习框架(LightGBM、Bagging和Stacking)的玉米气象单产预测模型。【结果】适用HP滤波法作为趋势单产模型的县域主要集中在陕西、河南、江苏和安徽地区。相较于HP滤波法,更多县域适用于移动平均法,且多数县域2分布于0.8以上。基于5年滑动预测和模型精度评价指标,3种模型对玉米单产的平均绝对百分比误差(MAPE)指标均低于6%。Stacking模型MAPE值达到4.60%,预测精度高,泛化性强。结果表明玉米气象单产堆栈集成学习预测模型(stacking)具有更高精度和更强鲁棒性,并能有效利用各基学习器特点与优势,提升预测精度,是根据气象因素预测玉米单产的最优模型。此外,基于12省玉米生育阶段27个气象因素的随机森林特征重要性评分对玉米单产的定量分析,对作物监测和田间管理有借鉴和参考意义。【结论】3种集成学习方法,尤其是堆栈集成学习模型(stacking)预测效果能够详细反映出玉米单产的时空分布变化情况。基于气象因素的玉米单产堆栈集成学习模型可为田间管理和精准预测玉米单产提供新方法。

玉米气象单产;集成学习;单产估测;县级数据;特征重要性

0 引言

【研究意义】在全球变暖背景下,温度、降水、光照和气候极端事件等因素对全球农作物产生了深远的影响[1-2]。2021年,政府间气候变化专门委员会(IPCC)第6次报告指出气候变化可能会导致粮食作物产量下降,因而增加农作物供应的不稳定性,从而引发价格波动和食品安全问题[3-5]。因此,作物产量预测对于作物供给平衡、作物交易价格、以及粮食安全监测预警具有重要意义。玉米是重要的粮食作物和饲料作物[6],我国是世界上最大的玉米生产国之一[7]。国家统计局数据显示,2021年我国玉米总产量2.73亿吨,其中南方12省份玉米产量5 847.12万吨,占全国总产的21.5%。华中与华南地区近年来屡遭高温及干旱气候灾害,尤以2022年为甚[8-9]。随着气象变化加剧,准确预测玉米单产对于稳定市场供应和保障居民生活具有重要意义。【前人研究进展】气候环境会对玉米的单产预测产生影响,其中平均温度、降雨量和日照时数等因素与玉米的生长和单产密切相关。国际学者开展了大量研究工作,以探讨气候变化对玉米长势和单产的影响。有研究指出全球气温每上升1 ℃,全球的玉米产量平均下降7.4%[10]。此外,利用机器学习算法结合光谱信息、温度等因素预测玉米单产,可快速提供无损信息[11]。有研究基于气象和玉米单产数据,采用极限学习机方法(extreme learning machine)对捷克的县级玉米单产进行评估,证明机器学习的方法预测作物单产具有较大潜力[12]。通过利用气象指数、气象数据和卫星数据,建立单一机器学习方法,可在较大范围内预测玉米单产情况[13]。国内外已有利用集成学习开展种植业研究工作的进展,但研究领域主要集中在作物长势、生育指标[14-16]、机理[17-18]和图像识别分类等领域[19-21]。此外,虽然有研究基于集成学习结合多光谱遥感数据预测作物产量问题[22-25],但存在样本数据少、时间跨度短、各生育阶段特征变量对单产重要性不明确、预测精度不高的问题。目前并没有基于气象因素系统探讨高精度玉米堆栈集成学习模型预测单产的研究。【本研究切入点】在全球气候变暖的大背景下,气候变化对国内粮食安全造成挑战。虽然已有基于气象因素预测作物单产的研究,但量化分析玉米各生育阶段气象因素对单产重要性的探究还不够深入与充分。此外,虽然目前玉米气象单产预测的研究较为系统,但这些研究因受限于应用单一机器学习方法,导致模型出现预测精度不高、适用性不理想等一系列问题。因此,除了考虑日照时数、降雨量、平均温度等因素,将一般生长度日、极端生长度日和极端天数等描述极端天气的气象指标纳入预测模型的特征集中[26-27],对于作物单产定量分析研究的监测预警和田间管理尤为重要。集成学习可以通过集成不同模型类型,并利用这些模型之间的架构差异性提高预测精度和鲁棒性。因此,引入集成学习对玉米气象单产预测具有重要作用。【拟解决的关键问题】基于玉米各生育阶段的气象因素,量化分析对玉米单产的重要性,并基于轻量级梯度提升机(light gradient boosting machine,LightGBM)、Bagging和Stacking 3种集成学习框架构建玉米气象单产预测模型,探究上述集成学习建模在提升预测玉米单产准确性、可靠性和泛化性的具体表现和效果,以优化种植管理措施并为预测玉米气象单产提供高精度、高可靠性的方法。

1 材料与方法

1.1 研究区域与数据来源

近年来,我国气候变化愈加频繁,极端气候事件频发[28-30]。2022年夏季,我国南部和中西部12省份(安徽、福建、贵州、河南、湖北、湖南、江苏、江西、陕西、四川、浙江和重庆)出现自1961年以来最强高温和气象干旱过程。这种极端高温干旱天气对于12省份的农业生产造成了严重影响,且对农业监测预警和田间种植预防管理造成新的挑战。因此,本文详细调查了12省份气象数据和玉米产量数据,并在建立对玉米单产影响的特征集时也将高温和气象干旱指标纳入考量范围。国家统计局数据显示,这12个省份2021年的玉米总产量从2003年的2 977万吨增至2021年的5 847万吨,增幅达96%。玉米是禾谷类作物中增产潜力最大的作物,南部12省份对于保障我国粮食安全具有重要作用。黄淮地区(安徽、河南和江苏)地处29—38°N,是温湿气候与寒燥气候的过渡地区,在6—8月份,具有光照充足、温度适宜、雨热同季、降雨适中等特点,适宜种植玉米;珠江流域(贵州、湖南、江西、福建)属亚热带湿润气候,年均温16—22 ℃,年降水1 000—2 000 mm,满足玉米对温度和雨养的需求,适宜玉米生长;长江流域(四川、重庆、湖北、湖南、江西、安徽、江苏、浙江)地处亚热带湿润气候区,气候温暖,雨量丰沛,中下游地区四季分明,冬冷夏热,四川盆地气候温和。因此,本文基于12省份玉米主产区分布空间特点和气候特点,选取596个县级(county-level)1980—2013年的玉米单产数据和中国气象局对应各个县气象观测点为研究对象。

1.2 研究方法

1.2.1 玉米和气象数据收集与处理 玉米单产数据来源于农业农村部县级数据库,包括1980—2013年我国南部和中西部12省份596个主要玉米县级产区。在处理玉米单产数据时,运用了农学先验知识,以最大程度降低登记误差对模型准确性的影响。本文采用了1980—2013年596个玉米主产区气象观测点的日度气象数据,包括:平均温度、日照时数和降雨量,气象数据来源于中国气象局。气象观测点的分布情况如图1所示。

审图号:GS京(2024)0204号

图1 我国气候带分布、南部和中西部12个省份玉米种植县域地理信息与气象观测点分布情况

Fig. 1 Distribution of climatic zones in China, geographic information and meteorological observation points of maize planting counties in 12 provinces of Southern and Central-Western China

本文使用的气象数据插值方法为距离平方倒数法,是基于距离加权的移动平均方法[31]。通过这种方法,可以计算玉米气象单产影响因素。具体为利用周围网格点的气象观测站实际数据,按照距离平方的倒数进行插值计算,即:

式中,为网格处插得的气象数据,m为点周围附近第个气象观测站的实测气象数据,为反距离权重函数,幂参数在本研究中设为2。d为点到其周围附近第个气象观测点的距离,为点周围气象观测站的个数。

1.2.2 气象指标处理与计算 生长度日(growing degree days,GDD)指作物在生长季内累积的有效积温,可以作为衡量植物生长积累热量的指标。对于玉米生长发育来说,生长度日计算的基点温度为10 ℃,最适温度范围上限为30 ℃[32-33],即:

式中,D为特定生育阶段内累计生长度日;t为玉米特定生育阶段内每天的生长度日;为以天为单位的步长(d);为玉米特定生育阶段天数(d);T为日平均温度(℃);TT分别为玉米的基点温度和最适温度范围的上限(℃),本文的T是10 ℃,T是30 ℃。

极热天数(extreme heat days,EHD)表示高温天气出现的频次。参考玉米生长与温度关系相关研究,设定影响玉米生长的最高温度阈值为35 ℃[34-36]。极热天数由玉米生长季中最高温度超过35 ℃的天数累计所得。以下为具体计算公式:

式中,D为生育期内累计极热天数(d);d为玉米特定生育阶段内某天是否记为极热天数(d);T为日最高温度(℃);T为影响玉米生长的最高温度阈值(℃),本文T是35 ℃。下同。

极端生长度日(extreme growing degree days,EDD)是一种衡量作物生长过程中高温严重程度的指标。极端生长度日值越高,说明极端高温发生的程度越严重。具体来说,求和玉米特定生育阶段内最高温度超过35 ℃的天数,可计算出该生育阶段的极端生长度日,即:

式中,D为生育期内累计极端生长度日,t为玉米特定生育阶段内每天的极端生长度日。

降雨日数(precipitation days,PD)是衡量降水情况的一种指标,与降水量等因素统筹结合时,可以综合评估玉米特定生育阶段内的气象干旱情况。降雨日数的计算公式是指在玉米特定生育阶段内,记录到的降水量≥0.1 mm的日数即为降雨日数,即:

式中,D为生育期内累计降雨天数(d);d为玉米特定生育阶段内某天是否记为降雨天数(d);为日降雨量(mm);P为降雨日所必须监测到的最小降雨量阈值(mm),本文的最小降雨量阈值是0.1 mm。

1.2.3 玉米生育阶段气象数据收集与处理 对玉米生育期的划分方法参考Hanway[37],并且将玉米生长的地理因素、生长特性进行统筹考虑[38]。同时,本文对玉米的物候期进行了重新分类,使各地区的生育期起始阶段日期尽可能精确,便于模型的量化分析[39-41]。本文将玉米生育时期分为6个阶段:第一阶段-播种阶段、第二阶段-出苗阶段、第三阶段-拔节阶段、第四阶段-抽雄阶段、第五阶段-开花吐丝阶段、第六阶段-成熟阶段。为符合物候学规律,在使用已有天气数据的同时,需保证所选用的预测变量个数适合,对涉及到的日照时数、降雨量和平均温度等气象数据以图2生育期表格为依据,以生育期为单位进行均值化处理。具体本文模型所用玉米各生育阶段气象因素信息参照图2。

1.2.4 县级玉米趋势单产和气象单产模型建立方法 作物单产受多种复杂因素影响,包括外部环境和内部基因[42-43]。为精确研究气候对作物产量的影响,作物单产可分为趋势单产和气象单产[44]。玉米产量研究可从趋势产量和气象产量两方面展开。趋势产量是稳定的长期趋势,受农业生产技术、种质水平、科技水平、农机投入、人力投入、农药化肥投入等多种因素影响;气候产量则是波动的短期趋势,受气候因素影响,具体玉米单产公式如下:

图2 12个省的玉米各生育阶段具体日期划分示意图

式中,Y为玉米单产;()为玉米趋势单产,为高斯白噪声,幅度服从高斯分布;为特定某一年;M为玉米特定生育期间的气象因素,是气象因素,包括平均温度、降雨量和日照时数;为玉米的某一生育阶段;(M)为玉米不同生育阶段自变量气象因素与因变量气象单产的关系函数。

建立合适的气象单产模型对模型预测精度至关重要[45]。为解决不同地区应用不同趋势单产拟合方法的问题,本文采用HP滤波法、逻辑回归法、移动平均法和指数平滑法4种回归模型建立玉米趋势单产。HP滤波法是一种时间序列分解方法,假设时间序列由长期趋势和短期波动组成,其能分离特定周期下的高频成分[46-47]。逻辑回归模型能较好地拟合时间序列长期增长趋势[48-49]。移动平均法适用于具有明显负荷变化趋势的数据序列,通过移动平均值消除偶然变动因素,找出发展趋势[50-51]。本研究采用3年间隔移动平均法建立趋势单产模型。指数平滑法是一种时间序列分析预测模型,适用于含有线性趋势和周期波动的非平稳序列,让模型参数适应非平稳序列的变化[52-53]。玉米受内在因素和外在因素交叉影响,且趋势单产呈较为稳定、长期、循序渐进的趋势,而气象单产呈波动、敏感、短期的趋势。因此上述4种模型适用于建立玉米趋势单产。

为解决不同县域需筛选最优趋势单产拟合模型的问题,需从4种趋势单产模型中选择最适合的模型描述各县趋势单产。考虑到同一气候区域气候相似特性,同一区域或邻近区域玉米的气象产量应具有相似变化特征[54-55],利用检验和调整决定系数(adjusted2)筛选合适的县域玉米趋势产量模型[56-57],其公式为:

式中,2是调整决定系数;2是决定系数;为数据样本中的数据点数量;为独立回归变量的数量,即模型中的变量数量,不包括常数项。

综合考虑4种趋势单产方法得到的相应气象单产区域平均值及标准差序列、调整决定系数、玉米单产与气象因素之间的相关系数来评估回归模型的优劣,确保模型方法的科学性和合理性。

最后,用确定的县域趋势单产模型拟合出历年趋势单产,再用历年真实单产减去趋势单产即为对应年份的气候单产[58]。

1.2.5 玉米气象单产集成学习预测模型 Bagging(bootstrap aggregating)是一种集成学习方法(图3),利用自助采样(bootstrap sampling)生成多个训练子集,然后训练多个基学习器并进行结果融合[59-60],其能有效降低玉米气象单产集成学习预测模型的方差,提高模型的泛化能力。套索回归(least absolute shrinkage and selection operator,Lasso)是一种线性回归方法,优势是在正则化和特征选择方面表现突出[61-62]。Lasso在基于线性回归模型的目标函数J(w)基础上,添加1个模型复杂度函数,构造1个新惩罚目标函数,求新目标函数的最值(最大值或最小值)得到参数估计值。Lasso回归模型的目标函数为:

()=()+() (13)

式中,()为可微凸函数;()为误差平方和;()为惩罚项。

将Lasso方法应用于Bagging模型的过程分为3步:(1)通过自助采样生成多个训练子集;(2)对每个训练子集使用Lasso方法训练得到一个稀疏线性回归模型;(3)将所有基学习器的预测结果用平均法进行融合。这种组合可以充分利用Lasso方法在特征选择和稀疏解上的优势,同时通过Bagging模型降低模型的方差,提高模型的泛化能力。

图3 玉米气象单产Bagging集成学习预测模型框架

轻量级梯度提升机(LightGBM)是一种高效的集成学习方法,采用基于梯度提升(gradient boosting)的决策树算法[63-64]。LightGBM在训练过程中具有较低的内存消耗和计算复杂度,因此,在处理玉米大规模气象因素特征集上表现出较高的性能。LightGBM玉米气象单产集成学习预测模型(图4)使用的决策树方法分为5步:(1)初始化模型并迭代训练多个决策树,每棵树拟合前一棵树的残差;(2)在每次迭代中,利用梯度信息选择最佳的分割特征和分割点,以降低损失函数;(3)用直方图优化法加速特征分割计算过程;(4)使用带深度限制的Leaf-wise叶子生长策略构建树,可以减少过拟合风险,同时提高模型泛化能力;(5)结合所有决策树的预测结果,得到最终预测输出。综上所述,LightGBM玉米高温干旱集成学习气象单产预测模型通过引入决策树算法和梯度提升方法,以及一系列优化技术,实现了高效、可扩展的集成学习模型,符合玉米大规模气象数据集和高维特征空间的切实需要。

图4 玉米气象单产LightGBM集成学习预测模型框架

本文提出的玉米气象单产堆栈(Stacking)集成学习预测模型的框架如图5所示。Stacking是一种通过元模型将多个基模型(base-model)进行组合的集成策略,其实质是一种串行结构的多层学习系统[65-66]。不同于传统集成框架引导聚类算法(bagging)和提升方法(boosting),Stacking框架是将BP神经网络、Lasso、LightGBM和Bagging这4个基学习器组合起来进行模型融合。Stacking算法前期使用5折交叉验证的方法把原始特征转换为二级特征,然后再对变换得到的二级特征运用元学习器进行常规训练和拟合。

训练过程:(1)利用Stacking集成学习方法调用BP神经网络、Lasso、LightGBM和Bagging这4种类型的学习器对数据集进行训练学习;(2)将各分类器得到的训练结果组成一个新的训练样例输入岭回归这一元学习器;(3)第二层模型中元学习器的输出值为最终的输出结果。

1.2.6 变量筛选和特征重要性 本文选取27个变量作为特征集,特征集包括玉米6个生育阶段的平均气温、日照时数和降雨量3个气象因素共18个变量;和极端生长度日、极热天数、一般生长度日以及降雨日数这4个气象指标。此外,还选取受气候影响的前5年气候单产作为5个特征。假设预测2024年玉米单产,那么前5年气候单产是2019—2023年的气候单产。

图5 玉米气象单产堆栈集成学习预测模型框架

同时,为避免量纲对预测结果的影响,采用z-score标准化方法对特征集进行标准化处理,公式为:

式中,为z-score值,为个体的观测值,为总体数据的标准差,为总体数据的均值。

探究各生育阶段与高温干旱气象指标对玉米单产的影响对于量化分析玉米生产与田间管理至关重要。基于节点纯度的特征重要性可以通过随机森林特征重要性的属性来获取。这个属性返回一个数组,其中包含每个特征的重要性得分[67-68]。此得分能够表示特征对模型整体性能的贡献程度,越大表示越重要。首先,可以使用随机森林算法计算每个气象因素变量的重要性得分。通过训练一个随机森林回归模型,并使用特征重要性获取每个变量重要性评分(variable importance measures,VIM),得分排名可以评估出玉米各生育阶段气象因素和指标对于单产的贡献和影响程度。

1.2.7 评价指标 采用决定系数(coefficient of determination,2)、均方根误差(root mean square error,RMSE)、平均绝对误差(mean absolute error,MAE)和平均绝对百分比误差(mean absolute percentage error,MAPE)4个指标评价预测方法的精度。其中,决定系数越接近1表示所拟合的回归方程越好,模型预测能力越强;RMSE评价预测值和实测值的离散程度,越接近0说明模型预测越准确。MAE能更好地反映估测值误差的实际情况,越接近0说明模型越精确。MAPE评价预测值和实测值之间相对误差的平均值,更能直观反映出预测结果与真实值之间的差距,越接近0说明模型越准确。

2 结果

2.1 玉米县域趋势单产模型的确定

通过上文县域玉米趋势单产确定方法计算得到我国南部和中西部12省份主要玉米种植区域对应596县的趋势单产模型。由图6可以看出各玉米生产县因地理环境和气候变化的差异性、丰歉年发生情况等造成不同县采用不同趋势单产拟合方法的特点。从总体数量看,最多的县应用三点移动平均法来拟合趋势产量,其泛化性最强;其次是HP滤波法,主要集中在河南、安徽和陕西3省。没有县域是应用逻辑回归法和指数平滑法的,说明上述两种模型方法并不适用于本文样本数据。从拟合优度的角度来看,三点移动平均法和HP滤波法均能较好地拟合出趋势,但三点移动平均法的决定系数2明显优于HP滤波法,且大部分集中在0.8以上,表明三点移动平均法在所应用的县域能更好地拟合出玉米的趋势单产。通过气候单产模型决策系统从上述4种趋势产量模型筛选出各县级地区适用性和合理性最好的趋势产量模型,能够从各县玉米单产中有效分离出玉米气候单产。

审图号:GS京(2024)0204号

图6 12省份各县域趋势单产模型示意图

Fig. 6 Schematic diagram of county-level trend yield models in 12 provinces

2.2 玉米各生育阶段气象因素对单产的重要性分析

基于随机森林特征重要性评分,图7、图8表明了12省596县34年跨度中玉米各生育阶段气象因素对单产的重要性。由图7可以看出,开花吐丝期平均温度的特征重要性值(FI value)>0.05,且在河南和安徽省的超过0.20,这是因为开花吐丝期是玉米对温度最敏感的时期,由于光合作用对温度极其敏感,且不当温度将影响玉米结实率[69-70]。除开花吐丝期平均温度外,拔节期降雨量的特征重要性值也>0.05,重庆、陕西、江苏地区甚至>0.10,说明玉米拔节期是需水临界点,多雨可能造成田间湿度过大,根系缺氧,影响单产;少雨或干旱则直接造成茎秆伸长增粗不利,影响生长[71-73]。

2.3 各集成学习模型对玉米单产预测的精度评价

本文训练和验证了3种集成学习预测模型(Bagging、Stacking和LightGBM)和2种单一模型(BP神经网络和LASSO)的具体表现。为了最大限度地检验各模型的预测效果,采用5年滑动预测方法,即利用1980—2013年数据时,第一次预测中1980—2008年数据为训练集,2009年为测试集。同理,第二次预测中1980—2009年数据为训练集,2010年为测试集;以此类推,一直预测到以2013年为止。此方法相较于1次划分训练集、测试集方法,可提高数据利用效率,更能检验模型预测效果。表1展示了5种模型分别对12个省份5年滑动预测的具体评价指标。由表1可以看出,12省中单一机器学习模型LASSO和BP神经网络与其他集成学习模型在MAPE、RMSE、MAE和2这4个指标上表现差距不大,说明LASSO这种具有特征选择优势的回归模型及BP神经网络这种局部搜索优化模型较适用于解决气象与单产之间复杂非线性影响关系的预测问题,可以作为堆栈集成学习模型的基模型。除安徽和河南省外,LightGBM模型在2009—2013年训练集上4项指标均逊色于Stacking和Bagging集成学习模型,这是由于Stacking和Bagging能够更好地捕捉气象因素与单产之间非线性关系和在降低方差及提高预测精度方面具有理想的表现。

图7 12省玉米气象因素特征重要性评分柱状图

2.4 各县玉米单产5年滑动估测的精度评价

为全面检验BP神经网络、LASSO、LightGBM、Bagging、Stacking模型对各县域玉米单产的预测精度,分别用每个模型对596个县域进行5年滑动预测,并以MAPE指标权衡各模型的表现情况,结果如图9所示。除LightGBM在四川中西部地区预测结果与其他4种模型有差距外,5个模型对各县的整体MAPE预测值基本趋近。除安徽、贵州、河南西部和江西中部区域,5种模型的MAPE值大部分集中在绿色至浅黄色色段(MAPE值6%以下)。集成学习模型中,在处理河南、安徽局部地区时LightGBM和stacking表现优于bagging,表明二者善于处理非线性、小样本和高维度等回归问题,且在预测玉米气象单产问题时有更高的预测精度和鲁棒性。在处理四川西部地区时,stacking模型比LightGBM的MAPE值更低。在贵州省,5个模型对该地区的估测能力普遍差于长江、淮海和珠江流域,原因在于贵州省以山地农业为主,耕地空间呈现出块多、面小、分布零散和明显的垂直带性分异等特征,相比其他地区更容易受到山体滑坡等其他非气象因素的制约与影响,且玉米种植受人为因素影响程度高,因此气象因素对玉米单产的影响被弱化。

2.5 3种集成学习模型与单一模型的结果比较

为验证模型的性能,将3种基于气象数据的玉米气象单产集成学习预测模型与各单一机器学习模型进行比较。通过对596个县分别进行2009—2013年的玉米单产滑动估测,5种模型对玉米单产估测的评价指标对比如表2所示。Stacking在平均绝对百分比误差值(MAPE)上表现最好,为4.60%,比LASSO、BP神经网络、Bagging和LightGBM分别降低0.40%、0.42%、0.35%和0.37%,平均降低0.39%。Stacking均方根误差(RMSE)为326.14 kg·hm-2,比LASSO、BP神经网络、Bagging和LightGBM分别降低17.10、18.98、16.28和21.95 kg·hm-2,平均降低18.58 kg·hm-2。Stacking平均绝对误差(MAE)为208.51 kg·hm-2,比LASSO、Bagging、LightGBM和BP神经网络分别降低19.66、18.58、15.39和22.11 kg·hm-2,平均降低18.94 kg·hm-2。

图8 12省气象因素特征重要性热力图

基于3种集成学习的玉米气象单产预测模型逐县预测2009—2013年中国12省玉米主产区单产,并逐县统计玉米预测单产(图10)。2009—2013年玉米估测单产差异不大,河南东部、江苏北部、关中、四川东部部分地区玉米单产在6 500 kg·hm-2以上。2009年以后,12省绝大部分地区展现出玉米单产逐年上升的趋势,符合科技投入水平提高、种质提升等趋势方向。

3 讨论

3.1 移动平均法、HP滤波法分离玉米气象单产和趋势单产的有效性

根据12省各县域趋势单产模型示意图(图6)所示,移动平均法、HP滤波法相较于指数平滑法和逻辑回归法可以更有效地分离玉米气象单产数据,为提高基于气象因素的玉米单产预测模型提供了有力支撑[74]。适用HP滤波法的县域主要集中在陕西、河南、江苏和安徽地区。更多县域适用移动平均法,且相较于HP滤波法更多县域2分布于0.8以上。通过上述方法,可从玉米单产中分离出合适的气象单产,有助于更准确地预测作物气象单产,并为农业生产和监测预警提供有力支持。

3.2 气象因素随机森林特征重要性对单产的定量分析

本文采用随机森林特征重要性方法,利用玉米各生育阶段气象因素对玉米单产的特征重要性值(FI值)进行了定量分析,并构建了基于气象因素的玉米集成学习单产预测模型,对田间管理和产量监测预警提供了参考。通过图7和图8可以看到各生育阶段气象因素对玉米单产的重要性评分。图7显示,开花吐丝期平均温度的FI值>0.05,而在河南和安徽省,这一值甚至超过0.20。这是由于开花吐丝期是玉米对温度最敏感的阶段,不适宜的温度影响玉米的结实率。另外,拔节期降雨量的FI值也>0.05,在重庆、陕西、江苏等地区甚至超过0.10,这说明拔节期是玉米对水分需求的关键阶段,过多或过少均会影响玉米的生长。这些玉米单产影响因素的定量分析结果对田间管理具有参考价值。通过对玉米各生育阶段气象因素进行特征重要性定量分析,农业管理者和决策者可以更准确地了解哪些因素对作物产量重要性最大,从而制定针对性的农业政策和管理措施,提高作物产量,并通过监测预警为农业生产者提供针对性建议,降低各阶段气象灾害对作物的影响。

表1 12省份596县5种玉米气象单产预测模型5年滑动平均预测指标评价

续表1 Continued table 1

审图号:GS京(2024)0204号

图9 596个县级行政区玉米单产5年滑动估测的MAPE精度评价

Fig. 9 MAPE accuracy evaluation of 5-year sliding estimation of maize yield in 596 county-level administrative regions

审图号:GS京(2024)0204号

图10 596县集成预测模型预测单产5年时空变化规律示意图

Fig. 10 Schematic diagram of the 5-year spatiotemporal variation pattern in predicted yield by the ensemble prediction model in 596 counties

表2 单一模型与3个集成学习模型在5年移动预测中的比较

3.3 3种玉米气象单产集成学习预测模型的准确性

基于表1、表2和图9的结果,相比于LightGBM和Bagging集成学习模型,Stacking模型在2、MAPE、MAE和RMSE指标上均优于前两者。通过5年滑动预测596个县分别验证LightGBM、Bagging和Stacking模型,三者对玉米单产的MAPE指标均低于6%。Stacking模型在中国12省596个县的MAPE值达到4.60%,预测精度高,泛化性强。Stacking模型是本研究涉及模型与样本中的优选模型。本文首次论证了Stacking模型相较于其他集成学习算法和单一模型可以提高基于气象因素的玉米单产估测精度;将集成学习模型独立应用在596个县域行政区,均取得了较好的估测效果,证明集成学习模型在估测玉米单产时具有泛化性强和精度高的特点[75]。

3.4 596县5年滑动平均预测值时空分布结果分析

结合表2和图10所示数据,表明3种集成学习方法预测结果与中国农业农村部数据库玉米单产数据真实值的MAPE值<5%,进一步说明集成学习模型在估测区域玉米单产方面的准确性和实用性。Stacking的估测效果优于其他模型,泛化能力较强,具有更高的预测精度。对比表2结果表明,Stacking模型能有效利用基学习器的特点与优势,有效提升预测精度,是根据气象因素预测玉米单产的最优模型。

综上所述,在不同气候带类型、经纬度跨度较大的玉米主产区,本研究应用的集成学习模型基于大量历史气象数据和已知作物生育法则来分析气象相关因素与作物单产之间的关系,并取得了较好的实际效果。笔者认为,这一方法同样适用于监测和预测小麦、水稻等作物的单产。本文提出方法的意义在于,基于气象因素的单产估测集成学习模型不仅可以提升玉米单产的预测精度,随着年份的增加、日度气象数据的增多,模型的精度和适用性将会提升[76-77]。在未来,可以从丰富特征集、利用多模态模型建模等方面来开展研究。

4 结论

通过确定差异化的县域趋势单产分离出合适的气象单产数据,构建了3种分别以bagging、stacking和lightGBM为基础基于气象因素的玉米单产集成预测模型,实现了对玉米单产的准确估算,并得到了对应的596个县的玉米单产时空分布图。3种集成学习框架尤其是堆栈集成学习模型(stacking)预测结果具有高可行性与有效性。玉米气象单产堆栈集成学习预测模型能够较好地预测玉米单产情况,为玉米单产估测提供了新方法。

[1] EGERER S, PUENTE A F, PEICHL M, RAKOVEC O, SAMANIEGO L, SCHNEIDER U A. Limited potential of irrigation to prevent potato yield losses in Germany under climate change. Agricultural Systems, 2023, 207: 103633.

[2] ZHANG Z Y, LI Y, CHEN X G, WANG, Y Z, NIU B, LIU D L, HE J Q, PULATOV B, HASSAN I, MENG Q T. Impact of climate change and planting date shifts on growth and yields of double cropping rice in southeastern China in future. Agricultural Systems, 2023, 205: 103581.

[3] KIKSTRA J S, NICHOLLS Z R J, SMITH C J, LEWIS J, LAMBOLL R D, BYERS E, SANDSTAD M, MEINSHAUSEN M, GIDDEN M J, ROGELJ J,. The IPCC sixth assessment report WGIII climate assessment of mitigation pathways: from emissions to global temperatures. Geoscientific Model Development, 2022, 15(24): 9075-9109.

[4] SCHENUIT F. Staging science: Dramaturgical politics of the IPCC’s special report on 1.5 ℃. Environmental Science and Policy, 2023, 139: 166-176.

[5] WEI W Y, KASHAGAN K, LI L H. Sensitivities of wheat and maize productivity in Kazakhstan to future climate change scenarios. International Journal of Plant Production, 2022, 16(3): 365-383.

[6] PALACIOS-ROJAS N, MCCULLEY L, KAEPPLER M, TITCOMB T J, GUNARATNA N S, LOPEZ-RIDAURA S, TANUMIHARDJO S A. Mining maize diversity and improving its nutritional aspects within agro-food systems. Comprehensive Reviews in Food Science and Food Safety, 2020, 19(4): 1809-1834.

[7] BAI Y Y, ZHANG T Z, ZHAI Y J, SHEN X X, MA X T, ZHANG R R, JI C X, HONG J L. Water footprint coupled economic impact assessment for maize production in China. Science of the Total Environment, 2021, 752: 141963.

[8] WANG Z Q, LUO H L, YANG S. Different mechanisms for the extremely hot central-eastern China in July-August 2022 from a Eurasian large-scale circulation perspective. Environmental Research Letters, 2023, 18(2): 024023.

[9] QIN Y, QIN Y J, SHEN Y C, LI Y H, XIANG B. Numerical study on the effects of intraseasonal oscillations for a persistent drought and hot event in South China summer 2022. Remote Sensing, 2023, 15(4): 892.

[10] ZHAO C, LIU B, PIAO S, WANG X H, LOBELL D B, HUANG Y, HUANG M, YAO Y T, BASSU S, CIAIS P,. Temperature increase reduces global yields of major crops in four independent estimates. Proceedings of the National Academy of Sciences of the United States of America, 2017, 114(35): 9326-9331.

[11] BAIO F H R, SANTANA D C, TEODORO L P R, DE OLIVEIRA I C, GAVA R, DE OLIVEIRA J L G, DA SILVA C A, TEODORO P E, SHIRATSUCHI L S. Maize yield prediction with machine learning, spectral variables and irrigation management. Remote Sensing, 2022, 15(1): 79.

[12] MAITAH M, MALEC K, GE Y, GEBELTOVA Z, SMUTKA L, BLAZEK V, PANKOVA L, MAITAH K, MACH J. Assessment and prediction of maize production considering climate change by extreme learning machine in Czechia. Agronomy, 2021, 11(11): 2344.

[13] CHEN X X, FENG L, YAO R, WU X J, SUN J, GONG W. Prediction of maize yield at the city level in China using multi-source data. Remote Sensing, 2021, 13(1): 146.

[14] 陈志君, 朱振闯, 孙仕军, 王秋瑶, 苏通宇, 付玉娟. Stacking集成模型模拟膜下滴灌玉米逐日蒸散量和作物系数. 农业工程学报, 2021, 37(5): 95-104.

CHEN Z J, ZHU Z C, SUN S J, WANG Q Y, SU T Y, FU Y J. Estimation of daily evapotranspiration and crop coefficient of maize under mulched drip irrigation by Stacking ensemble learning model. Transactions of the Chinese Society of Agricultural Engineering, 2021, 37(5): 95-104. (in Chinese)

[15] ELBELTAGI A, SRIVASTAVA A, KUSHWAHA N L, JUHASZ C, TAMAS J, NAGY A. Meteorological data fusion approach for modeling crop water productivity based on ensemble machine learning. Water, 2022, 15(1): 30.

[16] CHENG Q, XU H G, FEI S P, LI Z P, CHEN Z. Estimation of maize LAI using ensemble learning and UAV multispectral imagery under different water and fertilizer treatments. Agriculture, 2022, 12(8): 1267.

[17] 张杰, 徐波, 冯海宽, 竞霞, 王娇娇, 明世康, 傅友强, 宋晓宇. 基于集成学习的水稻氮素营养及籽粒蛋白含量监测. 光谱学与光谱分析, 2022, 42(6): 1956-1964.

ZHANG J, XU B, FENG H K, JING X, WANG J J, MING S K, FU Y Q, SONG X Y. Monitoring nitrogen nutrition and grain protein content of rice based on ensemble learning. Spectroscopy and Spectral Analysis, 2022, 42(6): 1956-1964. (in Chinese)

[18] ZHAO W, ZHAO X N, LUO B, BAI W W, KANG K, HOU P C, ZHANG H. Identification of wheat seed endosperm texture using hyperspectral imaging combined with an ensemble learning model. Journal of Food Composition and Analysis, 2023, 121: 105398.

[19] AL-GAASHANI M S A M, SHANG F J, ABD EL-LATIF A A. Ensemble learning of lightweight deep convolutional neural networks for crop disease image detection. Journal of Circuits, Systems and Computers, 2023, 32(5): 2350086.

[20] 侯志松, 冀金泉, 李国厚, 焦红伟, 王良. 集成学习与迁移学习的作物病害图像识别算法. 中国科技论文, 2021, 16(7): 708-714.

HOU Z S, JI J Q, LI G H, JIAO H W, WANG L. Crop disease image recognition algorithm based on ensemble learning and transfer learning. China Sciencepaper, 2021, 16(7): 708-714. (in Chinese)

[21] 史飞飞, 高小红, 肖建设, 李宏达, 李润祥, 张昊. 基于集成学习和多时相遥感影像的枸杞种植区分类. 自然资源遥感, 2022, 34(1): 115-126.

SHI F F, GAO X H, XIAO J S, LI H D, LI R X, ZHANG H. Classification of wolfberry planting areas based on ensemble learning and multi-temporal remote sensing images. Remote Sensing for Natural Resources, 2022, 34(1): 115-126. (in Chinese)

[22] DAS A, KUMAR M, KUSHWAHA A, DAVE R, DAKHORE K K, CHAUDHARI K, BHATTACHARYA B K. Machine learning model ensemble for predicting sugarcane yield through synergy of optical and SAR remote sensing. Remote Sensing Applications: Society and Environment, 2023, 30: 100962.

[23] OLOFINTUYI S S, OLAJUBU E A, OLANIKE D. An ensemble deep learning approach for predicting cocoa yield. Heliyon, 2023, 9(4): e15245.

[24] FEI S P, HASSAN M A, HE Z H, CHEN Z, SHU M Y, WANG J K, LI C C, XIAO Y G. Assessment of ensemble learning to predict wheat grain yield based on UAV-multispectral reflectance. Remote Sensing, 2021, 13(12): 2338.

[25] LI Z P, CHEN Z, CHENG Q, DUAN F Y, SUI R X, HUANG X Q, XU H G. UAV-based hyperspectral and ensemble machine learning for predicting yield in winter wheat. Agronomy, 2022, 12(1): 202.

[26] DHILLON J S, RAUN W R. Effect of topdress nitrogen rates applied based on growing degree days on winter wheat grain yield. Agronomy Journal, 2020, 112(4): 3114-3128.

[27] SONG Y L, WANG C Y, LINDERHOLM H W, FU Y, CAI W Y, XU J X, ZHUANG L W, WU M X, SHI Y X, WANG G F, CHEN D L. The negative impact of increasing temperatures on rice yields in southern China. Science of the total environment, 2022, 820: 153262.

[28] LI S, WEI F L, WANG Z, SHEN J S, LIANG Z, WANG H, LI S C. Spatial heterogeneity and complexity of the impact of extreme climate on vegetation in China. Sustainability, 2021, 13(10): 5748.

[29] Yu X Y, Ma Y Y. Spatial and temporal analysis of extreme climate events over Northeast China. Atmosphere, 2022, 13(8): 1197.

[30] XIAO D P, BAI H Z, LIU D L, TANG J Z, WANG B, SHEN Y J, CAO J S, FENG P Y. Projecting future changes in extreme climate for maize production in the North China Plain and the role of adjusting the sowing date. Mitigation and Adaptation Strategies for Global Change, 2022, 27(3): 21.

[31] WANG S, LIM T H, OH K, SEO C, CHOO H. Prediction of wide range two-dimensional refractivity using an IDW interpolation method from high-altitude refractivity data of multiple meteorological observatories. Applied Sciences, 2021, 11(4): 1431.

[32] SIATWIINDA S M, SUPIT I, VAN HOVE B, YEROKUN O, ROS G H, DE VRIES W. Climate change impacts on rainfed maize yields in Zambia under conventional and optimized crop management. Climatic Change, 2021, 167: 1-23.

[33] WANG X Y, ZHANG X H, YANG M X, GOU X N, LIU B B, HAO Y C, XU S T, XUE J Q, QIN X L, SIDDIQUE K H M. Multi-site evaluation of accumulated temperature and rainfall for maize yield and disease in Loess Plateau. Agriculture, 2021, 11(4): 373.

[34] HATFIELD J L, PRUEGER J H. Temperature extremes: Effect on plant growth and development. Weather and Climate Extremes, 2015, 10: 4-10.

[35] WAQAS M A, WANG X K, ZAFAR S A, NOOR M A, HUSSAIN H A, NAWAZ M A, FAROOQ M. Thermal stresses in maize: Effects and management strategies. Plants, 2021, 10(2): 293.

[36] SANCHEZ B, RASMUSSEN A, Porter J R. Temperatures and the growth and development of maize and rice: a review. Global change biology, 2014, 20(2): 408-417.

[37] HANWAY J J. How a corn plant develops. Special Report. Iowa State University, 1966: 38.

[38] LING M H, HAN H B, HU X Y, XIA Q Y, GUO X M. Drought characteristics and causes during summer maize growth period on Huang-Huai-Hai Plain based on daily scale SPEI. Agricultural Water Management, 2023, 280: 108198.

[39] WANG X W, LI X Y, GU J T, SHI W Q, ZHAO H G, SUN C, YOU S C. Drought and waterlogging status and dominant meteorological factors affecting maize (L.) in different growth and development stages in Northeast China. Agronomy, 2023, 13(2): 374.

[40] GAO C, LI X W, SUN Y W, ZHOU T, LUO G, CHEN C. Water requirement of summer maize at different growth stages and the spatiotemporal characteristics of agricultural drought in the Huaihe River Basin, China. Theoretical and Applied Climatology, 2019, 136: 1289-1302.

[41] WANG C L, WU J D, WANG X, HE X, LI N. Non-linear trends and fluctuations in temperature during different growth stages of summer maize in the North China Plain from 1960 to 2014. Theoretical and Applied Climatology, 2019, 135: 61-70.

[42] LOBELL D B, SCHLENKER W, COSTA-ROBERTS J. Climate trends and global crop production since 1980. Science, 2011, 333(6042): 616-620.

[43] SLOAT L L, DAVIS S J, GERBER J S, MOORE F C, RAY D K, WEST P C, MUELLER N D. Climate adaptation by crop migration. Nature Communications, 2020, 11(1): 1243.

[44] KUKAL M S, IRMAK S. Climate-driven crop yield and yield variability and climate change impacts on the U.S. great plains agricultural production. Scientific Reports, 2018, 8(1): 3450.

[45] PENG B, GUAN K Y, TANG J Y, AINSWORTH E A, ASSENG S, BERNACCHI C J, COOPER M, DELUCIA E H, ELLIOTT J W, EWERT F,. Towards a multiscale crop modelling framework for climate change adaptation assessment. Nature Plants, 2020, 6(4): 338-348.

[46] VAN DRIEL J, OLIVERS C N L, FAHRENFORT J J. High-pass filtering artifacts in multivariate classification of neural time series data. Journal of Neuroscience Methods, 2021, 352: 109080.

[47] ZAHRA H S, OWEIS H T. Application of high-pass filtering techniques on gravity and magnetic data of the eastern Qattara Depression area, Western Desert, Egypt. NRIAG Journal of Astronomy and Geophysics, 2016, 5(1): 106-123.

[48] AL-ALWAN A, FEROZE N, NAZAKAT A, ALMUHAYFITH F E, ALSHENAWY R. Analysis of trends in awareness regarding hepatitis using bayesian multiple logistic regression model. Mathematical Problems in Engineering, 2022, 2022: 4120711.

[49] SHANG J, CHEN M Y, JI H Q, ZHOU D H, ZHANG H F, LI M L. Dominant trend based logistic regression for fault diagnosis in nonstationary processes. Control Engineering Practice, 2017, 66: 156-168.

[50] CHERNYKH M, VODIANYK B, SELEZNOV I, HARMATIUK D, ZYMA I, POPOV A, KIYONO K. Detrending moving average, power spectral density, and coherence: Three EEG-based methods to assess emotion irradiation during facial perception. Applied Sciences, 2022, 12(15): 7849.

[51] 孟品超, 李学源, 贾洪飞, 李延忠. 基于滑动平均法的轨道交通短时客流实时预测. 吉林大学学报(工学版), 2018, 48(2): 448-453.

MENG P C, LI X Y, JIA H F, LI Y Z. Short-time rail transit passenger flow real-time prediction based on moving average. Journal of Jilin University (Engineering and Technology Edition), 2018, 48(2): 448-453. (in Chinese)

[52] CETIN B, YAVUZ I. Comparison of forecast accuracy of Ata and exponential smoothing. Journal of Applied Statistics, 2021, 48(13/15): 2580-2590.

[53] BUTT U M, LETCHMUNAN S, HASSAN F H, KOH T W. Hybrid of deep learning and exponential smoothing for enhancing crime forecasting accuracy. PloS one, 2022, 17(9): e0274172.

[54] RAY D K, GERBER J S, MACDONALD G K, WEST P C. Climate variation explains a third of global crop yield variability. Nature communications, 2015, 6(1): 5989.

[55] NETZEL P, STEPINSKI T. Climate similarity search: GeoWeb tool for exploring climate variability. Bulletin of the American Meteorological Society, 2018, 99(3): 475-477.

[56] YU Z X, GUINDANI M, GRIECO S F, CHEN L J, HOLMES T C, XU X M. Beyondtest and ANOVA: applications of mixed-effects models for more rigorous statistical analysis in neuroscience research. Neuron, 2022, 110(1): 21-35.

[57] BAR-GERA H. The target parameter of adjusted-squared in fixed-design experiments. The American Statistician, 2017, 71(2): 112-119.

[58] ZHUANG J Y, XU S W, LI G Q, ZHANG Y E, WU J Z, LIU J J. The influence of meteorological factors on wheat and rice yields in China. Crop Science, 2018, 58: 837-852.

[59] NGO G, BEARD R, CHANDRA R. Evolutionary bagging for ensemble learning. Neurocomputing, 2022, 510: 1-14.

[60] KIM K, KIM J, CHOI H, KWON O, JANG Y, RYU S, LEE H, SHIM K, PARK T, CHA S W. Pre-diagnosis of flooding and drying in proton exchange membrane fuel cells by bagging ensemble deep learning models using long short-term memory and convolutional neural networks. Energy, 2023, 266: 126441.

[61] WONG A, KRAMER S C, PICCININNI M, ROHMANN J L, KURTH T, ESCOLANO S, GRITTNER U, DE CELLES M D. Using LASSO regression to estimate the population-level impact of pneumococcal conjugate vaccines. American journal of epidemiology, 2023, 192(7): 1166-1180.

[62] 奚丽婧, 郭昭艳, 杨雪珂, 平智广. LASSO及其拓展方法在回归分析变量筛选中的应用. 中华预防医学杂志, 2023, 57(1): 107-111.

XI L J, GUO Z Y, YANG X K, PING Z G. Application of LASSO and its extended method in variable selection of regression analysis. Chinese Journal of Preventive Medicine, 2023, 57(1): 107-111. (in Chinese)

[63] JI Q Q, ZHANG S Y, DUAN Q, GONG Y H, LI Y W, XIE X T, BAI J K, HUANG C L, ZHAO X. Short- and medium-term power demand forecasting with multiple factors based on multi-model fusion. Mathematics, 2022, 10(12): 2148.

[64] LYU J Y, ZHENG P J, QI Y, HUANG G H. LightGBM-LncLoc: A lightGBM-based computational predictor for recognizing long non-coding RNA subcellular localization. Mathematics, 2023, 11(3): 602.

[65] ZHAO L N, LU S, QI D. Improvement of maximum air temperature forecasts using a stacking ensemble technique. Atmosphere, 2023, 14(3): 600.

[66] WU X L, WANG J Y. Application of bagging, boosting and stacking ensemble and easyensemble methods for landslide susceptibility mapping in the three gorges reservoir area of China. International Journal of Environmental Research and Public Health, 2023, 20(6): 4977.

[67] IBRAHIM S. Improving land use/cover classification accuracy from random forest feature importance selection based on synergistic use of sentinel data and digital elevation model in agriculturally dominated landscape. Agriculture, 2022, 13(1): 98.

[68] HWANG S W, CHUNG H W, LEE T Y, KIM J, KIM Y, KIM J C, KWAK H W, CHOI I G, YEO H M. Feature importance measures from random forest regressor using near-infrared spectra for predicting carbonization characteristics of kraft lignin-derived hydrochar. Journal of Wood Science, 2023, 69(1): 1-12.

[69] 王晓伟, 李晓玉, 史雯琪, 赵海根, 孙琛, 游松财. 黄淮海地区玉米生育期制图研究. 江苏农业科学, 2023, 51(4): 105-113.

WANG X W, LI X Y, SHI W Q, ZHAO H G, SUN C, YOU S C. Study on mapping of maize growth period in Huang-Huai-Hai region. Jiangsu Agricultural Sciences, 2023, 51(4): 105-113. (in Chinese)

[70] 尹小刚, 王猛, 孔箐锌, 王占彪, 张海林, 褚庆全, 文新亚, 陈阜. 东北地区高温对玉米生产的影响及对策. 应用生态学报, 2015, 26(1): 186-198.

YIN X G, WANG M, KONG Q X, WANG Z B, ZHANG H L, CHU Q Q, WEN X Y, CHEN F. Impacts of high temperature on maize production and adaptation measures in Northeast China. Chinese Journal of Applied Ecology, 2015, 26(1): 186-198. (in Chinese)

[71] 冯小杰, 郑子成, 李廷轩. 紫色土区坡耕地玉米季地表径流及其氮素流失特征. 水土保持学报, 2017, 31(1): 43-48, 54.

FENG X J, ZHENG Z C, LI T X. Characteristics of runoff and nitrogen loss in sloping cropland of purple soil during corn growing season. Journal of Soil and Water Conservation, 2017, 31(1): 43-48, 54. (in Chinese)

[72] 周新国, 韩会玲, 李彩霞, 郭树龙, 郭冬冬, 陈金平. 拔节期淹水玉米的生理性状和产量形成. 农业工程学报, 2014, 30(9): 119-125.

ZHOU X G, HAN H L, LI C X, GUO S L, GUO D D, CHEN J P. Physiological characters and yield formation of corn (L.) under waterlogging stress in jointing stage. Transactions of the Chinese Society of Agricultural Engineering, 2014, 30(9): 119-125. (in Chinese)

[73] 任小龙, 贾志宽, 陈小莉, 韩娟, 韩清芳, 丁瑞霞. 半干旱区沟垄集雨对玉米光合特性及产量的影响. 作物学报, 2008, 34(5): 838-845.

REN X L, JIA Z K, CHEN X L, HAN J, HAN Q F, DING R X. Effects of ridge and furrow planting for rainfall harvesting on photo-synthetic characteristics and yield in corn in semi-arid regions. Acta Agronomica Sinica, 2008, 34(5): 838-845. (in Chinese)

[74] LI Q C, XU S W, ZHUANG J Y, LIU J J, ZHOU Y, ZHANG Z X. Ensemble learning prediction of soybean yields in China based on meteorological data. Journal of Integrative Agriculture, 2023, 22(6): 1909-1927.

[75] DUARTE Y C N, SENTELHAS P C. Intercomparison and performance of maize crop models and their ensemble for yield simulations in Brazil. International Journal of Plant Production, 2020, 14: 127-139.

[76] XU S W, LI G Q, LI Z M. China agricultural outlook for 2015-2024 based on China Agricultural Monitoring and Early-warning System (CAMES). Journal of Integrative Agriculture, 2015, 14(9): 1889-1902.

[77] 许世卫, 邸佳颖, 李干琼, 庄家煜. 农产品监测预警模型集群构建理论方法与应用. 中国农业科学, 2020, 53(14): 2859-2871. doi: 10.3864/j.issn.0578-1752.2020.14.010.

XU S W, DI J Y, LI G Q, ZHUANG J Y. The methodology and application of agricultural monitoring and early warning model cluster. Scientia Agricultura Sinica, 2020, 53(14): 2859-2871. doi: 10.3864/j. issn.0578-1752.2020.14.010. (in Chinese)

Stacking Ensemble learning modeling and forecasting of maize yield based on meteorological factors

Agricultural Information Institute, Chinese Academy of Agricultural Sciences, Beijing 100081

【Objective】In the context of intensified global climate change and frequent meteorological disasters, exploring the significance of meteorological factors on maize yield and accurately predicting maize yield is crucial for enhancing agricultural production and field management. This paper aims to quantitatively analyze the importance of meteorological factors during various growth stages of maize on yield and to establish a highly accurate and reliable maize meteorological yield stacking ensemble learning estimation model for yield prediction.【Method】Using the HP filter method and moving average method, trend yield models for various counties were determined, and county-level meteorological yields were isolated. Three ensemble learning methods (light gradient boosting machine (LightGBM), Bagging, and Stacking) were employed. By analyzing daily meteorological data and maize yield data over 34 years from 596 county-level administrative regions and meteorological observation stations across 12 provinces in China, three maize meteorological yield prediction models based on different ensemble learning frameworks (LightGBM, Bagging, and Stacking) were established.【Result】The HP filter method as the trend yield model was mainly applicable in the regions of Shaanxi, Henan, Jiangsu, and Anhui. Compared to the HP filter method, more counties were suitable for the moving average method, with most counties having the2distribution above 0.8. Based on a 5-year sliding forecast and model accuracy evaluation indicators, the mean absolute percentage error (MAPE) for the three models on maize yield was below 6%. The Stacking model achieved a MAPE of 4.60%, indicating high prediction accuracy and strong generalizability. The results demonstrate that the maize meteorological yield stack-integrated learning prediction model has higher accuracy and stronger robustness. It effectively utilizes the characteristics and advantages of each base learner to improve prediction accuracy, making it the optimal model for predicting maize yield based on meteorological factors. Furthermore, a quantitative analysis of the impact of 27 meteorological factors during the maize growth stages in 12 provinces, using the random forest feature importance score, is of reference value for crop monitoring and field management.【Conclusion】The three ensemble learning methods, especially the stack-integrated learning model (stacking), can accurately reflect the spatiotemporal distribution changes in maize yield. The stack-integrated learning model for maize yield based on meteorological factors provides a new method for field management and accurate prediction of maize yield.

maize meteorological yield; ensemble learning; yield estimation; county-level data; feature importance

2023-06-12;

2023-08-02

中国农业科学院科技创新工程(CAAS-ASTIP-2016-AII)

李乾川,E-mail:82101211326@caas.cn。通信作者许世卫,E-mail:xushiwei@caas.cn

(责任编辑 岳梅)

猜你喜欢

单产气象玉米
气象树
收玉米啦!
农大农企联手创山西小麦最高单产新纪录
油菜“不务正业”,单产3.4吨
《内蒙古气象》征稿简则
单产948.48千克!“金种子”迸发大能量
我国玉米单产纪录第七次被刷新
我的玉米送给你
大国气象
美丽的气象奇观