基于两种数据集构建广东县级尺度龙眼产量模型效果对比*
2023-06-29殷美祥罗瑞婷曾钦文招伟文
殷美祥,罗瑞婷,朱 平**,曾钦文,招伟文
基于两种数据集构建广东县级尺度龙眼产量模型效果对比*
殷美祥1,罗瑞婷2,朱 平1**,曾钦文3,招伟文4
(1.广东省气象服务中心,广州 510640;2.广东省突发事件预警信息发布中心,广州 510640;3.广东省河源市气象局,河源 517000;4.广东省佛山市顺德区气象局,佛山 528300)
为构建县级尺度龙眼产量动态精细化模拟模型,利用1990-2020年广东省茂名市龙眼生产和国家气象观测站逐日气象数据,分析气象因子对龙眼产量的影响,基于随机森林和逐步回归方法,分别采用不同数据方案建立了化州、高州和信宜龙眼产量动态模拟模型,并进行对比分析。结果表明:广东茂名龙眼产量与气象因子密切相关,最低气温和相对湿度对茂名龙眼产量影响最大,随机森林模型和逐步回归模型入选气象因子个数分别为15个和14个,最大相关系数分别为−0.31和0.43。与多元逐步回归法相比,基于随机森林回归法构建的龙眼产量模拟模型准确率较高,模型决定系数(R2)为0.97,提升了7%,平均绝对误差(MAE)为210.16kg·hm−2,下降了52%,均方根误差(RMSE)为289.62kg·hm−2,下降了46%。引入模拟目标区外相似气候特点地区数据重新构建模型后,随机森林回归构建的龙眼产量模拟模型准确率更高,R2提升了3%,MAE下降了32%,RMSE下降了31%,多元逐步回归法构建的模型模拟结果无显著变化。说明基于随机森林回归法构建龙眼产量模拟模型结果可靠,可满足龙眼气象业务服务精细化需求。
产量模拟;龙眼;精细化;随机森林回归
作物产量模拟是根据作物生长、发育和产量形成过程与气象条件、社会经济发展水平等多种因素的复杂关系,通过构建数学关系模型对农作物产量进行估测的一项专业性气象服务业务[1−2]。及时准确模拟作物产量,对于农业宏观调控、农业生产管理、进出口贸易、应对极端气候及粮食安全都有重要的意义[3−7]。目前,作物产量模拟方法主要有作物生长模型、遥感估算和数理统计等模拟方法[8−10]。
作物生长模型模拟方法,是充分考虑气象条件、土壤、管理和品种等因素对作物的综合影响,具有较强的机理性。刘春等[11]基于能量模型构建了水稻生长模型,分析了水稻最大生长率的出现时间,发现水稻生育后期高温对产量影响比前期受低温影响严重。马玉平等[12]应用玉米生长模型分析了东北区域气象条件对玉米生长发育及产量形成的影响,评估了平均气候状态下平均模拟生物量确定方法,并进行了个例验证。帅细强等[1]建立了基于关键气象因子、气候适宜度、作物生长模型的早稻产量预报方法,3种预报方法准确率平均高于93.8%,基于气候适宜度和作物生长模型结合是产量预报的较优法。黄晚华等[13]阐述了当前基于作物生长模拟模型的产量预报方法进展,认为基于作物机理模型的产量预报方法是未来发展趋势。遥感估产预报方法是利用卫星遥感反演植被指数与作物产量的定量关系构建的产量预报方法[1]。姬菊枝等[14]利用极轨气象卫星实时资料与作物绿度值,监测作物生长状况并进行产量预报,发现该方法结合模式预报结果可提高产量预报准确率。陈劲松等[15]利用数据同化方法提取国产环境卫星数据的水稻叶面积指数,结合作物生长模型,预测水稻产量,修正水稻作物生长模型提高水稻估产精度。
近年来,数理统计产量模拟方法已逐渐从线性回归方法发展到机器学习方法[16−18]。刘峻明等[19]利用随机森林算法,基于河南16a地面观测气象数据与作物产量资料构建冬小麦产量预测模型,预测效果较好,决定系数达到0.84。杨北萍等[20]利用遥感数据和气象数据,建立水稻产量估算随机森林回归模型,以多元逐步回归模型作为比较模型,随机森林回归模型水稻产量估算精度明显高于多元逐步回归模型。林滢等[21]利用河南13a气候、土壤、冬小麦遥感数据,采用随机森林算法研究河南冬小麦产量预测最佳时间窗和影响因子,发现12月−翌年3月为河南冬小麦产量预测的最佳时间段,月降水量对模型精度影响最大,月最高温度影响最小。王来刚等[22]基于随机森林算法构建了河南冬小麦产量预测模型,提高了区域冬小麦产量预测精度。
近年基于随机森林机器学习的产量模拟方法取得了快速发展,主要集中在水稻、小麦、大豆和玉米等粮食作物,针对龙眼产量模拟的研究成果鲜少报道。此外,上述产量模拟的研究主要应用于国家或省级层面,但实际生产中产量模拟要求越来越精细,亟待区县层面产量模拟业务以满足农业生产的需求。茂名市龙眼产区是广东龙眼重要产区,其龙眼种植面积占粤西龙眼种植总面积的77.6%[23],亟需龙眼产量精细化模拟研究业务和服务,对提高地区特色农产品种植和科学经营具有重要的参考。鉴于此,本文以广东茂名龙眼为研究对象,探究龙眼生长发育中气象条件与产量的关系;基于随机森林回归方法构建区(县)龙眼产量模拟模型,与多元逐步回归模型产量模拟结果对比验证,为龙眼精细化产量模拟提供参考。
1 数据与方法
1.1 数据来源
广东省茂名市是龙眼产量的主产区,位于21.22−22.42°N,110.19−111.41°E,以茂名市的化州、高州和信宜3个县级市作为研究区域。1990−2020年广东茂名5个地区(化州、高州、信宜、茂南和电白)的龙眼种植面积和统计产量来自茂名市统计局[24],龙眼产量序列为其总产量与种植面积换算得到(kg · hm−2)。1990−2020年广东茂名5个典型站(化州、高州、信宜、茂南和电白)逐日气象资料来自广东省气象数据中心,包含平均气温、最低气温、最高气温、日降水量、日照时数、平均风速、相对湿度、低温阴雨日数等。基于所获取的逐日气象数据,计算5个典型站逐旬(全年共计36旬)平均气温(℃)、最低气温(℃)、平均最高气温(℃)、≥10℃活动积温(℃)、平均日降水量(mm·d−1)、平均日照时数(h)、平均风速(m·s−1)、平均相对湿度(%),共计288个因子数据,以及全年平均气温、最低气温、平均最高气温、≥10℃活动积温、平均日降水量、平均日照时数、平均风速、平均相对湿度和低温阴雨日数,共计9个因子,总计297个气象因子数据。
参考段海来等[26]研究成果,龙眼生育期覆盖全年,具体生育期划分为:花芽生理分化期(1月上旬−2月下旬,共计6旬)、花芽形态分化期(3月上旬−4月中旬,共计5旬)、开花期(4月下旬−5月下旬,共计4旬)、果实发育成熟期(6月上旬−8月下旬,共计9旬)、抽梢期(9月上旬−10月下旬,共计6旬)、休眠期(11月上旬−12月下旬,共计6旬)。
1.2 模拟模型构建方法
1.2.1 气象产量分解
根据1990−2020年3个典型地区(化州、高州和信宜)龙眼种植面积和统计产量计算得到各地区龙眼产量,计算式为
式中,Y为龙眼实际产量,Yt为趋势产量,Yw为气象产量,Ei为随机产量,Ei较小一般忽略不计,单位均为kg·hm−2。龙眼趋势产量采用线性拟合方程计算而得,3个地区龙眼趋势产量拟合方程及决定系数如表1所示,结合式(1)分别计算化州、高州、信宜3个地区的气象产量。
1.2.2 随机森林回归算法
随机森林回归算法(Random Forest Regression,RFR)是由多棵决策树集成的机器学习算法,采用样本和特征双重随机抽样构建决策树集,将所有决策树的计算结果取平均值作为随机森林模型的模拟结果,克服了传统的决策树算法易拟合、精度不足的问题[21]。训练模型时,通过自助法(Bootstrap)从样本数据集中随机采样k个子集,构建k棵决策树。每次未被抽到的数据称为袋外数据(Out-of-bag,OOB),用来评价模型训练时内部误差和特征的重要程度。理论上随机森林法包含的决策树数量越多,模型测试误差越小,拟合效果越好。当决策树个数达到一定数量,模型测试误差变化很小,此时的决策树数量可作为理想决策树数量。其次,生成每棵决策树时需从M个特征变量中随机选取m个特征变量(m 表1 三个典型地区龙眼趋势产量拟合方程及其决定系数 注:x为年序号,取值为1,2,…,31。Yt为趋势产量(kg·hm−2)。 Note: x is the year serial number in 1990−2020, which is 1, 2, ..., 31. Ytrepresent the trend yield(kg·ha−1). 1.2.3 多元逐步回归法 多元逐步回归法是传统统计学方法,依据所选变量因子与目标因子的相关性,按照模型显著性要求逐个引入或剔除因子,减少多重共线性问题,构建简洁模型。利用龙眼生育期逐旬的气象要素因子与气象产量建立多元逐步回归方程,以 95%显著性为标准,构建 3 个地区多元逐步回归模型,与机器学习方法对比评估龙眼产量模拟能力。 1.2.4 模型构建方案 以气象因子为特征值、龙眼气象产量为目标值,组成数据样本集。为研究引入相似气候特点的样本集是否会提高产量模拟准确性,在研究区域内构建两个数据集,见表2。第一数据集包含化州、高州、信宜3个区域的297个气象因子数据;第二数据集在第一数据集基础上,增加了与目标区域具有相似气候特点的电白和茂南两个县的297个气象因子数据。采用随机森林回归算法和逐步回归方法构建不同龙眼产量的模拟模型,对比机器学习和传统统计学方法的模拟效果。以模型构建目标区域的2012−2020年数据样本集作为测试数据集,以模型构建目标区域的1990−2011年数据样本集和研究区域内非模型构建目标区域的1990−2020年数据样本作为训练数据集,构建相应的模拟模型。 表2 构建模型所需的训练集和测试集划分方案 注:训练集和测试集是指筛选出的气象因子特征值及其对应的龙眼气象产量目标值共同组成的数据样本集。 Note: The training set and the test set refer to the data sample set composed of the selected characteristic values of meteorological factors and their corresponding target values of meteorological yield of Longan. 1.2.5 模型评价指标 采用决定系数(R2)、平均绝对误差(MAE)和均方根误差(RMSE)3个模型评价指标,评估3个目标地区龙眼气象产量模型精度。其中决定系数R2越大,模型精度越高;平均绝对误差MAE和均方根误差RMSE的值越小,模型精度越高。计算公式分别为 根据1990−2020年茂名地区5个典型站点气象数据,逐旬和年平均气温、最低气温、最高气温、≥10℃活动积温、平均日降水量、平均日照时数、平均风速、平均相对湿度和逐年的低温阴雨日数,总计297个气象因子数据,结合龙眼气象产量,按照95%显著性水平检验标准,筛选88个气象因子及龙眼气象产量与气象因子的相关系数。由表3可知,龙眼不同生育阶段最低气温、平均相对湿度入选因子个数最多(14~15个),≥10℃活动积温和平均气温入选12个,平均日降水量、平均风速、最高气温、平均日照时数入选因子共8~10个,说明龙眼生育期内最低气温、平均相对湿度对龙眼气象产量的影响较大。龙眼气象产量与不同生育时段平均风速呈负相关,与3月下旬−12月的日降水量呈负相关,与平均相对湿度呈正相关,与很多时段的≥10℃活动积温呈正相关,说明大风、阴雨天气、日照不足等均不利于龙眼气象产量的增加。 从龙眼不同生育期来看,花芽生理分化期(1月上旬−2月下旬),龙眼气象产量与1月上旬最低气温为正相关,与1月中旬最高气温负相关,适当低温有利于抑制营养生长、提高细胞液浓度、促进花芽分化,而温度升高影响花芽分化,引起“冲梢”现象[26]。花芽形态分化期(3月上旬−4月中旬),龙眼气象产量与3月上旬平均日照时数和最高气温、3月下旬平均日降水量呈负相关,高温、多雨和高日照时数不利于花芽发育生长。龙眼气象产量与5月上旬平均相对湿度呈正相关,与平均日照时数和最高气温呈负相关,说明开花初期(4月下旬)需湿润环境,高温高日照不利于开花,高湿有利于开花;末花期(5月下旬)龙眼气象产量与≥10℃活动积温、最低气温、平均气温和平均日照时数呈正相关,适宜温度和日照充足的晴朗天气有利于末花期昆虫授粉,提高龙眼坐果率[27]。果实发育成熟期(6月上旬−8月下旬),正是台风降雨集中期,龙眼气象产量与7、8月的平均风速、平均日降水量均呈负相关关系,降雨过多易影响根系生长,大风易折断树枝,造成龙眼减产[23、28]。龙眼气象产量与8月≥10℃活动积温、最低气温、平均气温和平均日照时数正相关,说明适宜温度和充足日照有利于果实发育[29]。抽梢期(9月上旬−10月下旬)龙眼气象产量与最高气温、≥10℃活动积温、平均气温的相关性达到0.3以上,说明充足光照和温度,有利于龙眼光合作用[27]。休眠期(11月上旬−12月下旬)龙眼气象产量与最高气温、平均气温、≥10℃活动积温和平均风速呈负相关,说明连续高温、大风不利于果树休眠[29]。 表3 龙眼气象产量与生育期内88个逐旬气象因子的相关系数 注:参数的下标m-n表示月-旬,n取值1、2、3分别表示每月上、中、下旬;当m和n都为0表示全年。下同。 Note: The subscript m- n of the parameter represents month-ten days in this month, with values ranging from 1 to 3, representing early, middle, and last ten days respectively. When m and n are both 0, it indicates the total year. The same as below. 基于第一数据集(3站),根据龙眼气象产量与气象因子的关系,将通过95%显著性检验入选的88个气象因子作为特征变量,针对化州、高州、信宜3个站点分别构建龙眼气象产量模拟模型。采用网格搜索法,根据随机森林超参数调参经验[19−21],设定随机森林中决策树数目k范围[1,200],决策树最大深度d范围[1,30],决策树节点在分支后每个子节点须包含的最小样本数l范围[1,30],其它参数设置为默认值,以决定系数(R2)为模型评判标准,穷举所有参数的可能取值组合,采用5折交叉验证,将3个县84组训练样本组成的训练集随机划分为5个互斥子集,其中4个子集训练,剩下的子集为验证集,直至所有样本参与且不重复,最后对各次验证值取平均作为最终的验证结果,实现最优参数的选取。最终取得随机森林模拟模型的最优参数如下:化州RFR模型的参数k、d、l分别设为46、9、1,高州RFR模型的参数k、d、l分别设为53、9、1,信宜RFR模型的参数k、d、l分别设为160、5、1。 采用多元逐步回归方法建立模拟方程,以P<0.05作为标准,经过对参数多次的引入和剔除,最后分别选取12、11、15个因子参数建立逐步回归的化州LR模型、高州LR模型、信宜LR模型。对比随机森林与逐步回归两种方法构建模型训练结果来看(表4),3个站点逐步回归模型决定系数(R2)分别为0.75、0.76和0.07,平均绝对误差(MAE)分别为299.25kg·hm−2、340.92kg·hm−2和509.30kg·hm−2,均方根误差(RMSE)分别为357.35kg·hm−2、393.76kg·hm−2和577.26kg·hm−2。与逐步回归模型相比较,基于随机森林回归模型R2分别为0.91、0.92和0.90,提升大于22%;MAE分别为180.63kg·hm−2、185.04kg·hm−2和208.73kg·hm−2,平均下降48%;RMSE分别为248.11kg·hm−2、247.56kg·hm−2和269.40kg·hm−2,平均下降40%。可见基于随机森林回归模型训练效果显著优于多元线性回归模型。 基于第二数据集(3站点加周边相似站点数据),根据龙眼气象产量与气象因子的关系,针对化州、高州、信宜构建气象产量模拟模型。3个县训练样本为146组。逐步优化后取得随机森林模型最优参数如下:化州RFR模型的参数k、d、l分别设为72、7、1,高州RFR模型的参数k、d、l分别设为65、15、1,信宜RFR模型的参数k、d、l分别设为129、8、1。采用多元逐步回归法,经过对参数多次的引入和剔除,最后分别选取18、23和18个因子建立化州LR模型、高州LR模拟模型、信宜LR模拟模型。对比基于5站点构建的随机森林和逐步回归两类模拟模型的结果(表5),基于5个站点的逐步回归模型R2分别为0.68、0.59和0.61,MAE分别为420.53kg·hm−2、502.97kg·hm−2和456.73kg·hm−2,RMSE分别为531.57kg·hm−2、575.72kg·hm−2和572.41kg·hm−2。与逐步回归模拟模型相比较,基于随机森林回归的模拟模型R2分别为0.94、0.95和0.95,平均提升52%;MAE分别为203.09kg·hm−2、186.20 kg·hm−2和196.05kg·hm−2,平均下降57%;RMSE分别为271.88kg·hm−2、259.47kg·hm−2和267.24kg·hm−2,平均下降52%。基于随机森林回归模拟模型训练效果仍显著高于多元线性回归模型。与第一数据集的对比,第二数据集构建随机森林模拟模型R2、MAE、RMSE分别提升了4%、2%和4%,逐步回归模型R2、MAE、RMSE分别提升了250%、25%和31%。可见,引入了与目标区域具有相似气候特点数据后,随机森林模拟模型决定系数有所提升,但多元线性回归模型误差反而明显加大。 表4 基于第一实验数据集构建的逐步回归模型和随机森林模型的模拟效果 为评估各模拟模型在实际业务工作中的适用性,利用2012−2020年化州、高州、信宜3个地区测试数据,计算各地区气象产量和趋势产量后验证模拟精度(图1)。基于第一数据集建立的模拟模型,逐步回归模型R2为0.92,MAE为358.79kg·hm−2,RMSE为512.87kg·hm−2。相比逐步回归模型,随机森林回归模型的R2为0.95,提升了3%,其MAE为307.85kg·hm−2,下降了14%,其RMSE为417.22kg·hm−2,下降了19%。基于第二数据集建立的模型,逐步回归模型R2为0.91,MAE为439.28kg·hm−2,RMSE为534.58kg·hm−2。相比逐步回归模型,随机森林回归模型的R2为0.97,提升了7%,其MAE为210.16kg·hm−2,下降了52%,其RMSE为289.62kg·hm−2,下降了46%。可见,随机森林回归模拟模型模拟效果显著高于多元线性回归模型。 对比不同数据集建立的模型模拟效果。逐步回归模型引入区域外数据后,决定系数基本不变,但平均绝对误差和均方根误差分别提升了22%和4%。随机森林回归模型引入区域外数据后,决定系数评分提升了3%,平均绝对误差下降了32%,均方根误差下降了 31%。可见,整体上两类模型模拟准确性均较高,可以较好地满足龙眼产量估算。引入区域外数据后,随机森林回归模拟模型能够明显提升模拟效果,但逐步回归模拟模型无显著影响,甚至平均绝对误差扩大。 表5 基于第二实验数据集构建的逐步回归模型和随机森林模型的模拟效果 (a)基于3站点构建Based on 3 stations dataset,(b)基于5站点构建Based on 5 stations dataset (1)龙眼产量与气象因子密切相关,不同生育阶段影响的气象因子不同。生育期内最低气温、相对湿度对龙眼产量影响最大;大风、阴雨天气、日照不足等不利于龙眼生长。 (2)基于随机森林回归的龙眼产量模拟模型准确度显著高于传统逐步回归方法。验证结果表明,随机森林回归模型决定系数为0.97,提升了7%,平均绝对误差为210.16kg·hm−2,下降了52%、均方根误差为289.62kg·hm−2,下降了46%。 (3)引入与目标区域有相似气候特点的区域外样本数据后,基于随机森林回归龙眼产量模拟模型的模拟效果显著提升,决定系数提升了3%,平均绝对误差下降了32%,均方根误差下降了31%。引入区域外数据后,对逐步回归模拟模型模拟结果无显著影响。 因此,通过引入气候特点相似的区域外样本数据,提高基于随机森林的产量模拟模型准确性,可以解决小区域产量样本不足问题,满足当地龙眼产量预测。 采用随机森林回归方法构建的县级尺度龙眼产量模拟模型准确率较高,可作为县域龙眼种植、经营等活动的参考依据,发现了引入与目标区域有相似气候特点的区域外样本数据可显著提升该模型的模拟效果,积累了在县域样本数据较少的情况下如何提高模拟准确率的经验。 目前,已有较多省级或者区域层面的产量研究成果,鲜有县级尺度的龙眼产量模拟模型研究。县级尺度的龙眼产量和气候数据样本量较少,数据样本获取难度较大,是县级尺度的龙眼产量模拟模型构建的难点之一。本文提出并验证了通过引入气候特点相似的区域外样本数据,显著提高基于随机森林回归的产量模拟模型模拟效果,解决小区域训练样本不足的问题。但具体以何种标准来引入区域外的数据,还有待未来继续深入研究。未来可以尝试采用气候相似距离挑选气候相似性的区域。气候相似距离是通过多维空间相似距离来衡量不同地区间种植龙眼的气候特征相似程度,相似距离越大,表示相似程度越低;反之,表示相似程度越高[30]。可结合地方需要和特点,设置气候相似距离阈值,当气候相似距离小于某个阈值时,将该地区的样本引入目标区域的龙眼模拟模型构建和验证工作中。 本文基于随机森林回归的龙眼产量模拟模型准确度显著高于传统逐步回归方法,这与杨北萍等[20]有相似的研究结果。未来可以引入更多的建模方法,尤其是基于机器学习方法,如AdaBoost、XGBoost方法进行作物产量模拟,深入研究对比不同机器学习方法对县级尺度作物产量的模拟能力和效果。本文只在广东茂名进行了龙眼产量的模拟,评估具有一定局限性,今后将周边龙眼产区的县域纳入试验,扩大模拟模型构建方案试验研究范围,还可以引入建设密度更大的气象区域自动站数据,气象遥感数据、气象行业外其他因子作为建模数据,进一步提升模拟准确度。 [1] 帅细强,陆魁东,黄晚华.不同方法在湖南省早稻产量动态预报中的比较[J].应用气象学报,2015,26(1):103-111. Shuai X Q,Lu K D,Huang W H.A comparative study on dynamic forecasting of early rice yield by using different methods in Hunan province[J].Journal of Applied Meteorological Science,2015,26(1):103-111.(in Chinese) [2] 徐敏,徐经纬,高苹,等.不同统计模型在冬小麦产量预报中的预报能力评估:以江苏麦区为例[J].中国生态农业学报,2020,28(3):438-447. Xu M,Xu J W,Gao P,et al.Evaluation of winter wheat yield prediction ability of different statistical models:a case study of Jiangsu wheat-growing region[J].Chinese Journal of Eco-Agriculture,2020,28(3):438-447.(in Chinese) [3] 刘维,宋迎波.基于不同空间尺度的作物产量集成预报:以江苏一季稻为例[J].气象科学,2021,41(6):828-834. Liu W,Song Y B.Comparative analysis of different regional scales integration yield prediction a case study of single rice in Jiangsu[J].Journal of the Meteorological Sciences, 2021,41(6):828-834.(in Chinese) [4] 李树岩,刘伟昌.基于气象关键因子的河南省夏玉米产量预报研究[J].干旱地区农业研究,2014,32(5):223-227. Li S Y,Liu W C.Research on the yield prediction of summer maize in Henan province based on meteorological key factors[J].Agricultural Research in the Arid Areas, 2014,32(5):223-227.(in Chinese) [5] 魏瑞江,宋迎波,王鑫.基于气候适宜度的玉米产量动态预报方法[J].应用气象学报,2009,20(5):622-627. Wei R J,Song Y B, Wang X.Method for dynamic forecast of corn yield based on climatic suitability[J].Journal of Applied Meteorological Science,2009,20(5):622-627.(in Chinese) [6] 刘锦銮,何健,沙奕卓,等.越南和泰国水稻产量预报研究[J].华南农业大学学报,2005(3):1-4. Jiu J L,He J, Sha Y Z,et al.Research on the rice yield forecast in Vietnam and Thailand[J].Journal of South China Agricultural University,2005(3):1-4.(in Chinese) [7] 游超,蔡元刚,张玉芳.基于气象适宜指数的四川盆地水稻气象产量动态预报技术研究[J].高原山地气象研究,2011, 31(1):51-55. You C,Cai Y G, Zhang Y F.Study on dynamic forecasting technology of meteorological yield of rice in sichuan basin based on weather appropriate index[J].Plateau and Mountain Meteorology Research,2011,31(1):51-55.(in Chinese) [8] Jin I Y.Predicting regional rice production in South Korea using spatial data and crop-growth modeling[J].Agricultural Systems,2003,77(1):23-38. [9] Guillaume J,Elizabeth P,Liu J G.Using leaf area index, retrieved from optical imagery, in the STICS crop model for predicting yield and biomass of field crops[J].Field Crop Research,2012, 131(2):63-74. [10] Everingham Y,Sexton J,Skocaj D,et al.Accurate prediction of sugarcane yield using a random forest algorithm[J]. Agronomy for Sustainable Development,2016,36(2):27. [11] 刘春,张春辉,郭萨萨.基于能量模型的水稻生长模型[J].应用气象学报,2013,24(2):240-247. Liu C,Zhang C H,Guo S S.Rice growth model based on energy model[J].Journal of Applied Meteorological Science, 2013,24(2):240-247.(in Chinese) [12] 马玉平,王石立,王馥棠.作物模拟模型在农业气象业务应用中的研究初探[J].应用气象学报,2005(3):293-303. Ma Y P,Wang S L,Wang F T.A preliminary study on the application of crop simulation models in agrometeorological services[J].Journal of Applied Meteorological Science,2005 (3):293-303.(in Chinese) [13] 黄晚华,薛昌颖,李忠辉,等.基于作物生长模拟模型的产量预报方法研究进展[J].中国农业气象,2009,30(S1): 140-143. Huang W H,Xue C Y,Li Z H,et al.Research progress in yield forecasting method based on crop growth simulation model in China [J].Chinese Journal of Agrometeorology, 2009,30(S1):140-143.(in Chinese) [14] 姬菊枝,陶国辉,范玉波,等.利用气象卫星遥感进行哈尔滨地区作物生长状况监测及产量预报[J].东北农业大学学报,2008(6):59-62. Ji J Z,Tao G H,Fan Y B,et al.Crop growth monitoring and yield for ecast by satellite remote sensing technique in Harbin[J].Journal of Northeast Agricultural University,2008 (6):59-62.(in Chinese) [15] 陈劲松,黄健熙,林珲,等.基于遥感信息和作物生长模型同化的水稻估产方法研究[J].中国科学:信息科学,2010,40 (S1):173-183. Chen J S,Huang J X,Lin H,et al. Rice yield estimation by assimilation remote sensing into crop growth model[J]. Scientia Sinica(Informationis),2010,40(S1):173-183.(in Chinese) [16] Jeong J H,Resop J P,Mueller N D,et al.Random forests for global and regional crop yield predictions[J].PLoSONE, 2016,11(6):e0156571 [17] Aghighi H,Azadbakht M,Ashourloo D,et al.Machine learning regression techniques for the silage maize yield prediction using time-series images of Landsat 8 OLI[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing,2018,11(12):4563. [18] Elavarasan D,Vincent D R,Sharma V,et al.Forecasting yield by integrating agrarian factors and machine learning models:A survey [J].Computers and Electronics in Agriculture, 2018,155:257. [19] 刘峻明,和晓彤,王鹏新,等.长时间序列气象数据结合随机森林法早期预测冬小麦产量[J].农业工程学报,2019, 35(6):158-166. Liu J M,He X T, Wang P X,et al.Early prediction of winter wheat yield with long time series meteorological data and random forest method[J].Transactions of the Chinese Society of Agricultural Engineering,2019,35(6):158-166. (in Chinese) [20] 杨北萍,陈圣波,于海洋,等.基于随机森林回归方法的水稻产量遥感估算[J].中国农业大学学报,2020,25(6):26-34. Yang B P,Chen S B,Yu H Y,et al.Remote sensing estimation rice yield based on random forest regression method[J]. Journal of China Agricultural University,2020,25(6):26- 34.(in Chinese) [21] 林滢,邵怀勇.基于随机森林算法的河南省冬小麦产量预测最佳时间窗和影响因子研究[J].麦类作物学报,2020,40 (7):874-880. Lin Y,Shao H Y.Study on optimal time and influencing factors for winter wheat yield prediction in Henan based on random forsest algorithm[J].Journal of Triticeae Crops,2020,40(7):874-880.(in Chinese) [22] 王来刚,郑国清,郭燕,等.融合多源时空数据的冬小麦产量预测模型研究[J].农业机械学报,2022,53(1):198-204. Wang L G,Zheng G Q,Guo Y,et al.Prediction of winter wheat yield based on fusing multi-source spatio-temporal data[J].Transactions of the Chinese Society for Agricultural Machinery,2022,53(1):198-204.(in Chinese) [23] 郭栋梁,韩冬梅,黄石连,等.2022年广东龙眼生产形势分析[J].中国热带农业,2023(1):5-13. Guo D L,Han D M,Huang S L,et al.Analysis of Guangdong longan production situation in 2022[J].China Tropical Agriculture,2023(1):5-13.(in Chinese) [24] 茂名市统计局.茂名市统计年鉴(1990-2020)[M].北京:中国统计出版社,1991-2021. Statistics Bureau of Maoming City.Statistics yearbook of maoming city(1980-2004)[M].Beijing:China Statistics Press,1991-2021. [25] 刘维,宋迎波.农业气象观测站冬小麦观测产量资料在产量预报业务中的应用研究[J].气象,2021,47(12):1546- 1554. Liu W, Song Y B.Operational application of observed yield of winter wheat from agrometeorological stations in yield prediction[J].Meteorological Monthly,2021,47(12):1546-1554. (in Chinese) [26] 段海来,千怀遂.华南地区龙眼种植的温度风险评估[J].地理研究,2009,28(4):1095-1104. Duan H L,Qian H S.Assessing the temperature risk to longan planting in South China[J].Geograp Hical Research, 2009,28(4):1095-1104.(in Chinese) [27] 陈国保, 李永平,姚志东.2011 年龙眼挂果率高的气象成因分析[J].气象研究与应用,2012,33(1):52-55. Chen G B,Li Y P,Yao Z D.Meteorological analysis of longan fruiting rate in 2011[J].Journal of Meteorological Research and Application,2012,33(1):52-55.(in Chinese) [28] 杨苏勤,尤竞飞,叶晓冰.2012年泉州龙眼挂果情况的气象成因分析[J].气象水文海洋仪器,2013,30(2):58-61. Yang S Q,You J F,Ye X B. Meteorological causes of Quanzhou longan fruiting rate in 2012[J].Meteorological Hydrological and Marine Instrument,2013,30(2):58- 61.(in Chinese) [29] 段海来,千怀遂,俞芬,等.华南地区龙眼的温度适宜性及其变化趋势[J].生态学报,2008(11):5303-5313. Duan H L,Qian H S,Yu F,et al. Temperature suitability of longan and its changes in South China area[J].Acta Ecologica Sinica,2008(11):5303-5313.(in Chinese) [30] 梁敏妍,黄翠银,张羽,等.广东仁化县与广西容县沙田柚气候生态适应性比较[J].南方农业学报,2019,50(11): 2496-2503. Liang M Y,Huang C Y,Zhang Y,et al.Climatic and ecological adaptability of Shatian pomelo:a comparative analysis between Renhua of Guangdong and Rongxian of Guangxi[J].Journal of Southern Agriculture,2019,50(11): 2496-2503.(in Chinese) Effect Comparison of County-scale Model of Longan Yield in Guangdong Based on Two Datasets YIN Mei-xiang1, LUO Rui-ting2, ZHU Ping1, ZENG Qin-Wen3, ZHAO Wei-Wen4 (1.Guangdong Meteorological Service Center, Guangzhou 510640, China; 2.Guangdong Provincial Emergency Early Warning Release Center, Guangzhou 510640; 3.Heyuan Meteorological Bureau of Guangdong Province,Heyuan 517000; 4.Shunde Meteorological Service, Foshan 528300) In order to construct a county-scale dynamic refined simulation model for longan yield, authors analyze the influence of meteorological factors on longan yield using the longan production data of Maoming from 1990 to 2020 and the daily meteorological data of the national meteorological observatory, establish and carry out the comparative analysis on the dynamic simulation model of longan yield in Huazhou, Gaozhou and Xinyi based on the random forest regression method and stepwise regression method with different data schemes. The results showed that the longan yield in Maoming is closely related to meteorological factors, and the minimum temperature and the relative humidity during the growth period have the greatest influence on the longan yield in Maoming, with 15 and 14 meteorological factors selected respectively, and their maximum correlation coefficients being −0.31 and 0.43, respectively. Compared with the multiple stepwise regression method, the accuracy of longan yield simulation model constructed by the random forest regression method is higher. The model determination coefficient (R2) is 0.97, which increases by 7%, the mean absolute error (MAE) is 210.16kg·ha−1, which decreases by 52%, and the root mean square error (RMSE) is 289.62kg·ha−1, which decreases by 46%. When the data of similar climate characteristic areas outside the simulation target region is introduced, the simulation result of the random forest regression model is significantly improved, with R2increases by 3%, MAE decreases by 32%, and RMSE decreases by 31%, while the simulation result of the stepwise regression model has no significant change. The longan yield simulation model based on the random forest regression method is reliable, which can meet the demand for refined meteorological service of longan. Yield simulation; Longan; Refined simulation; Random forest regression 10.3969/j.issn.1000-6362.2023.06.005 殷美祥,罗瑞婷,朱平,等.基于两种数据集构建广东县级尺度龙眼产量模型效果对比[J].中国农业气象,2023,44(6):502-512 2023−03−06 广东省重点领域研发计划项目(2020B0101130021);广东省气象局科技项目(GRMC2022LM02);广东省气象公共服务中心科技项目(2021M14) 朱平,高级工程师,主要从事气象服务管理、智慧气象服务体系、气象服务数字化转型研究,E-mail:61231442@qq.com 殷美祥,E-mail:646343261@qq.com2 结果与分析
2.1 建模所需关键气象因子筛选
2.2 基于3站点构建的产量模拟模型
2.3 基于5站点构建的产量模拟模型
2.4 基于两种数据集建立的模型验证
3 结论与讨论
3.1 结论
3.2 讨论