基于梯度提升决策树多特征结合的茶叶产量预测
2021-08-23徐爱俊周素茵
丁 鹏,徐爱俊,周素茵*
( 1. 浙江农林大学信息工程学院,浙江 杭州 311300;2. 浙江省林业智能监测与信息技术研究重点实验室,浙江 杭州 311300)
【研究意义】作物产量的精准预测,能够为国家农业管理和相关政策的制订提供有效支撑[1],同时在计划、生产手段、当前决策、运输、库存和风险管理等方面都具有非常重要的作用[2-3]。茶叶作为我国的一种重要经济作物,研究其产量预测模型意义重大。【前人研究进展】Moslem Abdipour等[4]建立以红花次枝的数量、枝干重、花序中的伞形花序数以及生物学产量为输入的红花产量人工神经网络(artificial neural network,ANN)预测模型和多元线性回归(multiple linear regression,MLR)模型,结果表明ANN模型的决定系数、平均绝对误差和均方根误差均优于MLR。Gniewko Niedbala[5]同样利用ANN模型,以气象数据和矿物施肥信息为特征预测冬油菜产量,预测效果良好,但ANN模型的结果可解释性较低,学习时间较长且参数较复杂;刘峻明等[6]构建多种变量组合的随机森林冬小麦产量预测模型,各模型预测效果较好,决定系数均基本高于0.75;Yaping Cai等[7]利用卫星反演的遥感植被指数和气候变量,构建与小麦产量之间的线性方法LASSO以及3种非线性方法,研究表明气候数据与卫星数据相结合的非线性方法的预测效果均优于线性方法。任建强等[8]基于归一化植被指数和一元线性回归模型预测美国各州玉米产量,但一元线性回归模型的决定系数较低。现有关于作物产量预测的研究虽然较多,但是茶叶产量预测方面的却较少,主要包括两类:一是通过建立多元线性回归分析模型[9-10],实现茶叶产量预测,但气象特征较少、不全面,且该研究的线性模型仅进行了拟合,并未对模型的预测效果进行验证与测试;二是通过构建灰色神经网络预测茶叶产量[11],但该研究仅以非自然因素为输入特征,研究样本量较少且难以分析特征变量对产量的影响。总之,现有关于茶叶产量预测的研究存在以下问题:特征构建不全面、不深入,难以反映具体特征变量对产量的影响,样本规模较小且大多以省市为单位进行产量预测等[9-11]。【本研究切入点】上述关于作物产量预测的研究虽然都选取了多维特征,但基本都未将社会发展特征加入特征集之中,忽略或事先排除了社会发展特征的影响,例如令目标变量为作物单产,排除种植面积的影响,可能会导致模型预测效果受影响,且无法分析社会发展特征对产量所造成的影响以及与其他因素对产量的影响进行对比。另外,茶叶的生长发育环境十分复杂[12],茶叶的产量受到社会技术水平、空间位置、气象条件等多种因素的影响。梯度提升决策树是对真实分布拟合最好的机器学习算法之一,它通过学习得到多个弱分类器并进行多次迭代来提升模型的性能[13],具有预测精度高、构建过程简便、能处理非线性、连续和离散数据、结果可解释等优点[14-17],该算法在电力工程、交通运输、控制工程[18-20]等多个领域均有应用,但在茶叶产量预测上尚未有相关报道。【拟解决的关键问题】因此,本文基于梯度提升决策树算法,以浙江省为研究区域,结合各茶叶主产区的茶叶年产量数据、空间气象数据和社会发展特征,选择不同特征或不同茶区建立茶叶估产模型,并分析不同特征或不同茶区对预测结果的影响,以期确定影响茶叶产量的决定性和辅助性因素,为茶叶生产管理提供指导意见,并为预测区域茶叶产量提供新思路。
1 材料与方法
1.1 研究区概况
浙江省位于中国东南沿海,东经118°01'~123°10',北纬27°02'~31°11'之间,属亚热带季风气候,四季分明,年气温适中,光照较多,降水充足,空气湿润。年平均气温15~18 ℃,年平均降水量在1500~2000 mm,年平均日照时数1710~2100 h。根据气候、自然条件、山脉以及行政区划等,可将浙江省划分为浙西北、浙东、浙南和浙中四大茶区[21],茶叶产量依次分别约占全省茶叶的35%、45%、5%和15%。
1.2 数据来源
本研究的茶叶产量数据和社会发展要素分别来自《浙江省统计年鉴》[22]记载的主要茶叶产区(县级行政区)的茶叶年产量资料和社会发展资料,覆盖了1995-2016年间连续为茶叶主产区的24个县(市区)的共528个有效数据,这24个茶叶主产区均不属于浙南茶区。茶叶主产区的空间位置数据从各县(市区)的气象观测站获得,分布情况如图1。气象数据源于《中国地面气候资料日值数据集(V3.0)》[23],提取浙江省内各茶叶主产区1995-2016年间的逐日气象数据,并通过空间插值方法[24]填充缺失的气象数据。
1.3 研究方法
1.3.1 GBDT模型构建 (1)特征集构建。本研究模型的特征集共分为两类:空间气象特征集和社会发展特征集。空间气象特征集中的空间特征包括各茶叶主产区的经度、纬度、高程3个特征;根据浙江省茶树主栽品种和茶叶生产现状,将茶叶生育期大致划分为春梢(3-5月)、夏梢(6-8月)和秋梢(9-11月)3个生长期[25]。冬季的气候和极端天气情况等也显著影响茶叶的产量,为了体现不同时期的气象要素对茶叶产量的影响,根据茶叶生育期按季节进行划分,其中12、1、2月为冬季,3-5月为春季,6-8月为夏季,9-11月为秋季。茶叶的产量受气温、相对湿度、降水量、日照等气象要素的影响[18],空间气象特征集中的气象特征如下:首先,以年为单位,提取浙江省每年(起始月份为前一年12月)的年均气温、年均相对湿度、年降水量、年日照时数,共4个特征;其次,以月为单位提取浙江省每年各季节的气象特征,其中月平均气温、月平均相对湿度、月日照时数、月降水量、月最大风速、月最高气压为各月均有的共6个气象特征。此外,冬季特有的气象特征为月负积温、月日最低温不高于零下4 ℃的总天数,冬季气象特征共计24个;春季特有的气象特征为月日平均气温在10~25 ℃之间的总天数、日平均气温不低于10 ℃的活动积温,春季气象特征共计24个;夏季特有的气象特征为月日最高温不低于35 ℃的总天数,夏季气象特征共计21个;秋季特有的气象特征为日平均气温不低于10 ℃的活动积温,秋季气象特征共计21个。最终,确定空间气象特征共计97个。
社会发展特征主要是指茶叶的种植规模、社会技术等影响茶叶产量的因素,具体包括茶园面积、农业机械总动力、有效灌溉面积、农村用电量、化肥施用量(折纯)5个特征。其中后4个特征在茶叶产业中的数据均未有文献记载且难以搜集,所以本文选取县(市区)整体的指标数据为特征变量,虽然不能完全代表茶叶产业,但是能反映农作物生长的总的社会环境和条件,提高茶叶产量预测的精度。
(2)GBDT模型。梯度提升决策树是一种Boosting算法[26](图2),其基分类器一般选用分类回归树(classification and regression tree,CART),通过多轮迭代,每轮产生一个弱分类器, 最终将所有弱分类器加权求和后即得到集成模型,具体描述如下:
(1)
式中,Τ(x;Φm)为决策树,Φm为决策树参数,x为样本数据,M为决策树个数,ωm为决策树的权重,模型共迭代M次,其中第m次的模型为:
Fm(x)=Fm-1(x)+ωmΤ(x;Φm)
(2)
式中,Fm-1(x)为当前模型,利用最小化损失函数来确定下一轮决策树参数:
(3)
L[yi,Fm-1(xi)+ωmΤ(xi;Φm)]=[yi-(Fm-1(xi)+ωmΤ(xi;Φm))]2
(4)
1.3.2 特征重要度计算 特征重要度反映了不同特征变量对目标变量[各县(市区)茶叶年产量]的影响程度,GBDT模型对不同特征变量重要性的计算的基本思想是:首先计算特征变量j在单棵决策树中的重要度,如式(5)所示。
(5)
(6)
1.4 模型评价指标
GBDT模型效果的评价指标采用:决定系数(coefficient of determination,R-Squared)、均方根误差(root mean square error,RMSE)和平均绝对误差(mean absolute error,MAE),三者的计算方法分别如式(7)、(8)和(9)所示。
(7)
(8)
(9)
2 结果与分析
2.1 不同特征变量类型对模型的影响分析
以1995-2011年的数据作为训练样本,分别使用97个空间气象特征、5个社会发展特征以及全部特征变量作为特征集训练GBDT产量预测模型,多次试验使各个模型参数均达到最优。从图3中可以看出以空间气象特征做特征集的模型的预测效果较差,趋势较平缓,R-Squared仅为0.44,RMSE高达3454 t,MAE高达2074 t,样本分布比较松散,预测结果大部分远低于实际值;以社会发展特征做特征集的模型的预测效果较好,R-Squared达到0.80,RMSE为2037 t,MAE为1388 t;以全部特征变量做特征集的模型的预测效果最佳,R-Squared达到0.90,RMSE为1492 t,MAE为1050 t,样本分布于1∶1线附近,预测结果相较于另外两个特征集表现出更小的偏差。
仅使用空间气象特征预测茶叶产量时,由于未考虑茶园面积增加、技术进步等重要的影响茶叶产量的社会发展因素,导致预测结果的偏差较大;而仅使用社会发展特征预测茶叶产量的预测精度高,说明社会发展特征对茶叶总体产量的影响很大;当空间气象特征与社会发展特征结合预测茶叶产量时,预测精度再次提升,说明这两类特征对茶叶的预测都有贡献,只是空间气象特征的贡献比较小。因此,在对茶叶产量进行预测时,需要重点考虑社会发展特征,同时也要考虑空间气象特征的影响。
2.2 不同季节对模型的影响分析
为探究不同季节对茶叶产量和模型预测精度的影响,并通过某一季节的数据预测整年的茶叶产量,以1995-2011年的数据作为训练集,2012-2016年的数据作为验证集,分别建立春季、夏季、秋季、冬季四个季节的空间气象特征和各季度的社会发展特征结合的特征集,并进行模型的训练与验证。由图4可知,4个季节的预测精度均较高,R-Squared均达到0.85以上,RMSE和MAE的值均较低,其中春季和冬季的预测精度比另外两个季节高。由于浙江省春茶的产量占了极大的比重,其次霜冻是茶叶生产中最常见的一种自然灾害,低温又是引起霜冻的主要原因,而霜冻和低温多发生于冬季和早春时节,会使茶芽受到冻害,导致茶叶产量下降,另外春季适宜的气温和积温会加快茶芽的萌动与发育,使得茶叶产量上升,故冬季与春季的气象要素对茶叶产量的影响较大。而夏季与秋季的茶叶产量占比较小,其中夏季茶叶产量主要受到高温天气的影响,秋季的气象要素对茶叶产量的影响较小。综上所述,利用春季或冬季的空间气象特征和社会发展特征建立GBDT模型可达到较好的茶叶估产效果。
2.3 不同茶区对模型的影响分析
各茶区气候条件、空间位置、技术发展等均有差异,为了探究分茶区预测茶叶产量是否会提升预测效果,以1995-2011年的数据作为训练集,2012-2016年的数据作为验证集,将研究数据按茶区进行划分,即将浙江省24个茶叶主产区进行划分(浙西北茶区共包含8个县(市区)、浙东茶区共包含9个县(市区)、浙中茶区共包含7个县(市区)),并分别将各茶区的空间气象特征和社会发展特征作为特征集,进行模型的训练与验证,结果如图5-a~c所示。再以所有茶叶产区的空间气象特征和社会发展特征作为特征集,并训练模型,验证模型阶段需对不同茶区的茶叶产量数据分别进行验证,结果如图5-d~f春茶的产量占了极大的比重,其次霜冻是茶叶生产x测各茶区茶叶产量的模型的R-Squared分别为0.78、0.93、0.81,RMSE分别为1611、1452、1698 t,MAE分别为1014、1094、1116 t;以所有茶区的数据来预测各茶区茶叶产量的模型的R-Squared分别为0.86、0.94、0.80,RMSE分别为1312、1374、1724 t,MAE分别为978、996、1211 t。可见虽然中茶区的估产模型的预测效果略有降低,但整体上后者估产效果更好,东茶区的估产模型的预测效果略有提高,西北茶区估产模型的预测效果提高较明显,R-Squared提高0.08,RMSE降低299 t,MAE降低36 t。
特别地,可以发现无论是以西北茶区的数据还是以整个茶区的数据作为特征集,西北茶区的茶叶产量预测模型的R-Squared的值虽然不高,但是RMSE和MAE值都相对偏低,可能原因是其预测值与实际值比较相近,预测误差较低,但是预测值的变异度较低,与实际值的平均值差距不大,导致西北茶区的茶叶产量预测模型的可靠度相对略低。
另外,根据茶叶主产区的茶叶年产数据可知,浙西北茶区和浙东茶区的茶叶产量分布比较均衡,而浙中茶区的茶叶产量总体偏低,均分布于15 000 t以下且集中分布于5000 t以内,所以预测浙中茶区茶叶产量时,由于同个茶区内地理位置相近,样本特征比较相似,易令预测值靠近训练样本分布集中的方向。浙西北茶区和浙东茶区的茶叶产量预测精度较高,预测值与实际值相比并无明显偏向,而浙中茶区的茶叶产量预测精度较低,实际产量较高时往往会被低估。
综上,若分茶区进行预测,虽然将样本进行了划分,但不同茶区样本之间的差异不足以降低模型的预测效果,反而会使样本量减少、样本的覆盖面和模型的泛化能力降低,导致验证样本与训练样本有较大差异时,预测效果变差。因此,无需按茶区分别构建估产模型对各茶区的茶叶产量进行预测,扩大特征集的样本容量,利用所有茶区的数据所构建的估产模型可达到更好的产量预测效果。
2.4 特征变量对茶叶产量的影响
利用1995-2016年浙江省茶叶的特征数据和产量数据分别进行基于GBDT的特征重要度分析和特征变量与产量之间的相关性分析,按重要程度由高到低排序。从表1中可以发现排名前3的均为社会发展特征,依次为茶园面积、农村用电量、有效灌溉面积,其重要度远高于其他特征变量,且它们的|r|极显著,值也较大。经统计,5个社会发展特征的重要度共高达0.708,其中茶园面积的重要度更是高达0.501,说明社会发展特征对茶叶产量的影响起着主导作用,决定了产量的基本数值。
表1 特征变量的重要度及与产量之间的相关性分析
第4~10位的特征变量均为空间气象特征,重要度较低,分布于0.02~0.06之间,第10位之后的特征变量重要度基本都低于0.01。经统计,97个空间气象特征的重要度共达0.292,表明空间气象特征对茶叶产量的影响起着辅助作用。其中空间特征的重要度共达0.062,年气象特征的重要度共达0.035,春、夏、秋、冬季气象特征的重要度分别达0.051、0.047、0.043、0.054,春季和冬季气象特征的重要度相对较高,这与2.2节中的研究结果相一致。另外,气象要素中年(月)平均气温、年(月)平均相对湿度等具有相对较高的重要度,分别达到0.048和0.055,平均气温会影响茶芽的萌动、生长状况(旺盛、抑制、停止)等,茶叶喜湿,所以平均相对湿度也影响着茶叶的产量,这与以往研究结果相一致[27-28]。上述结论再一次印证了之前的研究结果,即社会发展特征对茶叶产量的影响起着决定性作用,而空间气象特征对茶叶产量的影响作用较小。
从|r|可以看出,社会发展特征的重要度与|r|基本呈正相关关系,而空间气象特征的重要度与|r|并无明显关系,例如前10位中的3月平均气温和1月负积温的|r|并不显著,其余空间气象特征|r|值也基本只在0.11~0.15之间,而后10位中的4月平均湿度和3月降水量的|r|却十分显著,|r|值也分别达到0.211和0.134。另外,11~91位的空间气象特征的|r|值大致分布在0~0.2之间,显著性也无明显分布规律。说明单个空间气象特征与茶叶产量的相关性不太具有参考意义,其原因可能是:现代种植技术以及品种的提升会削弱气候、位置等要素对产量所带来的影响。所以多维、全方位的特征更加适合茶叶产量的预测。
3 讨 论
若选取各县(市区)茶机(采茶机械和修剪机械)拥有量、茶机总动力、茶园面积、茶园有效灌溉面积等与茶叶产量更加密切相关的社会发展要素作为特征,可能会进一步提升模型的预测效果,但是以各县(市区)为单位的与茶机或茶园相关的数据(除茶园面积)并未记载也难以收集,故本研究只能选取有记载的、较宏观却适宜的数据,例如农机总动力替代茶机总动力、县(市区)的有效灌溉面积替代茶园有效灌溉面积等。另外,由于资料记载有限,主要茶叶产区数和总样本数偏少,且茶叶主产区中未包含茶叶总产量最少的浙南茶区的县(市区),样本数据不全面,可能会降低估产模型的泛化能力。
茶叶产量会受到诸多要素的影响,所以其产量预测是一项复杂的研究工作,不仅需要选取适宜的特征变量、预测精度高,而且需要结果可解释性高。本文引入社会发展特征是为了确切地分析社会环境对茶叶产量的影响,同时能对比分析不同类型特征变量对产量的影响程度,确定影响程度较大的因素,为茶叶的生产管理提供指导意见。因此,关于多特征的非线性茶叶产量预测模型的研究是具有一定意义的且是以后的研究重点。
4 结 论
本文基于梯度提升决策树算法,结合浙江省地面气候资料数据、空间特征、社会发展特征与茶叶年产量数据,建立茶叶产量预测模型,并探讨各个特征的重要度以及其对茶叶产量的影响。
(1)相较于空间气象特征或社会发展特征,以空间气象特征和社会发展特征为特征集的模型的预测效果最佳,其决定系数R-Squared达到0.90,RMSE为1492 t,MAE为1050 t。另外,社会发展特征对产量预测效果具有巨大贡献,其模型的R-Squared达到0.80。
(2)利用春季和冬季的气象特征预测茶叶产量,效果要优于夏季和秋季,R-Squared均达到0.89,而利用秋季的气象特征估产的精度最低,R-Squared达到0.86,说明春、冬两季的气候因素对茶叶产量的影响更大,秋季的影响最小。
(3)通过计算特征重要度发现,除社会发展特征外,空间气象特征中空间特征、年气象特征、春季气象特征、冬季气象特征对产量影响较大,气象因素中年(月)平均气温、年(月)平均相对湿度对产量影响较大。另外,社会发展特征的重要度与|r|呈正相关关系,空间气象特征的重要度与|r|不具有明显关系。