APP下载

基于梯度提升回归树模型的烟草产量预测方法

2023-09-27李明钊李熠胥

云南化工 2023年9期
关键词:月度梯度烟草

李明钊,李熠胥,王 佳

(1.红云红河烟草(集团)有限责任公司昆明卷烟厂,云南 昆明 650106;2.昆明理工大学自动化系,云南 昆明 650500)

烟草起源于美洲、大洋洲及南太平洋的某些岛屿,自哥伦布发现美洲大陆之后,开始逐渐传播到世界各地。烟草遍布亚洲、美洲、非洲及东欧的广大地区,是中国及其他许多国家的重要经济作物[1],其利税是国家和地方政府财政收入的重要来源之一。据统计,全国烟草行业在1993年便已创税500亿元,居各行业之首,并在后续年份持续上升。2010年达到5000亿元,2021年实现13581亿元,创历史新高,为国家和地方财政增收、经济发展作出积极贡献。此外,中国烟草的生产量占世界总量的三分之一以上,因此,为科学规划烟草种植,对烟草产量的预测显得尤为重要,可以为生产管理者提供决策支持。

目前,已有部分学者建立数学模型对烟草产量进行预测。曾志三[2]等利用灰色预测模型预测福建省宁化县的烟草产量,为科学规划烟草种植提供依据;刘晓宇[3]建立多元二次回归模型,对黑龙江烟草产量进行预测,并为黑龙江烟草生产提供相应的对策建议;张慢慢[4]基于气候因素建立与烤烟产量关系的多元回归和BP神经网络模型,对河南省烤烟产量进行预测,并对烤烟经济性状进行综合分析;张泰[5]等基于植烟区土壤样本的主成分分析,利用支持向量机回归算法邵阳县70个植烟区的烟草产量进行回归预测,为烟草产量的预测提供了一条新思路。通过文献调研可知,建立数学模型对烟草产量进行预测的相关研究较少,基于此本文提出一种梯度提升回归树(Gradient Boost Regression Tree,GBRT)模型对烟草产量进行预测。

GBRT作为集成学习中的一种预测模型,其本质是以决策树为基本学习器的加法模型,由Friedman[6]首次提出,具有预测精度高、运算速度快、对异常值的鲁棒性强、不容易陷入过拟合等优势,广泛应用于各行业预测研究。李津[7]等建立GBRT模型对高铁区间晚点恢复进行预测,帮助提高调度员决策效率及提升高铁运营控制水平;陈静[8]等建立GBRT模型对空调系统中冷水机组的能耗进行预测,其预测精度足以满足实际应用需求;陈岩[9]等建立GBRT模型对风力发电机温度进行预测,并与真实值比较,验证所建模型的有效性。通过文献调研可知,GBRT模型在诸多邻域已得到广泛应用,但在烟草产量预测方面应用较少,因此,本文利用GBRT预测烟草产量,并通过数据仿真验证模型有效性。

综上,本文利用GBRT模型对全国烟草产量进行预测。首先,基于梯度提升思想建立GBRT模型;然后,根据近年来全国烟草产量的真实数据设置独立因子;最后,通过仿真实验验证GBRT模型预测的有效性。

1 模型建立

1.1 梯度提升

梯度提升建立在集成学习Booting思想上,通过将多个基学习器进行加权结合,使弱学习器提升为强学习器[10]。基于此,若弱学习器的生成依据是损失函数的梯度方向,则称之为梯度提升。梯度提升算法首先要给定一个目标损失函数,通过迭代选择一个梯度方向上的基函数来逐渐逼近函数局部极小值,以达到损失函数最小值。

1.2 回归树

GBRT模型的基学习器为回归树CART[11],其树生成方法是将特征空间进行分支划分,分支时穷举每一个特征值的每一个阈值,通过最小化均方差找到分支依据,直到满足预设的终止条件。一棵回归树对应着输入空间的一个划分区域以及在划分区域单元上的输出值,假设一棵回归树有n个特征,每个特征Si(i∈(1,n))个值,通过穷举每个特征的每个取值对空间进行划分,直至取到特征j的取值s,使得损失函数最小。

1.3 GBRT模型

GBRT以弱学习器集合的形式产生强学习器,并在此基础上进行训练样本的学习及模型预测。其核心思想是添加新的回归树以最小化每次迭代中的目标函数,每棵新树都是在上一棵树的残差上进行学习,并沿着损失函数的负梯度方向进行训练,通过多次训练,最终将弱学习器进行线性组合,产生一个强学习器[12]。

GBRT模型算法步骤如下:

步骤1:训练数据集为T={(x1,y1),(x2,y2),…,(xn,yn)},n为正整数。损失函数为L={y,f(x)},回归树为F(x)。c为常数,表示根节点的类别。初始化决策树:

(1)

步骤2:设m=1,2,…,M表示迭代次数,即生成的弱学习器个数。对样本h=1,2,…,H,计算损失函数的负梯度在当前模型的值作为残差的估计:

(2)

步骤3:{(x1,r1m),(x2,r2m),…,(xN,rNm)}拟合一个回归树,得到第m棵树的叶节点区域Rmj,j=1,2,…,J表示每棵树的叶节点个数。

步骤4:对j利用线性搜索,估计叶节点区域的值,使损失函数最小化,计算最佳拟合值:

(3)

步骤5:更新为强学习器:

(4)

步骤6:得到最终回归树,即每棵树的叶节点值相加:

(5)

2 数据整理

本文数据均从公开数据中整理得到,将2017~2021年全国烟草月度产量趋势显示于图1。其中,对1~2月的烟草产量整合,显示2月的累计产量。此外,将2018~2021年各月度产量与上年同期产量同比增长量趋势显示于图2。

图1 2017~2021年全国烟草产量趋势示意图

图2 2018~2021年全国烟草产量同比增长趋势

从图1中可以观察出,烟草每年的月度产量走势大致相同,但同年不同月份间差异明显。从图2可看出,不同年份各月度产量与上年同期产量间的差值差异明显。由此可见,烟草产量与年份、月份及上年同期产量之间存在一定的关联。因此,将烟草产量数据的年份、月份及上年同期产量作为独立因子输入GBRT模型。

3 仿真结果

为验证GBRT模型预测的准确度,将GBRT算法所得结果与2022年全国烟草产量的真实数据进行比较,对比结果显示于表1。此外,为更加直观地看出GBRT预测结果与真实数值间的差异,将二者的月度趋势绘制与图3。

表1 预测结果对比

图3 预测结果趋势对比

由表1及图3可知,GBRT模型在大多数月份的预测与真实数值误差不大。除6月与12月预测结果偏差较大以外,其余月份的相对误差基本保持在5%以内。此外,全年月度产量整体走势与真实数值大体相似,平均相对误差为5.2%,且全年总产量与真实数据之间差异极小,验证了GBRT模型的有效性。

4 结论

本文针对烟草行业产量预测,综合考虑年份、月份及上年同期产量等影响因素,建立GBRT模型,预测全国烟草产量。结果表明,GBRT模型预测结果与真实数值大体相似,各月度产量平均相对误差为5.2%,全年相对误差为0.1%,具有较强的实用性和有效性。

猜你喜欢

月度梯度烟草
一个改进的WYL型三项共轭梯度法
一种自适应Dai-Liao共轭梯度法
一类扭积形式的梯度近Ricci孤立子
烟草依赖的诊断标准
烟草中茄酮的富集和应用
月度聚焦
月度聚焦
月度聚焦
月度聚焦
烟草镜头与历史真实