APP下载

卷烟创新产品工商交易预测研究

2022-03-07韩伟民杨应广

中国烟草学报 2022年1期
关键词:细支工商卷烟

韩伟民,杨应广

卷烟创新产品工商交易预测研究

韩伟民1,杨应广2*

1中烟商务物流有限责任公司,交易部,北京 100055;2北京中烟信息技术有限公司,第二业务服务中心,北京 100055

对卷烟创新产品的工商交易进行预测,有助于调控工商企业微观层面市场策略,提升特色卷烟销量。选定影响工商交易量指标,采用灰色理论计算这些指标的关联矩阵,据此将指标分为5类,选取每类中与工商交易量关联度最大的指标形成指标集,运用XGBoost建立分析模型,进行结果预测。以近十年卷烟创新产品的工商交易数据为训练集和测试集,对XGBoost预测模型进行训练和测试,并与时间序列模型、多元回归模型和随机森林模型的结果进行对比。实验表明,4种模型的预测精度均在90%以上,以XGBoost为最佳,达到了96%的精度。因此,可以将XGBoost新增为卷烟销量预测的一种参考算法。

卷烟创新产品;工业销量;工商交易;销量预测;XGBoost集成学习

卷烟销量分为工业销量、商业销量和社会销量,分别是指卷烟工业公司调拨给卷烟商业公司的数量(简称“工商交易量”)、商业公司批发给零售户的数量、零售户销售给消费者的数量。关于商业销量的预测,已经存在大量的参考文献[1-3]。一些研究认为,工业公司的生产和销售具有很强的计划经济特征,预测的必要性不大[4],因此相关的研究报道[5]比较少。然而,工业公司作为一个独立的市场主体,它需要同时面对不同商业公司对不同品规需求的波动变化,仍然具有一定的市场经济特征,因此有必要对工商交易量进行预测。从卷烟生产流通的全过程来看,工商交易环节具有重要的意义,一方面在于它可以提前感受未来市场的发展方向和竞争格局;另一方面在于它对市场的表征性,协议的增减调整与合同的执行存废均体现了各工商企业的生产经营理念及市场布局。因此,深入分析卷烟交易行为,无论对行业的宏观调控,还是对工商企业微观层面的市场策略,均具参考价值。

卷烟销量预测的传统方法有时间序列分析法[6]、灰色系统理论[7]、多元线性回归[8]等。随着机器学习研究的兴起,支持向量机[2]、神经网络[3]、随机森林[9]等方法也被用于卷烟销量预测。为了提高预测精度,一些文献采用多个模型进行组合预测[10]。XGBoost[11]是近几年才出现的新型集成机器学习算法,性能优秀,已经成为众多文献和人工智能大赛中的热点工具[12]。据笔者调查,尚未发现使用XGBoost算法进行卷烟销量预测的文献。

本文以“细、短、中”为代表的卷烟创新产品交易行为作为研究对象,用XGBoost算法对其交易量进行预测分析,并与其他算法进行比较,结果显示XGBoost算法有更好的预测效果。

1 相关理论

1.1 XGBoost模型

文献[13]提出了弱学习和强学习理论,多个弱学习器可以组合成强学习器[14]。弱学习理论的代表性算法是Gradient Boosting[15],其优化目标是让上次模型残差在损失函数梯度方向上减少。文献[11]在此基础上提出了XGBoost算法(eXtreme Gradient Boosting),提升了模型的预测精度。

1.2 灰色关联聚类

2 预测模型

2.1 样本数据

以“细、短、中”创新产品的全国工商交易量作为研究对象,数据样本为2011—2020年的月度数据,其中,2011—2019年的数据作为训练集,2020年作为测试集,对它们在2021年的工商交易量进行预测。

“细、短、中”创新产品中,有些品规包含了爆珠烟,其销量较为可观,因此这里包含了爆珠烟的分析。由于纯爆珠烟的体量较小,且2020年销量增幅(约2%)较往年偏差较大,而XGBoost模型对时间序列的预测是基于历史数据进行的,所以会对模型的预测结果造成较大干扰。因此,在本文中,关于各类型创新产品的数据统计,将只要包含该属性的产品即计算在内,即细支烟包含纯细支和细支爆珠,短支包括纯短支和短支爆珠,中支烟包括纯中支和中支爆珠,爆珠烟包含纯爆珠烟、细支爆珠烟、短支爆珠烟和中支爆珠烟4个类型。

2.2 指标选取

1)指标集

卷烟交易的供求关系深受价格的影响,所以价格是首选指标。同时,商业存销比和产品协议量都会直接影响商业公司的产品订购策略。另外,商业公司也会受到终端市场的需求影响,而宏观层面的某些因素会在一定程度上影响终端市场对卷烟产品的需求波动,包括人口因素、宏观经济因素和居民消费水平因素等。结合统计数据进行处理,将影响因素归纳如下表:

表1 工商交易量的影响因素

Tab. 1 Influence factors of industrial sales volume

影响因素指标 商品因素工业销量(Y)、协议量(X1)、协议剩余量(X2)、调拨价(X3)、条批价(X4)、毛利率(X5)、商业库存(X6)、存销比(X7) 人口因素人口总数(X8)、城镇人口数(X9) 宏观经济因素国内生产总值(X10)、人均国内生产总值(X11) 居民消费水平城镇居民可支配收入(X12)、居民消费价格指数(X13)、商品零售价格指数(X14)、社会消费品零售总额(X15)

其中,协议量:工业公司与商业公司签订的在一定时期内销售卷烟产品的数量;

协议剩余量:协议量与工业销量的差值,即协议量-工业销量;

调拨价:工业公司销售给商业公司的卷烟条价;

条批价:商业公司批发给终端零售户的卷烟条价;

毛利率:调拨价与条批价的差值比率,即(条批价-调拨价)/调拨价;

商业库存:商业公司的库存量;

存销比:商业库存与工业销量的比值,即商业库存/工业销量;

人口总数和城镇人口数:均为常住人口数量。

社会消费品零售总额:批发和零售业、住宿和餐饮业以及其他行业直接售给城乡居民和社会集团的消费品零售额。

影响卷烟工商交易量的因素很多,需要筛选出主要因素,因此,需要对所采集的指标集进行聚类,降低指标维度,从而找出主要指标。

2)指标筛选

将上述选取的15个指标进行灰色关联聚类,先计算其关联矩阵,矩阵部分结果如下:

表2 指标关联矩阵部分结果

Tab. 2 Partial results of index correlation matrix

X1X2X3X4X5 X110.810.620.570.59 X2--10.550.560.52 X3----10.790.86 X4------10.82 X5--------1

表3 指标集归类结果

Tab. 3 Categorization results of index sets

类别指标 A类X7,X2,X6 B类X1 C类X3,X4,X5 D类X10,X11,X12 E类X8,X9,X13,X14,X15

分别计算各个指标与工业销量的综合关联度,选取每一类别中与工业销量灰色关联度最大的指标,结果如下:

表4 指标与工业销量Y综合关联度

Tab. 4 Comprehensive relevance between indexes and industrial sales volume Y

A类B类C类 X7X2X6X1X3X4X5 Y0.570.510.820.650.690.730.89 D类E类 X10X11X12X8X9X13X14X15 Y0.530.560.590.590.570.760.790.81

2.3 参数选取

为了使得预测模型的结果达到最优,需要对XGBoost模型中的参数进行调优,既可以防止模型过拟合,也可以提升模型预测效果,一般分为3类参数:通用参数、提升参数和学习任务参数。在本文中,通过采用遍历的方式,对提升参数中的部分参数进行修正,分别为学习速率(learning_rate)、树的最大深度(max_depth)、最小叶子节点(min_child_weight)、树的棵数(n_estimators)和损失临界值(gamma),从而提升模型预测效果。

对指定区间内的各个参数,借助工具Python按给定步长进行遍历,分别对各类型的创新产品进行数据分析,得到调优后的参数值,如下表所示:

表5 XGBoost模型参数

Tab. 5 Parameters of the XGBoost model

参数类别初始值细支烟调优值短支烟调优值中支烟调优值爆珠烟调优值 learning_rate提升参数0.10.050.10.050.08 max_depth提升参数35564 min_child_weight提升参数55576 n_estimators其他参数100100909080 gamma提升参数100.10.20.3

3 预测结果分析

根据所选取的指标集及调优后的模型,对样本进行训练及预测。为了验证本模型的更优性,使用相同的样本数据分别对时间序列模型(ARIMA)、多元回归模型和随机森林模型进行训练和预测,具体结果如下:

3.1 调优结果分析

根据调优的XGBoost模型,各类型创新产品2020年四个季度的销量预测值如表6所示。可见,大部分情况下,预测值比实际销量偏低,各季度的误差绝对值范围控制在0.2%~4%之间,较为平稳,因此该模型对测试集的预测效果较好。

表6 2020年各季度销量预测结果表

Tab.6 Sales forecast results for each quarter in 2020 (箱,%)

第一季度第二季度第三季度第四季度 中支烟实际值412493326925396544273737 调优模型预测值405141324255393546270831 误差-1.78%-0.82%-0.76%-1.06% 细支烟实际值131104210098091081860652840 调优模型预测值129936310086031060422644760 误差-0.89%-0.12%-1.98%-1.24% 短支烟实际值18162713456614564790343 调优模型预测值17869613353514436987226 误差-1.61%-0.77%-0.88%-3.45% 爆珠烟实际值408014288109312088190411 调优模型预测值408975284014304155193035 误差0.24%-1.42%-2.54%1.38%

2020年各月的预测结果如图1所示,默认参数的XGBoost模型的预测值较真实值普遍偏小,调参后的XGBoost预测模型的预测精度较高,修正误差约为4%。

3.2 不同模型预测结果比较

将XGBoost模型与3个常用预测模型——ARIMA、多元线性回归和随机森林——进行对比,分别预测各类型创新产品2020年的销量值,并进行分析比较。

1)ARIMA时间序列模型

适用于ARIMA模型分析预测的时间序列必须是平稳非白噪声序列,需要对原始数据进行差分去周期性等平稳化处理;然后,计算样本的自相关系数()和偏自相关系数(),从而估计自相关阶数和移动平均阶数的值。

由下表7可知,各类型创新产品的ARIMA模型结果。其中,各参数值均小于0.05,调整2均大于0.9;以及各模型的统计值约为1.78,接近于2,在样本容量足够大时,可以认为不存在残差自相关性。这一系列检验值表明了模型的拟合程度较好。

表7 ARIMA模型参数结果表

Tab.7 ARIMA model parameters

产品类型pdq 细支烟211 短支烟111 中支烟321 爆珠烟210

2)多元线性回归模型

对选定的最终指标集关于销量建立最优的多元线性回归方程,采用普通最小二乘法估计模型中的未知参数,根据判定系数(2)来判断回归方程对实际观测值的拟合度效果,数值越大,拟合程度越好,趋势线的可靠性越高。该预测模型的参数如下表所示:

表8 多元线性回归模型变量系数表

Tab.8 Coefficients of multiple linear regression model variables

产品类型X6X1X5X15R2 细支烟-63.01620.108392.85620.09420.8621 短支烟-112.73120.0752258.85110.00210.8328 中支烟-27.98270.1184101.21010.10180.9155 爆珠烟-93.05610.0942216.01720.01120.8432

3)随机森林模型

表9 随机森林模型参数

Tab. 9 Parameters of the random forest model

产品类型mtryn_tree 细支烟4100 短支烟290 中支烟3100 爆珠烟380

4)预测结果比较

选用各产品的平均误差()和2作为该预测模型的评价指标,其中是预测值与真实值之间的误差,其值越小预测效果越好;而2是趋势线拟合程度的指标,其值越大预测效果越好。

在各对比模型使用最优参数的情况下,对各类型产品2020年1—12月的销量进行预测,结果如下表所示,调优XGBoost模型的和2的值效果最好,尤其对于中支烟和细支烟,拟合程度达到0.97以上,预测误差控制小于2%。因此,调优XGBoost模型的预测结果相对较好,其次是随机森林模型的预测效果。

表10 各预测模型的MAPE及判定系数

Tab. 10 MAPE and determination coefficients of various prediction models

模型系数细支烟短支烟中支烟爆珠烟 调优XGBoostMAPE1.311%2.061%1.581%2.007% R20.98010.96770.97230.9693 ARIMAMAPE1.682%5.301%4.902%8.031% R20.97390.94210.95320.9122 多元回归MAPE8.791%9.731%7.931%9.347% R20.86210.83280.91550.8432 随机森林MAPE1.739%1.812%2.104%3.105% R20.97020.97010.96680.9599

以中支烟为例,各模型的误差趋势如下图所示,除了在2月和8月这两个时间点,其他月份里调优XGBoost的误差值均小于其他预测模型的结果,一直围绕0上下波动。所以,从误差绝对值的比较也可得到调优XGBoost模型的预测效果优于其他模型的结论。

图2 中支烟各预测模型误差值趋势图 Fig.2 Error trend of middle cigarettes by various prediction models

3.3 预测趋势分析

对2021年各类型创新产品的交易进行趋势分析,结果如图3所示,各类型的创新产品将在2021年迎来迅猛发展,2021年创新产品全国工商间的交易总量有望突破800万箱,预测其整体销量增幅将不低于13个百分点。因此,在2021年,创新产品的市场需求仍然较为旺盛,市场发展空间相对较大。

根据近5年创新产品的工商交易量可知,短支烟的年销量增幅一直呈现下降趋势,目前已经下降至10%以内了,年销量增长趋势逐渐趋于平稳;虽然中支烟和细支烟的增幅也在逐渐下跌,但其年销量增长趋势仍较为明显,根据预测结果,中支烟和细支烟在2021年继续保持迅猛的发展势头,均能保持两位数的增长速率,尤其中支烟更为明显。

爆珠烟的整体销量在逐年提升,增幅在逐年下降,不过,因为大部分爆珠烟是结合中支和细支进行销售的,因此理论上其增量会从中支和细支的销售增量中受益。预测结果显示,2021年中支烟和细支烟会保持迅猛的增长势头,相应会带来爆珠烟的销售增量,由于爆珠烟的现有销量较中支烟和细支烟差距较大,故推断类似的增量会导致爆珠烟有更大的增幅。模型预测显示,2021年爆珠烟的全年销量增幅为19.88%,高于去年的实际值13.55%。2021年行业一季度经济运行数据显示爆珠烟同比增长28.66%,超出了全年预测值19.88%约9个百分点,这一方面说明了模型的预测增长趋势同真实情况是相符的,另一方面,根据表6所示近5年的第一季度增幅和全年增幅及其偏差来看,前者通常要比后者高出较多,因此,2021年全年预测值比第一季度实际值低9个百分点,一个重要原因就是第一季度因为包含元旦和春节,具有较大的特殊性。

4 结论

本文针对近十年卷烟创新产品的工商交易数据提出了一种基于XGBoost的预测方法,并对比分析了时间序列模型、多元线性回归模型和随机森林模型的预测效果。实验表明,参数调优后的XGBoost模型具有更好的预测效果,精度超过了96%。在后续研究中,可基于类似的思路和方法,推广到具体卷烟品规的预测。

[1] 王诗豪,张晓妮,张云,等. 铜川市卷烟需求集成预测[J]. 中国烟草学报,2019, 25(6): 105-109.

WANG Shihao, ZHANG Xiaoni, ZHANG Yun, et al. Integrated forecast of cigarette demand in Tongchuan City[J]. Acta Tabacaria Sinica, 2019, 25(6): 105-109.

[2] 武牧,林慧苹,李素科,等. 一种基于支持向量机的卷烟销量预测方法[J]. 烟草科技,2016, 49(2): 87-91.

WU Mu, LIN Huiping, LI Suke, et al. An SVM-based method for predicting cigarette sales volume[J]. Tobacco Science & Technology, 2016, 49(2): 87-91.

[3] 齐志成. 基于 BP 神经网络模型的商洛市卷烟需求预测[J].湖南农业科学,2017, (1): 86-89.

QI Zhicheng. Cigarette Demand Forecasting Based on BP Neural Network Model in Shangluo[J]. HUNAN AGRICULTURAL SCIENCES, 2017, (1):86-89.

[4] 沈秋云. 卷烟商业销量预测方法的研究[D]. 上海: 上海交通大学, 2018.

SHEN Qiuyun. AN INVESTIGATION OF CIGARETTE SALES FORECAST[D]. Shanghai: Shanghai Jiao Tong University, 2018.

[5] 华勇. 基于工商协同的卷烟月度投放量预测模型[J]. 中国烟草学报, 2015, 21(4): 99-106.

HUA Yong. Monthly cigarette supply forecasting model based on coodination of producdtion and marketing[J]. Acta Tabacaria Sinica, 2015, 21(4): 99-106.

[6] 张笑通. 基于时间序列的卷烟需求预测模型的研究与应用[D]. 郑州: 郑州大学,2016.

ZHANG Xiaotong. Research and Application of Cigarette Demand Forecasting Model based Time Series[D]. Zhengzhou: Zhengzhou University, 2016.

[7] 袁妍,杨帆. 基于灰色关联的卷烟销售额预测及提升路径研究[J]. 管理观察,2015, (10): 129-131.

YUAN Yan, YANG Fan. [J]. Management Observer, 2015, (10): 129-131.

[8] 李莹. 基于时间序列与多元线性回归综合模型的农村卷烟销量预测[D]. 昆明: 云南大学, 2015.

LI Ying. Based on time sequence and multiple linear regression model of rural cigarette sales forecasting[D].

[9] 邹雯. 基于改进随机森林的卷烟订购量预测的研究与应用[D]. 南昌:南昌大学,2020.

ZOU Wen. Research and application of cigarette order forecasting based an improved random forests[D]. Nanchang: Nanchang University, 2020.

[10] 赵旻,张丹枫,曾中良,等. 基于组合模型的云南省卷烟需求预测与结果评价研究[J]. 中国烟草学报,2019, 25(1): 93-98.

ZHAO Min, ZHANG Danfeng, ZENG Zhongliang, et al. Prediction of cigarette demand in Yunnan province based on combination model and criteria of result evaluation[J]. Acta Tabacaria Sinica, 2019, 25(1): 93-98.

[11] Chen T,Tong H.Higgs boson discovery with boosted trees. In: NIPS Workshop on High-energy Physics and Machine Learning, 2015: 69–80.

[12] 毛开银, 赵长名, 何嘉. 基于XGBoost的10m风速订正研究[J]. 成都信息工程大学学报, 2020, 35(6): 604-609.

MAO Kaiyin, ZHAO Changming, HE Jia. A Research for 10 m Wind Speed Prediction based on XGBoost[J]. Journal Of Chengdu University Of Information Technology, 2020, 35(6): 604-609.

[13] L.G. Valiant, A Theory of the Learnable, Communications of the ACM, 1984, 27(11):1134-1142.

[14] ROBERT E. SCHAPIRE. The Strength of Weak Learnability[J]. Machine Learning, 1990, 5: 197-227.

[15] Jerome H. Friedman. Greedy function approximation: A gradient boosting machine[J]. Ann. Statist., 2001, 29(5): 1189-1232. DOI: 10.1214/aos/1013203451

[16] Djalel Benbouzid, Róbert Busa-Fekete, Norman Casagrande, et al. Multiboost: a multi-purpose boosting package. The Journal of Machine Learning Research, 2012, 13(1): 549- 553.

Forecast of industrial-commercial transaction of innovative cigarette products

HAN Weimin1, YANG Yingguang2*

1 Trading Department, China Tobacco E-commerce and Logistics Co. Ltd., Beijing 100055, China;2 Second business service center, Beijing China Tobacco Information Technology Co. Ltd., Beijing 100055, China

Forecasting industrial-commercial transactions of innovative cigarette products is beneficial for the regulation of the micro-level market strategies of industrial and commercial enterprises, thus increasing the sales of characteristic cigarette. The indexes influencing industrial sales were selected and then their correlation matrix was calculated by using the gray theory, based on which the indexes were divided into five categories. The indexes in each category with the largest correlation with industrial sales volume were selected to form an index set, and XGBoost was used to construct a model and make predictions. Taking the industrial sales data of innovative cigarette products in the past ten years as the training set and test set, the prediction model based on XGBoost was trained and tested in comparison with the time-series model, the multiple regression model and the random forest model. Experiments showed that the prediction accuracy of the four models were all above 90%, where XGBoost-based model was the best one, achieving an accuracy of 96%. Therefore, XGBoost can be adopted as a reference algorithm for cigarette sales forecast.

innovative cigarette products; industrial sales volume; industrial-commercial transaction; sales forecast; XGBoost ensemble learning

Corresponding author. Email:yangyg@ctitc.cn

韩伟民(1983—),硕士研究生,高级经济师,行业高级经济师评审专家库成员,主要研究方向:电子商务与物流管理,Tel:010-63606847,Email:hanweimin@tobacco.gov.cn。

杨应广(1974—),硕士研究生,行业物流分标委委员,主要研究方向:数据分析咨询,Tel:010-63606134,Email:yangyg@ctitc.cn。

2021-05-10;

2021-12-28

韩伟民,杨应广. 卷烟创新产品工商交易预测研究[J]. 中国烟草学报,2022,28(1). HAN Weimin, YANG Yingguang. Forecast of industrial-commercial transaction of innovative cigarette products[J]. Acta Tabacaria Sinica, 2022, 28 (1). doi: 10.16472/j.chinatobacco. 2021.088

猜你喜欢

细支工商卷烟
鲁产细支烟产业发展环境与策略分析
——基于波特五力模型理论的视角
不同细支卷烟机型卷烟物理指标差异性研究
细支烟市场营销策略探析
工商详解网络传销四大新模式
在转变执法理念中彰显工商担当
关于细支卷烟发展的几点思考
适应新常态正风肃纪提升工商形象
落实“两个责任” 构建廉政工商
卷烟包装痕迹分析
我国卷烟需求预测研究述评