基于R语言的煤炭产品销售预测实证研究*
2017-02-09黄宇达王换换王迤冉
黄宇达 王换换 王迤冉
(1.周口职业技术学院信息工程学院 周口 466000)(2.周口师范学院网络工程学院 周口 466000)
基于R语言的煤炭产品销售预测实证研究*
黄宇达1王换换1王迤冉2
(1.周口职业技术学院信息工程学院 周口 466000)(2.周口师范学院网络工程学院 周口 466000)
针对目前市场经济环境下煤炭销售管理存在的一些如销售预测不科学、生产规划不合理、销售决策辅助信息匮乏等问题,利用R语言和时间序列分析相关理论,结合某煤炭企业历史销售数据和具体销售预测流程,采用霍尔特-温特指数平滑预测法对一定时期内的煤炭销售进行预测并将预测结果与实际数据作了对比分析。实验结果表明:销售预测具有较高的准确度,预测结果不仅为煤炭销售管理人员提供合理决策依据,而且对加强煤炭销售管理、合理安排生产计划和提高销售利润具有重要意义。
煤炭销售预测; R语言; 时间序列分析; 霍尔特-温特指数平滑法; 预测模型
Class Number TP18; TP311.52
1 引言
如今,随着改革开放不断深入以及社会主义市场经济的蓬勃发展,企业生存环境已发生了重大变化,作为国家重要能源行业,煤炭企业也不例外。目前,煤炭企业经营已全面进入市场化阶段,其产品价格放开,产、供、销则自主安排,煤炭产品营销已从传统计划经济环境迈入现代市场经营环境[1],比如2009年以后政府对电煤价格则不再干预,不再对市场煤价加以调控。目前煤炭经营市场化进程不断加快,市场化水平逐步提高。
煤炭销售作为煤炭产业供应链及煤炭管理工作中的核心环节,其不仅是煤炭生产、运输、消费三者之间经济活动联系的重要纽带,而且直接影响着煤炭企业的生产经营活动及经济效益,然而每月的全国煤炭销售量都只能在下月中旬左右才能获知,往往无法响应商业分析决策的及时性[2],因此煤炭销量进行预测已成为必然,但随着国家市场经济体制不断完善,煤炭销售预测也存在以下明显不足: 1) 销售预测凭主管经验和感觉,这源于国家计划经济体制影响,不能得到科学合理、准确而有价值的预测结果; 2) 销售预测信息化水平较低,缺乏科学有效预测方法和先进技术手段,对历史巨量销售数据背后潜在有用的规则模式充分挖掘不够; 3) 销售预测过于倚重销售合同数目。
R语言不仅是一种计算机高级语言,也是一个用于统计、分析、计算和制图的优秀工具,是属于GNU系统的一个自由、免费、源代码开放的实用软件[3]。本文采用R语言统计分析工具、时间序列分析数据挖掘技术和预测销售相关基本原理对某煤炭企业一定时期产品销售进行预测,同时对预测结果进行合理评估,从而为煤炭销售管理部门及决策人员提供辅助支持。
2 R语言概述
R语言是目前统计领域广泛使用的诞生于1980年前后的S语言的一个分支,是S语言的一种实现,是由新西兰Robert Gentleman和Ross Ihaka等开发[4]。该语言是基于S语言的一个GNU项目,其语法来自Scheme,提供了一系列统计和图形显示工具,是一个自由、免费、源代码开放的可用于统计分析、计算和绘图的彻底面向对象的统计编程语言和操作环境,在UNIX、Linux、Windows和MacOS等平台下均可编译和运行。另外,该语言和其它编程语言(如S语言、Java、C语言等)、数据库之间有很好的接口。
R语言具有丰富的网上资源,提供了很多实用且高质量的程序包、扩展包及各种数学运算、统计运算的函数,使用户可将表达式作为函数输入参数或只需若干参数和指定数据库即可进行灵活方便的数据分析和统计,该方法很有利于绘图和统计模拟,甚至允许用户创造出符合其需要的新的统计计算方法[5]。其功能主要包括:数组运算,尤其在矩阵、向量运算方面的强大功能;数据存储和处理;完整连贯的统计分析和制图;作为编程语言简便而强大地操纵数据的输入并实现分支、循环操作及支持用户的自定义功能。
3 时间序列分析法
时间序列分析法是基于时间序列数据库的一种动态数据处理的统计方法[6]。该方法基于数理统计学和随机过程理论方法,主要采用参数估计和曲线拟合来建立数学模型[7],对随机数据系列所遵从的统计规律进行研究,进而预测事件发展走向,提供合理决策支持依据。该方法具有重要现实意义,目前已在通信、生态平衡、气象水文预报、市场潜量预测、企业经营管理、污染环境控制、信号处理等众多行业领域得以广泛应用。
趋势分析法作为时间序列分析法常用方法之一,其主要是对具有线性季节加法趋势的数据加以预测,是一种以自变量、因变量为时间的函数模式[8],具体包括指数平滑法、趋势平均法、直线趋势法和非直线趋势法。
本文采用霍尔特-温特(Holt-Winter)指数平滑法对煤炭销售进行预测。该方法准确度高、误差小且计算量小,是一种由指数加权平均数组成,主要用于对线性时间序列数据进行趋势预测的分解模型[9]。该方法模型基本思想是把季节变动、随机变动的时间序列和具体线性趋势加以分解研究,并结合指数平滑法,对长期趋势(St)、趋势增量(bt)及季节变动(It)分别作出估计,最后建立预测模型并外推预测值[10],对包含趋势和季节变化的时间序列尤为适合预测,具体预测步骤为下述三步:
1) 由所给数据(至少4年以上)确定非季化因子;
2) 按下述方程计算基本稳定的线性成分、季节成分以及向前n个周期的预测值;
bt=γ(St-St-1)+(1-γ)bt-1
Ft+m=(St+btm)It-L+m
其中,L为季节长度或时间周期,I为季节修正系数,∂,β,γ为平滑系数且取值区间均为(0,1),St为稳定成分,bt为线性成分,It为季节成分,xt为当前时刻实际值,m为要预测的时刻距离现在时刻的时刻间隔数,Ft+m为t+m时刻的预测值。
3) 确定∂,β,γ值,以使均方差达到最小。
4 煤炭产品销售预测流程
本文以平顶山市某煤业公司2009~2012年连续4年的历史销售数据为支撑,基于R语言统计分析工具,采用合理销售预测算法并依据市场经济和销售预测相关理论,对该公司生产矿井一定时期内煤炭产品销售加以预测,具体步骤如下:
第一步:对采集到的一定时期内各矿井与各客户的历史交易数据加以分析统计并得到各矿井月销售量、季度销售量和年度销售量等重要统计结果;
第二步:将已得到的各矿井每期产品销售量统计结果转换为R语言可操作的数据文件并读入R语言运行环境,编写R语言具体应用程序实现相应时期产品销售量变化趋势曲线图的绘制并进一步分析销量变化趋势图形,对其加以分解;
第三步:采用R语言的时间序列分析功能及恰当的时间序列趋势预测模型对相应矿井同期和未来一定时期的煤炭产品销售进行预测;
第四步:分析产品销售预测结果,将产品实际销售量与预测结果作对比分析,计算预测误差并进一步验证预测结果准确性。
5 实验结果及分析
5.1 实验结果
通过对该公司2009.1~2012.12历史销售数据加以预处理,得到该公司各矿井年度销量及矿井M6季度销量和月销量,分别如表1~表3所示。
表1 各矿井煤炭年销量
其中,“—”代表该年度相应矿井销售量为0。
这里以矿井M6产品销量为例,将该矿井各期销售数据读入R语言编程环境并将销售统计数据转化为时间序列数据,采用R语言相关绘图函数绘出该矿井月销量变化趋势曲线图,如图1所示。
表2 矿井M6煤炭季度销量
表3 矿井M6煤炭月度销量
图1 矿井M6月销量趋势图
由图1不难发现,M6矿井煤炭销量明显存在季节性变动因素,随着时间序列水平增加,销量的季节性及随机波动大小并非趋于平稳,因而可分解销量数据并对季节性部分、趋势部分、随机因素部分分别加以估计以得到更为清晰的直观效果,如图2所示。
通过图2可发现,季节性因素在每年4月份及10月份各达到一个峰值,即大约为25503.256和29734.95,但在每年1月份出现一个低谷,即约为-31353.55,这表明M6矿井每年销量在4月和10月均达到峰值,每年1月出现销量低谷期。趋势图整体呈现缓慢下降趋势。这里对矿井M6初始时间序列销量数据作季节性调整,删除其中存在的一些季节性影响因素,得到只含有趋势因素和随机波动因素的时间序列,得到的季节调整后的时间序列销售趋势图如图3所示。
图2 M6时间序列数据分解图
图3 进行季节调整的时间序列趋势图
5.2 实验结果比较
认真观察图1、图2不难发现,M6矿井各月销量整体呈下降趋势而且明显存在季节性影响因素,即符合季节性和线性指数平滑法分析条件,这里为提高销售时间序列吻合程度以对一次指数平滑法存在的滞后偏差加以弥补,本文采用霍尔特-温特指数平滑法来拟合一个预测模型,从而对该矿井销售数据所覆盖时期内销量加以短期预测以形成实际值与预测值的直观对比。生成的销售预测结果与实际销售结果对比曲线如图4所示。
其中红色曲线表示销售预测变化曲线,黑色曲线表示实际销售曲线。不难看出该曲线图利用霍尔特-温特指数平滑法成功预测了季节峰值和低谷,虽然两种曲线对比存在一定程度的滞后偏差,但整体趋势与实际销售数据仍存在较高的一致性和吻合性。采用该预测方法所对应的平滑指数∂=0.864,β=0,γ=0.56。其中∂值相对较高,则表明其在时间序列水平预测中近期销量数据占较大权重,对预测结果具有重要影响,β值为0表明销售时间序列趋势部分的坡度估计与初始值相吻合,并未发生改变,γ值较低表明当前时间点销量时间序列数据中的季节性部分的估计对近期数据和历史数据的依赖性。
图4 预测结果和实际数值对比图
上述已对原始销售数据所覆盖时期内的煤炭销售进行了预测,为对未来一定时间点的销售进行预测,这里采用R语言中的预测包“forecast”中相应函数加以预测,预测时将先前预测所得到的预测结果变量作为对未来时期销量预测的一个输入参数,并对指定想要预测未来时间点的数目加以短期预测。未来10个月各月煤炭销量预测结果如图5所示。
图5 未来时期预测结果图
其中黑粗曲线表示预测结果,深灰色和浅灰色阴影区域分别表示置信度80%和95%的预测区间。不难发现,图5对未来时期预测也较好地预测了季节性因素。
为确定预测模型不可被改进,本文通过检查预测误差是否服从均值为0的正态分布且具有常数方差值的方法来进行验证。为检查预测误差是否具有常数方差,这里绘制的预测误差时序图如图6所示;为检查预测误差是否服从均值为0的正态分布,这里绘制的预测误差直方图如图7所示。
图6 样本预测误差时序图
图7 样本预测误差直方图
观察上图不难看出,预测误差的时序图和直方图显示出预测误差大体上均值为0的不变方差的正态分布,因此本文采用的霍尔特-温特指数平滑法为矿井M6的煤炭产品月销量提供了科学合理的预测模型,预测结果具有较好的准确度。
6 结语
本文分析了目前煤炭销售管理工作存在的一些问题,介绍了销售预测具体工作流程,然后在一些常用销售预测算法的基础上,采用基于R语言环境下的霍尔特-温特指数平滑预测算法对煤炭销售进行了预测,最后对预测结果和实际数据作了对比,比较结果验证了本文预测方法的准确性和有效性。预测结果为煤矿生产和销售工作的有效指导以及煤炭企业的科学管理、销售利润的提高提供了合理决策辅助支持。对煤炭销售预测结果的深入应用及销售过程中的智能推荐将是笔者下一步主要研究内容。
[1] 付跃钦.煤炭行业循环经济发展模式及应用研究[D].北京:中国地质大学(北京),2013. FU Yueqin. The coal industry circular economy development mode research and application[D]. Beijing: China University of Geosciences(Beijing),2013.
[2] 李明.1月中国煤炭市场运行分析—煤炭供需以稳为主市场价格弱势调整[J].中国石油和化工经济分析,2016(8):22-23. LI Ming. In January China coal market operation analysis of coal supply and demand to stabilize the economic analysis of Chinese oil and chemical market prices vulnerable to adjust[J]. China petroleum and chemical industry economic analysis,2016(8):22-23.
[3] 傅佳俐.基于R语言的数据挖掘工具分析与设计[D].青岛:山东科技大学,2014. FU Jiali. Analysis and design of data mining tools based on R language[D]. Qingdao: Shandong University of Science and Technology,2014.
[4] 范卢明,梁桂仙.调查问卷信度和效度的R软件实现[J].全科护理,2015(23):2316-2317. FAN Luming, LIANG Guixian. Questionnaire reliability and validity of the R software to achieve[J]. General Nursing,2015(23):2316-2317.
[5] 方匡南,朱建平,姜叶飞.R数据分析[M].北京:电子工业出版社,2015. FANG Kuangnan, ZHU Jianping, JIANG Yefei. R data analysis[M]. Beijing: Electronics Industry Publishing House,2015.
[6] 王淑花.基于时间序列模型的组合预测模型研究[D].秦皇岛:燕山大学,2012. WANG Shuhua. Research on the combination forecasting model based on time series model[D]. Qinhuangdao: Yanshan University,2012.
[7] 赵钰坤,蔡臻,窦万峰.基于季节性时间序列模型的公共自行车使用量预测研究[J].产业与科技论坛,2016,15(7):49-51. ZHAO Yukun, CAI Zhen, DOU Wanfeng. Prediction of public bicycle usage based on seasonal time series model[J]. Industry and Technology Forum,2016,15(7):49-51.
[8] 李星.时间序列非线性分析及其应用[D].长沙:湖南农业大学,2011. LI Xing. Nonlinear analysis of time series and its application[D]. Changsha: Hunan Agricultural University,2011.
[10] Azmi M, Liyana N I. Parameters estimation of holt-winter smoothing method using genetic algorithm[J]. Genetic Algorithms Forecasting Smoothing,2013.
An Empirical Study of Coal Product Sales Forecast Based on R Language
HUANG Yuda1WANG Huanhuan1WANG Yiran2
(1. College of Information and Engineering, Zhoukou Vocational and Technical College, Zhoukou 466000) (2. College of Network Engineering, Zhoukou Normal University, Zhoukou 466001)
In the current market economy environment, the problems existing in the management of coal sales, such as sales forecasting is not scientific, production planning is not reasonable, lack of marketing decision support information and other issues, by using R language and time series analysis theory, combined with the historical sales data of a certain coal enterprise and the specific sales forecasting process, coal sales of a certain period is forecasted by using the Holt winters exponential smoothing prediction method, the forecast result and the actual data are compared and analyzed.The experimental results show that the sales forecast is of high accuracy, forecast results not only provide a reasonable decision making basis for sales managers, but also have important significance to strengthen the management of coal sales, reasonable arrangement of the production plan and improve the sales profits.
coal sales forecast, R language, time series analysis, Holt-winter index smoothing method, prediction model
2016年7月10日,
2016年8月26日
河南省科技计划项目(编号:112300410307);河南省基础与前沿技术研究计划项目(编号:122300410397)资助。
黄宇达,男,硕士,副教授,研究方向:知识工程,智能算法分析及应用。王换换,女,硕士,助教,研究方向:数据挖掘,智能控制。王迤冉,男,硕士,副教授,研究方向:人工智能,计算机网络等。
TP18; TP311.52
10.3969/j.issn.1672-9722.2017.01.011