基于某民营商行数据的统计分析
2013-09-10湖北科技学院张吉刚梁娜
湖北科技学院 张吉刚 梁娜
在当前的经济生活和社会环境中,商行、商店这类经济实体占据着举足轻重的位置,它们是整个社会框架的基石,是最基层、数量最大的群体,研究它应有的发展规律,既能反映出以它为代表的中小企业经济实体的发展趋势,又帮助决策者进行分析、决策管理,从而促进商品的销售,发现未知的商机,以获取更多的利益。
针对某民营商行2012年的日销售数据,先利用聚类分析对各类商品的月销售量进行聚类,对每类提出相应的建议,再以各类商品的周销售量为参考序列,建立时间序列模型,在此基础上对2013年商品销售量的趋势进行预测。
1 月销售额的聚类分析
为获取完整的商品销售数据信息,研究对象选择使用条形码、编码系统、销售管理系统、POS机的某个民营商行,选取该商行2012年6类商品,共计190836条销售数据,以7天为一个销售周期,即以636条周销售数据为分析对象。6个品类分别为:香烟、酒、饮料、副食、农产品、生活用品(单位分别为包、瓶、袋、斤、件,为了统一计量单位,按单件记)。
各类商品年销售额占总销售额的比重:香烟占总销售额的比重最大为35%,酒占总销售额的28%,饮料占总销售额的12%,副食、农产品和生活用品分别占总销售额的8%、9%、8%。由此看出该民营商行最创收入的商品是烟酒。
采用系统聚类法中的类平均法。类平均法先从单个对象开始,开始时有多少个对象就有多少个类。将那些最相似(平均距离最短)的对象首先聚为类,然后根据类间的相似性把类进行合并,最后随着相似性不断下降,所有类渐渐融合为一个大类。本文把各月销售额进行聚类,首先把业绩最为接近的月份聚为类,聚类过程如表1所示。
表1 聚类过程
由表1可知,伪F统计量在聚为4类时值最大为10.2;月销售额从聚为3类到聚为4类时,伪统计量的值有很大的下降,且在4类时,该值最小为1.7统计量的值标准化均方根距离增加的幅度最大,由0.6448增加到0.8679,综合判断月销售额最合适聚为4类。
第一类:1、10月,依托春节和国庆节的节日优势带动居民大量消费,是商行销售业绩最好的月份。2012年的大年三十在2月9号,年前1月人们都大量采购并储备商品,六类商品的销售额均非常可观。10月有一个重要的节日——国庆节,7天假期,
第二类:7月,依靠季节优势成为商行销售大月。酒和饮料成了7月最受欢迎的商品,加上烟不离酒,烟的销量也不低,仅凭这三类商品给商行带来了较好的收益。
图1 月销售额的谱系图
第三类:2、4、12月,伴随着节日的末梢和年的终结,成为商行的销售量下滑月。一般在节末和年尾,人们还有很多未消耗完的商品,暂时不需要再购买,商行的销售额逐渐下降。另外,4月清明节祭祀,人们为了风俗必须购买一些必备品,同时准备少量酒食,商行的销售额才得以保持。
第四类:3、5、6、8、9、11月,这段时间由于没有什么大型节日带动消费,季节的影响也不再明显,于是,人们的消费需求进入一个低迷时期,商行的销售额随之达到低谷。
2 基于商行销售额的ARMA建模及预测
2.1 商行销售额时序平稳性检验
以商行2012年共53周的销售额数据为原始的时间序列,并用时间序列分析软件SAS作为工具,按照ARMA建模流程对其进行预测分析。
自相关图(图2)显示该序列的自相关系数一直都比较小,始终控制在2倍的标准差范围以内,可以认为该序列自始至终都在零轴附近波动,是随机性较强的平稳时间序列。
2.2 模型定阶与参数估计
对于ARMA(p,q)模型,可以利用其样本的自相关函数和样本的偏自相关函数的截尾性判定模型的阶数。序列偏自相关图如图3所示。
图2 销售额序列自相关图
图3 销售额序列偏自相关图
图2自相关图显示延迟2阶之后,自相关系数全部衰减到2倍标准差范围内波动,且由非零相关系数衰减为小值波动的过程非常突然,该自相关系数可视为2阶截尾;图3偏自相关图显示序列由显著非零的相关系数衰减为小值波动的过程相当连续、相当缓慢,该偏自相关系数可视为不截尾。由此用MA(2)模型进行拟合。为了尽量避免个人经验不足导致的模型识别问题,根据SAS系统提供的相对识别模型进一步识别,获得一定范围内的最优模型定阶。根据ARMA模型的BIC信息量达到最小的模型选择最合适的阶数。
表2 ARMA模型的BIC信息量
在自相关延迟阶数小于等于5,移动平均延迟阶数也小于等于5的所有ARMA(p,q)模型中,BIC信息量相对最小的是ARMA(0,2)模型,即MA(2)模型。采用条件最小二乘估计,模型ARMA(0,2)中未知参数。
输出的拟合模型形式:
将当前序列值表示为随机干扰项的函数表达式可记为:
2.3 模型的有效性检验
模型的有效性检验即为残差序列的白噪声检验,残差序列白噪声检验结果如表3所示。残差白噪声检验显示延迟6阶、12阶、18阶、24阶LB检验统计量的P值均显著大于0.05,所以MA(2)模型显著有效。
表3 残差白噪声检验结果
表4 参数显著性检验结果
参数显著性检验结果显示三参数t统计量的P值均小于0.05,即三参数均显著。因此MA(2)模型是该序列的有效拟合模型。
2.4 商行销售量预测
利用ARMA(0,2)模型预测该商行2013年第1、2周的销售额,与其真实值进行比较,结果如表5所示。
表5 ARMA(0,2)模型预测结果
由表5可知,2013年第1周、第2周的销售额预测值与实际值的相对误差均小于3.25%,ARMA模型预测精度较高;预测值与实际值趋势一致,有略微递减的趋势;2013年2周的销售额均高于2012年的平均水平1624元,说明该商行2013年销售水平在提升。
3 结论
基于某民营商行2012年12个月的6类商品销售数据,利用聚类分析法将月销售额,分为4类:销售额最高的1月和10月,销售额较高的7月,销售额持平平均值的2、4、12月,销售额,销售额处于淡季的3、5、6、8、9、11月。对于销售额较好的1月、7月和10月,采取一定的促销手段,清理积压商品,增加商品销售额。
本文利用ARMA模型在时间序列短期预测上的优势,对该商行2012年53周6类商品销售数据,建立了ARMA(0,2)模型,对ARMA 模型定阶、参数估计、模型检验和模型预测进行了系统分析,预测了2013年第1、2周销售额,并与实际值对比分析,最大误差为3.25%,ARMA模型预测预测精度较高,对周销售额作短期预测。
[1]高惠璇.应用多元统计分析[M].北京大学出版社,2005.
[2]党姬男.ARMA时间序列模型在销售预测中的应用[J].应用技术与研究,2009(8).
[3]王燕.应用时间序列分析[M].中国人民大学出版社,2009.
[4]张吉刚,梁娜.基于ARIMA-ANN的时间序列组合预测模型[J].三峡大学学报,2008(8).