基于SAS Forcast Studio的多产品销量数据分类方法的探析
2016-05-13高春姣
摘 要:时间序列预测方法仍是数据挖掘的主要方法之一,在应用方面,软件SAS Forcast Studio(简称FS)能够同时对多个产品、快速进行预测,建立快速、批量、自动的时间序列预测模型群;极大地提高了数据挖掘的处理效率和预测准确率。然而单纯的原始时间序列直接投入FS里的效果不及对数据先处理后理想,需要对时间序列先进行数据处理,其中分类处理是其中一个必要的环节。因此,本文基于SAS 的时间序列模块软件FS来探析多产品销量数据分类方法,从而提高FS预测模型的准确率。
关键词:多产品;SAS Forcast Studio;时间序列;数据分类方法
随着社会的发展和计算机技术的进步,数据挖掘技术的应用越来越广泛,已在经济、气象、地质、历史文化、军事、新闻、医药、农业等领域产生了显著的经济效益和社会效益。主要是从海量数据中挖掘潜在的知识、信息,包括聚类分析、分类预测(如决策树、神经网络、LOGISTIC等)、生存分析、时间序列预测、回归分析等。时间序列预测方法仍然是数据挖掘的主要方法之一,其主要思想是:找出历史数据揭示现象随时间变化的规律,将这种规律延伸到未来,从而对该现象的未来作出预测。为了提高预测计划质量,应对公司业务的规模发展,除了借助依据业务流程形成的各类预测方法,还需要主观干预较少的科学预测方法--让数据说话的科学统计预测方法,借助SAS数据分析软件,实现科学的预测,为公司业务整体预测计划和资源效率的提升提供坚实的基础。因此,本文基于SAS的时间序列模块软件FS来探析多产品销量数据分类方法,以此提高FS预测模型的准确率。
一、FS在时间序列分析方法中的应用概述
SAS FS能够同时对多个产品、快速进行预测,建立快速、批量、自动的销量预测模型群;挖掘人员可结合各种业务场景设计多种策略实现精细化建模;开发各种接口支撑模型的可调节、可拓展性;并采用后评估方式为建模人员模型优化提供支撑,通过BI平台实现资源共享。FS能够利用事件、日历、广告促销和因果变量等各类销量影响因素并融合这些因素进行建模预测,而且能自动识别数据模式,生成预测结果,实现预测模型自动化。通过FS输出的预测结果,公司和企业相关人员可根据销售目标和其他约束条件进行调整,从而制订合理的采购策略。
二、时间序列数据分类方法
由于多产品间存在相关关系,有转化性、竞争性。部分产品因某些特殊因素导致销量波动较大,但结合相关产品整体数据来看比较稳定。因此对于多产品销量数据先进行分类是必要的。最常见大体有以下几种分类方式,以某奶粉公司产品为例:(1)从转化性来看,按产品系列打包调节预测,如金装1-4打包,超金1-4打包等;(2)按产品品牌内替代性打包调节预测,如金装1、超金1、超呵1、呵护1打包等;(3)按产品品牌间替代性打包调节预测,如素加与好婴儿奶粉打包等。
1.按波动性分类
由于各产品销量方差(或极差)可用来衡量其波动范围的大小,因此,可通过构建该统计量来对产品销量波动性进行描述,然后再利用k倍δ的原理对数据分类,k值可以根据用户需求自己定义。其思路可以归纳如下:
(1)针对单个产品,利用最近一年的产品实际销量值求解其方差δ2;
(2)针对所有产品,利用所得的方差δi2求解[-kδ0,+kδ0];
(3)根据(2)求得的区间将原始数据分为三类,将大于区间上限值的归为一类,将小于区间下限值的归为一类,将大于区间下限值小于区间上限值的归为一类。
2.按销量大小分类
四分位数方法:四分位数是统计学中把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值。该样本中所有数值由小到大排列后第25%的数字为Q1,该样本中所有数值由小到大排列后第50%的数字为Q2,该样本中所有数值由小到大排列后第75%的数字为Q3。利用四位数方法将原始数据分成四类,分别为:<25%、25%~50%、50%~75%、>75%。
对于产品销量数据,各产品销量中位数可用来衡量其销量大概所处的位置,因此,通过构建该统计量来对产品销量大小进行分类。
3.按历史数据长度
根据提供的销量数据的长度,以历史数据为2013.03~2015.06为例,按历史数据长度分别为小于1年,1年~2年,2年以上,将产品分为3类。
4.综合分类方法
在FS建模时,有多种调节层级的方法,不同的层级调节可以生成不同的预测模型,为了得到最优预测模型,因此需要综合考虑波动分类、销量大小、序列长度等组合的影响因素。
三、实验过程
根据中国某信息与通信解决方案以及智能终端生产企业的各产品每天的销量数据来进行时间序列预测分析,共1220个产品item,产品种类多,数据量大。将数据集分成拟合数据集、测试集两部分,选择其中一部分数据作为预测模型的输入,另一部分数据作为验证,以评估预测模型的优劣。例如:有24个月的历史销售数据,我们可以选择前18个月的数据作为输入,另外6个月的数据作为验证,从而评出最优模型。
对原始数据集分别采用不打包分类处理、3倍δ原理分类、四分位数原理分类等方法进行处理。对FS生成的结果模型利用模型评分函数E的大小来衡量优劣。
Error=,MAPE=|真实值均值-预测值均值|/真实值均值
其中,MAPE1和MAPE2分别表示拟合数据集与测试集的均值绝对误差百分比;N1和N2分别表示拟合数据集与测试集分别小于0.2(该阈值可自定义)和0.4(该阈值可自定义)的点的个数。
利用SAS的FS处理后,根据模型结果对比表明,对数据进行分类打包后会生成更优模型,预测会更有规律和更接近真实值。文中仅列出其中一种产品的结果来说明,从图一中可以看出预测值在未打包处理前不同模型生成的预测数据偏差及波动极大,而处理后预测数据较稳定,并且数据准确率更高。
四、结束语
在用FS处理类似于销量数据的时间序列数据集时,对数据进行分类打包后会生成更优模型,实验表明分类处理比不分类处理,预测更准确,但不同的分类方法对模型的影响程度不一样,用户可以根据实际需要选择一种合适的分类方法。若一些序列周期长或者数据序列较短,我们还可以分别利用滚动预测和曲线拟合的方法来调和。
参考文献:
[1]李雄飞等.数据挖掘与知识发现[M].高等教育出版社,2010.
[2]王丽娜,肖冬荣.基于ARMA模型的经济非平稳时间序列的预测分析[M].武汉理工大学学报(交通科学与工程版).Vol.28 No.1 Feb,2004.
[3]贾俊平.统计学(第六版)[M].中国人民大学出版社,2015(01).
[4]SAS(r) Forecast Studio14.1.User's Guide.
[5]刘晓冬,景睿等.残差自回归模型及SAS程序实现[M].中国卫生统计,2008年10月第25卷第5期.
作者简介:高春姣(1988- ),女,汉族,湖北荆州,在读硕士,广州大学经济与统计学院,研究方向:经济预测与决策