APP下载

Microsoft时序算法在电子商城中的应用研究

2016-04-11徐琴韩洁

电脑知识与技术 2016年4期
关键词:数据挖掘

徐琴+韩洁

摘要:采用Microsoft时序算法来创建数据挖掘模型,并浏览验证了数据挖掘模型的有效性,可应用该模型预测电子商城中的销售情况,包括:每个商店、每类商品、每个商品的销售额、销售量及销售成本等,可为电子商城中的商家的商业活动提供决策支持。

关键词:数据挖掘;时序算法;销售预测;电子商城

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)04-0243-02

1 概述

目前,在电子商城中各个商家和企业的商业活动在很大程度上存在着盲目性,对大家都有利的许多信息得不到共享,也没有商业活动可依据的可靠的决策支持。可以通过数据挖掘来对电子商城的s未来销售情况进行预测,使企业和商家对未来的发展有一定的认识,也有利于合理的安排各项商业活动。

对未来销售情况预测包括:通过商城中各类商品的历史销售记录,预测各类商品的发展前景进行;通过各个企业和商家的商品的历史销售记录,预测企业和商家的发展前景;通过各个产品的历史销售记录,预测产品将来的发展前景等等。

本文的销售预测采用Microsoft时序算法对电子商城中的销售数据进行数据挖掘。

2 Microsoft时序算法简介

时间序列包含一系列的随时间或者其他变量的增加而得到的数据。在现实世界中,许多变量的值随着时间的改变而改变,变量值的序列也就组成了一个时间序列。在时间序列中,给定时间点的值由该时间点之前的值决定。通过收集时间序列数据对将来的值进行预测。[1]

Microsoft时序算法是一个结合了自动回归技术和决策树技术的新预测算法,所以也把该算法称作自动回归树(Auto Regression Tree,ART)。[2]

1)自动回归:自动回归是一种用来处理时间序列问题的常见的技术。在自动回归过程中,x在f(xt)的值是t时间之前x的一系列值的一个函数,例如:[xt=f(xt-1,xt-2,xt-3,…,xt-n)+εt],其中,xt是待研究的时间序列,n是自动回归的阶,通常远小于该序列的长度,最后一项[εt]代表噪声。使用时间序列算法的目标就是找到这个函数f。

2)使用多个时间序列:一个挖掘模型可能包含多个时间序列,这些序列可能不是相互独立的。这一算法的特征之一就是当这些序列存在着依赖关系的时候,可以被识别出是交叉序列。

3)自动回归树:使用该算法创建的模型是自动回归树,一颗回归树就对应着函数f。

4)季节性:大多数时间序列都有季节性的模式。ART算法可以使用季节性参数Periodicity_Hint来增加历史数据点。

5)预测历史:当处理完一个时序模型后,就可以用该模型对未来进行预测、对历史进行预测。如果该模型对过去的预测比较准确,则该模型对未来预测的结果也比较准确。

3 使用Microsoft时序算法挖掘数据

3.1 创建模型

在本例中,采用Microsoft时序算法创建2个挖掘模型,其中:模型Stores_Model的目标是对每个商店每个月的销售额、销售量、销售成本进行预测;模型Product_Category_Model的目标是对每类商品每个月的销售额、销售量、销售成本进行预测。

利用DMX 语言创建时序模型Stores_Model和Product_Category_Model的代码如下:

CREATE MINING MODEL Stores_Model (

年月 LONG KEY TIME,

商店名称 TEXT KEY,

销售额 LONG CONTINUOUS PREDICT,

销售成本 LONG CONTINUOUS PREDICT,

销售量 LONG CONTINUOUS PREDICT)

Using Microsoft_Time_Series (HISTORIC_MODEL_COUNT = 12, HISTORIC_MODEL_GAP = 2, MISSING_VALUE_SUBSTITUTION = Previous, PERIODICITY_HINT = '{12}')

CREATE MINING MODEL Product_Category_Model (

年月 LONG KEY TIME,

商品分类名称 TEXT KEY,

销售金额 LONG CONTINUOUS PREDICT,

销售成本 LONG CONTINUOUS PREDICT,

销售数量 LONG CONTINUOUS PREDICT)

Using Microsoft_Time_Series (HISTORIC_MODEL_COUNT = 12, HISTORIC_MODEL_GAP = 2, MISSING_VALUE_SUBSTITUTION = Previous, PERIODICITY_HINT = '{12}')

其中:HISTORIC_MODEL_COUNT参数设置为12,表示构建12个历史模型;HISTORIC_MODEL_GAP参数设置为2,表示构建的历史模型之间的时间间隔为2;MISSING_VALUE_SUBSTITUTION设置为Previous,指的是使用以前的值来填充历史数据中的空白;PERIODICITY_HINT设置为{12},指的是按照年模式进行计算。

3.2 浏览验证数据挖掘模型

在模型中通常有一或多棵树,模型中的每一棵树都有一或多个节点,树中的每一个非叶节点都包含一个线性回归公式,树中的每一个内容节点的分布行集存储着线性回归公式的系数和截距的数值。[3]

商店Store22的销售额的预测树如图1所示。可以看到该树只有一个拆分,该拆分是基于前第二个月Store14的销售量。所选择的节点显示前第二个月Store14的销售量是否高于176.810,可以使用下面的两个回归公式来预测下一个月Store22的销售额:

Store14.销售量-2 >= 176.810:

Store22销售额 = 86.828 -0.051 * 销售额(Store03,-2) + 0.456 * 销售量(Store14,-2) + 0.215 * 销售量(Store06,-2) + 0.521 * 销售成本(Store02,-1)

Store14.销售量-2 < 176.810:

Store22销售额 = 353.896 + 0.013 * 销售量(Store06,-2) + 0.003 * 销售额(Store03,-2)

这两个公式可以在挖掘图例中看到。可以看出,在Store14.销售量-2 >= 176.810时,回归公式用前第二个月Store03的销售额、Store14的销售量、Store06的销售量以及前一个月Store02的销售成本来预测Store22的销售额,这是因为该模型发现在这个条件下,Store22的销售额序列和这些序列有较强的回归关系;同样的,在Store14.销售量-2 < 176.810时,回归公式用前第二个月Store03的销售额、Store06的销售量来预测Store22的销售额,这也是因为模型发现在这个条件下,Store22的销售额序列和这些序列有较强的回归关系。

Store16销售额的预测曲线如图2所示,蓝色图形表示Store16每月的销售额。在图形中有一根垂直的线,该线是历史的序列值与将来的预测值的分界线,左边表示历史的序列值,右边表示将来的预测值。由图可见,将来的预测值用虚线表示,虚线之上的竖线表示的是预测偏差。通常情况下,预测的将来越远,则预测的偏差相对也就越大。

另外,每个序列都会用相应的回归公式对历史进行预测。如图2所示,在垂直线左边的虚线部分就是历史预测的图形。从图中可以看出模型对历史的预测总体趋势是符合的。

可以看出,该模型对过去进行预测的结果是比较准确的,所以,可认为它对未来的预测结果也是比较准确的。在模型对过去的预测有较大的偏差时,可以适当的修改算法的参数再进行预测,直到得到满意的结果为止。

4 应用模型

在图2中可以看出,在未来两个月,Store16的销售额会有所下降,应该采取一定的措施来提高销售额。可以根据在商城中各类商品的销售预测情况来做决策,比如适当调整商品结构、采取一定的促销手段等等。

在图3中显示出,Vegetables的销售额在未来两个月下降得很快,之后将会保持在一个较低的水平,商店应该适当减少这类商品的采购量,降低库存,或对这类商品进行促销,以免出现商品积压。Canned Oysters的销售额会有大幅上升,之后虽会再下降但又会出现一个的高峰,维持在一个较高水平,商店可以适当采购此类商品,增加其库存量,避免出现供不应求的现象。Frozen Entree的销售额不变化不大,维持在一个较稳定的水平,其库存量也可维持在正常水平,也可对其进行促销,以增加其销量。

5 结论

本文利用Microsoft 时序算法对电子商城中大量的历史销售数据进行分析、数据挖掘,建立了预测模型,得出了电子商城中各个商店和各类商品的销售量、销售额、销售成本的变化趋势,并对未来的销售情况进行了预测。通过对具体的模型构建,实现了Microsoft时序算法在电子商城中的应用。

参考文献:

[1] 刘金平. 基于Microsoft时序算法在电力负荷预测中的应用[J]. 电脑知识与技术,2011,7(8):1923-1926.

[2] Microsoft时序算法[EB/OL]. https://msdn.microsoft.com/zh-cn/library/ms174923.aspx. 2014.

[3] 袁亚丽. 时序算法在销售预测中的应用研究[J].微计算机信息,2009,25(15):249-250.

[4]Jose-Norberto Mazón, Juan Trujillo, Jens Lechtenberger. Reconciling requirement-driven data warehouses with data sources via multidimensional normal forms[J]. Data & Knowledge Engineering, 2007, 63(3):725-751.

[5] 岑琴. 数据挖掘技术在饰品设计中的应用[J]. 商业现代化,2011(1):75-76.

[6] Mark F.Hornick, Erik Marcadé, Sunil Venkayala. Data Mining Process[J]. Java Data Mining, 2007:51-83

[7] 袁凡,唐国华. 数据挖掘在电子商务中的应用研究[J].江西科学,2015,33(6):920-924.

[8] 迪丽拜尔·艾海提,库德来提·热西提,EHAT Diliber,等.数据挖掘技术的应用[J].电脑编程技巧与维护, 2009(6):66-67.

[9] Salvatore T.March, Alan R.Hevner. Integrated decision support systems: A data warehousing perspective[J]. Decision Support Systems, 2007,43(3):1031-1043.

[10]Jing Zhao, Shan Wang, Wilfred V. Huang. A study of B2B e-market in China: E-commerce process perspective[J]. Information & Management, 2008,45(4): 242-244.

猜你喜欢

数据挖掘
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
数据挖掘技术综述与应用
基于GPGPU的离散数据挖掘研究
利用数据挖掘技术实现LIS数据共享的开发实践
高级数据挖掘与应用国际学术会议
高级数据挖掘与应用国际学术会议