Apriori算法在WEB的图书销售智能系统中的应用
2017-09-20张燕琴潘利强
◆张燕琴 潘利强
(泉州轻工职业学院 福建 362200)
Apriori算法在WEB的图书销售智能系统中的应用
◆张燕琴 潘利强
(泉州轻工职业学院 福建 362200)
随着信息化的高速发展,大数据的时代已经带来,这些海量数据中有很多有价值信息没有被发掘,数据挖掘已成为近几年来的研究热潮。关联规则Apriori算法是数据挖掘技术中的关键技术之一,本文从图书销售的历史数据频繁项集,采用Apriori算法从中找出潜在隐蔽的而又具有价值的数据信息,帮助图书销售运营商分析销售的业绩数据,得出一些图书销售的关联结果,在一定程度上作出正确的销售判断。
数据挖掘;图书销售;Apriori算法
0 引言
目前市场上有很多大型的实体书店,按照以往的购买方式就是读者到实体书店去找寻自己想要读的书籍。但随着互联网信息技术和电子商务的迅速发展,人类的购买方式发生了革命性的改变。不再是非要到实体店面才可以买到想要读的书籍,而是可以通过电子商务平台进行网上购物,也能找到所需要的书籍。本文针对网上图书销售系统采用Apriori规则算法进行数据分析,得到有效的数据,能够为商业者提供帮助和支持。
1 图书销售系统简介
经过调查和研究发现,虽然目前市场上网上书店的模式繁多,但是这些网站的网络架构是差不多的,采用的结构基本上的都是B2C的模式。但这些书店的网络结构都存在一定的问题,虽然这些网上书店的架构可以很好地体现购买的流程,也可以很好地为读者提供图书的详细信息,但是对顾客的需求没有很好地去把握和发现,也不能很好地去激起顾客的消费欲望。即使这些网络结构的性能再好,却不具有数据挖掘功能。结合分析,本文设计出了一个基于数据挖掘的图书销售系统的网上书店结构,并且采用Apriori关联规则对数据进行挖掘。
2 Apriori关联规则算法
本文中图书销售的关联规则分析就是根据读者客户已经购买过的图书交易历史数据进行数据挖掘的,发现在图书购买过程中有哪些图书出现得比较频繁,发现图书项目之间存在着关联。图书销售关联规则的分析对图书的销售效益是非常明显的。经营者根据分析的结果,可以对现有的销售策略进行调整,制定比较合适的销售策略,从而达到较好的利润效益。
2.1 Apriori算法的概述
关联规则数据挖掘是发现大量数据中项集之间存在着的比较隐含的有意义的信息或者相关联系。使用Apriori关联规则来找出图书销售数据库中不同种类书籍之间是否存在关联,并分析出顾客的购买行为方式,比如购买了《计算机程序设计》图书对购买其他图书的概率。根据分析结果可以对图书进行分类和对此提出相应的销售策略。比如顾客在购买A图书的同时,还可以同时推荐给他与图书A存在较强关联的B图书、或者C图书,也可以进行图书的捆绑式营销。给图书经营者提供帮助。
现在假设I={i1,i2,..,im}是项集,其中ik(k=1,2,…,m)可以是顾客挑选到购物车中的图书,设与任务相关的数据D是事务集,其中每个事务T是项集,并且要求T∈I,设A也是一个项集,并且A∈T。
Apriori关联规则的逻辑蕴涵如下形式:A→B,A∈I,B∈I,且A∩B=F。关联规则具有如下两个重要的指标:支持度与置信度。支持度: P(A∪B),即A和B这两个项集在事务集D中同时出现的概率。置信度: P(B|A),即在出现项集A的事务集D中,项集B也同时出现的概率。
在频繁项集中,同时满足给出的预定最小支持度阈值和最小置信度阈值的规则称为强规则。给定一个事务集D,挖掘关联规的问题就是产生支的持度和可信度都必须分别大于用户给定的最小支持度和最小可信度的频繁项集,由此得出的规则,也就是产生的强规则。
2.2 Apriori算法的描述
输入:事物数据库D,最小支持度阀值。
输出:频繁项集L。算法过程如下:
(1)L1= {large 1-itemsets};
(2) for (k=2; Lk-1 ; k++) do begin
(3) Ck=apriori-gen(Lk-1,min_sup); //新的候选集
(4) for all transactions t D do begin
(5) Ct=subset(Ck,t); //事务t中包含的候选集
(6) for all candidates c Ct do
(7) c.count++;
(8) end
(9) Lk={c Ck|c.count>=min_sup}
(10) end
(11) Answer=∪kLk;
首先产生频繁1-项集L1,然后是频繁2-项集L2,直到有某个r值使得Lr为空,这时APRIORI算法停止。这里在第k次循环中,过程先产生候选k-项集的集合Ck,Ck中的每一个项集是对两个只有一个项不同的属于Lk-1的频集做一个(k-2)-连接来产生的。Ck中的项集是用来产生频繁集的候选集,最后的频集Lk必须是Ck的一个子集。在本文中采用项集I为图书,I1为JAVA类图书,I2为asp、JSP类图书,I3为C语言类图书,I4为数据挖掘类图书,I5为网站建设类图书,事物项T为图书的销售,假设有10个事物项,即D=10。根据apriori算法,扫描事物项,找出所有的项集,由频繁项集找出强关联规则,通过以上的具体事例数据,研究出包含频繁项集的关联规则,则频繁项集I={I1,I2,I5}的关联规则如下:
3 Apriori关联规则算法在图书销售中的应用
根据图书的销售记录信息,来预测与该图书相关联的图书,在某客户购买某图书的同时,还有哪些图书会被一起购买,推荐客户感兴趣的图书。在本系统中数据的来源不是一张数据表,在这里对源数据进行处理,创建了v_booksell表。本文以客户信息表作为事例表,在SQL数据挖掘中,ID作为键列,ceducations,city,cvocation作为输入参数,选择事先创建的v_booksell作为可预测的嵌套表,name作为嵌套表的键列,创建apriori关联规则模型为bookass。并调用此关联规则挖掘模型对数据集进行集训转化,在本文中取confidence≥50%,得到相应的频繁项集与其依赖的关系关联规则。
再利用关联规则算法所挖掘出来的频繁项集,也就是哪些客户购买哪些图书的情况频繁出现。依赖关系图则表明了被购买的图书和其他图书节点间的关联规则,连接节点边的密度越大,则关联规则的出现越频繁,即关联规则则越强,两种图书被一起购买的概率也就越大。
4 结论
本文在传统的图书销售系统的基础上做了一些完善,采用Apriori关联规则实现了图书销售信息和客户信息的分析功能,表明了图书之间的购买信息存在相应的依赖关系,能够起到图书推荐的作用,为商业决策提供支持和帮助。
[1]张启徽.关联规则挖掘中查找频繁项集的改进算法[J].统计与决策,2015.
[2]张华飞,董黎刚,王盛.一种基于逆序编码性质的Apriori算法改进[J].杭州电子科技大学学报,2011.
[3]王景让.Apriori算法在布尔型关联规则领域的应用[J].制造业自动化, 2009.
[4]郭秋萍,王金兰.一种基于web挖掘的图书馆服务推荐模型及其算法研究[J].图书馆杂志,2010.
[5]吴冬方.基于Apriori算法的招生管理应用研究[D].河北大学,2014.