APP下载

关联规则在书店中的应用研究

2015-10-25刘桂荣徐全生

长春教育学院学报 2015年19期
关键词:购书菜谱读物

刘桂荣,徐全生

关联规则在书店中的应用研究

刘桂荣,徐全生

书店在图书销售过程中积累了大量的图书信息,这些信息可以用于查询、统计,获得想要的有关图书信息的数据。但是这些信息的作用还不止于此,这些海量信息中包含着有用的“知识”,可以通过计算机数据挖掘技术将隐含在其中的“知识”挖掘出来,用于书店的经营决策。本文以买书的个体为事务,以购买的图书为事务项。运用APRIORI算法探讨了利用关联规则分析个体购买图书之间的关联关系,找出了购买图书之间的关联规则,为书店的经营决策提供科学依据。

书店销售;关联分析;科学决策

一、数据产生

在现代人类的活动中,产生了丰富的知识信息。作为信息知识载体的图书,包括印刷图书、电子图书以及相应的音像制品,其市场供求、市场流通、市场变化呈现出日趋活跃的现象。[1]在种类繁多的各种图书交易过程中,产生了大量的数据,这些数据被一条一条记录下来,每条记录包括了图书购买时间、顾客购买的书籍、数量及金额等。[2]这些海量数据被保存起来。不再只是简单地用于查询、输出报表等一般用途。[3]还要在众多的数据中挖掘出有用的知识,以便作为决策支持。使用数据挖掘技术进行数据挖掘,通过关联规则挖掘技术得到不同图书之间的关联关系,在客户购书中可以为客户推荐相关书籍,或将相关联的图书摆放在一起,从而增加图书销售额。

二、数据事务

在当今社会,人们已经进入大数据时代,在活动交往中产生了大量的数据,积累了大量的数据,这些数据一般可作为历史资料用于查询。但是,这些海量数据中存在着有用的信息。这些信息是隐含的、事先未知的、但潜在有用的信息。[4]这些信息在提取后可以表示为概念(Concepts)、规则(Rules)、规律(Regularities)、模式(Patterns)等形式。[5]关联(Association)规则数据挖掘是数据挖掘技术中的一种,较典型的是购物篮数据分析,可应用于生物信息学、医疗诊断、网页挖掘和科学数据分析等。[6]设I是项的集合,设D是事务的集合,其中每个事务T是项的集合,使得。设A是一个项集,事务T包含A。如果support和con0idence同时满足最小支持度阈值(min_sup)和最小置信度阈值(min_con0),那么可以得到强关联规则。[7]

在图书销售过程中,每一个购买图书的人可以看作一个事务,即事务T。所购买的图书即是购物篮中的商品,即项集I,如表1所示。这些数据是某书店购书顾客(即任务相关数据D)所购买的图书信息。本文主要采用单维的关联规则挖掘,发现所售图书之间的关联关系,提取图书之间的关联规则,帮助书店进行科学决策,不断开拓市场,增加销售额,提高经济效益。

表1 购书统计表

三、数据清理

在数据开始挖掘前,收集相关的图书销售数据,以下是部分原始数据(见表2)。这些数据记录了原始的交易状态,还不能用于数据挖掘。要将这些原始数据进行清理,保证用于挖掘的数据没有异常,不会影响到关联规则的数据挖掘结果。

在以上数据中,我们要运用关联规则的挖掘技术找出图书之间的关联关系。在本文中,从数据挖掘的实际出发,应当把每名顾客所购图书的名称抽取出来,每个购买图书的个体即为一个事务。如表3所示。

表2 图书数据表

表3 挖掘数据

四、数据转换

在进行数据挖掘时,可以进行单维挖掘或多维挖掘。在本文中,由于我们要找出图书之间的关联关系,所以进行布尔型关联规则数据挖掘。如果购买了此书,则用T表示,如果没有购买此书,则用F表示。显示离散型变量之间的关系。[6]购书事务适合于单维数据挖掘。每一个购买个体最少购买一本书,有的购买多本,对每个购书个体所购图书进行两次扫描,第一次先对所有购书个体所购图书进行扫描比较,建立所有图书的项集。第二次对每个个体所购图书与第一次建立的图书项集进行比较,购买的图书以T表示,没有购买的图书用F表示,对所购图书的数据进行转换后,所得的数据形式如表4所示。

五、数据关联分析

本文运用APRIORI算法对图书进行数据挖掘,从中发现其中隐含的知识。在本文中,设计支持度的阙值为20%,置信度的阙值为70%,产生的关联分析结果如表5所示。

从表5中可以看出,在支持度20%和置信度70%的情况下,产生强关联规则,在这些关联规则中,以幼儿读物→菜谱、编织类读物→菜谱、军事类读物→历史置信度最高,幼儿读物、编织类读物、菜谱这三种图书产生强关联规则。从关联规则发现的结果来看,菜谱与其他图书构成强关联规则。

从本文的分析中可以看出,购书个体在购买图书时,幼儿读物、编织类读物、菜谱这三类图书是最容易被购书者一起购买的。所以在书店销售图书过程中可以将这三类图书搭配在一起出售,在搭配时有两种方式:一种是空间的搭配,即将幼儿读物、编织类读物、菜谱这三类图书摆放在同一地方,购书个体在购买或挑选时比较方便;另外一种就是将其中的一类书籍可以以折扣的方式与其他两类图书一起销售,扩大销售额。

表4 所购图书二元数据

表5 关联分析结果

[1]苏东海.当前我国图书市场状况及营销策略[J].中国商贸,2010(14).

[2]李艳.关联规则挖掘在网上书店系统中的应用[J].电脑知识与技术,2007(11).

[3]杨琼.决策树技术在网上书店系统中的应用[J/OL]. http://www.docin.com/p-433718087.html,2012.

[4]孙晓健.数据挖掘技术在经营分析系统中的应用[J].微计算机信息,2007,23(12).

[5]吉根林.遗传算法在数据挖掘中的应用[J].信息技术,2001,22(21).

[6](美)PANG-NINGTan,MICHAELSTERNBACHVIPIN KUMAR.数据挖掘导论[M].北京:人民邮电出版社,2006.

[7](加)JIAWEIHAN,(加)MICHEJINEKAMBER.范明,孟小锋等译.数据挖掘概念与技术(DataMiningConceptsandTechniques)[M].北京:机械工业出版社,2001.

[6]戴稳胜,匡宏波,谢邦昌.数据挖掘中的关联规则[J].统计研究,2002(8).

责任编辑:何岩

TP311.13

A

1671-6531(2015)19-0052-03

刘桂荣/烟台职业学院汽车工程系讲师,硕士(山东烟台264670);徐全生/沈阳工业大学信息科学与工程学院教授(辽宁沈阳110023)。

猜你喜欢

购书菜谱读物
“吃”出乡村振兴广东幸福菜谱推新品
工会干部案头读物推荐
工会干部案头 读物推荐
宇宙菜谱失窃案
喜闻《论持久战》成为“最热读物”
网上购书忘密码
谁是幸运星?
购书乐
对外汉语分级读物的几个重要问题
菜谱 经典菜翻花样