APP下载

关于超市事务数据库挖掘关联规则的设计

2020-02-28陈静

经济技术协作信息 2020年30期
关键词:零售业事务数据挖掘

◎陈静

(作者单位:吉林建筑大学电气与计算机学院)

一、绪论

1.课题研究意义和目的。近年,我国零售行业发展十分迅速,随着人民的生活水平的提高,商品种类的数量和日交易量逐渐庞大起来,由于收银机在零售业的普遍使用,收集到大量关于购买情况的数据,商家需要一种工具,使它可以根据收集的大量销售数据、库存数据和消费者信息,来分析客户的购买行为及购买模式。而今天研究的数据挖掘正是这样一种工具。

在我国,有很多自主品牌超市,它们不仅面临着同类型超市的竞争,而且也面临着国际上连锁超市的竞争压力。同时,还面临着潜在的网络购物的威胁。从近几年的零售业市场份额看,国际品牌的超市在竞争中占有极大优势。其中有效的利用数据挖掘技术为企业提供信息也是外资超市核心竞争力的一个重要组成部分。像这样的核心技术应用是要符合我国超市的实际情况,自主开发实施。本文的研究不仅验证了相关模型的可行性和准确性,也是对关联分析理论在超市数据中应用的一种重要探索,具有一定的理论意义和现实意义。本文的研究给超市决策者在推进超市信息化改革问题上可以起到推波助澜的作用。

2.国内外研究现状及评述。关联规则挖掘最早由Agrawal 等人提出,最初的动机是针对购物篮分析(Basket Analysis),其目的是为了发现交易数据库中不同商品的潜在联系。欧美发达国家不仅在数据挖掘理论方面比较成熟,应用经济学与管理学对挖掘结果进行深入分析也十分普遍。IBM 的Intelligent Miner 软件、SAS 公司 的 Enterprise Miner 软 件 和 SPSS Clementine 已经被广泛在各个商业领域中,绝大多数软件服务商也针对不同行业客户的具体需求,量身制定数据挖掘解决方案,在金融业、电信业、制造业和零售业等领域数据挖掘技术都发挥着重要的作用。其中在传统的零售行业数据挖掘运用最早也最为广泛,营销挖掘、客户关系分析、购物篮分析和分类设计等都是零售业数据挖掘的主要内容。

我国从2000 年以后就有很多科学工作者基于关联规则算法的研究,并对算法的改进和计算效率的进行大量的比较论证。 如王熙照, 赵东垒扩展了TD-FP-growth 算法,提出了基于规则兴趣度的关联分类(ACIR),使之有效地挖掘训练集,产生满足最小支持度和最小置信度的有趣的规则。王乐等提出一种从事务项集对应的最大频繁项集求全部属性项集的最大频繁项集的新算法IPA(Intersection Pruning Algorithm)。该算法通过交集剪枝实现自顶向下和自底向上的搜索最大频繁项集,并使用属性项的分布数据和已生成的交集等多种信息来减少求交集的次数。在评估关联规则的方法上,朱建平,谢邦昌进行了相应分析(Correspondence analysis)的适应性研究,以寻求一种新的关联规则提升度的验证方法。随着数据库存储技术和并行计算理论的发展,关联分析中也涌现出新的分支。关联分析已经广泛的应用于电信、金融和零售业等行业。

尽管欧美发达国家和地区对大型连锁超市市场营销策略的研究已经积累了丰富的经验。但是,哪些经验并不符合我国国情,因此,充分利用合理有效的关联规则算法,并结合我国实际情况,为我国本土超市量身制定数据挖掘解决方案,对营销挖掘、客户关系分析、购物篮分析和分类设计等都起到非常重要的作用。

二、开发环境

1. 开发平台。Java,是由Sun Microsystems 公司于1995 年5 月推出的Java 程序设计语言和Java 平台的总称。Java 平台由Java 虚拟机(Java Virtual Machine)和Java 应用编程接口(Application Programming Interface、简称API)构成。Java 应用编程接口为Java 应用提供了一个独立于操作系统的标准接口,可分为基本部分和扩展部分。分别有Java SE、Java EE 和Java ME。

2.数据库平台MySQL。 MySQL 是一个小型关系型数据库管理系统,。目前MySQL 被广泛地应用在Internet 上的中小型网站中。由于其体积小、速度快、总体拥有成本低,尤其是开放源码这一特点,许多中小型网站为了降低网站总体拥有成本而选择了MySQL 作为网站数据库。

3.开发环境。本平台软件编写环境是MyEclipse 8.5 M1,MyEclipse,是一个十分优秀的用于开发Java,J2EE 的Eclipse 插件集合,MyEclipse 的功能非常强大,支持也十分广泛,尤其是对各种开元产品的支持十分不错。MyEclipse 企业级工作平台(MyEclipse Enterprise Workbench ,简称MyEclipse)是对Eclipse IDE 的扩展,利用它我们可以在数据库和JavaEE 的开发、发布,以及应用程序服务器的整合方面极大的提高工作效率。

三、系统设计及实现

由于事务数据库一般只具有对大量数据的存取、检索功能,对于用户的一般性的使用可以满足,然而,正是由于数据库中存放了大量的数据,不同的数据项,以及多个数据项之间还存在有大量的隐含的、未知的、有意义的数据关系,这些关系对于用户有着及其重要的作用。所以关联规则系统设计的步骤如下:

1.建立数据库,本设计使用的后台数据库为MYSQL,用到的数据表为物品表和事务表。

2.位图矩阵的建立,位图矩阵的建立是在查询数据库中数据的基础上产生的。在查询数据库得到的位图矩阵中,行表示事务,列表示此数据库中的物品名称,矩阵中的数据项由1 和0 表示,假如R[i,j]=1(R 表示位图矩阵,i 表示横坐标,j 表示纵坐标),表示第i 个事务中含有第j 位对应的物品。这样,就能建立起一个关于物品,事务的位图矩阵。位图矩阵的构造完成,为以后的运算带来了不用反复查询事务数据库的繁琐,提高了算法的效率,增加了运算的速度。

3. 根据Apriori 算法和关联规则在位图矩阵上进行挖掘操作。根据挖掘出来的数据,超市企业就可以把顾客经常、同时购买的一篮子商品合理地摆放在货场的适当位置、相互搭配进货和改善物流管理、利用顾客购买习惯信息同供货商更有效的谈判,以及合理安排促销活动等。因此,从事务数据库中发现关联规则,对零售业等商业活动的提供有效决策支持非常重要。

四、结论

在数据挖掘中,关联规则是比较重要的一种规则模式,也是知识模式最活跃的分支之一。关联规则是指挖掘发现大量数据中项集之间有趣的关联或相关联系,是数据挖掘研究的一个重要内容,也是对我国超市零售企业积累顾客销售数据、产品销售数据研究分析的一种重要手段。

猜你喜欢

零售业事务数据挖掘
“事物”与“事务”
基于分布式事务的门架数据处理系统设计与实现
探讨人工智能与数据挖掘发展趋势
河湖事务
零售业 餐饮业 到底谁模糊了谁?
效率才是新零售业本质
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
提升我国零售业品类管理能力
我国城市化对零售业发展的实证研究