校园超市中数据挖掘技术的应用
2017-12-21江波
江波
摘要:本文从数据挖掘技术理论在校园企业中的研究着手,对数据挖掘技术在校园超市管理系统中的有效应用进行研究分析。
关键词:数据挖掘技术;关联规则算法;校园超市
中图分类号:TP311.13 文献标识码:A 文章编号:1007-9416(2017)10-0085-02
1 数据挖掘在校园超市中的应用价值
校园超市中累积了大量的数据,为数据挖掘工作的顺利进行提供了前提条件,所以考虑在超市中使用数据挖掘技术。而创建超市的目的自然是为了通过校园超市能够赚到更多的錢,所以从主观意义上也希望可以实现对数据进行挖掘,从现实数据中获得有价值的信息来创造财富[1]。
2 数据采集方法
对数据挖掘这一技术在校园超市企业中是怎样工作的进行探讨,就是通过校园超市日常性记录数据进行分析和挖掘,从而对数据挖掘的作用有了更好的理解。数据挖掘技术从字面上理解,一定离不开数据,使用什么样的办法来获得数据就是数据采集帮助我们解决的问题。一种办法,是使用取样方法挑选人们需要的数据[2];另一种办法,是借助虚拟表来挑选需要的数据。在表1关联事务表和表2决策事务表中分别利用单张收据小票数据和某日的多张收据小票中数据为相关分析提供数据。
3 原始数据采集
已知集合L中包含的数据为校园超市所出售的货物,这些货物间具备一些隐含的购买规律。寻找以往顾客在校园超市的购物信息,筛选出具有集合中货物的数据,制成表3所示,使用数字1和0分别表示顾客是否买入了相应货物。L={焗油膏A、内衣B、洗面奶C、沐浴露D、透明皂E}[3]。
借用上面表格的内容,通过货物相关的事物数量占所有事物数量的比值,参照Apriori算法思想,获得支持度,继而分析超市货物间潜在的购物联系。按照Apriori算法,利用表3数据计算支持度Support(图1)。
已知Apriori算法中最小项支持度MIS。MIS是50%,可得Confidence值如下(图2):
已知min_confidence最小可信度阈值=60%,根据关联规则的算法思想,可得出:
AB,AC,BC,CB,ABC,ABC,ACB
4 数据预处理过程
对校园超市中原始数据加工整理,为数据挖掘工作的顺利进行做准备。忽略干扰数据,找到不小心丢掉或者遗忘的数据,清理重复数据的过程。根据货物事实表和销售事实表中的数据可以分析得到规则,所以事先将货物事实表和销售事实表中的数据集成,对于其中没有价值的数据可以忽略,保障分析结果的准确性。
5 数据挖掘过程
我们所创建的校园系统由各个功能模型组成,其中一个独立的是数据挖掘。通过动态链接库接口进行交流,而它本身是个类库。利用的基本原则是使用频繁项集算法剖析校园超市数据库中的数据,找到经营货物之间的“潜在联系”。
为了创建符合人们实际需求的模型同时又能够满足人们对创建模型速度高标准、严要求的需求,在模型中使用了Object Oriented模式,将相应功能设计成类,这样的好处是:一方面,可以在需要的时候反复的引用该类;另一方面,在对系统进行优化和功能拓展的时候,只需要对相应的类进行改动就可以了。又考虑到随着时代的进步,还需要健全校园超市管理系统的性能、更加适应使用者控制方式,在校园超市管理系统中专门设置了接口以备不时之需。
参考文献
[1]焦亚冰.数据挖掘中关联规则在超市商品管理中的应用[J].太原师范学院学报:自然科学版,2009,(2):93-95.
[2]马成前,陈志雄.数据挖掘技术及其在超市中的应用[J].软件导刊,2008,(3):100-102.
[3]林萍.数据挖掘技术在基于超市数据仓库中的研究及应用[D].大连海事大学,2003.endprint