APP下载

营销数据的关联规则挖掘

2019-03-06

福建质量管理 2019年3期
关键词:项集数据挖掘饮料

(上海海事大学 上海 201306)

一、引言

关联规则挖掘的研究是近几年研究较多的数据挖掘方法,在数据挖掘中的各种方法中应用的也最为广泛。2002 年,毛国君等针对传统关联规则挖掘的经典问题,提出了项目集格的概念,并在项目集格空间上讨论了项目集的操作。陈国青,卫强把模糊语言修饰词引入到模糊关联规则中,并用模拟数据和现实数据对广义关联算法(GAR),模糊广义关联规则算法(FGAR)和带有修饰词的模糊广义关联规则算法(HFGAR)进行了比较。邹力鹍等(2003)从空间数据挖掘的定义、过程、特征和任务等方面对空间数据挖掘技术进行了研究,并介绍了一个空间数据挖掘原型 Geo-Miner。皮德常等(2004)基于动态剪枝的关联规则发现方法,讨论了如何实施动态剪枝,给出了一个基于三元组结构的树式存储结构,在此基础上描述了交易数据库中知识发现算法,有助于挖掘迅速更新的数据。WEI-MIN MA,ZHU-PING LIU 提出了两种基于 Apriori的改进算法,引入最小支持度,最小可信度和最小兴趣度的约束条件以减少数据库搜索次数和提高运算效率(2008)。王熙照,赵东垒(2007)扩展了TD-FP-growth 算法,提出了基于规则兴趣度的关联分类(ACIR),使之有效地挖掘训练集,产生满足最小支持度和最小置信度的有趣的规则。王乐等(2009)提出一种从事务项集对应的最大频繁项集求全部属性项集的最大频繁项集的新算法 IPA(Intersection Pruning Algorithm)。该算法通过交集剪枝实现自顶向下和自底向上的搜索最大频繁项集,并使用属性项的分布数据和已生成的交集等多种信息来减少求交集的次数。2010年,于芳提出了应用关联规则中各个项目的加权利润之和的思想评估关联规则的价值,并设计了三个超市关联分析模型,即超市捆绑销售、货架摆放以及竞争产品分析模型。

自R.Agrawal、R.Srikant等人于1993年在对市场购物篮问题(Market Basket Analysis)进行分析时首次提出关联规则的定义,奠定了关联规则的理论基础。随后,随着应用的不断推广,关联规则理论不断改进并日趋成熟。

而目前的研究大多处于仅发现销售关联规则,而对于模式的调整和后期的再发现缺少动态研究,尤其是缺少专业背景下的调整和分析。关联规则和营销模式的分析现在是一个普遍关注的问题,在一些地方已经有了一些不错的发展,因此,本文通过历史销售数据,根据提取的关联规则,结合地区特点、季节特点形成一套操作性较强的切实可行的营销建议,通过在实际运营中的推广使用和检测,提高产品的销量和营业收入。

二、应用实例

1、搜集数据及数据预处理

我们通过实地调研,最终选定郑州市东大学城附近的某超市,了解其所处地理环境和所售商品种类。因为该超市主要客户群为大学生,而周五下午及晚上是购物高峰期,所以我们搜集其某周五下午及晚上的1019条购买记录。

对原始数据进行预处理:

(1)删除无效及退货信息。由于售货员操作失误,以及有个别顾客出现退货现象,所以首先对拿到的原始数据进行初步筛选。删除无效信息。

(2)商品归类及编号。经了解,该超市一共销售195种商品,许多商品属性相似。所以为了对关联挖掘更加清楚明了,我们对商品进行归类,并把属性相似的商品编在一起。

2、结果分析及销售建议

该超市位于大学城附近,主要客户群为大学生。通过对数据进行初步描述统计,我们发现:大多数顾客的每次消费都在50元内,每个人平均购买6.107种商品,如图一所示,虽然人均购买商品数较大,但购买1-5件商品的人数相对较多,购买6-16件商品的人数在30上下波动,变化不大。

图一 顾客购买商品数条形统计图

通过顾客购买记录,我们很明显地了解到:在周五下午及晚上,电器、家居、服装类销售记录为0,除了纸类牙膏等生活用品外,食品销售占到总销售量的95.64%。如图二所示,而在食品类销售量中,零食类销售量最大,占食品类销售量的26.74%,其次是饮料类和熟食类,分别占食品销售量的18.23%和17.93%。这和大学生的购买习惯非常吻合,结束一周的学习生活,首先去超市购买零食饮料犒劳一下自己。所以,该超市在周五下午及晚上可以对食品类商品做些促销活动,特别是饮料和零食类。

图二 顾客购买不同商品饼状图

另外,由apriori改进算法得出的结果如表一、表二、表三所示。

表一 频繁1项集及支持度

表二 频繁2项集及支持度

表三 频繁3项集及支持度

设置置信度水平为60%,我们可得到最后的强关联规则有:1101 饮料->1307 进口食品->1306 糖果巧克力;1101 饮料->1604 常温熟食类->1306 糖果巧克力;1101 饮料->1802散装休闲食品->1306 糖果巧克力;1101 饮料->1802散装休闲食品->1307 进口食品;1101 饮料->1604 常温熟食类->1802散装休闲食品。

所以,超市在货物摆放方面,可以把饮料摆在顾客最容易注意和取放的位置,我们发现许多超市就是这样摆放的,这也证明了我们算法的有效性和准确性。另外,超市可以针对大学生这一客户群,在周五下午及晚上,为提升销售额对饮料和零食做一些捆绑销售。超市可以进一步分析大学生群体的口味偏好,多销售一些接受度较高的食品。其次,大学生还是对新兴事物接受较快的群体,所以超市货物要紧跟市场潮流,不断更新。

猜你喜欢

项集数据挖掘饮料
“0卡0糖”饮料真的健康吗?
饮料换装
探讨人工智能与数据挖掘发展趋势
分发饮料
基于并行计算的大数据挖掘在电网中的应用
少喝饮料
一种基于Hadoop的大数据挖掘云服务及应用
关联规则中经典的Apriori算法研究
一种频繁核心项集的快速挖掘算法
基于GPGPU的离散数据挖掘研究