基于Apriori算法的四川省卷烟市场的研究
2010-09-10四川大学工商管理学院周欣胤何跃
四川大学工商管理学院 周欣胤 何跃
四川省拥有众多的吸烟人口,但国内卷烟企业众多,生产集中度低;产品同类不同质,功能单一缺少差异化,相互间替代性较强,使得卷烟市场竞争激烈。只有掌握卷烟消费群体的特征,才能提高卷烟企业在市场上的占有率,提高经济效益。以往卷烟市场的分析只是对市场统计数据进行单项分析,忽略了数据之间可能存在的关联性,而这些关联模型对卷烟企业提高经济效益具有更重要的实际意义。
文章使用clementine软件建立Apriori关联规则挖掘模型,对四川省2007年卷烟市场数据进行研究,找出其中的关联规则。
1 Apriori 算法简介
Agrawal等在1993年设计了关联规则挖掘的基本算法Apriori[1]。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。
该算法的基本思想:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。一旦这些规则生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集,使用了递推的方法。
2 提取四川省卷烟市场关联规则
四川省2007年卷烟市场数据来源是四川省卷烟市场调查问卷数据。在四川省境内不同地州市共发出4000份调查问卷,收回2743份有效问卷。问卷数据不能直接作为数据源使用,因为clementine软件的Apriori 算法只能处理布尔型的数据。因此,需要将问卷中的数据转换成布尔型的数据。具体做法是每个问题的每个选择项都作为一维数据,选择该项则值为1,否则为0[2]。
2.1 收入水平与客户购买卷烟价位
将转换好的客户收入水平与客户购买卷烟价位数据存入EXCEL文件并作为数据源在clementine软件中输入,将客户收入水平设定为“输入”,购买卷烟价位设定为“输出”,支持度设为10%以上,置信度20%以上,建立Apriori 关联规则挖掘模型得到输出结果如表1所示。由表1可知,收入水平在1000以下购买卷烟价位在4到5元的支持度在27.436%,说明了前项收入水平在1000以下的客户在所有客户中所占的比例是27.436%,置信度是51.402,说明了收入水平在1000以下的客户有51.402的概率购买4到5元价位的卷烟。可以看出随着收入水平的增加,用户会购买更多不同价位的卷烟。客户在购买这些不同价位的卷烟的概率差别不大。也就说明了收入增加,卷烟价格对决定客户购买价位的作用就越来越小。卷烟厂为了吸引更多高收入的客户群体不能只从卷烟的价格考虑,而要从香烟的品质、包装等多方面去考虑。
表1 收入水平与购买价位关联规则
表2 收入水平与常吸烟种关联规则
2.2 收入水平与常吸烟种关联规则
将转换好的客户收入水平与常吸烟种数据存入EXCEL文件并作为数据源在clementine软件输入,将客户收入水平设定为“输入”,常吸烟种设定为“输出”,支持度设为5%以上,置信度10%以上,结果如表2所示。可以看出收入1500元以下的客户更偏爱软红梅、盖红梅与盖红河这三种烟,收入在3000到5000的客户更偏爱红娇。卷烟厂需要大量生产这几种烟以保证其产量能满足客户的需求。
2.3 收入水平与购买途径关联规则
将转换好的客户收入水平与购买途径数据存入EXCEL文件并作为数据源在clementine软件输入,将客户收入水平设定为“输入”,购买途径设定为“输出”,支持度设为10%以上,置信度20%以上,结果如表3所示。
表3 收入水平与购买途径关联规则
可以看出客户的收入水平在1500以下时,置信度都非常高,说明了这些客户都是有80%左右的概率完全自己购买香烟。当收入水平增加到1500以上时,就会出现客户有20%左右的概率“自己买部分、别人送部分”。当收入水平增加到2000到3000时,客户“自己买部分、别人送部分”的概率会更高。可以总结出客户的收入水平越高,“自己买部分、别人送部分”的概率就会越高。卷烟厂为了增加高收入的客户的购买量,就可以考虑生产礼品烟或者包装较好的卷烟,提高销量。
3 结语
文章采用了数据挖掘方法研究四川省卷烟市场数据,在clementine 中建立关联规则数据挖掘模型,旨在通过数据挖掘的关联规则算法,将购烟客户的群体特征与购买特征组成模式,在一定的模式出现显著程度的基础上,从数据集整体中分离出这部分显著程度较高的模式,并以直观的方法展示出来,提取其中的规则,供卷烟厂参考。
在四川省卷烟市场数据中运用Apriori算法还可以挖掘出更多的规则,比如:低收入客户偏爱软硬红梅、盖红河的原因,客户职业与年龄对每日吸烟量的影响等。
[1]R.Agrawal etal.Database mining:A Performance Perspective IEEET ransactions on knowledge and Data Engineering,1993,(5):914~925.
[2]Mehmed Kantardzic.数据挖掘-概念、模型、方法和算法[M].北京:清华大学出版社,2002.