APP下载

电商营销数据关联性分析

2018-12-17刘青

卷宗 2018年29期
关键词:R语言关联分析数据分析

刘青

摘 要:在大数据时代中,电商的出现颠覆了传统的营销方式,成为互联网最成功的应用之一,而电商每天交易而产生的海量数据,具有极其重要的应用价值。此类的电商数据关联分析方法能够解决各种用户的需求,为电商数据系统的决策者改善经营模式,更好地维护客户关系,提升利润率提供了有力的处理工具,具有较强的实际应用价值;同时,对数据分析的方法进行了研究和改进,具有一定的理论研究价值。

关键词:电子商务;数据分析;R语言;关联分析

1 引言

谈及“关联分析”,人们津津乐道十几年的经典段子——“啤酒与尿布”的故事就又要被提及了,这里可以简单重温。大约1990年前后,一个商场的经营者分析所卖出的产品的一系列数据的时候发现了一个有趣的情况:两件产品尿布和啤酒看似风马牛不相及,但是在特殊状况下有时会被同一名顾客同时购买。调查后发现,年轻的父亲们在购买尿布的同时,常常因为熬夜照顾孩子,观看体育比赛而顺便购买用来助兴的啤酒,由此产生了尿布搭配啤酒的有趣状况。从这以后,该超市尝试着将尿布与啤酒置于相同的区域,由此营业额果然有了显著的增长。在这个有趣的状况中尿布和啤酒的关系称为关联性,而把此种关联性发掘和利用起来就是关联分析。

2 对商品的关联分析

我们对商品的关联分析有着十分明确的目标,就是旨在研究顧客的消费习性和习惯,明确顾客购买产品的需要,并且最大程度上消除顾客消费与再消费的障碍,这里主要障碍在于推送的内容不符合顾客心意,顾客不能产生想购买的欲望。更总要的是,对商品的关联分析要在发掘顾客的潜在的消费需求上发挥极大的作用,让顾客产生最强烈的购物欲望,从而使公司更好收益。

2.1 为什么会想到对商品进行关联分析

电商G在公司成立之初举办过打折季,打折季为期两星期。在这两周的时间里产品价格都是只有原来的70%。自从打折季开始,公司工作人员的工作量大约是平时的1.2倍。打折季结束之后,经过数据分析研究发现,在打折季期间顾客流量、营业额、销售量以及订单数量都是只增不减,只有营业利润与原来持平。究其原因,只是增加顾客流量以及订单数量,不停降低价格,这样做并不能给公司带来更大的收益。这样做只会增加广告费用和公司工作人员的加班工资,公司的利润率没有明显的增益。最后发现,关键点在于客户单价。单单一名顾客进行一次购买行为的利润不增反减。另一种情况是各个顾客在这打折季期间并不存在多次重复购买的消费行为。正因如此,公司在各个顾客的消费中得到的利润只会不停下降。在电商G失败的打折季活动中,他们领悟到一定要将商品相互关联起来,对商品进行关联分析后,把握住消费者的购买习惯,发掘顾客的潜在消费需要,让顾客同时购买两种或者两种以上商品,这样一来可以为公司节约大量广告费,这笔钱可以用于提升员工工资,激发员工积极性,提升用户

体验。

2.2 对商品关联分析的必要性

假设顾客想在电商G的网络平台上有不止一个消费需求,而且假设该顾客在电商G的平台上花了半小时都并未找到他想要购买的商品,很有可能这个顾客就一件产品都不会买就离开了。一位顾客的不购买而离开的行为对于公司的影响可能微乎其微,但是放到庞大的顾客群体中来看,这对于公司的影响是巨大的,对公司的损失也是极大的。为了应对这种情况,虽然目前不能做到积极应对每一名顾客的消费习惯即特殊需求,但是目前我们能够做到的是分析那些具有共同消费特征的顾客群体,分析找出顾客的共同需求,把这些顾客可能想购买的,或者可能十分感兴趣的产品通过移动客户端或者网页推送给各个顾客,一来激发顾客更大的购买欲望,可能因此购买更多的关联商品,二来很大程度上减少了顾客查找挑选产品的时间,因此大大提升了消费速度。由此公司的订单量不断增加,公司也不用为了增加利润而降低售价这种薄利多销的不利于企业发展的营销模式。这样一来,用户体验不断变好,公司的形象彻底扭转,公司的品牌价值得到提升,员工不用再为了企业利润彻夜加班,员工的工作情绪得到很大照顾,对于公司的良性发展十分有利。更重要的是,顾客的潜在消费需求被充分挖掘,顾客进行再次购买时依旧会在电商G的平台上进行,而且因为良好的用户体验,顾客之间相互传播消息,其他电商平台的常客也会慕名而来,进行购买。这样更多的资源由此被吸引而来。所以,对商品进行关联分析,并进行智能推荐是非常必要的。

3 数据关联性分析

关联分析是数据挖掘领域各种各样的核心技术中,地位举足轻重的一个。

3.1 项集

所谓项集就是集合概念的一种,在相同购物篮里的产品中的一件消费品即为一项,那么若干项的集合称为项集,比如{啤酒,尿布}就构成了一个二元项集。

3.2 关联规则

一般记为X→Y的形式,关联规则左侧的项集称为先决条件,右侧项集Y为与之相应的关联结果,是来表达数据内部所隐藏的关联性。比如,关联规则尿布→啤酒成立,就说明采购尿布的顾客通常也会采购啤酒,就是说两种购买行为具有比较明显的关联性。

接下来我们将目光放在研究关联性的强度大小上,那么引出关联分析领域里的三大核心概念,即支持度、置信度和提升度来对关联分析进行评价和控制。它们之间的具体关系如下。

下面举例来对这三度进行说明。

我们如果认为存在1000名顾客有采购行为,他们之中有1000人买尿布,有2000人买啤酒,有500人买面包,而且同时购买尿布与啤酒的有800个,同时购买尿布与面包的有100个。

3.3 支持度

支持度是指在所有项集中{X,Y}出现的可能性,即项集中同时含有X和Y的概率:

这个指标是建立强关联准则的首要准则,它度量了所需要研究的关联规则在“量”上的大小。它通过设定最小阈值去掉出现次数少的限定规则,保存出现次数较多的项集不明显的规则。这些步骤用如下的公式表达,就是挑选出满足:

的项集Z,我们称其为频繁项集。

我们前文提到的研究数据中,调整最小阈值为5%的时候,因为{尿布,啤酒}支持度为800/1000=8%,又因为{尿布,面包}支持度计算得到是100/1000=1%,那么{尿布,啤酒}符合数量规则而作为频繁项集,与此同时规则尿布→啤酒、啤酒→尿布成立,{面包,尿布}所对应的两条规则不符合条件因此删去。

3.4 置信度

置信度是指在关联规则的前提条件X出现的条件下,即包含X的项集和包含Y的可能性的条件下关联结果Y的发生概率:

现在我们来研究产生强关联规则的第二个门槛,即可以用来衡量相关关联规则的“质”。与前文一样,我们需要设置一个置信度的最低门槛来实现进一步筛选,并最终生成符合我们需求的强关联规则。所以在选择频繁项目集之后,有必要使它们来满足:

的规则,因此完成所需关联规则的生成。

结合实际来说,我们设定置信度最小阈值为70%时,尿布→啤酒的置信度计算得到800/1000=8%,而规则啤酒→尿布的置信度是800/2000=40%,因此不符合条件被删除。综上所述我们不停筛选最终得到一条强关联规则——尿布→啤酒。

3.5 提升度

提升度表示在Y发生的概率P(Y)的条件下,X的发生对于Y的出现概率P(Y—X)的提升程度,就是在已经存在X的条件下,同时含有Y的概率和不存在这个条件下项集中含有Y的概率之比:

提升度与置信度都用来度量关联规则的可靠程度,我们可以吧提升度当成是与置信度相互补充的一种指标。

打个比方,我们研究1000个顾客,经过研究知道500人购买了香蕉,在他们之中存在450人也买了桔子,还有50名顾客未曾购买。因为规则香蕉→桔子的置信度为450/500=90%,所以判定很大概率上喜欢吃香蕉的也会喜欢吃橘子。然而研究剩下的500人,即没有买香蕉的顾客,在他们之中,也存在450名顾客买了桔子,置信度也是90%.所以不吃香蕉的顾客也喜欢吃桔子。综上所述,是否买桔子与是否买香蕉没有联系,它们相互独立且它们的提升度是90%/(450+450)/1000=1。

其实提升度的提出是为了用来补充置信度的缺陷,如果lift值为1则指X、Y之间相互关系是独立的,X的存在对Y出现的概率没有影响,这里的影响即为提升概率。同时,提升度越大(>1)指X对Y的影响程度越大即表示关联性越强。

那么进行关联分析算法步骤如下:

1)筛选符合支持度最小阈值的全部项集,由上文就是我们提到的频繁项集。通常因为研究的数据很庞大,所以我们所想到的关联规则不会占据其中的很大比重。举个例子,比如说如果管理者想要研究买啤酒的顾客还会采购什么商品时,把阈值设为50%,就差不多删除了存在“啤酒”的项,究其原因,在于不会去超市的顾客一半都购买啤酒,所以阈值通常我们设定其为5%~10%。

2)从频繁项集中筛选符合最小置信度全部的关联规则。置信度的阈值一般来说设置得高一些比如70%~90%,因為这是除去没有意义的项集进而得到强关联规则的不可或缺的过程。其实这也会随情况而变,假如目的是找出很多关联规则,那么阈值应该设置成比较小

的值。

4 分析结论

对于杂乱无章的大量信息,我们肯定不能很快地得到比如说最密切关联商品等等诸如此类的重要信息,正因如此我们必须对关联性制定准则,商品之间的关联是有条件的有规则的。

当按照置信度控制时,得到5条置信度为100%的关联规则,电商G可以把下列置信度达到100%的商品进行捆绑推送。

显然这是十分直观并且有趣的结论,可以想象,忙碌一周的学生或者上班族周末在家放松的时候吃薯片,吃泡面,喝饮料,看电视

等等。

对于特殊的冷门商品,如果经常推送多种冷门商品,会降低顾客购买欲望,让顾客产生厌烦情绪,所以一般一种冷门商品只和一种比较热门的商品捆绑,即一对一捆绑。经过数据分析后,我们给出的结论是将芥末与蛋黄酱捆绑进行推送,即在顾客购买蛋黄酱后给出类似商品芥末。

对于热门商品我们也能进行捆绑推送。上述数据分析的结果表示全脂牛奶,蔬菜,面包卷,苏打和酸奶为销量前五的商品。经过分析将全脂牛奶和蜂蜜捆绑推送,将全脂牛奶和苏打捆绑推送最为合理。

5 结束语

综上所述,在全力提升电商G的网络平台效率的目的下,最大程度降低广告所需费用同时实现销售量的增长,我们依照关联分析的结果给电商G创造一个特殊化推送系统,它可以判断所有用户各自的特征,然后系统给出最为恰当的产品或者产品组合。这样电商G能够吸引更多的忠实用户,并给予这些顾客最好的网购体验。而且,顾客的潜在需求也会被发掘,电商G的用于广告和管理的预算也会相应下降,更多的资金被用于提高公司其他方面。

参考文献

[1]曹贞杰.可口可乐在1号店的客户转化能力研究[J].上海交通大学学报,2014(12).

[2]黄钧晟.云计算环境下基于Apriori算法的气象数据关联规则分析研究[J].统计分析,2015(5).

猜你喜欢

R语言关联分析数据分析
基于随机函数Petri网的系统动力学关联分析模型
基于GPS轨迹数据进行分析改善城市交通拥挤
基于R语言的Moodle平台数据挖掘技术的研究
浅析大数据时代对企业营销模式的影响
注重统计思维培养与应用为主导的生物统计学课程建设