以数据挖掘技术进行超市客群营销分析
2021-07-19郭杨晖王顺毅林少杰张宇辉李仁钟
郭杨晖 王顺毅 林少杰 张宇辉 李仁钟
摘要:本文首先介绍了论文的研究背景和数据挖掘中聚类分析的发展现状。然后从用户群体分析出发,采用RFM、k-means、决策树进行建模。建立了会员信息的相关表格,根据所建的不同维表分析需求商品,对每个群体进行细分,分析与其最有关联的商品。通过决策树从时间和金额两个角度对超市销售商品的需求进行了详细的分析。最后对高价值顾客、忠实顾客、潜力顾客、流失顾客分别进行相应的改进措施及建议。
关键词:数据挖掘;超市客群营销;决策树;K-Means;RFM
中图分类号 TP301.6 文献标识码:A
文章编号:1009-3044(2021)15-0242-06
1引言
1.1研究背景
随着消费者购买喜好、市场大环境等的变迁,价格不如量贩店便宜、通路也不及便利商店多的超市却日渐兴盛,如全联超市销售额已超越量贩店第二的大润发,甚至扩大市场占有率,并吞了松青超市,在市场上逐渐稳占龙头。但此行业竞争激烈且市场日趋饱和,消费者逐渐掌握主导权,商家无不想掌握顾客的喜好与需求,来追求最大收益。因此,如何发掘并满足顾客需求,进行针对性的营销策略,以提高顾客人数和消费金额,是超市要获利的首要任务。综合以上因素,我对此项议题相当感兴趣,故选择超市营销分析作为研究主题[1]。
1.2研究目的
本研究个案为超市营销分析,通过个案中提供的公司会员基本数据、交易数据、小分类代码等信息,作为分析数据来源,并结合数据挖掘技术的聚类分析,深入了解个案中公司的交易形态,进而找出有助于个案公司的决策信息,掌握不同的四项客群,提供各自专门的营销策略,通过针对性营销,锁定不同客群喜爱的商品,使消费者提高忠诚度,以达到最有效的营销模式[2]。
1.3问题讨论
根据此超市的原始数据,仅能够看出会员的基本数据以及交易纪录,无法直接看出会员数据与交易、购买行为的关系连结,其主要问题如下:
1)数据仅以原始呈現且尚未处理,包括许多项目,如:年份、交易金额与交易笔数等,必须多项比较才能找出其中的变化与重要的影响变量;
2)无法单纯根据数据进行有效的超市策略拟定,因数据面向广泛,是否应从畅销商品、店面或是会员来制定最佳营销策略仍有待分析;
3)仅以基本叙述统计可能无法找出最佳的营销方向。本研究期望通过数据的挖掘与分析,以区隔客群的方式,使超市能有明确且容易制定策略的方向,并简要探讨有效提升销售金额、销售量,甚至提升顾客满意度等策略[3]。
1.4创新点
在营销分析中K-means运用得比较广泛,而且相对其他算法稍简单,决策树的可解释性比较高,应用广泛,可以转化为规则[4]。本论文创新点就在于我们是通过RFM模型结合K-means和决策树来对超市客群进行分析的。有学者将K-means 算法和 RFM 模型相结合,将顾客进行聚类,由大数据挖掘和企业客户细分结合研究,可以针对细分结果的不同,对不同的顾客类型采取不同的策略,使客户拥有更好产品体验。K-means 算法和 RFM 模型结合做法的确能够很好地对这个顾客模型进行聚类,但是这个缺乏了解释和验证手段[5]。也有学者使用基于RFM模型采用K-means聚类和四分位法对客户进行细分,帮助企业找到优质客户、潜在客户,对客户价值进行识别。企业可以通过自己的需要选择相应的方法来找到最优和有潜力客户等,进行针对性策略吸引客户,形成长期购买行为,提高客户忠诚度。但是这个方法不能够清晰反映出不同客户的区别,从而进行顾客细分,而建立决策树却能很好地解决这一点[6]。所以我们在本论文中结合了决策树,以决策树来将聚类出的结果转换为规则,再算出它的准确率。在通过多次聚类之后,发现聚成四类时用决策树能够更好地解释我们的分群,最后算出来的准确度也最高。
2 研究方法与步骤
2.1 数据预处理
本文的数据来源为中华统计应用学会所提供,使用超市的数据集进行分析,会员数据档共计4377笔,交易记录档在2017年1月1日至2018年12月31日期间数据共计105170笔,产品数据档共计11171笔,小分类编码表共计432笔,各数据集的数据总笔数、属性个数如下表1所示。
由于原始数据须经过数据的转换及梳理,才可符合数据挖掘分析的需要,故此阶段将交易记录档提取出来,移除重复数据,以便建立RFM模型,并进行数据挖掘[7]。
2.2 顾客价值分析
本文顾客价值采用RFM模型计算,说明如下:
最近购买日(Recency):顾客最近一次购买到分析时的天数,计算数值越小,表示顾客近期有至超市购买商品,反之,数值越大,表示顾客有一段长时间没有到超市购买商品[8]。
购买频率(Frequency):顾客在2017年1月1日至2018年12月31日期间购买超市商品的次数,计算数值越大,表示顾客较常购买,反之,数值越小,表示顾客不常购买。
购买金额(Monetary):顾客在2017年1月1日至2018年12月31日期间购买超市商品的平均总金额,计算数值越大,表示顾客消费能力高,反之计算数值越小,表示顾客消费能力不高。
2.3聚类分析结合决策树
此节分为三部分,先是在R软件上执行阶层式聚类法中的华德法,找出聚类数,接着使用k-means算法产生聚类结果,最后则是以聚类出的结果执行决策树找出其决策的规则。
使用k-means算法时,载入分析数据,设定聚类数后,所得出的聚类结果代入到RFM模型中,并开始执行决策树,以便显示聚类规则。
通过上述的方法,利用决策树找出四群的规则,总计六条规则,如图1所示,决策树的准确度为98.49%。
依据决策树的规则,本文归纳出四群客户类别,分别为高价值顾客群、忠实顾客群、潜力顾客群和流失顾客群,其规则对照,如表2所示[9]。
依据所分析出的顾客类别及规则,提供出超市营销建议[10]。
3 结果分析与讨论
3.1 全体顾客
3.2 聚类讨论
3.2.1 决策树
忠实顾客群:
1)忠实顾客群相较于整体顾客忠实顾客群也就是聚类一,无论在人数或者购买金额上,所占整体顾客群比例不高,大约一成左右。
2)忠实顾客群的消费者数据分析结果显示在2017年到2018年间,忠实顾客群的主要客层:
A.男性消费者比例有显著增加(23.5%,2018),但是主要消费者还是女性(76.5%,2018)
B.学历在2017年主要是高中以下(54.7%,2017),2018年则转变为大学(64.4%,2018)
C.消费者多为已婚(92.0%,2018)
D.家庭人口2017年主要集中在7人以上(66.8%,2017),2018则被3~4人家庭取代(54.0%,2018)
E.2017年职业以服务业居多(63.8%,2017),2018年则分散于商业(40.2%,2018)、服务业(32.0%,2018)以及家庭主妇(21.7%,2018)
F. 家庭月收入则集中在1~1.5万元(30.6%,2018)和1.5万元以上(53.5%,2018)
3)忠实顾客群的畅销商品
基于忠实顾客群是全体顾客群中,较频繁来消费且消费有一定金额以上的人,因此所购买的畅销商品与全部顾客群中的畅销商品相差不远,主要也都是一些家庭生活用品。
3.2.2 潜力顾客群
潜力顾客群指的是最近一次购买距计算时点<312.5天,但平均交易金额<939.6元者,即其对超市有一定活跃程度,但购买力不够强,可制定适当的营销策略,提高其消费,将其培養为忠实顾客群。
1)潜力顾客群相较于整体顾客
潜力客群有以下特性:
A.以性别来看,在2017年和2018年,女性都占多数(约76%)
B.以学历来看,在两年内学历皆以大学为主
C.从婚姻状态来看,皆以已婚者占多数,但已婚者从82%降为69%
D.以家庭人口来看,3~4人占了半数,其次是7人以上(接近30%)
E.从职业来看,皆以家庭主妇为最大宗,其次为商业人士
F.从家庭月收入来看,扣除(其他),2017年最多的是0.5万~1万者,2018年则变为1.5万元以上者
2)潜力顾客群依据会员特性分项比较其畅销商品
先看潜力顾客群的总消费在件数与金额上占大部分的分别是那些商品:
接着以各项会员特性来分项,比较潜力顾客群与全体顾客在畅销商品件数、金额上的差异,有以下几点值得一提:
就收入而言,与所有客户相比,潜力客户的倾向较为不同的是:
收入0.5万~1万的消费者,购买的白兰地金额非常大,其次是鲜奶与进口香烟;收入1~1.5万的消费者,购买金额则以葡萄酒占比最大。
以各店铺而言,1051是潜力客户群中营收最多的店,在2017、2018年皆约占35%;若以全部客户来看,则4店营收相差不大。因此仅就1051做探讨。
以消费总金额看,1051的潜力客户消费了大额的白兰地。
以性别而言,从消费总金额来看,女性购买的白兰地占总营收最大部分,男性则是葡萄酒,且若以所有顾客的消费金额来看,白兰地与葡萄酒皆不是营收前几名。
以职业而言,在消费总金额上,工业消费的白兰地非常多,鲜奶与进口香烟也相当多;商业人士消费的葡萄酒消费金额多。
3)购买畅销商品的会员共同特性
交叉比对各个会员个性分项下的畅销商品件数、金额,可总结出几项具推广价值的结论:
白兰地与葡萄酒单价高,占潜力客群中消费金额的一大部分,然而在所有顾客的消费金额分析中却未看到此一结果,故可作为对潜力客群的重点商品营销。
其中又发现,白兰地在潜力客群中主要消费者有(硕士学位、家庭月收入0.5万~1万、工业、女性)这些共同特色,且在此商品有高消费的客群,常伴随(进口香烟)的高消费。
葡萄酒在潜力客群中的主要消费者,则有(家庭月收入1~1.5万、商业、男性)的共同特色。
而上面讨论过,店号1051又是所有店铺在潜力客群中营收最大的,其营收就有极大部分来自高单价酒类。
5.2.3 流失顾客群
1)流失顾客群相较于整体顾客
流失顾客群为聚类三,无论在人数或者购买金额上,所占整体顾客群比例最少,大约2%左右,也是店家最不希望产生的客群。
结果显示在2017年到2018年间,流失顾客群的主要客层:
A.女性消费者比例有最多(76.37%,2018)
B.学历在2017年与2018年主要是大学生最多(30.92%,2017)(37.66%,2018)
C.消费者多为已婚,但有减少的趋势(63.7%,2018)
D.家庭人口皆主要集中在3~4人(49.92%,2017),但是1~2人与7人以上皆有增加趋势(29.46%,2018)(28.96%,2018)
E.职业在2017年与2018年皆以商业占最多(35.39%,2018)
F.家庭月收入由2017年1~1.5万元(24.29%,2017)最多,改为2018年0.5万~1万最多(28.31%,2018)
2)特殊分项说明
从性别畅销商品来看,女性购买最多的商品与男性差不多,但是次项后便有差异,男性畅销商品有包括米酒、电池软品等,女性畅销商品则以蔬果类、鸡蛋、豆腐等生鲜食品为主,可见性别的畅销商品类别仍有不同。
从职业畅销商品来看,最畅销商品仍为一般白米、家庭用品等等,但是从次项分析仍可发现不同。无业/退休者的次项畅销商品包括味素、葡萄酒、日本点心食品等等,可能与生活饮食习惯及金钱较不用烦恼,因此有意愿尝试外国高价食品。学生的次项畅销商品则为酸奶、冷冻面食、冷冻轻松料理等等,由此可发现学生族群的饮食习惯以快速、方便为导向。
3)流失顾客群畅销商品
流失顾客群所购买的畅销商品与全部顾客群所购买的商品种类相差不大,皆为一般白米、家庭用品、鲜奶等等。而在畅销商品总金额方面,流失顾客群全体顾客群也差异不大,以一般白米、鲜奶、油类等金额较高商品为主。显示虽为流失顾客群,所购买商品种类也与一般大众无异,购买金额较少因素因与产品无关,可能为店家与个人喜好因素。
5.2.4高价值顾客群
高价值顾客已被视为是企业的珍贵资产,因此如何针对高价值顾客对于企业未来的营收贡献进行预测,则相当于预测企业的资产消长。高价值顾客相对于忠实型顾客来说,虽然平均交易金额大,但在购买时间上,也就是离最近一次消费的时间,相对来说比较久,因此必须通过分析与营销策略找出能缩短购买时间的有效手段。
1)高价值顾客与全体之比较
在此超市交易数据中,高价值顾客群占总群体的62.77%,总交易金额为63,059,718元亦占全体金额的61.44%,约为其他三个族群的1.6倍,可知此超市的销售主要来自高价值顾客,也是最主要的客群来源。
2)高价值顾客分项讨论
在2017年到2018年间,高价值顾客群的主要客层:
A.女性消费者比例最多(67.14%,2018),但男性比例也不容忽视(32.86%2018)
B.学历在2017年与2018年主要是高中最多(43.67%,2017)(36.14%,2018)
C.消费者多为已婚,但有减少的趋势(77.38%,2018)
D.家庭人口由7人以上(47.54%,2017),逐渐被3~4人以上取代(44.07%,2018)
E.职业在2017年与2018年皆以家庭主妇占最多(31.52%,2018)
F.家庭月收入为1万~1.5万元(33.76%,2018)为最多
以下就以几项基本数据进行进一步的讨论:
就性别来看,不论男女超过一半以上都是属于高价值顾客群,其中男性占了将近75%,店号1073的男生最多(15640),占了男性人数的百分之五十;而这些男性在购买商品,除了白米以外,家庭用品、洗衣粉/液、油类以及抽取式卫生纸的交易金额也占了相当大的一部分。根据上述,可以推测男性大多是购买家庭用品并帮家中添购基本必需品。
月收入:高价值顾客不免让人直观定义为高收入,但事实上此族群的主要组成为月收入1~1.5万元的会员,约为1.5万元以上的2倍,且主要分布在店号1073,且主要购买的商品多为白米、果蔬类。
店:此客群与其他不同的是,每家店皆有高价值顾客,甚至在4001、4002为主宰者;从销售金额来看,大部分来自1023、1073这两家店,但值得关注的是1051,2018年的销售量逐渐追上1073。因此可以初步推论刚增设的分店4001、4002可能会成为未来的发展要店,其他三家销售金额较高的店家则为目前首要目标。
2)高价值顾客的畅销商品
高价值顾客群本身就占全体相当大一部分的组成,因此不论在分类总件数或是总金额均与全体相同,总件数主要为白米、家庭用品、鲜奶等;而总金额则以白米、鲜奶、卫生纸为大宗,因此我们可以推论在营销手法上,商品在此群体中若主打这些畅销商品,就几乎等于对全体做营销策略。
4结论与建议
4.1忠实顾客群
因为忠实顾客群就是较常来消费、买得较多的消费者,通過营销策略,达到让他们更“常”来买、买得更“多”的目的。针对提升品牌忠诚度,使得消费者更频繁地来消费,可以利用下列两种方法:
1)红利积点
每一次的消费金额可以依比例作为红利点数,可以提供下次消费的折扣。不但当次消费金额可能因为有之前红利折扣而增加,也可以使回客率上升,提供消费者下次购买的诱因。
2)以畅销商品作为主题
忠实顾客群的畅销商品通常为米、饼干、果蔬类、洗衣粉/液等家庭生活用品,可以不定期在商场内举办畅销商品的主题特卖,例如某一时期就引进日本高级米作为主题宣传,在现场提供免费试吃等。根据消费者喜欢尝鲜的心态,以及心理预期不定时举办的活动,顾客会更常来光顾,也可以维持消费者对于来此消费的兴趣。而至于提升单次消费的金额,提供了下列两种方法:
1)大包装商品促销
忠实顾客群中的客层主要为3~4或7人以上家庭,因此通常大包装的商品对于他们有一定的吸引力,如果再加上一些促销手段,消费者可能从原先选择的小包装,大包装商品,增加当次的消费金额。
2)现金反馈
根据平均消费金额,再加上一点金额订定满千折百的促销,提高单次平均消费金额。
4.2潜力顾客群
针对潜力顾客群对企业活跃度高,但总金额不高的特性,提出的营销建议以促销高单价商品、刺激购货数量以提升总消费金额为主,有如下3点建议:
(1)消费者最易伸手拿与其视线平行的商品,因此在与视线平行的货架上放置高单价商品,即潜力顾客群的畅销商品:白兰地与葡萄酒,以提升其消费数量与总金额。
(2)将薄利多销商品放在超商入口处,可有效提高购买数量,因此建议将此客群整体而言购买件数、金额的商品放置在超商入口处,如:家庭用品、甜味饼干、其他油。
4.3流失顾客群
流失顾客群是较不常来消费、买得较少的消费者,因此需通过营销策略,增加顾客来店频率与提升消费金额。并针对店家与品牌忠诚度,可以利用下列三种方法:
1)会员红利与满额赠活动
推出集点红利活动、满额赠的诱因吸引消费者,(如:消费满500元可兑换赠品或累积红利点数),来提高顾客客单价与消费金额。
2)以畅销商品作为主打
流失顾客群的畅销商品通常为米、鲜奶、家庭用品类商品,虽然所购买的金额较少,但仍与整体顾客所购买的商品类别相似。因此仍需锁定流失客群喜好的商品,做促销提醒。
3)观察竞争对手
除了商品因素,流失客群的增加可能与附近邻近竞争者的兴起有关,可能为小型超商或是其他连锁超市,店家应观察附近竞争者形态,检视自我店面形态、店内环境因素、或有其他应可改善的方面,做加强与补足。
4.4高价值顾客群
高价值顾客的组成主要还是已婚女性,但男性大多数属于此客群,其他变量如家庭人口数3人以上,月收入1万~1.5万,职业为家庭主妇、商、服务业,学历高中等皆为此群体的主要特性。
主要的营销策略制定方向在于缩短距离前一次购买时间的距离,提高购买的频率,使其成为具有高价值的忠实客户。
1)回购礼
此策略主要为减少购买时间的长度,提升高价值顾客群的回购率。主要可以通过礼券或点数的发放,提高再次来店消费的频率。
2)男性客群—宠爱家人系列活动
因为大多数的男性皆属于此客群,且购买的物品大多为家庭必需品相关,因此通过(宠爱家人)系列活动,提倡多项产品的组合优惠,并且拉长系列活动的时间,或者是定期优惠不同商品组合,改善来店的频率。
参考文献:
[1] 王爽.互联网与文化生产、推广和消费研究[D].济南:山东大学,2016.
[2] 唐容.基于特征选择的CART算法研究[D].成都:电子科技大学,2020.
[3] 白燕燕.基于客户细分的潜在高价值客户挖掘实证研究[D].兰州:兰州财经大学,2017.
[4] 李仁钟,李秋緣.零基础学R语言数据分析[M].北京:清华大学出版社,2018.
[5] 马培梁.基于K-means算法的数据挖掘与客户细分研究[J].市场研究,2019(11):66-67.
[6] 陈子璐.基于RFM模型的电子商务客户细分[J].市场周刊,2020(4):56-58.
[7] 李健,王小蒙.基于R语言的数据挖掘工具的设计[J].内蒙古科技与经济,2017(24):58-59.
[8] 裴晨.基于随机森林与GBDT的社会医疗保险欺诈识别问题研究[D].大连:东北财经大学,2018.
[9] 郑菱芝.基于客户忠诚度分类的零售业购物篮分析[D].杭州:浙江工商大学,2018.
[10] 段清阳.基于会员分类的会员关系管理应用研究——以雅戈尔企业为例[D].西安:长安大学,2019.
【通联编辑:王力】