基于大数据的零售户价值挖掘实证分析
2021-03-07侯毓
侯毓
(湖北中烟工业有限责任公司信息中心,湖北 武汉 430040)
一、引言
2020年4月9日,中共中央、国务院发布《关于构建更加完善的要素市场化配置体制机制的意见》,正式将数据纳入生产要素范围,数据资源的重要性已不言而喻。对于烟草行业而言,目前中国烟民大概3.5亿人,全国注册零售户1 286万户。2019年,全年行业订单2.28亿份,交易明细记录73.59亿条。烟草行业有如此大体量数据,应积极探索识别不同零售户的潜在价值以实现卷烟资源的合理配置以及营销物资的合理投放。
1956年,Wendell R. Smith提 出 市 场 细 分理论,针对不同客户群体实行差异化营销[1]。通过对4 998户柳州市辖区持证卷烟零售户开展满意度调查,梁娟等研究发现零售户对客户服务和市场管理的满意度较高,但对盈利情况、货源供应政策、月度商定总量、卷烟品质的丰富性、零售户分档公平性等的满意度较低[2]。烟草公司现行的营销策略是根据“购进数量”“购进金额”“购进品规数”三个维度,通过权重附分值的方法进行月度滚动式分档管理。由于货源投放依赖分档结果,缺乏灵活性,面对市场环境的变化难以快速调整投放策略,货源投放不精准。面对卷烟消费的升级不能及时响应,导致零售户所处档位与其实际销售能力不匹配,许多零售户对现有的档位划分结果不满意[3]。
各学者试图利用数据挖掘技术寻找更为科学的方法,如姚龙飞基于RFM模型构建用户画像标签,通过云模型聚类算法将湖南省某地市零售户划分为重要保留客户、重要发展客户、重要挽留客户、低价值客户四大类[4];周旭以“客户为中心”,基于Hadoop大数据平台,利用FCM模糊聚类算法构建客户价值模型,将全国零售户划分为五大类[5];邓基刚等基于K-means聚类将12 357个客户划分为VIP客户、重要客户、普通客户、小客户四大类[6]。
文章以RFM模型和K-means算法为理论基础,从实际业务出发,将方法论与业务实践深度融合,以融合后的实际结果为依据划分零售户类别,并进行相应的价值挖掘,相比传统的理论导向更有实践意义。
二、相关模型
(一)RFM模型
RFM模型由美国数据库营销研究所Arthur Hughes提出,是一种被广泛应用的经典的精细化运营方法,是衡量客户当前价值和潜在价值的重要工具和手段。该模型由观察期内客户最近一次消费时间到当前时间的间隔R(Recency)、消费频次F(Frequency)、消费总金额M(Monetary)三项指标构成。
(二)K-means聚类
聚类分析是数据挖掘中研究分类问题的一种重要的统计分析方法,属于机器学习中的无监督学习。K-means聚类是聚类算法中的一种常用算法,也是数据挖掘中的十大经典算法之一,其核心思想是通过计算样本点至类中心的距离划分k个类别,找出使组内距离平方和总和D最小的类别进行划分,即求解最优化问题[7]。
三、数据收集与处理
(一)数据收集
就烟草行业某省级工业公司而言,对于行业零售户订单数据,传统数据库存储数据量5~6T,日均处理数据量5亿~6亿条,处理时间少则1小时、多则8小时,甚至出现崩溃状态。利用内存计算、高效索引、执行优化和高度容错的大数据技术,可以满足海量订单数据对数据库存储和处理的需求,处理时间仅需要10分钟。将数据库中的订单主表与零售户维度表进行左连接,抽取湖北省某地市全年零售户所有卷烟的订单数据,共计零售户38 567户、订单162.99万份,涉及的字段如表1所示。
表1 零售户相关分析字段
数据收集完成后,需要进行数据质量检查。研究范围内的数据未出现数据缺失、格式不统一、数据不规范、重复记录等问题,原因在于行业订单下行数据进入大数据平台时,平台会开展相关数据清洗工作,清洗后的数据质量相对较高。
(二)数据处理
1.构建RFM指标
R:先找出某年1月1日至12月31日,各零售户的最近一次订购日期,然后以年度商业公司准予的最后一次订购日期12月31日为基准,计算各零售户最近一次订购日期到12月31日的间隔天数,即各零售户的R值,单位:天。
F:一次订单仅对应一个编号,故订单编号唯一。计算1月1日至12月31日,各零售户不同订单编号总数,即各零售户的F值,单位:次。
M:1月1日至12月31日,各零售户订购金额总和,即各零售户的M值,单位:元。
利用R语言构建RFM模型,样本量共计38 567个。
2.剔除异常值
根据卷烟管控的特殊性质,最近一次订购间隔和年度订购次数一般不会出现极端情况,而订购总金额可能会因为不同零售户的不同经营状况出现极端差异,须对M值进行异常值检查。通过R语言绘制的箱形图,一个样本M值存在异常。经查实,该零售户是一家大型便利店,推测该零售户可能是特殊客户,故研究不将该零售户纳入样本范围,剔除后样本量为35 863个。
3.数据标准化
为消除不同量纲对后续聚类分析产生的影响,需要对R、F、M进行标准化。文章采用Z-Score方法进行数据标准化,具体换算过程:
利用R语言中的scale函数实现Z-Score标准化。
四、基于K-means的聚类建模
(一)类别k的选择
K-means算法需要事先确定k值,利用R语言绘制组内距离平方和随k值变化的折线图,可以看到k的最优值为5,也就是说整个样本分为5类是最合适的。
(二)聚类建模
利用R语言进行K-means聚类建模,得到不同角度的三维聚类效果如表2所示。可以看到,整体划分结果较为理想。
表2 聚类模型的各类中心值
五、应用分析
(一)类别定位
映射到原数据的各类中心值如表3所示,结合实际业务对5类零售户进行精准定位。根据某年该地市实际订烟情况看,全年订购周期共计53期,下面针对表3进行定位分析。
表3 映射到原数据的各类中心信息表
第1类:最近一次订购时间平均间隔为7.22天,平均每户订购50.93次,属于高频户;平均每户年订购金额次于第3类,优于其他类。该类零售户经营状况不错,通过一定的营销手段或激励措施,有望进一步增强销售能力,故文章将该类定位为潜力客户。
第2类:最近一次订购时间平均间隔为6.58天,说明最近一次订购周期内该类零售户正常订烟;平均每户订购52.05次,说明该类零售户在整年每个订烟周期内均未缺席;平均每户年订购金额达到百万以上,是所有类别中订购金额最高的一类。该类零售户经营状况最好,销售能力最强,故文章将该类定位为优质客户。
第4类:最近一次订购时间平均间隔为8.49天,与其他4类相比,属于中等水平,故文章将该类定位为一般客户。
第5类:最近一次订购时间平均间隔达到132.28天,说明该类零售户有4个多月没有订购行为,相对应的平均每户订购次数较少。该类零售户可能对卷烟市场经营形势不看好,处于流失状态,故文章将该类定位为流失客户。
(二)供需情况
商业公司对每一规格投放的数量有严格限制。零售户根据需求下单时,实际能够订购的数量最多只能与商业公司提供的上限一致,不一定能满足需求,用需求满足率=订购量/需求量来衡量供需情况。各类客户需求满足情况如表4所示,从中可以看出,整体需求满足率在60%上下,供远小于求,市场供需不平衡较为明显,但从“吸烟有害健康”的角度来说,供给侧严格控量符合国家行业稍紧平衡和垂直管控政策。
表4 各类客户需求满足情况
(三)分布差异
1.不同业态下的分布差异
不同业态类型下的客户分布存在差异,如表5所示。
表5 不同业态类型下的客户分布情况
根据零售户店铺的经营范围,业态类型分为食杂店、便利店、烟酒店、商场、娱乐服务及其他6种。纵向看,食杂店在所有业态类型中占到了3/4以上,说明该地市卷烟销售大部分集中在食杂店,这是符合实际情况的,食杂店俗称“小卖部”,随处可见。从百分比角度看,便利店、食杂店中的各类客户占比情况一致——一般客户>潜力客户>新/拟流失客户>优质客户>流失客户;商场的一般客户、潜力客户居多,优质客户尚可;娱乐服务店中一般客户、新/拟流失客户比重较高,流失客户在所有业态类型中比率最高,说明娱乐服务店的客户在所有业态中最易流失;其他业态中一般客户居多,也是6大业态类型里一般客户比重最大的一类。
2.不同规模下的客户分布
不同规模,客户分布也不同,如表6所示。
表6 不同规模的客户分布情况
零售户经营规模分大、中、小3种类型。纵向看,该地市零售户67%以上都是中型,大型和小型各占一角。横向看,优质客户集中于大型,中型稍多,可谓是小型零售户里的凤毛麟角;潜力客户大多存在于大、中型,中型比大型多;一般客户、流失客户、新/拟流失客户均以中型居多,小型其次,大型最少。大型规模的潜力客户最多,占一半以上,优质客户排名第二,新/拟流失客户、流失客户相较中、小型零售户最少;中型规模的客户排名是一般客户第一、潜力客户第二、新/拟流失客户第三、流失客户第四、优质客户第五;小型规模的零售户也以一般客户居多,因投资成本低,新/拟流失客户及流失客户比重都比大、中型高,优质客户和潜力客户自然就极少。
六、结语
文章依托大数据平台,收集了湖北省某地市的零售户38 567户、订单162.99万份。经过构造RFM指标、剔除无效零售户、剔除异常值等数据处理后,得到样本35 863个。通过R语言实现的K-means聚类建模,将分析样本划分为较为理想的5大类,并结合年度该地市的实际订烟情况,实现了5大类的精准定位,分别是优质客户、潜力客户、一般客户、流失客户、新/拟流失客户,继而比较贴合实际地分析了不同客户群体的经济价值、供需情况、分布差异(包括业态差异、规模差异),为卷烟资源的合理配置以及营销物资的合理投放提供了一定的参考,也为后续更细粒度地数据挖掘,比如零售户对卷烟规格的偏好分析等,奠定了良好基础。