基于K-medoids算法的RFAT客户细分
2016-08-27吴倩倩何友全
吴倩倩, 何友全
(1.重庆交通大学 经济管理学院,重庆 400074; 2.重庆交通大学 信息科学与工程学院,重庆 400074)
基于K-medoids算法的RFAT客户细分
吴倩倩1, 何友全2
(1.重庆交通大学 经济管理学院,重庆 400074; 2.重庆交通大学 信息科学与工程学院,重庆 400074)
客户的精准定位、相应的营销手段和策略,以及对公司客户的专业管理,是企业发展的重要环节。以传统零售行业为研究对象,在RFM模型的基础上,引入RFAT模型分析客户信息,比较K-means和K-medoids两种算法对企业客户的聚类分析结果,最后利用RFAT模型和K-medoids算法对客户精准定位,企业可根据定位结果针对不同客户采取相应的营销策略。
客户细分;聚类分析;RFM模型;K-medoids
随着客户关系管理发展的愈加成熟,以客户为中心的营销思想也越来越被企业所重视。企业需要有效运用客户资源,从客户的消费信息中得到更加有用的信息,分析客户与企业之间的关系,对客户的消费行为分析,为客户提供个性化服务。在客户细分方面,最常用的是RFM模型,RFM模型是通过客户的购买行为、购买频率以及花费成本三个指标描述客户对于企业的价值。徐翔斌在RFM模型的基础上,添加了商品利润因子,提出了RFP模型,得出的结果比RFM模型对客户细分更加准确[1]。蔡淑琴使用客户偏好建模和客户聚类的二阶段客户细分方法对客户进行自动聚类[2]。笔者在RFM基础上,引入RFAF模型分析客户信息,并结合K-medoids算法对客户精准定位,定位结果可为企业决策提供参考。
一、技术路线和模型背景
(一)客户分类模型介绍
客户模型的构建是决定客户细分的基础,也决定了公司在挖掘潜力客户的准确性[3]。在客户细分模型中,最常用的是RFM模型,但是RFM模型也存在一定弊端,运用RFM客户分类后,会导致客户群过多,购买频率和客户消费金额这两个变量存在高度相关关系,存在多重共线性,最终导致模型失真或者结果不精准。刘芝怡考虑到客户购买倾向对客户价值的影响,提出了RFAT模型[4],主要判断潜在客户,使得客户分类更加准确,为公司提供更加精准的服务。
(二)聚类算法介绍
在聚类分析中,大多研究者使用的是K-means算法。K-means算法对噪音和异常数据非常敏感,对于客户群体在消费行中出现异常的消费行为,这种消费行为产生的极端数据点对于客户分类产生很大的影响[4]。K-medoids算法选取任意点为初始中心点,计算其他点到选取点的距离,不断循环这个过程,最后计算取点到其他所有点距离和为最小即得到簇中心(即中心点),这样可以有效避免噪音和异常数据。
二、实验所用模型与过程
(一)RFAT模型
在RFAT模型中:R为模型最近消费时间距离现在的天数,天;F为在规定的时间内的客户总体消费次数,次;A为客户消费总额与消费次数的商(单次消费金额),元;T为在平均发生消费行为的间隔时间为基础判断客户的购买趋势和活跃程度。其计算过程为:
(1)
其中ti为第i次与第i-1次消费行为的时间间隔;n代表在某段时间内的客户消费的总次数,即消费频次。当t=0时,代表客户自己已经有了固定的购物习惯;t越大代表客户价值越高,具有良好的购物习惯,两次购买之间的时间间隔也就越短;t减小时,代表客户价值也随之减小,购买时间间隔长,成为企业重点培养客户的概率也较小。
(二)K-medoids算法
K-medoids算法的核心是中心点的选择。假设任意选取k个点作为初始中心值,根据剩下数据到达中心点距离最近的原则,调整引起变化的各个数据所属簇的情况,直至不再发生变化为止。
假设点x=(x1,x2,…,xn)和点y=(y1,y2,…,yn),则它们之间的距离为[5]:
(2)
(三)实验过程
基于RFAT模型,运用K-medoids算法,以R、F、A和T为计算指标,将企业客户群体分类,具体的操作步骤如下:
步骤1将收集的数据预处理,再进行归一化处理;
步骤2在n个数据中任意选出k个对象作为初始中心值;
步骤3将剩余的数据分别指派到距离最短的第k个初始中心值所代表的簇中;
步骤4根据平方差函数值减少的原则,如果距离小于零,则中心值发生替换;
步骤5重复步骤2和3直到每个聚类停止变化位置。
式中p为类Ci中的样本,Oj为聚类中心(p和Oj都是多维的)。
三、实验研究
(一)数据预处理
实验数据来源于重庆某食品销售公司的实际销售数据,包含的数据字段为客户名称、物料名称、型号、单位、数量、主含税净价等字段。选择了105名客户10月份到12月份三个月的406条销售数据,时间为2015年12月31日,属性字段选择了客户名称、单据时间(销售时间)、主含税净价。根据RFAT模型,对原销售数据库中原始数据进行处理生成RFAT数据表。数据表的属性字段包括:最近一次购买时间到2015年12月31日的间隔R、消费频次F、单次消费金额A、购买倾向T。由于四个指标量纲不同,为了便于比较,将各个属性进行极差正规比变换,得到处理后的规格化数据见表1。
表1 客户信息表(处理后)
(二)聚类分析
根据样本数量大小分析知K取值为2、3和4,利用sig<0.01和F值检验,确定K=4。将客户分为四类,聚类结果见表2和表3。
表2 K-means算法聚类后客户分类情况
表3 K-medoids算法聚类后客户分类情况
观察表2和表3,两种算法结果很接近,这表明K-means算法对于客户分类具有可行性。在表2中类4的客户价值最高;中高端客户数量占46%,购买数次较高,购买金额比较大;普通客户占比11%,购买频次较高,购买倾向低;价值极低客户占比30%,购买频次最少,是企业最容易流失的客户。最后根据K-means算法分类结果查看客户信息数据,发现有极端点存在,即有极大极小值存在,这样会影响客户的整体分类情况,导致企业管理决策失误,损失客户价值高的客户,并且在管理客户中,出现成本过高,占用大量人力物力资源等。使用RFAT模型,并用K-medoids算法计算后的聚类结果见表3。查看客户信息数据,出现极大极小值的概率较小,极端值对整体数据的影响较小,客户价值稳定。从K-means算法的分类结果看,总体数据稳定,公司可以有效得出客户整体轮廓,以及整体的客户价值。
(三)分类结果分析
客户直接价值定义为购买的频率F和平均购买金额A两者之和,客户间接价值定义为购买倾向T、购买时间距离现在时间差R和购买频率F这三者之和,具体值见表4。
表4 RFAT模型中客户价值表
根据表3和表4,类4的客户对公司的贡献最大,相对而言,给公司带来的利润也比较大,是企业最具有价值的客户,间接价值发展空间大,公司需要对这类客户进行大量的人力资源和资金的投入,调整相应的营销手段,用户数量少,可以为用户提供个性化的一对一服务,保持和发展客户关系,这种客户是公司良好口碑的传播者。类2的客户属于企业中的中高端用户,这部分客户对企业已经产生信任感,最有潜力成为公司的最重要客户,但是一旦产品缺货,这类客户也很快转向竞争对手,公司应该投入相应的资源,维持好客户关系,尽可能地让客户成长为公司最重要的客户。类1的客户是普通用户,但是占比额最高,其R指标也比较高,购买金额、购买趋势相对较低,有可能是公司的新客户群体,具有一定的发展潜力,公司可以通过提高服务速度和服务质量,进一步发展客户关系。类3的客户直接价值最少,具有极低的购买倾向,这类客户比较容易流失,公司对这类客户可以不用投资或者投资极少资源,以降低这类客户的管理成本。
四、结语
笔者以客户销售数据为研究对象,着重研究了K-medoids聚类算法在RFAT模型上的应用,并通过对比实验进行了验证。文章主要从两个方面进行深入研究:一方面,利用RFAT模型,运用K-medoids聚类算法,将客户群体进行细分,发现客户的共性,提供针对性的服务。根据他们的消费行为,为公司客户资源投资提出良好建议,降低企业服务成本,提高企业收益。另一方面,利用RFAT模型细分客户群体,也可以使得企业精准把握客户群体状况,分别采用不同的服务、价格策略以及推销手段稳定最重要客户,发展中小潜力客户向重要客户的转化,最后尽可能降低价值极低客户的管理成本。
[1] 徐翔斌,王佳强,涂欢,等. 基于改进RFM模型的电子商务客户细分[J].计算机应用,2012(5):1439-1442.
[2]蔡淑琴,蒋士淼,秦志勇.基于在线客户评论的客户细分研究[J].管理学报,2015(7):1059-1063.
[3]MAIA M,ALMEIDA J,ALMEIDA V.Identifying user behavior in online social networks[C]∥Proceedings of the 1st workshop on Social network systems.ACM,2008:1-6.
[4]刘芝怡,陈功. 基于改进 K-means 算法的 RFAT 客户细分研究[J]. 南京理工大学学报(自然科学版),2014 (4): 531-536.
[5]夏宁霞,苏一丹,覃希.一种高效的 K-medoids 聚类算法[J]. 计算机应用研究,2010(12):4517-4519.
(责任编辑:蔡洪涛)
RFAT Customer Segmentation Based on K-medoids Algorithm
WU Qianqian1,HE Youquan2
(1.School of Economics and Management,Chongqing Jiaotong University, Chongqing 400074,China;2.School of Information Science & Engineering, Chongqing Jiaotong University, Chongqing 400074, China)
For enterprise, the precise positioning of customers, appropriate marketing strategies and tactics, as well as professional management is an important part of business development. Based on the RFM model, RFAT model was introduced to customer information analysis. Classifying clients through K-means algorithm and K-medoids algorithm, this paper analyzes the results of the two clustering algorithms, and then precisely position the customers for the enterprises to take appropriate marketing strategies.
customer segmentation; cluster analysis; RFM model; K-medoids
2016-03-14
吴倩倩(1992—),女,甘肃庆阳人,重庆交通大学经济管理学院硕士研究生,研究方向为电子商务,数据挖掘;
何友全(1964—),男,湖北监利人,重庆交通大学信息科学与工程学院教授,博士,研究方向为数据挖掘。
F203
A
1008—4444(2016)03—0044—03