基于改进K-Means算法的电商用户聚类分析和应用研究 ?
2019-12-26郭磊郭湖斌赵荔
郭磊 郭湖斌 赵荔
摘 要:随着电子商务的快速发展,用户之间异质性逐渐明显。为了对用户合理细分,本文通过逐次递进的思想,借助经典RFM模型中的关键指标,选择最后购买时间R作聚类簇类的控制因素。借助改进的K-Means算法对电商企业用户进行聚类研究,从而得到合理的聚类分类结果及各簇类用户的特征行为,为电子商务企业的精准营销奠定了基础。
关键词:大数据;K-means;聚类分析;精准营销
一、引言
大数据与人工智能的发展给人们生活带来诸多的便利,主要得益于企业对信息技术和应用模型开发的大力投入。在电子商务领域,沃尔玛和亚马逊两家行业领军企业在用户识别,分类和精准营销等终端用户行为研究和实际应用奠定了该领域的研究基础。国内不少学者和企业在研究创新和管理实践等方面做出了积极探索,并在提高用户的购买转化率和降低营销成本等方面为企业带来了一定经济效益。在企业的客户关系管理方面,如何有效地对用户进行合理分类,是企业精准营销的基础。Cheng(2009)和Khajvand(2011)基于RFM(Recency,Frequency, Monetary)三个重要指标,应用数据挖掘技术通过计算价值贡献对用户进行分类,Jain对近50年的K-Mean的数据聚类分析方法进行了全面研究,龚婷和辛爱莉等分别在航空旅客和电子商务领域的用户聚类做出了实践研究。
综上可见,在国内电子商务领域中,对用户的分类研究多从特定的指标考虑,建立不同需求的模型进行分析。因此本文借助用户分类模型中的经典指标及其历史数据,选择某一关键指标作为控制因素,利用K-Means算法对满足特定要求用户的历史数据进行聚类分类。基于机器学习的原理,使其属性相似的用户可以聚类在一簇,从而使得电子商务企业可以较为直观地得到不同簇类的用户特征,其研究结果对大数据背景下的用户合理分类和精准营销具有较强的参考价值。
二、理论及数据基础
早在上个世纪初,意大利经济学家Pareto在研究国民财富分配时,发现意大利20%的人口拥有该国80%的财富,从而提出著名的80/20法则。随后一百多年的时间里,人们发现80/20法则不仅在经济学领域,在管理学等领域也具有广泛的应用,如公司80%的利润来自于20%的用户,即企业努力与该20%的用户拓展合作,则对企业发展最有益处。
在当前大数据时代,企业在推广、获取和维系用户等方面已经出现了革命性的创新。用户及其指标之间也存在着巨大的差异,为此,针对不同的企业需要深入分析用户及行为所产生的指标数据。假设企业共有n个用户,则用户们的多维指标数据可表示为:
在管理实践方面,本文以国内某知名电子商务网站三年内近万名注册用户数据为研究基础,从中选择至少登录过一次,且有购买记录的7418位用户为研究对象,进行数据分类验证。前期对用户进行初始统计分析,发现用户的购买次数与购买金额之间的相关性系数仅为0.517,属于中性相关的,其两者的分布分别如图1、图2所示
深入分析发现用户平均购买金额为3198.9元,标准差为56321.6,其变异系数为17.6;用户平均购买次数为16.8次,标准差为126.6,其变异系数为7.5,可见企业用户之间异质性非常明显,为了精准服务和管理,则需要对其进行合理分类。
三、聚类数据分析
随着聚类簇数值的增大,用户的分组也将更精确,同时簇中的聚合度也变得更高,即SSE下降趋势会逐渐变小,在聚类数达真实值时,SSE下降缓慢,且趋于平稳,即再进行细分的话,已无实际意义。从图3、图4中可看出随着族类数K继续变大,当K值大于4时,SSE下降趋势大幅减少,基本上趋于平稳,即应用K-Means算法分析時,选择K=4时是适合当前用户聚类分类精度要求的。
用户的购买次数和购买金额是电商企业另外两个重要的指标,为此本文应用K-Means算法进行分析,其实现的基本思想和路径如下:
在K-Means分析结果中出现两个特殊的聚类,即每个聚类之中仅各包括一值,购买金额分别为4820248.45元和1352426.22元。在这两个聚类用户数量极少,但是从购买金额角度来看,该用户对电商企业来说又是极为重要的用户,故需要电商企业投入较多资源进行重点维系。另外两个聚类之中含有绝大数的用户,且购买金额最大仅为912380.89元,故可对用户购买金额角度不超过百万的用户群体重新K-Means聚类分析,其结果如图6所示。为了达到电商企业对用户合理分类的要求,再次应用上述理论和方法,运行程序后得到分析结果分别如图7、图8所示:
逐次应用K-Means聚类分析,一方面可以识别出数据中的奇异点,但是实际上又极为重视的用户,另一方面使得用户分类程度可控,结构清晰,其各聚类中的用户分特征如下表所示。
从购买金额视角来看,其变异系数由整体17.6,降维到变异系数最大的一类仅1.34,其余各聚类的效果显著,聚类内的变异系数均不超过0.4,即整体聚类分类效果成效显著。在聚类0内,用户购买金额与购买次数之相关性极低,即此类用户购买次数的增加,并不会带来用户购买金额的增加,而是受到电商企业单笔超过百元免费配送的政策影响,此类用户对于价格极为敏感,购买频次也特别低,则需要增加低价值的产品品种数量,引导该类用户购买电商企业高价值产品的营销策略,从而提高该类用户的贡献度。聚类1用户极少,但该用户购买金额与聚类0的全部用户金额接近,且其购买频次和单均金额都特高,属电商的战略企业用户,电商企业则需要派专业人员维系与该用户的关系 。聚类2的用户购买金额较大,购买频次更高,但是单均金额不高,应属电商企业的代销用户,电商企业则需派技术人员进行技术指导或帮助。其他聚类的用户也表现了各自的特征,为电商企业的服务分配和精准营销提供数据依据。
四、结论及扩展
随着信息技术,特别是大数据等相关的技术快速发展,企业已有以较低经济成本获取用户相关特性及用户行为等数据的技术能力,同时随着用户数量的增加,用户之间的差异性也逐渐扩大,本文通过选择经典用户行为影响指标,然后逐次运用K-means分析方法对已有历史数据进行聚类研究,使得用户分类层次清晰,同类用户之间属性和行为相对一致,便于企业对用户进行合理分类,从而可为用户提供精准服务,从而实现企业和用户的双赢。
参考文献:
[1]Kumar, R., Analysis of wealth Walmart, in Strategic Financial Management Casebook[B]. Academic Press 2017(1).
[2]Boratto, L., et al., Using neural word embeddings to model user behavior and detect user segments[J]. Knowledge-Based Systems, 2016(108).
[3]李海丽.数据分析和挖掘在电商精细化运营中的应用[J].中国经贸,2017(15).
[4]刘春艳,等.客户细分下的电商营销策略研究[J].商业经济研究,2016(1).
[5]Cheng,C.-H. and Y.-S. Chen,Classifying the segmentation of customer value via RFM model and RS theory[J].Expert Systems with Applications,2009(36).
[6]Khajvand,M.,et al.,Estimating customer lifetime value based on RFM analysis of customer purchase behavior: Case study[J].Procedia Computer Science,2011(3).
[7]Jain,A.K.,Data clustering:50 years beyond K-means[J].Pattern Recognition Letters,2010(31).
[8]龚婷,等.基于K-means的航空旅客聚類研究[J].价值工程,2018(37).
[9]辛爱莉,等.聚类算法在电子商务客户细分中的应用[J].商场现代化,2008(5).
[10]Han,S.H et.al., Segmentation of telecom customers based on customer value by decision tree model[J]. Expert Systems with Applications, 2012(39).