基于机器学习的电商平台中用户价值分析研究
2022-07-27吴淑凡
吴淑凡
(闽南理工学院 信息管理学院,福建 泉州 362700)
中国百货商业协会《2020-2021 中国百货零售业发展报告》中指出:随着数字化进入深水区,企业数字化重点工作需要完善系统运营能力,包括线上商城、数据分析等。电商平台是线上商城的主要方式,自2008年,我国电子商务发展迅速,电商平台上的消费者数量不断增加,为电商企业带来了激烈的竞争。随着大数据技术的发展,如何在海量数据信息中整合客户信息、挖掘客户需求,以便实施精准营销成为电商企业急需解决的问题[1]。《中国互联网发展报告(2021)》显示,2020 年,我国数字经济市场规模已达 39.2 万亿元[2]。电商企业在面对海量客户时,预测电商客户价值,尤为重要的是对不同价值的客户实施个性化精准营销。企业已经从以商品为中心转向以客户为中心,客户成为企业竞争的重要资源。以往是对客户进行分类,这种方法会出现资源浪费、客户流失等现象,已经不能满足大数据环境下的精准营销。挖掘客户的价值,与客户建立稳固持久的关系是企业持续发展的有利途径。电商平台的一个重要优势就是能够追踪客户的行为轨迹,方便获取相关数据。本文所分析的数据为电商客户真实的行为数据,所采用的算法是机器学习算法,构建出一个电商客户价值识别模型,该模型的应用能够为企业制定市场营销策略提供依据,从而提高企业的经济效益。因此,电商平台企业能够通过用户价值分析、预测实现差异化服务,留住高质量客户和挖掘新客户。所以,对电商客户进行价值预测的研究具有一定的应用研究价值。
1 用户价值研究现状
世界电子商务在欧美地区起步较为早。1995 年,美国亚马逊成立,电子商务平台在国外快速发展,许多外国研究者开始研究以客户数据为基础的电子商务平台中用户价值[3]。2007年,SUZAN[4]审查了用户价值的类型和属性,探讨了价值定义之间的异同,通过多维性、交互性等来研究用户价值。2014 年,STEPHANIE等[5]从用户功能性、普及度、社会性、等角度收集用户数据,建立用户价值模型。2018年,PARK等[6]以智能手机为例,研究了一种价值抽样方法向量空间模型(Vector Space Model,VSM)来评估用户价值;同年,OSKARSDOTTIR等[7]结合用户价值先验概率与用户终身价值法(Customer Lifetime Value,CLV),得到在不同生命周期用户价值计算方法。2019年,MOHIT[8]以两轮车为数据样本,研究了用户价值要素在用户价值分析中的影响。
2018年,刘园园[9]针对电力用户监测数据,建立分析评价模型来反应用户的信息价值。2019年,邢海龙等[10]对改进传统最近一次消费频率消费金额(Recency Frequency Monetary,RFM)模型,构建K-means 模型与ALC(Activity Loyalty Contribution)-RFM 模型结合,识别与细分电商平台用户价值,结果表明该方法在可以得到重要价值、重要保持和重要挽留用户。2020年,冯志强[11]提出对客户价值评价指标体系进行研究,指出不仅要考虑客户当前价值,还要考虑客户潜在价值和忠诚度。2021年,许雪晶等[12]提出基于RFM模型及聚类算法,对某电商企业客户数据进行评估和分析,实现对客户进行有效的细分。
2 用户价值理论和模型
2.1 用户价值理论
电商用户是指在电子商务平台中购买商品或服务的个人或单位,用户的消费行为是指用户使用、获取商品所采取的行动的过程。用户的消费行为具有多样性和复杂性的特点,同样的用户在不同的平台、不同的时间以及选择不同的商品时行为可能会有很大的不同。用户的消费行为还受其他因素的影响,例如电商平台中的各种广告。在大数据快速发展的时期,要想分析用户的消费行为,需要通过用户消费过程中产生的行为数据进行研究,在这些行为数据中找到其共性进行挖掘,从而制定出有效的营销策略。论文在电商用户消费行为理论的基础上研究电商用户的价值预测具有重要的研究价值。
从不同的角度分析用户价值主要考虑2方面的内容。第一方面,从用户方面考虑,用户价值是用户在获取商家的产品或服务中所产生的货币价值;另一方面,从企业角度考虑,用户的价值是用户在享受商家提供的产品或服务过程中为商家所带来的利润[13]。文中研究的是第2 个方面的价值,用户为商家带来的利润价值。目前,在用户价值分类中主要的模型有RFM模型和CLV模型、用户价值矩阵模型等。
2.2 用户价值模型
(1)RFM模型
RFM(Recency Frequency Monetary)模型是分析用户价值和潜在价值的模型。在RFM 模型中,Recency是指最近一次消费,是当前时间与用户最近一次消费的时间间隔,这个间隔越小表示再次消费的可能性越大。Frequency表示消费频率,是在一定时间段内消费的次数,次数越多价值越大。Monetary表示消费金额,是在一定时间段内消费的金额,金额越大价值越高。应用RFM模型在R(Recency)、F(Frequency)、M(Monetary)3 个维度上将用户分为重要保持用户、重要价值用户、重要发展用户、重要挽留用户、一般保持用户、一般价值用户、一般发展用户、一般挽留用户。
(2)CLV模型
CLV 模型是客户生命周期价值模型,该模型在分析的过程中考虑客户完整的生命周期,在完整的生命周期中为企业创造利润的总和,以及将来可能为企业创造的利润。CLV的模型分类见图1,模型中将用户分为最佳用户、投资用户、保留用户和放弃用户,其中最佳用户和投资用户是对于企业来说未来盈利高,保留用户和放弃用户的未来盈利低;而最佳用户和保留用户的目前盈利高,投资用户和放弃用户目前利润低。
图1 CLV模型分类图
(3)用户价值矩阵模型
在RFM 模型的基础上进行改进得到用户价值矩阵模型,用户价值矩阵模型解决了用户消费金额和频率存在线性问题,使用用户平均消费金额代替总金额,构建用户价值矩阵模型。用户价值矩阵模型分类见图2。其中,乐于消费型用户和最好用户的平均消费金额高,最好用户和经常型用户消费频率高;而不确定型用户和经常型用户消费金额相对低,乐于消费型用户和不确定型用户消费频率相对低。
图2 用户价值矩阵模型图
3 改进的RFM模型
3.1 改进的RFM模型框架的构建
RFM 模型中衡量用户价值的指标有3 个,这种模型对于传统的企业营销模式是有效的,但是随着电商企业的发展,影响用户价值的因素变得更加复杂和多样,简单的3个指标已经不能够满足用户价值的需要,需要增加更多的指标,因此,需要对RFM 模型进行改进,使模型在用户价值分析中更加准确。大数据技术的发展使得价值分析的数据支撑更强,改进的RFM模型的框架见图3。在传统的RFM模型中加入电商用户价值的评价指标,从用户的潜在价值和当前价值来评价用户的综合价值。客户价值的细分指标采用因子分析法确定,各指标的权重确定是利用因子分析法和熵值法相结合。根据用户的细分指标使用聚类分析的方法进行细分,识别用户价值。
图3 改进的RFM模型框架
3.2 用户价值衡量指标的构建
3.2.1 当前价值
RFM中R的值越小,用户购买的时间间隔短,表示用户重复购买的可能性越大,这类用户价值相对较高。购买频率F还需要与最近购买时间综合考虑,因为虽然用户购买频率高,但是最近购买时间与当前时间的间隔R较长,该类型用户很可能将要流失,因此其价值在减少[14]。相反,虽然用户购买频率F较低,但是最近购买时间与当前时间间隔R较短,该用户反复购买的可能性较大,因此用户价值较高。客户的消费金额M越高,表明用户价值越高。RFM模型以用户购买行为区分用户,RFM模型指标中的最近购买时间间隔R、购买频率F、购买金额M能够体现用户的价值,也就是用户对企业的当前价值。
3.2.2 潜在价值
电商企业盈利模式包括2 方面,一方面是电商用户购买商品或服务所带来的直接利益,另一方面是包括电商用户在内的电商平台操作行为带来的间接利益。一般情况下,用户浏览一个平台次数越多、查看商品数越多,用户活跃度和忠诚度越高,用户价值越高。因此,用户活跃度可以用用户在电商平台的操作行为总数。同时用户收藏和加入购物车的行为越多能够体现用户购买商品的意向,表示购买商品的可能性越大。
3.2.3 电商用户价值评价指标
构建的新的电商用户价值指标如图4。其中:一级指标有当前价值和潜在价值,一级指标下为二级指标,当前价值的二级指标为购买价值,潜在价值的二级指标为活跃度和购买意向;二级指标下是三级指标,购买价值的三级指标是传统RFM 模型中的3 个指标,分别为最近消费的时间间隔R、消费频率F和消费金额M;活跃度的三级指标是操作行为总数、点击商品数和点击商品类型数;购买意向的三级指标是收藏商品数、加入购物车商品数和加入购物车商品类型数。
图4 电商用户价值评价指标
4 电商用户价值预测实验分析
4.1 数据来源和处理
文中选用的数据是某电商平台一个月内用户真实的消费行为数据。数据集中包括8 个字段,共有123 656 819 条记录,每一条记录代表一个行为事件。其中,behavior_type 包括用户对商品浏览行为、加购物车行为和购买商品的行为。文中实验选取用户的交互行为大于10 次的原始数据进行验证,这样的用户有1 500个,共60 015条记录。数据原始格式见表1。
表1 数据原始格式
4.2 数据处理
原始数据需要进行处理才能应用到实验中,文中使用线性变换将数据进行映射,实现数据的可比性。数据指标分为正向和逆向2 种,正向指标的值越大越好,逆向指标的值越小越好。因此,数据的标准化处理方法不尽相同。正向指标处理采用公式(1)进行计算,逆向指标处理采用公式(2)进行计算。
4.3 用户价值评价指标因子分析
4.3.1 因子适用性分析
文中首先采用检验统计量KMO(Kaiser-Meyer-Olkin)和球形检验Bartlett’s 对因子的适用性进行分析。文中使用SPSS 26软件对指标数据进行统计,得到KMO和Bartlett’s球形检验的结果,KMO取样适切性量数为0.649,其值大于0.5的,Bartlett’s球形检验的卡方统计显著性为0.000,其值小于0.05,因此得出结论,KMO 越大,表示被检验的变量之间具有较强的相关性,研究的数据比较适合因子分析。如果这个值较小,如KMO<0.5,研究的数据则不适合因子分析。在使用Bartlett's 时,卡方统计量显著性小于0.05时,则单位矩阵和系数矩阵之间差异较大。论文对指标数据进行处理,得到KMO和Bartlett's 的结果。KMO的值大于0.5,KMO=0.649,Bartlett's 的自由度为 27,近似卡方值为9 355.321,Bartlett’s 的卡方统计显著性为 0.000,小于0.05。结果表明,所使用的数据适合因子分析。公因子方差中提取了8个变量的共同度,包括总操作数、用户点击商品数、用户点击商品类型数、最近消费的时间间隔数、消费频率、消费金额、加购物车商品数和加购物车商品类型数,这些变量的共同度都超过0.5,说明变量提取的因子说明度高,适合因子分析。
4.3.2 公共因子的处理
对处理后的数据提取特征值大于1 的因子作为公共因子,表2 为变量的方差解释。提取的公共因子为3 个,累计方差贡献率为83.489%,说明这3 个因子可以解释大多数电商用户价值评价指标。表2 前3 个公共因子的特征值均大于1,从第4 个公共因子开始特征值变化幅度不大,因此,提取3 个特征因子是比较合理的。
表2 变量的方差解释
对各成分数据通过凯撒正态化最大方差法进行正交旋转。如果在一个公共因子上某变量的荷载成分较大,说明该公共因子能很好地反映该变量的信息。因此,文中提取了3类公共因子。
第1 类公共因子包括总操作行为数、用户点击商品数和用户点击商品类型数,将它们定义为“活跃度”指标;第2类公共因子包括用户最近消费时间间隔、用户的消费频率和用户消费金额,将该类因子归为“购买价值”指标;第3 类公共因子包括用户加购商品数和用户加购商品类型数,将该类因子其归为“购买意向”指标。
通过各成分旋转矩阵得到成分得分系数矩阵见表3。根据所提取出的公共因子的得分系数矩阵,可以得出每个公共因子的分数。
表3 成分得分系数矩阵
每个因子的得分计算公式:
根据表2 的数据可以得到变量携带信息的贡献率,得到购买价值、活跃度和购买意向3 个指标的权重,分别为0.259 8、0.320 1、0.249 9,对它们进行归一化处理得到权重值根据计算公式:
4.4 用户价值评价指标聚类分析
通过活跃度指标、购买价值和购买意向的因子分析,得到电商用户价值评价指标见表4。
表4 电商用户价值评价指标
从表4 可以看出,活跃度和购买意向可以表示出用户的需求,潜在价值可以根据用户的需求衡量。用户越活跃,购买意向越强烈,消费的可能性越大。用户的价值细分指标可以选择潜在价值和当前价值来体现。潜在价值是活跃度和购买意向的加权和。因此,细分指标的公式如(5)和(6),其中,V pva代表潜在价值,V cva代表当前价值。
文中采用K-means 聚类方法对用户等级划分,对它们的价值进行判定。通过聚类细分,对电商用户的价值和行为特征进行识别。从训练集随机选取K个聚类中心,采用轮廓系数法和肘部法则选出最合理的K值。图5 为不同K值对应的组内误差平方和,当K=4时,轮廓系数为最大值0.870 5,此时的值为最优,最佳的聚类数选择4。由此分析得出,电商平台用户分为4类。
图5 不同K值对应的组内误差平方和
根据图5 中的数据,能够得到传统RFM 模型和改进的RFM 模型用户类内平均距离。改进的RFM 模型类内紧密程度高于原始的RFM 模型。传统RFM 模型的轮廓系数小于改进的模型。因此,文中改进后的模型聚类效果更好,对电商用户价值细分更优。根据分析得出,用户价值从高到低分别为类别1、类别2、类别3和类别4,类别越高表明对企业具有更高的忠诚度。
5 结论
我国电子商务发展迅速,电商平台上的消费者数量不断增加,为电商企业带来了激烈的竞争。文中利用真实的电商客户行为数据,采用机器学习算法对客户行为数据进行分析处理,构建电商客户价值识别模型。首先,介绍用户价值理论和用户价值模型,对用户价值模型RFM 模型、CLV 模型、用户价值矩阵模型分别进行介绍;然后对传统的RFM 模型进行了改进,构建了改进的RFM模型框架;最后在改进的RFM模型中采用因子分析法确定电商用户的价值细分指标,结合K-means聚类算法对电商用户进行聚类分析和价值细分,识别出不同类别电商用户的特征。该研究成果能够为电商平台提供用户价值分析、预测,从而实现差异化服务,为电商企业制定市场营销策略提供依据,提高企业的经济效益。