APP下载

基于改进RFM模型的电商用户价值分类的研究

2022-12-11师奥翔

计算机技术与发展 2022年12期
关键词:中心点聚类矩阵

师奥翔,张 洁

(南京邮电大学 计算机学院,江苏 南京 210023)

0 引 言

由于大数据时代的到来,网络资源和用户相关数据量呈爆炸式增长,对电商企业而言,将面临着更加激烈的竞争,同时构建企业用户画像的重要性不言而喻[1]。通过用户画像,电商企业可以对不同特征的用户进行精准营销,也可以对服务或商品进行个性化定制,甚至能够为企业的发展提供非常客观有效的决策依据。在用户画像中通常采用RFM模型,即通过用户的最近一次消费时间、消费频率、消费金额等重要特征进行分析把用户的价值分类,然后对每类用户群体制定不同的营销策略以吸引用户,提高用户忠诚度,从而为企业创造利润。

近来年,越来越多的国内外学者针对用户画像进行了深入研究,并对RFM模型做了不同方面的改进。袁绮蕊通过RFM模型筛选典型的用户,从事实、模型和预测3个维度提出了关于用户画像的构建模型,并运用K-Means定性的分析方法对收集到的用户数据进行聚类分析[2]。汪倩提出了一种多维度特征用户画像模型MUP,从关于用户的基本属性、互动属性、反馈属性和兴趣属性以及情景属性的五大特征分析用户画像,以此构建了一个多维度的向量模型[3]。戴炜在研究中结合电商商户的社交属性对模型进行调整,构建了RCFM模型,采用Mean-shift算法对K-Means的初始聚类中心选取进行优化,并对中层次的社交电商商户进行层次聚类,验证了RCFM模型对深层次精准细分的有效性[4]。石玉雪在研究中根据传统的RFM模型,采用因子分析法确定电商客户价值细分指标,利用组合赋权法计算评价指标权重,为电商用户建立了合理的价值评估指标体系[5]。卓灵引入平均讲话时长属性建立RVS模型,采用层次分析法确定RVS模型参数的权重,并利用K-Means++聚类算法对数字集群用户进行分类[6]。陈东清在研究中采用熵权法客观确定RFM客户价值指标的权重,该模型对各个分类的客户区分度较好,比较符合经典的分布特征[7]。

针对如今电商用户行为数据集字段较多,仅通过传统RFM模型的三个指标对用户进行价值分类的解释度不够以及K-Means算法聚类效率不高的问题,该文提出了基于改进的RFM模型的电商用户价值分类方法。该方法引入用户活跃度的分析指标,采用层次分析法确定各指标的权重。之后利用抽取初始聚类中心效率较高的K-Means‖算法对用户价值进行分类,并根据肘部法则和轮廓系数等评估指标选择合理的聚类数量[8],通过用户行为数据集验证了该模型的有效性。

1 模型构建

1.1 RFME模型

RFM模型来自美国数据库营销研究所Arthur Hughes对企业用户的研究,是对用户的价值和消费能力进行分类的重要方法,被广泛应用于客户关系管理(CRM)系统中。通过RFM模型分析,可以对用户的价值进行合理的评估,定位最有可能成为企业忠诚用户的群体[9],把主要精力放在最有价值的用户身上。

RFM模型对应着有关用户的三个重要特征,这三个特征构成了对用户数据进行分析的经典有效的指标:

R(Recency)最近一次消费时间:表示用户最近一次消费日期距离现在的天数,该文基于电商用户数据集统计的最近一次交易日期开始计算。理论上来说,最近一次消费时间越近的用户接触到即时营销活动的机会越大,故价值应该越大。

F(Frequency)消费频率:表示用户最近一段时间消费的次数,通常来说,在平台上经常消费的用户,其满意度与忠诚度就越高,价值也就越大。

M(Monetary)消费金额:表示用户最近一段时间消费的总金额,该指标可以用来验证二八法则,即公司80%的收入来自20%的用户,而这些用户的价值也应该越大。

由于目前电商平台采集的用户数据字段越来越丰富,而传统的RFM模型的三个特征包含的用户信息有限,对一些数据分析问题的解释度不够,如用户的最近一次消费时间存在着一定的概率问题,且消费频率与消费金额之间存在较强的正相关性。因此,本实验统计了数据集中的用户在电商平台的所有交互行为次数,包括浏览页面、添加购物车次数等整合为用户活跃度属性。通常来说,用户活跃度越高,用户的潜在价值就越高,以此来增加对用户分析的维度,提高价值分类的客观性[10]。

表1 改进的RFME模型的特征含义

1.2 层次分析法确定权重

层次分析法(AHP)是进行定性和定量分析来计算权重值的方法,用来解决复杂多目标决策问题。该文采用层次分析法计算改进的RFME四个指标所对应的权重值,计算步骤如下:

1.2.1 构造判断矩阵

在计算各个指标的权重值时,如果把所有指标同时比较,会增加性质不同等诸多因素带来的困难。为了提高准确率,层次分析法对每个方案的指标进行两两比较,并按重要程度进行打分,aij表示指标i与指标j重要性程度的量化值。

表2 指标之间比较量化值的规定表

根据对该实验数据集的分析以及结合经验丰富的专家对四个指标两两打分,从而给出以下判断矩阵:

RFMER11/31/61F3111/22M6215E11/21/51

1.2.2 和积法求权重

首先对判断矩阵中每一列元素进行归一化处理:

(1)

然后对处理后的判断矩阵按行相加:

(2)

得到的即为所求权重向量的近似解。

最后计算判断矩阵的最大特征值:

(3)

其中,A为归一化处理后的判断矩阵,W为所求的权重向量W=(w1,w2,…,wn)T。

通过以上步骤计算得到的判断矩阵如下:

RFMEwR0.090.090.090.110.094 6F0.270.260.270.220.255 9M0.550.520.540.560.539 6E0.090.130.110.110.109 9

而W=(0.094 6,0.255 9,0.539 6,0.109 9)即为所求的近似权重向量,且计算出λmax=4.015 5。

1.2.3 判断矩阵的一致性检验

一致性检验是用来判断上述矩阵的逻辑一致性,如因素j对因素i比较是稍微重要,因素k对因素i比较是较强重要,则因素k一定比因素j重要。

a.一致性指标通常用CI来表示,CI越小,说明判断矩阵的一致性越好。定义一致性指标CI为:CI=(λ-n)/(n-1)。λ为判断矩阵最大特征值,n为判断矩阵的阶数。

b.随机一致性指标RI是为了衡量CI值的大小,与判断矩阵的阶数有关。一般来说,矩阵阶数越大,出现一致性随机偏离的可能性就越大,如表3所示。

表3 RI值与矩阵阶数对应关系表

c.计算检验系数CR=CI/CR。CR的数值越小,则表明矩阵的一致性越优秀,通常来说,当CR<0.1时,就能够认可矩阵的一致性;反之如果CR>0.1,就需要考虑对矩阵进行修改,以提高一致性。

通过计算得出CR=0.005 8<0.1,表示该判断矩阵通过了一致性检验,具有较好的一致性。

2 聚类算法分析

2.1 K-Means++

K-Means++算法是用来解决K-Means算法对初始簇心比较敏感的问题,因为K-Means算法采用随机给定的方式确定初始聚类中心,而不同的初始聚类中心可能导致完全不同的聚类结果[11]。

K-Means++算法采用下列步骤确定K个初始聚类中心:

Step1:在数据集中均匀随机地抽取一个点a1;

Step2:计算数据集中每个点到已有的n个聚类中心最远的距离D(x),并以一定概率选择新的中心点ai;

Step3:重复第二步直到找到K个聚类中心点。

直观来说,K-Means++算法采用了一个寻找相对分散的初始聚类中心点的方法,当选择一个新的聚类中心时,应该优先考虑远离那些被选过的聚类中心,即初始的K个聚类中心点距离要尽可能的远[12]。但是由于它固有的内在有序性,确定初始的K个聚类中心点必须遍历K次数据集,且每次中心点的选择都依赖于之前中心点的值,这显然是无法进行并行计算的。随着数据量的增长,人们将数据进行分类的数量也会增长,这一缺点将会更加糟糕,极大限制了K-Means++算法对海量数据集的适用性。

2.2 K-Means‖

K-Means‖算法是用来解决K-Means++缺点的,主要思路是改变每次遍历数据集的取样规则,不是每轮只采样单个点,而是每一轮对O(k)个点进行采样,并重复进行大约O(logn)轮采样。该算法不需要根据已有的聚类中心点去选择下一个点,经过对数次取样后能得到一个近似最优解,并且在实际应用中非常适合并行运算,只需要通过常量次迭代,突破了算法在海量数据集上的应用瓶颈。

K-Means‖算法步骤如下:

Step1:从X中均匀随机地抽取一个点;

Step2:计算出满足一定概率条件的多个候选中心点,得到比给定的K值大的候选聚类中心点集合。概率公式为:

(4)

i=1,2,…,k

(5)

其中,C为取样的集合,且C={c1,c2,…,ck}。

Step3:给所有候选聚类中心点赋予一个权重值wx,距离中心点最近的点的个数越多,权重值就越大;

Step4:使用本地K-Means++算法在这些候选点中选出K个聚类中心点。

K-Means‖算法的并行计算比现有的K-Means并行算法要快得多,而且算法迭代次数最少,一般重复5次就能得到较好的聚类中心点。

3 实 验

3.1 数据来源及预处理

该文采用的数据集来源于一个国外某电商平台脱敏后真实的用户行为数据集,该数据集包含了所有用户在2019年10月和11月的109 950 743条行为记录。由于很多用户在这两个月内行为记录过少,不具有参考性,因此需要先对原始数据进行预处理[13]。以下为数据预处理步骤:

(1)统计每个用户的行为记录个数,剔除掉行为记录个数小于15的用户。

(2)基于用户数据集统计的最近一次交易日期来计算每个用户最近一次消费时间,并统计用户在平台的浏览次数及收藏次数。

(3)统计出每个用户的最近一次消费时间、消费频率、消费金额,把浏览次数和收藏次数整合成用户的页面互动度。

(4)随机抽取具有代表性的29 834名用户的1 855 602条行为数据信息作为本次实验的数据。

3.2 计算用户最终得分

3.2.1 分箱处理

在数据预处理之后,针对RFME各个指标进行分箱操作(规则见表4),把原本连续的指标数值离散化,得到用户每个指标的得分。

3.2.2 数据标准化

为了避免改进的RFM模型某些指标取值偏差对距离计算产生影响,需要对数据进行“无量纲化”,通过去除均值和缩放到单位方差来标准化特征[14]。StandardScaler对样本进行标准化转换的公式如下:

(6)

其中,μ为均值,s为训练样本的标准差,x为原始数据,z为标准化转换后的数据。

3.2.3 计算最终得分

从上述的层次分析法计算得出RFME四个指标的近似权重值向量为W=(0.094 6,0.255 9,0.539 6,0.109 9),并通过标量乘数缩放每列特征的得分,产生了最终特征得分的结果向量(见表5)。SR、SF、SM、SE是RFME指标分别通过分箱处理、数据标准化之后的得分,然后乘以对应的权重值得到用户价值的最终得分Score。Score值越大,表示用户价值越高。计算公式如下:

Score=wR*SR+wF*SF+wM*SM+wE*SE(7)

表4 分箱规则

表5 用户得分表

3.3 基于改进RFM的用户价值分类

3.3.1K值的选取

以用户得分表中的各个指标得分的值作为聚类指标,使用K-Means‖算法对得分数据进行聚类,设置的初始聚类中心为2至8个,采用肘部法则和轮廓系数来选取最佳的K值[15]。

如图1和图2所示,在K值增大的过程中,畸变程度不断减小。当K值为5时,畸变程度下降幅度达到最大,之后缓慢下降,而且此时该聚类模型的轮廓系数最大,可以得到K=5的点为聚类性能较好的点,故将用户价值分为5类,见表6。

图1 K值为2~8时的误差平方和

图2 K值为2~8时的轮廓系数

3.3.2 对比实验

该文设置了三个对比实验,分别为传统的RFM模型、改进的RVMF模型[16]和百货商场RFM模型[17]。传统RFM模型的三个指标进行分箱处理后,采用K-Means算法对最终得分进行聚类分析。RVMF模型通过层次分析法优化了对用户的划分,在设置权重为W=(0.072,0.132,0.517,0.279)之后,将各个指标在一定时间内的平均值作为重要属性,最后通过聚类算法进行用户细分。百货商场RFM模型通过层次分析法求出权重为W=(0.265 9,0.413 1,0.321 0),然后用K-Means对客户细分。

通过该实验结果与以上三个RFM模型进行对比(见图3),可以看出文中模型的轮廓系数更高,分类效果更好,而且对用户价值的划分基本符合二八定律[18]。

表7 传统RFM模型的用户价值人数及占比表

图3 轮廓系数对比

3.4 用户价值分类的策略分析

3.4.1 高价值用户

在随机抽取的29 834名用户中,高价值用户人数为219人,在所有用户人群中占比极小,占比为0.73%。根据用户最终得分中能够发现,高价值用户的各个指标的得分都非常高,说明这类用户具有出色的客户生命周期价值,不仅目前能为企业创造更大的价值,还具有很高的潜在价值,甚至能够吸引新用户来购买企业的产品。企业可以通过持久的关注用户日常消费行为,挖掘出消费特征,并进一步为用户提供个性化优质服务的方法来维系和发展这类高价值用户。

3.4.2 中高价值用户

中高价值用户人数为529人,在用户人群中占比为1.77%。对最终得分进行分析,发现该类用户近期有购买行为,且消费金额较高,但是其消费频率和用户活跃度两个指标得分较低,说明用户的忠诚度不高,是企业中需要重点发展的对象。企业对待该类用户需要进一步优化自己的服务质量,并通过新品推荐、精准营销等方式提升用户的体验,从而引导用户向高价值用户发展。

3.4.3 中价值用户

中价值用户人数为1 299人,在用户人群中占比为4.35%。最终得分数据表明,该类用户的消费频率和消费金额两个指标得分较高,而最近一次消费时间与用户活跃度得分较低,说明中价值用户潜在价值较低,且能够为企业带来的收益接近峰值,是企业中需要重点维系的对象。企业可以通过复购产品推荐、限时折扣等活动来激活这类用户。通过对比分析,中价值用户与中低价值用户的行为导向相似,故该类方案同样适用于中低价值用户。

3.4.4 低价值用户

低价值用户人数为23 894人,在用户人群中占比最高,占比为80.09%。根据最终得分表可知,该类用户各个指标的得分较低,说明低价值用户能够为企业创造的价值有限,但是该类用户基数庞大,拥有巨大的消费潜力,是企业需要长期维系并且防止其流失的用户群体。企业可以通过周期性的促销活动等方式刺激该类用户的消费行为,防止用户流失。

4 结束语

介绍了用户画像中用来进行用户价值分类的RFM模型,并基于传统RFM模型加入了用户活跃度指标,采用层次分析法进行定性和定量分析计算各指标权重值。然后详细介绍了K-Means‖算法能够高效地在海量数据集上选取初始聚类中心的流程,并且能够较准确的对电商用户进行价值分类[19]。通过实验证明,相较于传统的RFM模型,改进的模型有着分类效率高和区分度更明显的效果,并且用户价值分布非常接近于二八定律,达到了更好的用户价值分类效果。

猜你喜欢

中心点聚类矩阵
一种基于标准差的K-medoids聚类算法
Scratch 3.9更新了什么?
基于K-means聚类的车-地无线通信场强研究
如何设置造型中心点?
基于高斯混合聚类的阵列干涉SAR三维成像
初等行变换与初等列变换并用求逆矩阵
基于Spark平台的K-means聚类算法改进及并行化实现
基于改进的遗传算法的模糊聚类算法
矩阵
矩阵