基于状态转移概率和PLSR模型的提高会员激活率模型
2021-09-10金慧峰王积建
金慧峰 王积建
摘 要:零售商为了挖掘会员的潜在商业价值,需要通过促销活动把会员从休眠状态转化为活跃状态。为了研究商场折扣率与会员转化率和激活率之间的关系,采用大数据分析技术和会员画像技术,从活跃度、折扣偏好的角度对会员进行画像,并建立了会员状态转移概率矩阵,借助PLSR模型建立了会员状态转化率与商场折扣率之间的回归方程;借助线性回归模型建立了会员激活率与商场折扣率之间的回归方程,为商场举办促销活动提供决策参考。
关键词:零售商;会员;激活率;PLSR;状态转移概率
中图分类号:O171 文獻标识码:A 文章编号:1672-0105(2021)01-0068-05
A Model of Increasing Member Activation Rate Based on Probability of State Transition and PLSR
JIN Hui-feng,WANG Ji-jian
( Zhejiang Industry & Trade Vocational College, Wenzhou, 325003,China)
Abstract: In order to tap the potential commercial value of members, retailers need to transform members from dormant to active through promotional activities. In order to study the relationship between discount rate and member status transition rate and activation rate, this paper uses big data analysis technology and member portrait technology to make a portrait of members from the perspective of activeness and discount preference, and establishes the probability matrix of member status transition rate and the regression equation between member status transition rate, and discount rate with the help of PLSR. With the help of linear regression model, the regression equation between member activation rate and discount rate is established, which provides decision-making reference for retailers to hold promotional activities.
Key Words: retailer; member; activation rate; PLSR; probability of status transition
在零售行业中,会员价值体现在持续不断地为零售运营商带来稳定的销售额和利润。零售行业会采取各种方法吸引更多的人成为会员,并且尽可能提高会员的忠诚度。交互设计之父Alan Cooper 最早提出了用户画像(Persona)的概念[1]。用户画像是建立在一系列真实数据的目标用户模型,提升用户的体验,提高企业服务的效率,实现企业的精准营销。目前在零售行业中依据会员画像技术来策划促销方案的文献,主要集中于通过数据挖掘从年龄、喜好等维度对用户画像,为某品牌或某行业提供个性化等营销服务。[2,3,4,5]但从会员的活跃度、折扣偏好、提高激活率等方面的实证研究还不多,2018年全国大学生数学建模竞赛C题已经关注到了这一点。[6,7]
本文以国内某大型百货商场的会员信息和销售记录为依据,采用数据挖掘手段,使用实证研究方法对会员进行画像,建立会员激活率与促销活动的关系,为零售商策划促销活动提供参考。
一、偏最小二乘回归模型简介
偏最小二乘回归(Partial Least-Squares Regression,简称PLSR)是一种多因变量对多自变量的线性回归建模方法,特别当因变量或自变量的个数很多,且自变量之间或因变量之间存在多重相关性,而观测数据的数量(样本量)又较少时,用偏最小二乘回归建立的模型具有经典多元线性回归模型所没有的优点,它集中了主成分分析,典型相关分析和线性回归分析的优势[8,9,10]。
二、会员激活率与促销活动的关系
为了研究会员激活率与促销活动之间的关系,需要设计一个测度会员从休眠状态向普通、活跃状态转化率的指标。使用Markov模型中的状态转移概率[11]来测度会员的转化率;使用商品折扣率来测度促销程度;使用回归方法建立二者的函数关系。
(一)会员的活跃状态
会员从入会到退出的整个过程称为生命周期。在生命周期中,规定会员有休眠、普通、活跃这三个状态。
为了确定会员在时间窗口(本文取1个月)内的活跃状态,将会员在时间窗口内的消费次数作为衡量活跃程度的指标。设会员[i]在时间窗口内消费次数为[ai],活跃度为[bi],[i=1,2,...,n],则
当[ai=0]时,称为休眠状态,会员活跃度[bi=1]。
当[ai=1]时,称为普通状态,会员活跃度[bi=2]。
当[a2]时,称为活跃状态,会员活跃度[bi=3]。
[bi∈1,2,3]。会员的活跃度越大,表示越活跃,购买次数越频繁;反之,会员的活跃度越小,表示越不活跃,购买次数越稀少。
(二)会员群体的激活率
会员群体的激活率是指从休眠状态转化为普通或活跃的比率。
设会员群体的一步状态转移概率为
[pjk=mjkMk, j,k=1,2,3] (1)
其中,[pjk]表示会员群体从状态[j]经过一步转移到状态[k]的比例;[mjk]表示会员群体从状态[j]经过一步转移到状态[k]的人数,[Mk]为状态[k]出现的总人数.[pjk∈0,1],且[k=13pjk=1, j=1,2,3]。
由[pjk]构成的矩阵称为会员群体一步转移概率矩阵,记作
[P=p11p12p13p21p22p23p31p32p33] (2)
于是,会员群体从休眠状态转向普通状态的转化率为[p12];从休眠状态转向活跃状态的转化率为[p13];从普通状态转向活跃状态的转化率为[p23]。
会员群体的激活率为
[h=1-p11] (3)
(三)商场的折扣率
使用商場在时间窗口内的折扣率来测度促销活动力度。
设在时间窗口内商场的销售额为[c](元),预售额为[d](元),则折扣率为
[λ=1-cd] (4)
[λ∈0,1]。折扣率越大表明商场促销力度越大;反之,折扣率越小表明商场促销力度越小。
(四)会员对促销的偏好
当商场搞促销活动时,有的会员很积极,有的会员不积极,如何测度会员对促销活动的偏好?我们使用会员在时间窗口内的折扣系数来测度。
设在时间窗口内会员[i]的实际消费额为[ei](元),这些商品原价总额为[gi](元),则会员[i]获得的折扣系数(单位:折)为
[zi=10eigi, i=1,2,...,n] (5)
[zi∈0,10]。如果折扣系数为10折,则表明商品不打折;如果折扣系数为0折,则表明商品免费赠送。
将会员划分为3个类型:折扣偏好型、折扣一般型和折扣麻木型。对于促销偏好型会员,通常对促销活动就非常敏感,并且只要享受到9折以下的消费即可满足其愿望,故将阈值设定为9折;对于促销麻木型会员,是否去商场消费并不是取决于促销活动,而是取决于自己的实际需求,因此他们通常抱着顺其自然的态度去商场消费或购买打折商品,故将阈值设定为9.9折。
设会员[i]在时间窗口内的折扣偏好度为[ki],则
当[zi∈0,9]时,称为折扣偏好型会员,折扣偏好度[ki=3]。
当[zi∈9,9.9]时,称为折扣一般型会员,折扣偏好度[ki=2]。
当[zi∈9.9,10]时,称为折扣麻木型会员,折扣偏好度[ki=1]。
[ki∈1,2,3]。会员的折扣偏好度越大,表示越喜欢促销活动;反之,会员的折扣偏好度越小,表示越不喜欢促销活动。
(五)会员转化率和商场折扣率的关系
为了研究会员群体的转化率和商场折扣率的关系,由于此时的因变量有[p12]、[p13]、[p23],且它们之间不是互相独立的,而是互相制约的,所以需要建立偏最小二乘回归模型,其形式为
[p12=β012+β112λp13=β013+β113λp23=β023+β123λ],[λ∈0,1] (6)
(六)会员激活率和商场折扣率的关系
为了研究会员群体激活率和商场折扣率的关系,由于此时因变量和自变量各1个,所以建立一元线性回归模型[7],其形式为
[h=β0+β1λ],[λ∈0,1] (7)
三、应用案例
以国内某大型百货商场的65 535个会员为研究对象,会员消费时间在2015年1月1日至2017年12月31日期间。由于2015年9-12月和2016年2月商场闭门装修,故实际销售记录只有31个月。将时间窗口定为1个月。
(一)会员的活跃状态
对全部会员在每个月的消费次数进行统计,再得到每个会员每个月的活跃度,考察会员的活跃度分布,如图1所示。
从图1可知,91.3%的会员是休眠会员,可见研究如何提高会员的活跃度,以及激活这些休眠会员对于商场具有十分重要的商业价值。
(二)会员群体的激活率
根据公式(1),统计会员的一步状态转移概率,其中第1月到第2月的状态转移矩阵(其余29个矩阵略)为
[P=0.906 10.029 70.064 20.747 70.066 20.186 10.655 90.057 60.286 5]
(三)商场的折扣率
根据公式(4),计算商场的折扣率,如表1所示。
计算商场折扣率与会员转化率的相关系数[7],如表2所示。
从表2可知,商场折扣率与会员转化率的相关系数非常小,可以认为折扣率与会员转化率不存在相关关系。究其原因,可能是不同的会员对商场促销活动的态度不同。
(四)会员对促销的偏好
根据公式(5),计算每个会员的折扣系数,并转换为折扣偏好度。针对所有会员的折扣偏好度的分布进行统计,如图2所示。
从图2可知,64.6%的会员是折扣麻木型会员,29.2%的会员是折扣一般型会員,合计占比93.8%,对这些会员来说,商场的促销活动对他们没有多大吸引力,可见,在研究会员转化率、激活率与折扣率的关系时必须剔除这些会员,仅选择折扣偏好型的会员进行研究。
把折扣偏好型会员筛选出来,一共有4 032个,统计这些折扣偏好型会员的活跃度分布,如图3所示。
从图3可知,在折扣偏好型会员中,有92.5%的会员是休眠会员,可见,通过举办促销活动有望提高他们的激活率。
计算折扣偏好型会员的转化率与商场折扣率的相关系数,如表3所示。
从表3可知,在折扣偏好型会员中,商场折扣率与会员转化率呈现正相关关系,可见,通过举办促销活动一定能够提高他们的激活率。
(五)建立会员转化率与商场折扣率的回归方程
为了建立会员转化率与商场折扣率的函数关系,使用偏最小二乘回归模型[12],此时只有1个自变量,但有3个因变量,故取1个主成分,累计贡献率为100%。原始自变量与原始因变量的关系为
[p12=0.016 3+0.197 5λp13=0.018 1+0.566 5λp23=0.064 1+1.482 5λ],[λ∈0,1] (8)
给定显著性水平0.05,回归方程(8)的线性关系检验结果如表4所示。
从表4可知,3个方程全部通过线性关系检验,回归方程有效,只是拟合优度比较小。
从回归方程的斜率大小可得出以下结论:
(1)提高折扣率对[p12]的边际贡献最小,是0.197 5,说明加大打折力度可以把少数休眠会员转化为普通会员,但效果微弱。
(2)提高折扣率对[p13]的边际贡献中等,是0.566 4,说明加大打折力度可以把一部分休眠会员直接转化为活跃会员。
(3)提高折扣率对[p23]的边际贡献最大,是1.482 4,它的经济意义是:如果折扣率增加1,那么[p23]增加1.482 4,说明加大打折力度可明显促进普通会员转化为活跃会员。
(六)建立会员激活率与商场折扣率的回归方程
为了建立会员激活率与商场折扣率的线性回归方程,计算二者相关系数为0.635 2,说明二者具有正相关关系。给定显著性水平0.05,参数估计结果如表5所示。
从表5可知,参数的95%置信区间不包含0,故参数检验通过。拟合优度[R2=0.403 5],表明拟合精度较低;F检验的相伴概率[p=0.000 2<0.05],表明线性关系显著成立,于是建立的回归方程为
[h=0.034 5+0.764 0λ],[λ∈0,1] (9)
从回归方程的斜率大小可得出以下结论:
(1)会员激活率关于商场折扣率的边际贡献为0.764 0>0,说明加大打折力度能够把休眠会员转化为普通会员或活跃会员。
(2)如果商场折扣率提高1个单位,那么会员激活率将提高0.764 0个单位。
四、研究结论
为了研究商场折扣率与会员活跃度之间的关系,以国内某大型百货商场的会员为研究对象,采用大数据分析技术和会员画像技术,获得了以下结论:
1.有91.3%的会员是休眠会员,需要加大促销力度转化为活跃会员。
2.有64.6%的会员是折扣麻木型会员,有29.2%的会员是折扣一般型会员,合计占比93.8%,仅有6.2%的会员是折扣偏好型会员。
3.在折扣偏好型会员中,有92.5%的会员是休眠会员,商场折扣率与会员转化率呈现正相关关系,通过举办促销活动一定能够提高会员的转化率。
4.如果商场的折扣率增加1,那么在折扣偏好型会员中普通会员转化为活跃会员的比例增加1.482 4。换句话说,如果折扣率扩大为原来的2倍,那么在折扣偏好型会员中普通会员转化为活跃会员的人数是原来的2.482 4倍。
5.如果商場折扣率增加1,那么会员激活率将增加0.764 0。换句话说,如果折扣率扩大为原来的2倍,那么在折扣偏好型会员中把休眠会员转化为普通会员或活跃会员的人数是原来的1.764 0倍。
以上结论将为零售商通过举办促销活动来提高会员的激活率提供决策参考。需要指出的是,商场折扣率与利润率是负相关关系,会员转化率或激活率一定是与商场利润率呈现负相关关系,这就涉及到另一个问题,即如果需要提高商场利润率,那么就需要进一步研究利润率与折扣率、会员转化率(或激活率)等多种因素的定量关系。
参考文献:
[1] Cooper,Alan.The origin of personas.(2008-5-15)[2019-1-2],https://www.cooper.com/journal/2008/05/the_origin_of_personas.
[2] 梁道雷,郑军红,杨聪霞,张心怡.基于“互联网+大数据”服装定制的精准营销研究[J].丝绸,2018,55(10):54-59.
[3] 秦仲篪,庄穆妮,管慧,李勇.大数据视角下欧莱雅(中国)的用户画像分析[J].长沙大学学报,2018,32(05):44-49+55.
[4] 刘海,卢慧,阮金花,田丙强,胡守忠.基于“用户画像”挖掘的精准营销细分模型研究[J].丝绸,2015,52(12):37-42+47.
[5] 王晓霞,刘静沙,许丹丹.运营商大数据用户画像实践[J].电信科学,2018,34(05):127-133.
[6] 全国大学生数学建模竞赛.全国大学生数学建模竞赛赛题[EB/OL].(2020-9-10)[2021-3-7],http://www.mcm.edu.cn/html_cn/block/8579f5fce999cdc896f78bca5d4f8237.html
[7] 王积建.全国大学生数学建模竞赛试题研究(第3册)[M].国防工业出版社,2015:180-208.
[8] 王惠文.偏最小二乘回归方法及其应用[M].北京:科学出版社,1999:150-170.
[9] 陈永国.偏最小二乘法在公共部门绩效多元评估中的应用[J].系统工程理论与实践,2009,29(01):89-96.
[10] 徐哲,刘荣.偏最小二乘回归法在武器装备研制费用估算中的应用[J].数学的实践与认识,2005,35(03):152-158.
[11] 王积建.中国人均生活电力消费量的等维新陈代谢-加权Markov-SCGM(1,1)_c预测模型[J].系统科学与数学,2014,34(05):521-533.
(责任编辑:梅成才)