基于先验信息分类的客户消费动态终身价值估计研究
2022-12-15热依木江克里木
热依木江·克里木
(中国科学院大学,北京 100190)
一、引言
品牌营销即通过营销手段提升品牌在需求者心目中的综合形象(品牌价值),在这一过程中,想要识别某一具体品牌的核心价值则需考虑其在目标消费者群体中的影响力以及与竞争者品牌的差异性,而考虑目标消费者群体,实质上就是考虑如何更加准确地细分消费者(客户细分),因而针对品牌消费者进行消费者行为分析是品牌营销的重要内容。
从现有关于构建区域产业品牌策略的研究中可以发现,客户(消费者)是品牌资产的关键驱动要素。在对客户的分析中,Ascarza[1]认为并非每个客户都会在停止消费前作出正式的取消合约行为(例如注销账号)。同样地,也并非每个客户都会保证下次继续消费。仅使用当前客户的整体消费数据进行客户分析可能会忽略某些客户消费行为的动态变化,如高消费客户可能已经考虑不再继续消费,而第一次消费的客户,即使消费金额较高也可能未来不再进行高频度消费而直接进入消费末期。因此,有必要从时间维度出发考察客户在不同消费时点上阶段归属的变化,从而更好地动态拟定针对不同客户群体的品牌营销策略。目前学界在分析评估客户消费阶段时存在两个困境:一是某些客户在样本期内仅消费一次;二是客户的消费行为未必总是按照消费的生命周期阶段进行,可能存在大幅向前或向后而跳过中间阶段的情况。前一个问题多由数据信息不足引发,后一个问题则可视作分类问题,即将客户分为包含所有消费生命周期阶段的客户与仅包含部分消费生命周期阶段的客户。若要准确地对客户消费行为进行动态阶段识别,需使用合理的假设与工具处理上述两个困境带来的不利影响。
本文通过SMOTE方法合理增加多次消费客户的消费行为数据后,使用非监督学习的受限玻尔兹曼机计算每个客户包含各消费阶段的初始概率,再采用区制转移动态因子模型,并以不同区制代表客户消费行为所处的不同生命周期阶段,从而计算动态变化的顾客终身价值(CLV)。
二、基于消费周期阶段的客户分类及CLV计算
(一)通过SMOTE方法平衡数据
现实中,大多数消费行为数据中消费频率和消费总金额的分布往往呈现明显的右偏特征,消费次数很多和消费总金额很大的客户数量相对较少,但这些客户往往是品牌营销的主要目标,因此有必要对其消费行为进行动态分类与预测,从而更好地制定维护这类客户消费的策略。然而,较少的样本数量增大了预测这部分客户消费行为的难度,同时非平衡数据也使得机器学习方法无法总结出少数类的类别特征,可能导致对这部分客户的分类出现偏误,因而有必要对数据进行平衡调整,合理增加虚拟的消费次数很多和消费总金额很大的客户样本数量。
平衡数据主要有以分层抽样为代表的概率抽样方法、以过采样和欠采样为代表的比例抽样方法以及二者结合的混合抽样方法,这3种采样方法的主要思路均是调整每次抽样时多数类与少数类的比例,主要从抽取概率或者抽取比例上入手。鉴于本文主要考察客户从属于不同类别的概率,调整抽取概率可能会影响客户实际从属概率,因此选择从抽取比例上进行数据平衡。目前从抽取比例上进行数据平衡主要有过抽样与欠抽样两种思路,欠抽样在每次训练时需舍弃一部分多数类中的样本从而减小多数类与少数类两种类别间的差异。本研究中数据非平衡程度较高,利用欠抽样可能要舍弃大部分多数类样本,不能满足机器学习训练集的样本量要求,且欠抽样可能使得机器学习无法充分掌握少数类客户的特征,与了解重点客户的初衷不符,因此选择过抽样方法。SMOTE方法是一种经典的过抽样方法,其在简单随机过采样方法上进行了扩展。简单随机过采样方法通过简单复制少数类样本来平衡数据,这会导致模型出现过拟合、模型训练集泛化程度不够等问题,在应用于新的数据集时其分类效果会大打折扣,而SMOTE方法主要采用插值法为少数类增加新的样本。假设训练集中少数类样本数为nminority,多数类样本数为nmajority,合成样本数为anminority,a为正整数。对于少数类中的一个样本i,其包含的变量构成的向量为xi,xi的k个近邻记作xi(j),其中j=1,…,k。从xi的k个近邻中随机选择一个样本xi(j),并用均匀分布随机生成一个0~1之间的数值ζ,则新的合成样本可以表示为依此重复a次并对每个少数类样本进行这样的操作,则可生成anminority个新的样本。通过调整a数值进而调整多数类与少数类的比例,可使后续神经网络对少数类的分类有更高的准确性。
需要说明的是,k和a的取值需根据后续通过神经网络估计得到初步分类的结果进行调整,本文参考薛薇[2]的做法,在使用SMOTE方法增加样本数量时主要考虑灵敏度、特异度、查准率、查全率和AUC值。第一次训练前设定k=1、anminority=nmajority进行第一次初步分类,令得到的各类别均值的平均差异为----Δxˉ、组间标准差为sdinter、组内标准差为sdinner;然后令k增加1而anminority减少并进行分类训练,计算得到类别间3个指标的数值,若当----Δxˉ、sdinter增加而sdinner减少时,则再次增加k并减少anminority。由于3个指标可能并不同时满足上述变化条件,客户分类目标是区别各客户类别的动态行为,因而可将----Δxˉ与sdinter的几何平均变化作为两个变量修正的终止条件,即当----Δxˉ与sdinter的几何平均不再增加时则停止两个变量的修正,将此时得到的稳定初步分类结果作为最终的初步分类结果。
(二)基于受限玻尔兹曼机的初步分类
在动态计算每个客户消费阶段归属概率前,需通过受限玻尔兹曼机识别客户的先验类别,判断客户消费是否包含所有的消费阶段。先验类别可为后续分类提供依据,并为阶段归属概率的计算提供先验信息。受限玻尔兹曼机是一种可进行无监督学习的人工神经网络,无监督学习的主要优势在于不需依赖先验信息便可进行数据分类,能够避免错误先验信息带来的干扰。将无监督学习得到的分类作为先验分类信息可以较充分地利用数据本身的特征,增强最终阶段归属概率识别的稳健性。受限玻尔兹曼机的结构主要分为两层,即可见的输入层及不可见的识别层,两层的层内单元间没有关联而两层间则进行全连接。假设输入层包含n个输入单元即n个样本,每个样本可能包含k个变量;同时假设识别层包含m个单元即划分为m个类别。分类的主要逻辑是运用输入层与识别层的能量函数计算不可见的识别层的条件概率,并运用Sigmoid激活函数判断输入层对应的识别层单元,最终实现对输入层分类的目的。学界一般使用对比散度算法(CD算法)对受限玻尔兹曼机进行训练,主要做法是比较当次估计的参数,如对于隐藏层节点权重与上次估计参数间的熵,当二者较为接近时则认为分类效果较理想,可以进一步使用经典的反向传播算法对参数进行调优从而使模型达到局部最优。这种方法称为逐层贪婪训练法,其不仅可解决训练速度慢的问题,还能找到较好的模型参数初始值。
基于受限玻尔兹曼机和客户RFM(最近一次消费recency、消费频次frequency、消费金额monetary)数据的初步分类思路如下:一是根据RFM指标对客户数据进行整理并进行异常值调整、标准化处理等,参考许静[3]的研究,同时考虑到受限玻尔兹曼机需二值型输入,故本研究使用Min-Max法进行标准化处理。当指标为正向指标时,其数值x的标准化公式为当指标为负向指标时,数值x的标准化公式为二是将处理后的指标纳入受限玻尔兹曼机模型以得到初始客户类别。Pfeifer[4]将客户消费周期分为考察期、发展期、成熟期、衰退期、终止期5个阶段,但最后一阶段不再发生消费行为或者只发生极少数消费行为,可以观测到消费行为的阶段一般只有4个,且对于仅消费一次客户,其后续转移到第二阶段与第三阶段的概率是未知的,可将这两个阶段合并为消费中期阶段,因此消费生命周期便可划分为3个阶段,即消费初期、消费中期和消费末期。本研究只考察样本期内开始消费的客户群体,类别数m取值为3,代表了消费阶段组合的3种情况,即包含所有消费阶段、仅存在消费初期、仅存在消费初期与消费末期。
(三)基于区制转移动态因子模型的客户分类及CLV计算
在进行数据平衡与客户初步分类后,便可计算每个时期客户属于某消费阶段的概率。客户的消费行为包括最近一次消费R、消费频次F、消费金额M共3个维度,需综合各维度信息提取客户消费行为特征,动态分析客户消费行为在每个时间点上属于各阶段的概率。动态因子模型可以较好地提取不同维度中包含的共同信息,而加入带区制转移的状态变量则可同时给出客户属于各消费阶段的概率。因此,本研究使用区制转移动态因子模型估计客户动态阶段概率,模型形式如下:
式(1)中,xit为第i个客户在t时期的消费行为变量R、F、M,向量ft是客户消费行为变量的共同因子,eit为各变量的特质性部分,为便于研究假设ft、eit均服从一阶自回归。αi为第i个客户的因子载荷系数,β、γi为ft、eit的自回归系数,εt、ηit为ft、eit自回归过程的扰动项,假设其服从均值为0的正态分布,标准差分别为σε、σi。μSt为客户消费行为最可能归属消费阶段的因子均值,且满足μSt=μ0+St μ1,其中μ1>0,St可取值0、1、2,代表客户消费生命周期的3个阶段。St服从一阶Markov链,转移概率矩阵为:
式(2)中,pij代表从i状态转移到j状态的概率,即pij=Pr(St=j|St-1=i),其中i、j取值为0、1、2(状态0、1、2分别对应消费初期、消费中期、消费末期)。可以看到,在给出每个客户每个时间点上所属阶段的同时,上述模型也能给出客户在各时间点上属于每个阶段的概率,所属阶段以外的从属概率相对较小。
Pfeifer[4]认为处于不同生命周期阶段的客户,当不考虑最后一个状态时,其转移概率除了从i状态转移到i+1状态非零外,仅有所有状态转移到0状态非零,也就是说,其将客户最近一次消费的时间点作为消费状态的代理变量。这样做的好处在于对转移概率矩阵作出了较强的假设,减少了需要估计的变量。但与此同时,其假设过程可能导致对客户的分析并不符合现实中客户消费行为的动态变化特征。本研究中,客户仅有3种可能的消费状态,跨阶段转移仅有状态0和状态2之间,因此可以放宽假设认为存在跨阶段转移,而不必担心过多参数带来的估计问题。
对于仅消费一次客户,由于计算CLV时并不能获知其后续状态演进过程,故假定其后续两个状态相应的转移概率由消费金额决定,即不论是从初始状态0转移到状态1还是状态2,又或是从状态1、状态2转移到其他状态,其概率均以消费金额进行模拟。相较于多次购买客户第一次消费金额的中位数,仅消费一次客户消费金额越高则认为其向状态1转移的概率越大,反之则向状态2转移的概率越大。状态1、状态2的消费总金额与消费次数通过倒“U”形函数与随机扰动项进行模拟,消费时间则以实际值来降低模拟带来的对仅消费一次客户的评价提升。这是因为如果消费时间仍使用模拟数值,则默认仅消费一次客户后续还会继续消费,但其实并不能确定其后续是否真的会继续消费,这将使对仅消费一次客户的评价过高,因此对仅消费一次客户的消费时间使用实际值来避免这种情况的发生。具体而言,假设仅消费一次客户的实际消费总金额为y,则模拟的状态1和状态2的消费总金额可以写作:
式(3)中,yi表示i状态下模拟的消费总金额为某客户依最大概率所属类别内的平均消费金额,ε服从正态分布,其均值为0,标准差由某客户依最大概率所属类别内消费总金额的标准差决定。同时,对于消费次数也有类似设定,不同之处在于因仅消费一次客户的消费次数为1,故每个时间点上或每个消费阶段上的消费次数不会进一步减少,因此每个阶段上消费次数的变化可表示为:
本研究根据包含的消费阶段数量将客户分为3类:第一类客户仅包含消费初期,第二类客户包含消费初期与消费末期,第三类客户包含所有3个消费阶段。式(4)中,后两个阶段消费次数的构建方法是在前一阶段消费次数基础上对其增加一个随机整数。η1服从初步分类后消费中期客户中消费总金额大于仅消费一次客户消费总金额的消费次数减1的分布,η2服从消费末期客户中消费总金额大于包含了虚拟消费金额的仅消费一次客户消费总金额的消费次数减1的分布。从后续初步分类结果中可以发现,第二类与第三类客户均包含消费末期,因此此处η2服从的分布由第二类客户与第三类客户中消费总金额超过75%分位数的部分组成。在决定了消费次数后,依据不同阶段客户消费最近时间分布特征决定仅消费一次客户后续两个阶段的消费最近时间。上述调整虽对仅消费一次客户的后续消费行为假设较强,但仍不失为增加多次消费客户消费行为信息的有效方法。多次消费且消费总金额较大的客户是销售者最为关注的群体,通过虚拟仅消费一次客户的消费行为来进一步剖析这类人群的消费行为动态变化特征,有助于为销售决策的制定提供更加丰富、合理的建议。
对于区制转移动态因子模型,本文参考Kim[5]的研究,使用Gibbs抽样方法对参数集进行估计。由前文可知每个客户从属于不同阶段的概率在每个时间点上均是变化的,因此在每个时间点上均能得到每个客户的CLV,其为客户从属于每个阶段的概率与该阶段客户CLV均值(由区制转移动态因子模型中的状态均值得出)的乘积。参考Chiang[6]的研究,本文以固定权重计算客户平均CLV,得到WR=0.197,WF=0.366,WM=0.437,即消费最近时间、消费频率、消费总金额权重分别为0.197、0.366、0.437。
三、基于库尔勒香梨销售数据的实证分析
(一)SMOTE平衡与受限玻尔兹曼机分类结果
本研究所用数据来源于京东、淘宝天猫、京东乐鲜关于库尔勒香梨的97348条交易记录,时间跨度为2017年9月1日至2017年11月30日。由于时间长度相对较短,因此研究中将每个星期作为一个时间节点,总时间长度T为12。数据显示,仅消费一次客户占比为87.23%,因而仅就消费频率而言消费数据的分布就存在明显的右偏现象,在使用SMOTE方法增加多次消费客户的数据总量并通过受限玻尔兹曼机的识别训练后,确定k、a两个参数值分别为3和4。通过计算可知,当a=4时单次消费客户数量约为多次消费客户数量的1.7倍,这与薛薇[2]计算出的临界值基本一致。下面以消费总金额和消费最近时间为例说明SMOTE方法平衡数据的效果。
图1给出了多次消费客户(10767条数据)的消费总金额与消费最近时间的分布情况,可以看到,相较于原始数据图中消费总金额较多的数据样本较为缺乏的情况,SMOTE方法平衡后的多次消费客户(43068条数据)在消费总金额与消费最近时间的维度分布均较为均匀。
图1 SMOTE平衡前后少数类部分数据分布情况
图2给出了仅消费一次客户(73679条数据)的分布情况。可以看出,经SMOTE方法平衡后,多数类与少数类消费总金额的K-L散度由1.25变为0.83,分布变得更为相似,对于消费最近时间也有类似结论,K-L散度由0.005784降至0.005764。同时,多次消费客户信息由10767条增至43068条,与仅消费一次客户的信息比由0.1277∶0.8723变为0.369∶0.631。
图2 多数类部分数据分布情况
通过稳定的SMOTE过抽样增加样本点后多数类与少数类分布特征如表1所示。由消费总金额的变化可知,该方法增加了多次消费客户的总记录数,其对分布的影响主要体现在标准差的减少上,其他指标无太大变化,保留了多次消费客户的类别特征,在增加记录信息数量的同时减少了多数类与少数类的差异,为模拟多数类中仅消费一次客户后续消费行为提供了相对合理且更加丰富的数据基础。
表1 消费总金额平衡前后的指标变化
续表1
因此,可以认为通过SMOTE方法增加多次消费客户消费行为数据是可行且有效的,其不仅增大了少数但重要客户消费行为的信息占比,减小了多数类与少数类的分布差异,还可保留少数类的大部分分布特征,具备良好的增加数据量的特质。此外,根据Hinton[7]关于受限玻尔兹曼机的参数建议,设定对比散度的迭代运行次数为1000,隐藏层节点数为150,批量随机梯度下降中每个mini-batch中包含10个训练样本点,动量为0.5,稀疏性目标为0.01,可得到如图3所示的隐藏层部分节点权重图。
图3 受限玻尔兹曼机部分隐藏层节点权重(前30个节点)
进一步地,根据权重结果可计算初步分类后不同类别客户消费的差异,此处以消费总金额为例给出各类别的多个统计量,如表2、表3所示。由表2和表3可知,三类客户统计量均具有明显差异,特别是标准差与组间统计量,第三类客户不论是与其他类别相比或者相比于类别内部,其消费总金额均具有较大差异,这主要是因这些客户的消费次数与消费最近时间具有较大差异,呈现显著的右偏特征,从而导致即使第三类客户平均消费金额与其他类别差异不大,但总金额均值仍遥遥领先,而中位数差异则小得多。这一特点在组间标准差上也能得以体现。从初步分类后的结果来看,在不考虑客户消费行为动态特征时,受限玻尔兹曼机对客户消费行为具有良好的分类效果。
表2 初步分类后不同类别客户消费总金额统计量(一)
表3 初步分类后不同类别客户消费总金额统计量(二)
进一步观察三类客户可以发现:第一类客户消费次数基本为1,同时包含少数消费次数为2的客户(596名);第二类客户消费次数大多介于2~5次之间,仅有少数消费次数为1次的客户(400名)和消费5次以上的客户(68名);第三类客户均为消费5次以上(最多为14次)的客户(1082名)。消费次数最多的消费者数据主要由原始数据以及由这些原始数据生成的约30%的虚拟数据构成。从消费最近时间来看,三类客户并没有显著差异,均在2017年10月15日左右,标准差为3日,这可能是因SMOTE方法在划分多数类与少数类时,两类消费次数差异更大,而消费最近时间差异相对较小,因此SMOTE方法并不能生成更多能够明显区分两类客户消费最近时间的虚拟客户数据。分析原始数据中消费次数较多的客户可以发现,消费次数超过5次的客户具有最小的平均消费最近时间,即2017年11月10日,而消费1次与消费2~5次的客户平均消费最近时间没有太大区别,即2017年10月6日与2017月9月28日。综合最近一次消费R、消费频次F、消费金额M这3个维度的信息推断可知,第一类对应仅存在消费初期的消费者,而第二类、第三类对应于存在消费中期与消费末期行为的消费者,由于后续计算中假设消费末期的消费总量小于消费中期,故此处假设第三类对应于包括消费三阶段的消费者,而第二类则对应于除消费初期外仅包含消费末期的消费者。从消费最近时间上来看这种假设也是相对合理的,消费2~5次客户的原始消费最近时间距离基准时间最远。
综上可知,在提供静态先验分类信息方面,受限玻尔兹曼机具有良好特质,其划分的三类客户在消费总金额和消费次数上均具有显著差异,消费最近时间上虽然差异较小,但结合包含消费阶段的推论可知,消费最近时间在三类间仍存在一定差异。因此,在SMOTE方法基础上,如不考虑动态效应,则使用受限玻尔兹曼机是对客户消费行为进行分类的较好选择。
(二)基于区制转移模型的客户所属类别概率变化特征与CLV
前文3种不同类别的客户本质上可划分为仅消费一次客户与多次消费客户,因此下文以分属两种情况的不同类别中较为典型客户的消费行为特征为例,分析区制转移模型估计的客户消费阶段的动态变化特征以及属于各个不同阶段概率的变化情况。
1.第一种情况(仅消费一次)的典型客户分析。仅消费一次客户在初步分类中基本可归属于第一类别,因此本研究在归属于第一类别且消费金额在33~34元的客户中随机抽取,将第一类别(共112242名客户)中的第7008号客户作为分析消费阶段归属概率动态变化的例子,该客户的消费总金额为33.9元,仅消费一次,消费最近时间为2017年10月1日。根据式(3)与式(4)模拟增加该客户的消费总金额、消费次数与消费最近时间,消费总金额增加为33.9+316.8=350.7元,消费次数增加为1+6=7次,消费最近时间为2017年10月21日,模型参数估计结果如表4和表5所示。需注意的是,表中区制顺序分别为消费初期、消费中期与消费末期,对应的典型类别代表分别为受限玻尔兹曼机中的第一类、第三类与第二类。表5中p01、p11、p21数值在转移概率矩阵各行中最大,意味着典型的仅消费一次客户在后续消费过程中,如果参照其他多次购买客户的平均水平,则处于消费中期的概率最高,且由其他状态转移到消费中期的概率也更高;同时,p12数值在转移概率矩阵其所在行中最小,可以认为多数情况下典型仅消费一次客户会进行多次消费,但未必会到达消费末期,可能在消费中期就停止消费行为,这与Ascarza[8]的研究结论类似,即消费者可能在消费早期或消费中期就停止进一步的消费行为。此外,p20数值也较小,说明当该消费者进入消费末期后很可能不会再次回到消费初期,即当营销条件等外部因素不变时,其不太可能重新燃起消费商品的欲望。对于阶段均值也可以得到类似的结论,即消费中期具有最大的消费总金额均值,此时消费者具有最大的高消费可能性。
表4 仅消费一次典型客户(7008号客户)区制转移动态因子模型的主要参数
表5 仅消费一次典型客户区制转移动态因子模型的转移概率矩阵
仅消费一次客户由于时间维度上数据相对缺失而使用其他多次消费客户的数据进行补足,故而大多体现出多次消费客户的平均倾向,但数据补足的基本假设符合逻辑与数据集特征。第一次消费总金额越大的客户越有可能进行多次消费,并且不容易直接进入消费末期;同时,数据补足也为识别多次消费客户的消费行为动态特征提供了更多的模拟数据,例如单次最小消费金额与单次最大消费金额均在仅消费一次客户群体中,起到了时间维度上SMOTE平衡的作用。此外,通过每个时间点上7008号客户属于每个状态(消费阶段)的概率可以计算其在每个时间点上的CLV,结果如图4所示。由图4可知,在7008号客户的7次消费中,前2次属于消费初期的概率较大,中间第3~5次被判断为消费中期(以第二类、第三类客户的平均水平来说),最后2次则被判断为消费末期。在这个过程中,虽然属于非归属阶段的概率相对较小,但平均来说仍有9.26%,并不属于可以忽略的概率值,因此,在计算该客户的动态CLV时必须考虑非归属阶段带来的影响。
图4 仅消费一次客户的动态CLV
2.第二种情况(多次消费)的典型客户分析。多次消费的客户在初步分类中既有属于第二类也有属于第三类的。从前述分析可知,第三类似乎最有可能包含客户消费的所有阶段,因此,本研究从第三类中随机抽取典型客户与仅消费一次的典型客户(即第一类客户)进行对比分析,第二类客户也能得到类似结论。本研究抽取第三类(共350名客户)中的第31号客户进行分析,该客户的消费总金额为362.4元,消费次数为6次,消费最近时间为2017年9月26日。通过构建该客户的区制转移动态因子模型,可以得到主要参数结果如表6、表7所示。由表中数据可知,从均值来看,多次消费客户在3个阶段的均值与仅消费一次客户的虚拟数据差别不大,这也验证了仅消费一次客户后续数据的可靠性,至少在该数据集中其后续数据的假定是符合现实情况的。从转移概率来看,结果显示其在进入消费末期后转移回之前阶段的可能性很小。当然,这可能是因该客户本身就有退出消费的倾向,其最后一次消费总金额大幅下降,从而导致消费末期阶段的状态均值相对表4仅消费一次客户生成虚拟的多次消费数据后的平均倾向小得多。同时,客户维持在消费中期的可能性相对较大,这与表5情况类似。主要原因是31号客户的消费次数与7008号客户生成虚拟消费数据后较为接近,消费最近时间也有一定的共同性,消费间隔较为稳定,一个约为10天,一个约为7天,且后续消费并未出现,这进一步验证了31号客户退出消费的可能性。此外,相对于仅消费一次客户后续消费的特征而言,31号客户的αˉi较小而σˉη较大,且其3个维度的异质性更强,共同变化的因素影响相对较小。
表6 包含所有消费阶段典型客户(31号客户)区制转移动态因子模型的主要参数
表7 包含所有消费阶段典型客户区制转移动态因子模型的转移概率矩阵
类似于仅消费一次客户的情况,本研究使用各个时间点上31号客户的阶段从属概率与其RFM数据可计算得到如图5所示的CLV动态变化情况。
图5 包含所有消费阶段典型客户的动态CLV
从第一类和第三类典型客户的区制转移动态因子模型的估计结果和动态CLV的估计结果中可以发现,区制转移动态因子模型可以较好地识别客户在不同时间点上所处的消费阶段。另外,不论是通过整体样本均值虚拟得到的第一类典型样本还是由真实数据产生的第三类典型样本,估计得到的动态CLV均呈倒“U”形特征,符合理论模型的预测结果,说明使用区制转移动态因子模型具有较好的消费阶段识别能力和较准确的客户动态CLV估计能力。
四、结语
(一)研究结论
现有研究中,在分析客户消费行为类别以及在计算CLV时,先验信息与仅消费一次客户的行为特征未被充分重视,这可能导致消费行为的跳跃性被忽略,对低频率消费客户的分析也不够合理。本研究通过SMOTE方法虚拟增加了数量较少但较重要的多次消费且高消费金额的客户样本数据,从而更好地估计占样本大多数的仅消费一次客户后续的消费行为。在足够数据支撑的基础上,本研究通过受限玻尔兹曼机较好地提取了多维数据中的概率分布特征,对客户跳跃性消费行为进行分类,为动态消费阶段的识别和CLV的计算提供较为准确的先验信息。在获得先验分类信息后,本研究使用区制转移动态因子模型为非线性客户消费阶段变化提供了较为稳健的模型分析框架,在此基础上计算客户在每个时间点上从属于不同消费阶段的概率,从而计算得到更为准确的动态CLV,并采用库尔勒香梨的网络销售样本数据进行示例分析。实证结果表明:通过SMOTE方法增加数据后,多次消费客户的消费行为在消费金额和最近消费时间上的分布变得更加均匀,并且与多数类(仅消费一次客户)的分布更为相似,但分布的统计量则变化不大。这意味着SMOTE方法在模拟增加重要客户消费行为数据方面具有很好的效果。而以受限玻尔兹曼机进行初步分类后得到的先验信息也是如此,初步分类后三类客户各维度上表现出明显不同,分类效果优良。使用典型客户的区制转移动态因子模型进行的研究则证明了以多次消费客户对仅消费一次客户的后续消费行为进行模拟具有一定的合理性,二者的动态CLV均呈现倒“U”形特征,仅消费一次客户的预期CLV较高。
(二)研究贡献与局限
本研究测试的动态客户分类方法能够提供更为充足的客户信息,进而为制定库尔勒香梨品牌营销、构建品牌联合体及产业化发展等策略提供科学合理的动态信息,使得及时修正或填补营销与发展策略中未考虑完全或有所疏漏的部分成为可能。特别是对于库尔勒香梨这种季节性较为明显的商品而言,动态分析极为重要。在客户信息不足如仅消费一次客户数据较多的情况下,仍能为重点客户群体提供较高质量的类别动态信息,进而为及时预警、维护重要客户提供决策依据,同时也使得制定适合重要客户的针对性营销策略成为可能。此外,本研究对于客户维护具有一定的启示意义。例如,第一次消费总金额较大的客户,其进行多次消费的可能性较大,并且不易直接进入消费末期,对于此类客户,企业需要为其提供更好的服务和体验,并进行定期的营销推送来唤醒其重购动机。同时,对于那些典型的仅消费一次客户,研究表明其在后续消费过程中如果参照其他多次购买客户的平均水平,则处于消费中期的概率最大,且由其他状态转移到消费中期的概率更大;同时p20数值较小,说明当该消费者达到消费末期后很可能不会再次回到消费初期,即当营销条件等外部因素不变时,不太可能重新燃起消费该种商品的欲望。因此,此类客户极可能成为潜在的流失对象,企业需多关注这一类别的客户,可以通过电话回访或者营销促销等策略激发客户的参与兴趣。
本研究也存在一些不足,如对于仅消费一次客户,其真实消费行为模式其实是未知的,模拟数据主要源于已有观测数据的平均值,并不能很好地预测极端数据或者具有新的消费模式的消费者CLV的变化情况,因此在未来的研究和实际应用中,还需依据后续观测数据进行修正,尽量避免已有数据带来的过拟合情况。