APP下载

基于二次聚类和隐马尔可夫链的持卡消费行为预测

2016-07-19宋涛王星

计算机应用 2016年7期
关键词:聚类消费行为状态

宋涛 王星

摘要:银行卡支付在社会消费行为中占很大比例,在促进经济增长中发挥重大作用,因此,预测持卡消费行为具有重要意义。然而,传统方法难以有效应对复杂数据和动态变化。为此,提出基于二次聚类和隐马尔可夫链(HMC)理论的个体消费行为预测方法。首先,对消费行为按照序列进行模式聚类,并引入惩罚聚类进行二次聚类,对序列模式中的层次状态进行平衡划分;其次,利用HMC来估计序列中消费层次的状态转移,对用户的未来消费行为进行预测。最后,通过实验比较分析传统聚类、无惩罚序列聚类和带惩罚项的聚类结果表明,提出的基于二次聚类和隐马氏链的方法更适用于消费者行为预测。

关键词:

二次聚类;惩罚聚类;隐马尔可夫链;持卡消费;行为预测

中图分类号: TP18 文献标志码:A

0引言

当今,社会消费品零售总额中约有四分之一是用银行卡支付的。截止2014年底,我国银行卡发行量已经接近50亿张,各季度的非现金支付额度也已突破数百万亿,比上年度都有较大的增长。据中国银联测算,银行卡的使用能拉动全国居民消费的增加,带动国内生产总值(Gross Domestic Product, GDP)的提升。这些数据表明,银行卡在刺激消费、拉动内需和促进经济增长方面发挥着巨大的作用。与此同时,很多卡不明原因减用或停用也促使银行经营者意识到需要精耕细作、深入考察持卡消费者的消费情况,准确把握消费结构和变化规律,生成有见地的知识决策,因此,建立基于持卡用户真实消费特征的预测模型是银行业了解用户消费行为特征和理解消费特点的基本途径,也是逐步实现由需求拉动客户满意与客户忠诚的长远管理规划。

持卡消费者行为价值是客户关系管理中的核心概念。目前有不少消费模型,如谭涛等[1]提出的两阶段模型,郭爱君等[2]提出的

近似理想的消费系统(Almost Ideal Demand System, AIDS)模型。这两种模型均对农村居民消费行为进行了模拟和分析,但其分析的数据是已经发生的消费行为,并不对未来行为进行预测。比较典型的消费者价值模型是RFM(RecencyFrequencyMonetary)行为度量模型[3-4],该模型采用银行业务系统中消费者最近消费时间(Recency, R请补充R、F、M所代表的完整英文单词。RFM是此3个英文单词的缩写吧,请明确。)、消费频数(Frequency, F)和消费金额(Monetary, M)三个变量定义客户的消费价值。该方法首先将连续的RFM数据离散化为几种状态级别类型,计算相应类型的概率分布及其时间变化,并根据RFM级别对消费者行为特征进行价值聚类,从而把握用户的分群消费价值结构。

马尔可夫链(即马氏链)由俄国科学家最早提出,在实际中有广泛的应用[5-6]。在众多消费预测模型中,其中比较典型的一种方法即是基于马尔可夫链的方法,即基于RFM状态的马氏链转移参数预测模型[7]。该模型考虑了多时期RFM消费价值结构的变化,给出了用户价值的两阶段参数预测方法,但该方法主要存在如下三方面的缺陷:

1)模型仅适用于具有简单结构的数据,不适用于复杂结构的数据。传统消费层次聚类假设个体消费者行为独立,难以捕捉到个人消费习惯对于消费行为的影响,没有将变化和走向相似的序列共同考虑,结果很难产生精准预测。

2)消费行为如购买金额和消费频率常常呈现严重的右偏分布,即一些数据的偏度很大,模型参数估计不稳定。

3)传统的马尔可夫链方法假设消费状态与消费行为相同,忽略了不同的消费状态在动态演变中对消费行为产生的影响。

隐马尔可夫链(即隐马氏链)[8](Hidden Markov Model, HMM)是一种典型的统计机器学习方法,它是观测马氏链模型的延伸。传统观测马氏链认为观测和状态是统一的;而隐马氏链则认为观测和状态是分离的,每个观测部分由状态决定。隐马氏链在多个领域得到成功应用:蔡文学等[9]将其应用于轨迹定位,朱旭东等[10]应用隐马尔可夫链进行异常检测,Choo等[11]则在基因检测中引入HMC。

为了得到更为客观的、更有预测性的消费结构,本文提出基于二次聚类和HMC理论的个体消费者结构预测方法。该方法以消费者多期消费行为观测数据为起点,首先,对消费行为按照序列进行模式聚类,并引入惩罚聚类进行二次聚类,对序列模式中的层次状态进行平衡划分;其次,基于HMC估计序列中消费层次的状态转移,对用户的未来消费行为进行预测;最后,通过实验比较分析表明,与传统聚类、无惩罚序列聚类相比,本文提出的基于二次聚类和隐马氏链的方法更适用于消费者行为预测模型。

1本文方法

本章将建立消费者价值行为预测模型,即采用HMC模型,并对模型中的参数进行训练计算。在此之前,首先对数据采用序列聚类和惩罚聚类方法对序列模式中的层次状态进行平衡划分。模型建立框架如图1所示。

1.1用于持卡消费行为的二次聚类

为了更准确地预测消费行为,即对数据进行聚类的组合分析,在对数据进行序列模式分解的基础上,引入惩罚聚类对数据消费层次划分。

1.1.1序列聚类

问题的基本概率框架是有限混合分布:

其中:S表示一个序列;wj表示第j个模式的权重;pj(S|θj)表示在第j种序列模式下S序列的分布密度,θj代表了第j种模式,每一种模式都代表了一种消费者类型,每一种消费者类型都由一个隐马氏链定义了消费层次的转移,以及每个消费层次的特征。

为了能对持卡消费行为进行序列模型分解,在此参照美国、日本业界领先的消费者生活形态的分类研究模型,定义在消费研究中比较受关注的六类序列,即k=6:成长型消费者(S1)、衰减型消费者(S2)、起伏倒U型(S3)、跳跃型消费者(S4)、记忆型消费者(S5)和起伏型U型(S6),典型实例如图2所示。

S1的特点是刷卡次数随时间呈现增长态势;S2的特点是刷卡次数随时间呈现减少态势;S3的特点是前半程上升、后半程下降;S4主要表现出层次易变的特点;S5的特点是消费层次倾向于保持不变;S6的特点是前半程下降、后半程上升。假设六个序状态之间没有交互作用,可以定义矩阵A表示θj的核心信息:

1.1.2惩罚聚类

我国的消费特点是以储蓄型为主,即小额消费的密度远高于大额或超大额消费的密度;另外还有一些大尺度数据的存在,这些异常都会导致数据的直接聚类不能产生很好的平衡效果。为了消除或减弱这些影响,在此引入惩罚聚类进行二次聚类,对数据进行层次划分。

消费层次划分是研究消费行为变化的起点。传统的聚类分析如k均值法[12]或期望最大(Expectation Maximization, EM)算法 [13]是无监督数据挖掘工具中的代表,它可以在不借助响应变量帮助的情况下探索数据的群组结构。在聚类分析中比较困难的问题是聚类类别数的确定。目前大部分方法是以类内距离的最优化作为选择标准。

1.2基于隐马氏链的消费者行为预测

1.2.1隐马氏链及消费状态定义

隐马氏链由于不对数据的分布类型作出过多的理论限制,从而具有广泛的适用性。隐马氏链分离状态和观测的做法本质上扩展了序列数据的研究视角,提高了序列信息的利用率。构建合理的隐马氏链可促使状态内数据变动具有较强的稳健性;同时对类间模式的区别有较强的敏感性。按照观测值概率取值与状态转移描述方式的不同,隐马氏链可以分为离散型HMM(Discrete Hidden Markov Model, DHMM)、半连续型HMM(SemiContinuous Hidden Markov Model, SCHMM)与连续型HMM(Continuous Hidden Markov Model, CHMM)。

本文研究使用DHMM,记为λ=(S,XV,π,A,B此处的B是矢量、向量或矩阵吗?请明确。)。

其中:状态集S=(s1,s2,…,si,…,sN)是不同的状态模组,N为状态数。

X是序列模式集S上的离散随机变量,称为状态序列,其中si对应状态模组中的一个模式。

状态转移矩阵A=(aij)N×N是状态概率转移矩阵,表示状态从si变动到sj的概率,即aij=P(Xt+1=sj|Xt=si),其中:1≤i, j≤N,∑Nj=1aij=1。

π=(π1,π2,…,πN)是初始状态概率矢量。

V=(v1,v2,…,vM)为不同的观测,M为观测数。

B=(bj(vk))N×M表示状态为j时观测值的观测分布条件概率矩阵,其中:1≤j≤N, 1≤k≤M,bj(vk)≥0,∑Mk=1bj(vk)=1。

考虑到分类结果各部分比例的均衡性,本文将持卡消费者按人均消费频次划分为以下四种类型:1)低水平,指人均消费频次低于全体平均的25%;2)中低水平,指人均消费频次位于全体平均的25%~40%;3)中高水平,指人均消费频次位于全体平均的40%~85%;4)高水平,指人均消费频次高于全体平均的85%。四种状态分别由四个层次分布构成:

状态a: Normal(μ1,σ21), μ1>0;

状态b: Normal(μ2,σ22), μ2>μ1;

状态c: Lognormal(μ3,σ23)], μ3>μ2;

状态d: Lognormal(μ4,σ24)], μ3>μ4μ4>μ3。

状态a至状态d分别表示低消费层、中消费层、中高消费层和高消费层。根据中高消费层的数据分布特点,分别采用了对数正态分布进行结构描述。四个状态之间可以相互转移,如图3所示。

1.2.2基于隐马氏链的预测及参数估计

其中:γ1(i)是初始t=1处状态的期望频率;ij的分子指状态i转移到状态j的期望步数,ij的分母指状态i出发的期望转移数;b^j(k)的分子指在状态j观察到vk的期望时间,b^j(k)的分母指状态i出发的期望行程。

2实验结果与分析

2.1实验数据

实验分析所用数据取自国内某大型银行13821名持卡用户自2012年6月到2015年6月连续36个月月消费行为数据。在此需要关注每个用户消费价值的序列变化。将数据按照序列比例拆分成两部分,其中:9417笔作为训练数据,4404笔作为测试数据。

2.2实验分析

首先,在同一笔消费数据上,对三种不同的状态聚类方式和三种序列聚类的方式进行组合实验,即分别测试RFM层次聚类、k均值聚类(k=6)和惩罚项的状态聚类各自与无序列聚类、有序列聚类传统马尔可夫链[17]和隐马尔可夫链(采用KL距离定义类间距离)进行组合的效果,以预测精度为评价标准,得到表31。

从表31可以看出,RFM层次聚类和k均值聚类的结果没有明显的差异;而带惩罚项的聚类能很好地改善预测精度,这说明对于个体消费行为数据,弱化异常数据得到平衡聚类对把握消费者主体特征有显著影响。有序列聚类的隐马尔可夫链相对于无序列聚类预测精度提高了20%,相对于有序列聚类传统马尔可夫链预测精度提高了13%,充分说明把握用户的消费习惯对于决定消费者未来的消费状态的重要性,隐马尔可夫链不直接对连续数据状态化,而是通过时间序列拟合对状态进行划分,对传统马尔可夫的结果起到平滑作用。

另外,在训练数据分析中产生了状态数为4的合理聚类,即每个序列组由4状态隐马尔可夫链构成,因此,时间跨度中虽然

居民消费价格指数(Consumer Price Index, CPI)有先增后降的特点;但该数据中消费频数的总体结构没有受到阶段性影响,所以直接对36个月数据建立模型,得到转移矩阵如表42所示。

表42的数据表明了以下几个消费特点:

1)持卡消费者刷卡行为受到序列模式的影响,不同的消费习惯即不同的消费序列模式下,消费行为的转移矩阵大不相同。不同的序列模式下,隐马尔可夫链的状态转移存在很大差异。

2)不同序列模式对于消费行为状态转移所起的作用各不相同。由序列比例构成来看,数据中以记忆型消费者(A5)和增长成长型消费者(A1)为主,二者占数据比例约为71.8%,其中记忆型占47.8%,增长成长型消费者占24%,记忆型中高层占训练比23%,这充分说明分析人群的主流特点是行为保持型和消费增长成长型用户,该银行的整体服务得到了大部分持卡用户的认同,高端消费者呈增长态势。增长成长型用户中出现了一个中高层吸收态,占训练数据的20%,这些人群直接从低层直接转变为中高层消费者,充分反映了该银行对消费者的强大吸引作用。

3)跳跃型消费者(A4)占数据比为15%左右,观察发现消费行为向上或向下转移的概率主要在低层、中高层和高层之间,转移的可能性存在差异。对于一个低层次消费者,他转向中高层次的可能性为35%,而对于高层次的消费者,直接转向低层次的可能性只有12%,但更倾向于转向中高层次。这说明对活跃用户而言,存在向下转移缓慢现象,这说明多次呈现高层次消费用户更倾向于保持高端水平。

4)U型用户(A6)占1.0%,中高层消费者在中高和高层之间有23%可能性得到保持(19%保持中高消费,4%转向高消费),显示出这部分消费者理性选择高端消费的潜力。

5)8.7%消费者呈现消费持续下降(A2)和3.5%消费者呈现消费阶段性下降态势(A3),从高层下降到中高水平有35%的保持;但从中高水平向下转移的可能性都超过60%,这体现了消费者在犹豫中作出隐退的选择。

注意:当进行惩罚聚类时,分散点的个数会影响到最优聚类数,一般来说,分散点越多,最优聚类数相对减少,但过少的聚类会对大样本数据有一定程度的影响,因此,在惩罚聚类时,不宜采用过高的惩罚数值,将区域类型划分为四类比较合适。当研究范围扩大或空间尺度变小时,可以考虑划分更多的区域类型。

3结语

本文主要探讨了持卡消费行为预测模型的建立与应用,提出基于二次聚类和隐马尔可夫链理论的个体消费行为预测方法,该方法将个体消费行为进行序列模式聚类;接着,引入惩罚聚类弱化异常值对各序列模式中的层次状态进行平衡划分;最后,基于隐马尔可夫链估计序列中消费层次的状态转移。对国内某大型银行36个月的消费数据分别采用传统聚类、无惩罚序列聚类和带惩罚项的聚类进行了分析比较,结果表明提出的基于二次聚类和隐马氏链的方法更适用于消费者行为预测模型。

参考文献:

[1]

谭涛, 张燕媛, 唐若迪, 等. 中国农村居民家庭消费架构分析:基于QUAIDS模型的两阶段一致估计[J]. 中国农村经济, 2014(9): 17-30.(TAN T, ZHANG Y Y, TANG R D, et al. The analysis of consume of Chinese rural family: the twostep consistency estimation based on QUAIDS model[J]. Chinese Rural Economy, 2014(9): 17-30.)

[2]

郭爱君, 武国荣. 基于AIDS模型的我国农村居民消费结构的动态分析[J]. 人口与经济, 2008(2): 34-38.(GUO A J, WU G R. A adynamic analysis of Chinas rural residents consumption structure based on AIDS model[J]. Population & Economics, 2008(2): 34-38.)

[3]

HUGHES A M. Strategic Database Marketing[M]. Chicago, IL: Probus Publishing Company, 1994: 75-80.

Publisher: McGraw-Hill; 2 edition (May 16, 2000)

[4]

HUGHES A M. Boosting response with RFM[J]. American Demographics, 1996, 3(3): 4-9.

[5]

邓鑫洋, 邓勇, 章雅娟, 等. 一种信度马尔科夫链模型及应用[J]. 自动化学报, 2012, 38(4): 666-672.(DENG X Y, DENG Y, ZHANG Y J, et al. A belief Markov model and its application[J]. Acta Automatica Sinica, 2012, 38(4): 666-672.).

[6]

易锦, 罗峋, 凹建勋, 等. 基于马尔科夫链的软件故障分类预测模型[J]. 中国科学院大学学报, 2013, 30(4): 562-567.(YI J, LUO X, AO J X, et al. Software fault classification prediction model based on Markov chain[J]. Journal of University of Chinese Academy of Sciences, 2013, 30(4): 562-567.)

[7]

PFEIFER P E, CARRAWAY R L. Modeling customer relationships as Markov chains[J]. Journal of Interactive Marketing, 2000, 14(2): 43-55.

[8]

BAUM L E, PETRIE T. Statistical inference for probabilistic function of finite state Markov chains[J]. Annals of Mathematical Statistics, 1966, 37(6): 1554-1563.

[9]

蔡文学, 邱珠成, 黄晓宇, 等. 基于WiFi指纹的室内轨迹定位模型[J]. 计算机工程, 2015, 41(6): 76-82.(CAI W X, QIU Z C, HUANG X Y, et al. Indoor track positioning model based on WiFi fingerprint[J]. Computer Engineering, 2015, 41(6): 76-82.)

[10]

朱旭东, 刘志镜. 基于主题隐马尔科夫模型的人体异常行为识别[J]. 计算机科学, 2012, 39(3): 251-259.(ZHU X D, LIU Z J. Human abnormal behavior recognition based on topic hidden Markov model[J]. Computer Science, 2012, 39(3): 251-259.)

[11]

CHOO K H, TONG J C, ZHANG L. Recent applications of hidden Markov models in computational biology[J]. Genomics, Proteomics and Bioinformatics, 2004, 2(2): 84-96.

[12]

HARTIGAN J A, WONG M A. Kmeans clustering algorithm [J]. Applied Statistics, 2013, 28(1): 100-108.

[13]

DEMPSTER A P, LAIRD N M, RUBIN D B. Maximum likelihood from incomplete data via the EM algorithm[J]. Journal of the Royal Statistical Society, Series B (Methodological), 1977, 39(1): 1-38.

[14]

TSENG G C. Penalized and weighted kmeans for clustering with scattered objects and prior information in highthroughput biological data [J]. Bioinformatics, 2007, 23(17): 2247-2255.

[15]

刘建伟, 崔立鹏, 刘泽宇, 等. 正则化稀疏模型[J]. 计算机学报, 2015, 38(7): 1307-1322.(LIU J W, CUI L P, LIU Z Y, et al. Survey on the regularized sparse models[J]. Chinese Journal of Computers, 2015, 38(7): 1307-1322.)

[16]

ROBERTSON A W, KIRSHNER S, SMYTH P. Hidden Markov models for modeling daily rainfall occurrence over Brazil, Technical Report UCIICS 0327[R]. Irvine, CA: University of California, Department of Information and Computer Science, 2003: 29-56.

http://www.datalab.uci.edu/papers/tr0327_color.pdf

[17]

PORIKLI F. Clustering variable length sequences by eigenvector decomposition using HMM[C]// SSPR 2004 and SPR 2004: Proceedings of the 2004 Joint IAPR International Workshops on Structural, Syntactic, and Statistical Pattern Recognition, LNCS 3138. Berlin: Springer, 2004: 352-360.

[18]

刘健, 吴翊, 谭璐. 对bootstrap方法的自助抽样的改进[J]. 数学理论与应用, 2006, 26(1): 69-72.(LIU J, WU Y, TAN L. An improvement to the resampling procedure of Bootstrap method[J]. Mathematical Theory and Applications, 2006, 26(1): 69-72.)

猜你喜欢

聚类消费行为状态
高中生日常消费行为和消费观念调查研究
基于模糊聚类和支持向量回归的成绩预测
智珠二则
中国文化对消费行为的影响
中国文化对消费行为的影响
中国农村居民消费行为的影响因素分析
中国农村居民消费行为的影响因素分析
基于流形学习的自适应反馈聚类中心确定方法
基于密度的自适应搜索增量聚类法
“牛顿第一定律”练习