基于虚拟技术中logistic回归模型在睡眠客户预测中的应用

2016-05-14陈宝华柳炳祥万川南

数字技术与应用 2016年8期

陈宝华柳炳祥万川南

摘要：企业的客户关系管理工作好坏，直接影响到企业的核心竞争力，发现一个潜在的客户，往往比挽留一个客户所花费的成本要大的多，因此，发现睡眠用户，并做好相应的客户关怀，挽留住即将流失的客户，就显得非常重要。论文利用logistic回归模型，建立客户睡眠客户的预测模型，建模步骤分为变量分析、变量变换、模型建立评估。从实验分析和结果上看，模型效果拟合较好，评价logistic回归模型结果好坏的ROC、KS曲线验证了该方法的可行性和有效性，为睡眠用户的预测提供了一种分析的思路和方法。

关键词：睡眠客户预测模型 logistic回归模型

中图分类号：F123.9 文献标识码：A 文章编号：1007-9416（2016）08-0069-02

1 引言

睡眠用户的定义和模型目标变量的选定息息相关，而目标变量是用模型确定业务问题的模型解释，这个过程本身就是业务问题转化统计模型问题过程。鉴于睡眠用户定义的重要性，睡眠用户的直接表现是停止交易，所以最后一次交易到无交易的时间是一个比较合理定义。为此从统计用户两次之间交易间隔来确定睡眠用户的定义。统计用户的最大交易间隔天数分布情况，从图1中可以看出，到当用户最大交易间隔天数在90天后，用户的最大交易间隔分布下降平缓，而且70%以上的用户的最大交易间隔小于等于90天。

发现睡眠客户对于企业的客户管理工作非常重要，论文采用logistic回归模型对睡眠客户进行分析，发现睡眠客户的特征，进而改善客户关系管理工作，提升客户价值。

2 数据处理

2.1 数据来源

论文数据来自于某第三方支付平台历史交易数据，对一些涉及商业机密的数据，如交易金额等进行线性变换，对用户个人隐私信息进行剔除。

2.2 数据预处理

在建立模型之前，对重复数据进行了预处理。首先从业务的角度上，对用户的交易是主动性交易与被动性交易进行整理，从业务的角度上理解主动交易更能反映用户的行为，所以数据删除被动交易记录。对文本字段转换成数值字段，时间字段转换成标准时间格式，即数据处理中截取、清洗、转换。

2.3 确定高价值客户

从业务的角度上，历史活跃度很低的用户，对企业的认可度可能更小，对这样的用户营销收益不高。所以建立模型时，要考虑确定什么样的用户是高价值用户。高价值的用户有一定的活跃度，而活跃度主要表现在交易次数上。而为了确定有价值用户的规则，筛选出在历史交易时期没有睡眠的用户，计算这些用户在6个月中的历史交易情况，并对整体用户的分布趋势进行汇总统计分析，数据处理结果如表1所示。

3 logistic回归模型在睡眠客户预测中的应用与分析

3.1变量选取

对于本次建立的睡眠用户，预测模型的变量选取，主要是客户属性变量与客户交易行为变量。其中客户属性变量有：CUSTOMER_NO，用户实名等级，注册时间；客户交易行为变量有：交易金额，交易类型，交易时间，每次交易前余额，每次交易后余额，交易类型（涉及商业机密数据，所以将金额数据进行线性变换处理），还有一些衍生变量。

3.2 变量处理

原始数据繁杂冗余，不能直接用于建模。数据处理过程包括缺失处理、变量类型转换、日期型变量处理、错误变量处理、异常值处理、相关性变量处理、变量选择。其中缺失值处理的方法是，当交易数据为缺失时，用零来代替，代表没有发生交易，是一个合理的解释。所以，本文的原始变量缺失则用零代替。变量的删减的方法是，删除变量是一个非常慎重的问题，但是若是存在较强相关性的情况下，logistic 回归结果是不满意的。因为变量过多，一次性进行变量相关性分析结果，显得过于繁杂，不利于找出其中的规律。为此，先进行变量重要性分析，将变量相关性分成两阶段进行。第一个阶段，先分析三个维度中变量的相关性分析。第二阶段，在完成第一阶段分析之后，剩余的变量全在一起分析变量相关性。

3.3 模型建立

按上面的分析，对变量进行选取及变量的处理后，进入建模阶段。实验所选变量主要体现用户交易行为变化、最近交易行为、用户身份特征来拟合用户是否会进入睡眠状态。将整理好的数据按50%比例随机抽样，分别得到训练集和测试集。实验模型是基于SAS软件中的PROC LOGISTIC过程来实现的。选取逐步回归估计的方式，模型估计结果如表2所示。logistic 回归分析的极大似然估计分析，如表3所示。

3.4 模型评估

评价logistic回归模型结果好坏，主要有K-S曲线、ROC曲线等方法，图2、图3是本次实验所建立模型的K-S曲线、ROC曲线。ROC 曲线横坐标为（1-特异度），纵坐标为灵敏度。特异度是实际上属于非目标事件的观测中被正确分类的比例；灵敏度十实际上属于目标事件的观测被正确分类的比例；K-S统计分布是用来衡量模型的辨识能力。sleep=0（非睡眠）曲线是模型预测值小于某个值时sleep=0（非睡眠）的累计观测数占比分布；sleep=1（睡眠）曲线是模型预测值小于某个值时sleep=1（睡眠）的累计观测数占比分布；D值在0 到1 之间，D 值越大，模型的辨识能力越强。此模型两条曲线的最大垂直距离，即K-S 统计值D=0.625，说明该模型辨识能力较好。

4 结语

通过对变量的标准化系数比较各变量的影响程度。最后一次交易后余额，最近三月消费次数，最近三个月消费笔数占比，最近三个月交易金额占个月总交易额百分比，最近三个月转账笔数占比，实名等级0，最近三月转账金额占比与最近4-6个月转账金额占比变化比例的标准化系数分别是-0.8781，-0.4041，0.3305，-0.2005，0.1773，0.1382，0.1036，即这些变量的影响程度呈现递减趋势。

从实际业务角度上验证，JinePChange3（最近三月转账金额占比与最近4-6个月转账金额占比之差）越大，表示最近三月转账金额增加，Pred 值变大，睡眠可能性增加。NumPercent32（最近三个月消费笔数占比）越大，表示最近三月消费相对增加睡眠可能性增加。NumPercent33（最近三月转账笔数占比）越大，表示最近三月转账相对增加睡眠可能性增加。Sum3P6（最近三个月交易金额占六个月总交易额百分比）越大，表示最近的交易相对之前更活跃，睡眠可能性降低。RealName等于0，表示非高级实名用户，相对高级实名用户睡眠可能性更大。Num32（最近三月消费次数）越大，表示消费频率较大，用户更不容易进入睡眠。AfterAmt（最后一次交易后余额）越大，表示用户的粘性更大，更不容易进入睡眠状态。

论文利用logistic回归模型，建立客户睡眠客户预测模型，建模步骤分为变量分析、变量变换、模型建立评估。从ROC、KS曲线上可以看出，模型效果拟合较好。实验中也有一些不足之处，首先是数据收集还存在不足，根据行为分析，对用户的行为特征除交易行为，还有个人偏好、性别、年龄、消费能力、学历等因素未考虑，直接影响到模型预测的精度，有待今后进一步完善。

参考文献

[1]赵小宁，李凤霞.因子分析法和聚类分析法在网上银行客户满意度研究中的应用[J].时代金融，2015（3）.

[2]李凡.数据挖掘技术的研究与应用[D].西安电子科技大学，2002.

[3]杜建军，李海玉，马蓉等.数据预处理与决策树在客户行为分析中的应用[J].信息技术，2008（12）.

[4]蒋斌.数据挖掘技术在客户关系管理中的运用[J].云南大学学报（自然科学版），2006 （12）.

[5]郭立硕，王兆刚，李星.基于因子分析和聚类分析上市房地产公司的财务风险评价[J].中小企业管理与科技，2015（1）.