一种基于C5.0决策树的客户流失预测模型研究
2015-01-01张之明
张 宇,张之明
(1.西安交通大学 经济与金融学院,陕西 西安710061;2.陕西省邮政公司 电子商务局,陕西 西安710061;3.武警工程大学 信息工程系,陕西 西安710068)
一、前 言
近年来,随着电信行业的迅猛发展,各运营商之间的竞争逐渐加剧,客户可选择的运营商和产品日益增多,客户流失问题是困扰运营商的一大难题。客户是企业的利润之源,有效防止客户流失,提高客户忠诚度,对于企业的生存与发展有非常重要的意义。研究表明,客户流失率减少5%,能给企业带来30%~85%的利润增长;发展新客户的成本是挽留客户的5~7倍,而挽留客户的成功率却是发展新客户成功率的16倍[1]。客户流失预警就是利用数据挖掘算法发现即将流失的客户名单,从而为企业有针对性地开展客户维系与挽留工作提供科学的参考和依据[2]。数据挖掘技术是分析客户流失的一项关键技术。它能够从海量的随机数据中,提取有用信息。确切地说,数据挖掘主要依据人工智能、机器学习、统计学等理论知识,高度智能地分析原有数据,做出归纳性推理,从中挖掘出潜在的模式,能够预测客户的行为,帮助企业的决策者调整市场策略,减少风险,做出正确决策[3]。
目前,短信产品内容服务提供商竞争日趋激烈,如何保有现有客户,较准确地预测客户的流失,并采用及时有效的措施是许多企业面临的新课题。然而,现有客户流失预警模型在预测电子商务行业短信产品方面的实证分析应用较少,基于这样的考虑,本文利用C5.0决策树算法建立了一种客户流失预警模型,并将该模型应用于中国邮政企业的短信业务,对其进行了实证研究,旨在对短信产品客户流失的情况进行分析、保有和预警,并对相关行业的企业提供管理建议。结果表明,该模型提供了较高的命中率和覆盖率,具有良好的预警功能,可帮助企业及时发现有可能流失的客户,最大程度减少客户流失。
二、文献综述
目前,国内外客户流失预测算法主要包括基于传统统计学的预测、基于人工智能的预测、基于统计理论的预测、基于组合分类器的预测和基于仿生学算法的预测[4]。其中,使用最为广泛的三种算法是Logistic回归[5]、决策树[6]和人工神经网络[7]。
Logistic回归是一种使用一些已知的变量来预测未知变量的方法,属于线性回归,其根据最大似然原则使用训练样本数据对未知的回归系数进行估计。决策树是一种以实例为基础的归纳学习算法,着眼于从一组无次序、无规则的事例中归纳和推断出以决策树表示的分类规则。神经网络是一种人脑思考仿真的数据挖掘技术,具有和人类大脑相似的结构和功能,在经过训练之后,系统可以在没有人为干预的情况下为新的输入数据做输出预测。三种建模方法相比,决策树由于具有良好的容脏能力和解释能力等得到了研究者和应用者的青睐。Chan P.K.等人认为,相比其他建模方法,决策树具有优秀的学习效率和出色的解释能力,是业界广泛采用的建模方法[8]。崔永哲采用决策树算法中的C4.5算法对电信客户建立流失预警模型[9],然而相比 C5.0算法,C4.5算法不包含Boosting机器学习思想,算法精度上不如C5.0。徐燕妮等人比较了决策树和逻辑回归的优劣,找出了两种建模方法的互补性,提出了创新性模型TreeLogit,将决策树和逻辑回归方法的优点结合起来建立电信客户流失预警模型[10]。顾光同等人为了进一步研究预警规则的可信度,在传统决策树算法的基础上将客户流失预警规则Ci(i=1,2,…,k)引入二元 Logistic回归[11]。张莹莹应用CRISP-DM数据挖掘过程方法论,在TreeLogit模型的基础上提出了mSTree-Logistic模型,通过对使用多个样本集分别训练出的多棵决策树预测函数进行逻辑回归得到最终的预测函数[12]。
此外,邓森文等人将Cox模型应用于客户流失预测研究中,通过计算训练样本中每个客户的生存概率对可能流失的客户进行预测[13]。蒋国瑞等人针对客户流失数据集的非平衡性和错分代价的差异性问题,基于传统的支持向量机(Support Vector Machine,SVM)方法,将代价敏感学习应用于采用不同惩罚系数的支持向量机,建立了客户流失预测模型[1]。
整体来看,关于客户流失的预测,决策树方法是比较先进,发展较快,研究较深入,也是应用较多的方法。本文正是采用决策树的方法来建立邮政短信业务的客户流失预警模型。
三、模型构建方法与样本选取
(一)建模过程
本文采用决策树的方法来建立邮政短信业务的客户流失预警模型。原因是:一方面,整体来看,在客户流失的预测研究中,决策树方法是比较先进,发展较快,研究较深入,也是应用较多的方法;另一方面,决策树方法对数据准备要求较低,而其他的技术往往要求先把数据一般化,比如去掉多余的或者空白的属性;而且在相对短的时间内能够对大型数据源做出可行且效果良好的结果。本文研究的数据是由两个不同的平台(邮政金融平台和邮政短信平台)中抽取而来,许多字段中的记录存在缺失项,而且抽取量巨大,达四百多万条,因此这两个独特的优点更适合本文的数据情况。
在具体模型选择上,本文采取业界应用较多的容脏能力与解释力较强的C5.0决策树方法来建立预警模型。C5.0决策树算法中引入了Boosting技术[14]。Boosting技术通过建立一组决策树模型来提高算法精度,具体步骤为:第一,对每个样本赋予同一初始权重值;第二,利用训练集构造决策树,对决策树判断错误的样本增大其权重;第三步,选择样本建立一个新的决策树模型,权重越大的样本被选中的概率越高,通过这种方式就能够对判断错误的样本更加关注,反复迭代至规定的次数,或直到分类误差小于某个阈值,同时在建立的决策树模型中,每个模型也被赋予一个权重值,模型的错误率越低,该模型的权重就越大。
基于C5.0决策树算法,本文的客户流失预警模型的建模过程如图1所示。首先,模型的输入为经过数据约简后的属性集合。该属性集合输入模型的数据集包括一个目标属性,该属性将记录分为两类:有离网倾向的客户和无离网倾向的客户。其次,将数据集中2/3的记录作为训练集,用来构造模型,确定模型参数权重值,其余数据集1/3记录分为验证集和测试集,验证集用来防止建立的模型出现“过拟和”现象,测试集用来对模型的预测能力进行检验。
图1 客户流失预警模型的建模过程图
(二)样本选取
邮政短信业务是依托邮政行业内部业务资源,根据用户的需求,把邮政各专业,特别是邮政储蓄、电子汇兑、窗口速递和集邮专业提供的相关信息以手机短信方式传递给客户的一项增值业务。目前已经有超过200亿元的业务收入和1亿以上的稳定客户群。但是近年来,该业务面临较大的同业竞争压力,用户流失率居高不下,因此亟待对短信客户构建流失预警模型,识别潜在流失客户,分析潜在流失客户特征,明确目前客户流失的基本原因,为采用不同的保有客户策略提供依据。
下面以选取业务范围最广、客户数据最多,流失率最大的邮政储蓄余额变动短信通知业务为例构建流失预警模型。通过分析发现客户在刚过免费期(每个选择邮政储蓄余额短信变动的客户有两个月免费试用期)通知后的两个月内流失率较高,所以优先对此部分客户建模预警,样本数据选取如下:1.训练集,用于构建付费期客户流失预警模型。正样本(在网客户指免费期后一直使用此业务的用户):2月份加办,在免费期过后两个月(5、6月)内未流失的客户,取2、3、4月的金融指标。负样本(流失客户):2月份加办,在免费期过后两个月(5、6月)内流失的客户,取2、3、4月的金融指标。2.验证集,用于验证模型效果。取3月份加办短信的用户,将其输入模型验证其在6、7月的流失情况,取3、4、5月的金融指标。以上数据需在邮政金融平台和邮政短信平台两个系统中分别选取。
关于样本代表性问题,本研究中主要涉及二月份加办的客户样本是否有代表性?由于本文是将二月份这一时段的所有数据全部提取,因此样本的代表性主要就考虑季节因素的影响。经过对全年数据的抽样分析发现,各月加办的客户在人口统计特征方面(包括性别、年龄、收入等)没有显著差别,因此二月份的加办数据具有一定的代表性。
四、数据分析
(一)数据描述性统计
本文选取2010年2月至2011年1月之间邮储用户中采纳办理短信业务后又在不同时间采取不同方式流失的客户,累计抽取4 221 792人次,并根据邮政短信业务类型对数据进行分类。短信业务类型字段包括是否在网(在网(采纳)用户约234万,离网(采纳后流失)用户约288万);加办方式(柜面加办约214万,批量加办约208万);退订方式(手机退订33万,其他389万);服务类型(18种服务中,活期余额变通通知占比最大,约227万)、计费类型(包月用户约206万,包年用户约51万),另外还有资费、免费额、免费期等。
接着,从以上数据抽取免费期后继续使用两个月以上客户1.2万人次,抽取免费期内流失客户2万人次,其主要的业务类型数据如表1所示。通过对比可以看出,继续使用的客户平均在网时长显著高于流失客户,且时长较为稳定。两者的账户交易数据都呈现标准差显著高于均值的现象,说明受极端值影响较大,而多数客户的账户交易不频繁,且涉及的额度较少。相比之下,流失客户的价值要高于继续使用的客户,尤其是其中包括了潜在的黄金客户。
表1 免费期后使用两个月以上的客户与流失客户的对比数据表
最后,根据两个系统进行数据关联,形成具体建模变量及重要性打分如表2所示。其中,在网时长等15项指标为非常重要的建模变量,账户前三个月非账务月均交易笔数等6项指标为一般重要的建模变量。
(二)数据分析过程
根据上文选定的变量,建立决策树模型。建模步骤为:(1)数据质量检查。通过对最小值、最大值、均值、空值等的检查,检查参与建模的数据是否合理。(2)样本正负比例调整。对参与建模的正负样本,根据实际比例或者其他经验比例进行抽样。(3)变量特征选择。根据变量的标准差、变异系数等计算参与建模的变量相对于分类变量的重要性,在此步骤选取合理的变量参与建模。(4)模型训练。选取C5.0决策树算法构建流失预警模型,根据模型的提升度,命中率、准确率等不断对模型调整优化。(5)模型验证。把验证集输入模型,校验模型的准确度,根据验证的结果再对模型进行合理调整,直到达到可用的结果。具体建模指标如图2所示。
(三)模型效果评估与结论
通过计算命中率和覆盖率,具体评估结果为:模型命中率37.6%,模型覆盖率24.42%。模型的性能达到了业内的一流水平,可以有效支撑短信客户保有工作。根据模型输出的决策树,可以得到以下结果:(1)账户类型:折账户;(2)交费类型:包月;(3)非账务交易笔数:最近一月几乎没有;(4)年龄:35岁以下;(5)月日均余额:上月在90元左右。
图2 邮政企业短信业务客户流失预警模型建模变量图
因此,邮政企业短信业务流失的客户特征结论如下:
1.35 岁以下连续月日均余额不超过90元,对短信业务资费较敏感;
2.仅开设存折账户未开设卡账户,开通的短信通知交易类型为包月型,流程需优化,增加前期关怀;
3.至少近一个月来未发生账务交易,且连续6个月账务交易笔数很低,缺少业务体验。
表2 具体建模变量及重要性打分表
五、结论与建议
本文针对企业中客户流失日益严重的现状,采用数据挖掘技术中的C5.0决策树算法构建了一种客户流失预警模型,并将该模型应用于中国邮政企业的短信业务,对其进行了实证研究。本文结果表明,该模型提供了较高的命中率和覆盖率,具有良好的预警功能,可帮助企业及时发现有可能流失的客户,最大程度减少客户流失。最后,根据本文的研究结果,确定了邮政短信流失客户的特征,由此给出对流失客户保有的实施建议,即在价格、功能、流程、内容四方面提出以下业务优化建议:
1.价格。目前邮政短信产品的资费过于简单,缺乏优惠包与短期调整项,建议丰富资费体系,对短信产品增加优惠包。
2.功能。目前短信功能较为单一,建议打包财务管理类的功能,升级账户管家功能,产品功能面可采用短信或彩信,发送频次为每月一次,发送内容为当月账户的财务汇总结果,包括月末的账户余额通知、本月累进的入账金额、本月累计的去帐金额,彩信版可附加更多内容,如基金、理财等。
3.流程。针对短信业务中重复申请免费期、当月扣款不成功的问题加以管理,重复申请免费期的问题,建议设定规则限定每张绿卡仅能享受1~2次免费期,对当月扣款不成功的问题,建议对当月扣费失败的用户,下期扣费时优先扣除上期欠费。同时,建议增加前期短信关怀,针对入网30天左右给予用户关怀,降低用户在56天接收扣费短信的突兀感,从而降低用户流失率。
4.内容。充分利用已开通短信产品里面的剩余可利用空间,将此渠道作为短信营销的新兴渠道,在提供服务的同时,推荐新的资费包、优惠包、服务包,打造服务营销一体化的模式,激发客户潜在需求,形成新的增加点。
[1] 蒋国瑞,司学峰.基于代价敏感SVM的电信客户流失预测研究[J].计算机应用研究,2009,26(2).
[2] 何跃,何正林,周欣胤.基于数据挖掘的固网大客户流失组合预警[J].软科学,2012,26(1).
[3] 卿财源.数据挖掘在电信宽带客户流失预警中的应用研究[D].广州:暨南大学硕士学位论文,2009
[4] 于小兵,曹杰,巩在武.客户流失问题研究综述[J].计算机集成制造系统,2012,18(10).
[5] Chang Cheng-chang,Gong Dah-chuan.A Comparison of Rohs Risk Assessment using the Logistic Regression Model and Artificial Neural Network Model[C].Proceedings of the Ninth International Conference on Machine Learning and Cybernetics,2010.
[6] Duan Fu,Zhao Zheng-xing,Zeng Xiang-dong.Application of Decision Tree based on C4.5in Analysis of Coal Logistics Customer[C].2009Third International Symposium on Intelligent Information Technology Application,2009.
[7] Ma Zhi-qiang,Hong Tao.Performance Evaluation of Enterprise’s Marketing Team Members based on BP Neural Network[C].International Workshop on Intelligent Systems and Applications,2009.
[8] Chan P K,Fan W,Prodromidis A L,et al.Distributed Data Mining in Credit Card Fraud Detection[J].IEEE Intelligent Systems and Their Applications,1999,14(6).
[9] 崔永哲.数据挖掘技术在客户流失预警中的应用[J].延边大学学报:自然科学版,2008,34(2).
[10]徐燕妮,刘欣颖,范方.电信客户流失预警模型的构建[J].中国科技信息,2012(1).
[11]顾光同,王力宾,费宇.电信客户流失预警规则及其信度测定实证研究——以云南电信为例[J].云南财经大学学报,2010(6).
[12]张莹莹.固网运营商客户流失预警模型研究[D].北京:北京邮电大学博士学位论文,2008.
[13]邓森文,马溪骏.基于Cox模型的移动通信行业中低端客户流失预测研究[J].合肥工业大学学报:自然科学版,2010,33(11).
[14]王雷,陈松林,顾学道.客户流失预警模型及其在电信企业的应用[J].电信科学,2006(9).