基于生存分析模型的电信客户流失研究
2018-03-13张珠香骆念蓓
张珠香 骆念蓓
(福州大学经济与管理学院, 福建福州 350116)
一、前言
为了有效防止客户流失,运营商采取了投放大量广告或不断优化产品等保留措施,但这种毫无针对性的客户保留会使运营商面临浪费资源的风险。大数据时代的到来使得客户数据更易被记录搜集,利用数据建立预警模型主动识别潜在的流失用户、分析客户的行为特征,对潜在流失客户采取针对性的挽留措施,为运营商更有效率地理解客户消费行为与应对市场需求变化提供了新的路径。
目前,基于实测数据的电信客户流失模型主要分为以下三类:一是对潜在流失个体的预测;二是对流失因素的分析;三是对挽救模型的构建。其中,对潜在流失个体进行预测的文献最多,即利用客户的历史信息识别即将流失的客户,或者预测客户流失的概率,具体的建模方法有多种,如Huang等和Jamil等使用改进的支持向量机算法[1][2],邱一卉和丁君美等使用改进的随机森林算法[3][4],张玮等采用CART与Boosting的集成模型[5],余路则是基于C5.0决策树、BP神经网络及Logistic回归算法的组合预测模型[6],skarsdóttir等采用社会网络分析[7],Amin等采用模糊集的方法[8],Coussement等采用Logistic模型进行电信客户流失预测。[9]而在流失因素分析上,李会等通过决策树和Logistic回归对电信客户流失的关键因素进行分析,认为客户流失与开通月数、电子支付、年龄、上网经历、免费电话等变量相关。[10]王锐等认为套餐类型、日平均主叫次数、日平均被叫次数、月平均成功通话率及月平均漫游费用比等客户行为属性与其是否流失相关。[11]在挽救模型方面,罗彬通过数学建模,建立了客户挽留周期计算模型、客户挽留价值计算模型、客户挽留评估模型以及客户挽留顺序选择模型。[12][13]
客户流失问题涵盖了流失客户的预测识别、流失原因分析以及挽救策略三方面内容,但目前对于客户流失问题的研究重点主要放在预测模型上。然而,上述研究的预测模型中,无论是传统统计学的Logistic回归,还是支持向量机等机器学习算法,其反应变量仅能考虑客户生存状态,无法使用客户生存时间变量,预测结果只能得到客户是否会流失的结论,而无法预测客户何时离网。事实上,将客户是否流失简单归结为二分类问题,建模时仅能使用客户当前“在网”或“离网”状态作为因变量,既无法利用生存时间长度,也无法处理资料中的删失问题。此外,上述研究所选取的变量多集中于人口统计学与客户通话行为,而对客户与运营商的交互行为、套餐订阅(如客户是否改变过套餐、是否关联购买、是否绑定服务合约、是否超套消费)等行为并未涉及,更多的客户行为特征对其生存时间的影响有待挖掘。
鉴于此,本文引入生存分析模型,综合考虑套餐订阅、客户与运营商的交互行为、客户通话等行为,将客户生存状态与死亡时间作为双因变量,对带有删失的电信客户生存时间进行研究,不仅能估计具有某种特征的客户在入网后能够存活一定时间的概率,也能追踪客户死亡率如何随时间变化,同时运用Cox比例风险模型分析不同特征变量对客户流失风险的影响,找出流失客户的特征。
二、数据来源
本文使用某电信运营商2012年1月-2014年1月共25个月观测期的4975条真实用户数据,每条用户数据来自于一个手机号码。根据研究需要以及数据的可获得性,选取了使用月数、是否流失、集团用户、服务合约、额外通话时长、额外流量、改变行为、关联购买、月套餐金额9个变量进行分析。各个变量的定义及类型如表1所示。
表1 研究数据说明
三、生存分析
(一)流失客户的定义
客户流失是指客户放弃使用某种产品或服务,转而使用市场上另一竞争企业的产品或服务。[14]对于不同行业,流失客户的定义是不同的。蒙肖莲等将客户关闭其金融账户时视为流失。[15]Miguéis等认为零售公司的客户在第t个时段内的购买金额小于第t-1个时段消费总额的40%,则视为流失。[16]Hadiji等将7天内没有玩该款网络游戏的玩家视为流失客户。[17]Jahromi等把某电子商务网站半年内没有任何行为的客户视为流失客户。[18]而在电信行业,张玮等将电信客户报停、预销、强关、销号等八种状态确定为离网状态。[19]Coussement等把销号作为流失。[20]本文将电信客户销号作为流失客户,截止到观测期结束,如若流失未发生,则该客户“存活”,否则该客户“死亡”。
(二)客户流失生存分析
生存分析是一种根据样本数据对某给定事件发生时间进行估计和预测的研究方法,由于广义的“生存时间”是指某种状态的持续时间,因此,本文所研究的电信客户流失问题可以类比成生存分析问题,即客户使用月数为“生存时间”,客户离网流失为“死亡事件”,进而研究客户在给定时间内的存活率和死亡率。
1. 客户流失生存模型构建
根据观测对象进入或退出观测的时间差别,生存数据包含完全数据(completed data)和删失数据(censored data)。如果在观测期内,个体可以观测到确切的“死亡”时间,则称为完全数据。如果观测不到确切的“死亡”时间(观测期末仍然存活),则为删失数据。因此,根据观测期结束时客户是否流失的生存状态,本文的分析数据既包括在观测期内客户发生流失对应的3894条完全数据,也包含在观测期结束时客户未流失的1081条删失数据(见表2)。删失数据包含了客户流失的概率性信息,简单地删除这些数据会丢失许多有用的信息,因此,在生存模型中不可忽视删失数据的影响。
表2 案例处理摘要
对电信客户流失建立生存模型,核心是生存函数的估计。设T为非负随机变量,表示个体的生存时间;S(t)表示生存函数,指个体生存时间长于t的概率。本研究的生存时间即客户的使用月数,电信客户的生存函数为t时刻客户仍未流失的比例。即:
其中:F(t)为T的累积分布函数,f(t)为T的概率密度函数,因此有:
S(t)-t图像称为生存曲线,陡峭的生存曲线意味着低的生存率或短的生存时间,平缓的生存曲线意味着高的生存率或长的生存时间。生存函数的估计常用参数法和非参数法,参数法是指当生存数据服从特定分布如指数分布、Weibull分布、对数正态分布、伽玛分布时,对生存函数进行估计所采用的分析方法,其对数据分布的要求较高,需假定数据服从一定的分布,因此实际应用具有一定难度。由于本研究所采用的电信客户流失样本的分布未知,且含有删失数据,因此适合采用非参数估计的K-M法,又称乘积极限法(PL)。
通过缩减抽样的方法,对包含删失数据的电信客户生存函数进行PL构造,其步骤如下:
Step 1设生存时间数据有n个(本文中共有删失和非删失客户数据4975个),将这些客户按使用月数从小到大排列t(1)≤t(2)≤…≤t(n),次序分别为1,2,…,i,…,n。当存在删失数据和非删失数据相等时,非删失数据排在前面。
Step 2保留非删失数据的次序,用r表示非删失数据的次序。
Step 3计算每个流失时间对应的生存比例P(r)=(n-r)/(n-r+1)。
本文的流失事件发生在使用月数小于25个月的所有观测取值处,所以S(t)只会在这些时间点上发生跳跃,当有客户发生流失时,存活概率呈跳跃式递减。K-M估计式定义如下:
为探索各变量对电信客户生存时间分布的影响,本文对各变量分别建立单因素生存分析模型,均考虑删失数据,得到如图1-7的累积生存曲线。
图1 不同用户类型的生存曲线比较
图2 是否签订服务合约的生存曲线比较
图3 是否有额外通话的生存曲线比较
图4 是否有额外流量的生存曲线比较
图5 是否改变过套餐的生存曲线比较
图6 关联购买情况的生存曲线比较
图7 套餐金额情况的生存曲线比较
利用SPSS软件对这几组生存曲线进行检验,分别是Log Rank(Mantel-Cox)检验、Breslow(Generalized Wilcoxon)检验以及Tarone-Ware检验。检验的零假设均为:不同水平的生存函数相同,通过p<0.01可以得到拒绝原假设的结论。在本例中,每一组生存曲线均通过检验,说明每个组内不同水平的生存函数之间的差异均是显著的。
可以看出,在控制了其他变量后,集团用户比个人用户有更长的生存时间,个人用户中有50%的人至少使用了13个月,而集团用户约有68%的人至少使用了同样长的时间。这是因为,集团用户由于业务需要,不能随意更换联系方式,且相比个人业务,集体办理的号码在集团内拨打有一定优惠,所以集团用户离网率比个人用户低。
在服务合约方面,在任何一个时间点,非服务合约的生存率均低于服务合约的生存率,这是因为,在办理服务合约时,客户获得了折扣优惠并且签订了合约期,因此离网率较低。
从通话时长和流量上看,有额外通话时长的客户比无额外通话时长的客户有更高的生存率,有额外流量的客户比无额外流量的客户有更高的生存率。这是因为,有额外通话时长或者流量的客户与亲朋好友的交流更多,社交需求更大,保持稳定的联系方式对他们来说更为重要,换号对其来说更为不便,因为离网率相对会更低。
在是否改变过套餐金额方面,可以发现,改变过套餐行为比未改变过套餐行为的用户有更长的生存时间,未改变过套餐的用户中有50%的人至少使用了13个月,而改变过套餐的用户约有73%的人至少使用了同样长的时间。这是因为,通过套餐升舱,使得客户办理了更为匹配自己需求的套餐,因此粘性更高更为忠诚,而那些没有根据需求进行套餐升舱的客户可能用着不匹配自己的套餐,形成沉默的投诉客户,最终离网。
在关联购买方面,关联购买1项(主要是宽带业务)的客户比没有关联购买的用户有更长的生存时间,这是因为,宽带的使用率和普及率越来越高,而办理宽带时往往会考虑和手机套餐进行绑定从而获得优惠,那么更换手机号的成本更高,因此这部分用户的生存时间会比未关联购买的客户长。同样地,关联购买2项其他业务(主要是固定电话和宽带业务)的客户,其换卡成本很高,因此也比没有关联购买的用户有更长的生存时间。总的来说,关联服务是有助于延长客户的生存时间的,这与实际情况相吻合。
需要注意的是,关联购买2项其他业务(主要是固定电话和宽带业务)的客户比关联购买1项(主要宽带业务)的客户生存时间更短,出现这种现象的原因是,随着移动互联网时代的到来,使用手机通讯越来越普遍,固定电话的使用率越来越低,因此原先关联办理固定电话和宽带2项业务的人,可能会停止固定电话服务,而只留下宽带1项业务。
从月套餐金额来看,金额越高,生存时间越长。一方面是因为高价值的客户通常具有较高的经济水平,竞争对手的低价策略一般不足以激发其换号。另一方面,高价值的客户一般是通过套餐的进阶升档成长起来的,套餐内含与客户需求的匹配性越来越强,增大了用户粘性。此外,运营商针对高价值客户会开展针对性营销和管理,进而提升高价值客户的满意度,减少离网率。
2. Cox比例风险回归建模
由于Log Rank检验属于单变量方法,要求两组数据除了该研究因素不同外,其他都相同,无法同时分析2个或2个以上因素对生存时间的影响。并且,生存函数的比较只能给出不同生存曲线是否存在差异的结果,而无法给出具体的差异大小,因此还需使用Cox回归来直观测量差异大小,即通过Cox比例风险模型识别风险因素并探讨风险因素的强弱,并将Cox回归中风险系数的检验作为Log Rank检验结果的补充,两者都通过检验则更能说明生存曲线存在差异。
风险函数h(t)是指个体在t时刻活着,但在t+1时刻死亡的概率,用于测量处于t时刻的个体是否容易死亡。其计算公式为:
本研究中,通过Cox比例风险回归模型研究不同变量对客户生存时间的预后效果。引入协变量x于风险函数内,模型表达为
h(t|x) =h0(t)exp(β1x1+β2x2+…+βpxp)
=h(t,βx)
表3 回归系数与风险率关系
其中,括号内为该系数的标准误。由表4可知,除了-2.81的p值=0.411>0.05,其余系数均通过显著性检验,因此可以拒绝系数为0的原假设。
表4 Cox模型结果
四、防止电信客户流失的策略
考虑生存曲线存在差异的原因及实际情况,运营商须采取有效措施进行提前干预,减少在网客户流失,本文提出4点防止客户流失的策略。
(1)合理设计套餐资费,提升客户套餐资费匹配度。移动互联网时代的到来使得用户流量需求不断得到激发,运营商在套餐资费设计时,需综合考虑套餐语音和流量,通过套餐匹配营销以及套餐升舱引导,减少超套用户比例,降低高饱和客户超套餐顾虑,提升存量客户资费满意度,有效增强用户粘性。
(2)叠加促销,提升产品竞争力。运营商应在“电子券(促销积分)”、“分期分款”、“折让”等基础政策下细分多种营销方案,开展话费、积分、流量等不同形式的促销活动,不断优化产品营销案,提高产品吸引力及竞争力,培养优质的客户粘性。
(3)优化宣传设计,提升客户产品资费感知。资费宣传不清晰、宣传内容复杂难懂等问题,在很大程度上阻碍了客户对产品的感知。为了有效提升资费传播的感知度,运营商应从以下几个方面进行考虑:简化宣传设计,聚焦重点套餐优惠内容,确保资费宣传简洁易懂;利用单页物料进行融合资费宣传,提升用户对套餐档级的感知度;统一线上线下传播口径,联动广播、电台及电视,提高资费好用不贵的感知度;拓展资费宣传覆盖面,持续利用公交站台、公交车身及出租车LED走字等户外流动媒体进行传播;充分发挥手厅、官微等线上传播资源,利用互联网通路提高用户办理的主动性。通过加大优惠宣传,进一步稳固客户资费满意度。
(4)细分客户价值,建立差异化营销体系。传统的粗放式电信营销,是为某项业务寻找批量目标客户,并未适配客户消费行为及价值,因此常常导致套餐不匹配,客户价值流失,也容易造成营销资源的浪费。运营商必须从以业务为中心向以客户的差异化需求为中心转变,结合客户的ARPU值和DOU值的高中低进行客户分层,再针对不同的目标用户进行个性化的精细管理,匹配不同类型的营销方案,使得客户价值及规模得以层次化推进。这样不仅能明确营销的目标和侧重点,使营销资源得到合理配置,提高营销实施的效率,也能更好满足客户的需求,从而建立客户的忠诚度,留住客户。
五、结语
客户的流失风险更大即意味着其生存时间更短。本文通过生存曲线和Cox回归对电信客户的生存时间进行研究,得出的Cox回归结果与K-M生存曲线结果具有一致性,两者都通过检验更说明了不同水平下的生存曲线存在差异,为客户流失风险因素识别提供了强有力的数据支撑,对于电信运营商进行客户流失管理具有重要指导意义。
注释:
[1] Huang Y., Kechadi T.,“An effective hybrid learning system for telecommunication churn prediction”,ExpertSystemswithApplications,vol.40,no.14( 2013),pp. 5635-5647.
[2] Jamil S., Khan A.,ChurncomprehensionanalysisfortelecommunicationindustryusingALBA.IEEE ICET Conference,2016,pp.1-5.
[3] 邱一卉:《基于剪枝随机森林的电信行业客户流失预测》,《厦门大学学报》(自然科学版) 2014年第6期。
[4] 丁君美、刘贵全、李 慧:《改进随机森林算法在电信业客户流失预测中的应用》,《模式识别与人工智能》2015年第11期。
[5] 张 玮、杨善林、刘婷婷:《基于CART和自适应Boosting算法的移动通信企业客户流失预测模型》,《中国管理科学》2014年第10期。
[6] 余 路:《电信客户流失的组合预测模型》,《华侨大学学报》(自然科学版)2016年第5期。
[8] Amin A., Anwar S., Adnan A., et al., “Customer churn prediction in the telecommunication sector using a rough set approach”,Neurocomputing, vol.237(2017),pp. 242-254.
[9] Coussement K., Lessmann S., Verstraeten G., “A comparative analysis of data preparation algorithms for customer churn prediction: A case study in the telecommunication industry”,DecisionSupportSystems, vol.95(2017),pp. 27-36.
[10] 李 会、吴小兰、李 侠:《电信客户流失预测模型的构建及客户流失因素分析》,《内蒙古农业大学学报》(社会科学版)2017年第 3期。
[11] 王 锐、王 斌:《基于粗糙熵的电信客户行为推理研究》,《工业工程》2014年第2期。
[12] 罗 彬、邵培基、罗尽尧等:《基于竞争对手反击的电信客户流失挽留研究》,《管理科学学报》2011年第8期。
[13] 罗 彬、邵培基、罗尽尧等:《基于预算限制和客户挽留价值最大化的电信客户流失挽留研究》,《管理学报》2012第2期。
[14] 蒙肖莲、蔡淑琴、杜宽旗等:《商业银行客户流失预测模型研究》,《系统工程》2004年第12期。
[15] Miguéis V. L., Van den Poel D., Camanho A. S., et al., “Modeling partial customer churn:On the value of first product-category purchase sequences”,Expertsystemswithapplications, vol.39,no.12(2012),pp.11250-11256.
[16] Hadiji F., Sifa R., Drachen A., et al.,Predictingplayerchurninthewild,IEEE Conference on Computational Intelligence and Games, 2014,pp.1-8.
[17] Jahromi A. T., Stakhovych S., Ewing M.,“Managing B2B customer churn, retention and profitability”,IndustrialMarketingManagement,vol.43,no.7(2014)pp.1258-1268.