基于数据挖掘的手机客户流失预警系统
2020-11-06杨英英
摘 要:随着中国电信业改革不断深入,电信市场日趋饱和,各大运营商都面临日益严峻的客户流失率飙升问题,如何识别高风险流失客户是运营商最为关注的问题。因此,文章借助西安财经大学行知学院校企合作单位的真实客户数据,通过R语言编程,使用数据挖掘中的决策树模型来形成一个系统的客户流失预警监测过程,帮助合作企业提前识别高风险客户流失。结果发现画像符合套餐使用月数在25个月以上、有服务合约、是集团用户的客户更不易流失。
关键词:数据挖掘;客户流失;预警;决策树
中图分类号:TP319 文献标识码:A 文章编号:2096-4706(2020)13-0055-03
Abstract:With the deepening reform of Chinas telecom industry and the saturation of the telecom market,major operators are facing the increasingly serious problem of soaring customer lose rate. How to identify high-risk customer lose is the most concerned issue for operators. Therefore,with the help of the real customer data of school-enterprise cooperation units of Xingzhi College of Xian University of Finance and Economics,this paper through R language programming,uses the decision tree model in data mining to form a systematic early warning and monitoring process of customer lose,and helps cooperative enterprises to identify high-risk customer lose in advance. The results showed that the portrait was more than 25 months old,signed a service contract,and the group users were less likely to lose customers.
Keywords:data mining;customer lose;early warning;decision tree
0 引 言
我國主要的3家电信运营商分别是中国移动、中国电信和中国联通。在过去的10年里,这3家公司都得到了极其快速的发展。这种发展主要来源于移动通讯设备的普及以及发卡量的增长。但是,在过去的5年里,客户量的增长速度缓慢,同时发卡量似乎不再增长。如何实现业务增长,成了三大运营商头痛的问题。与此同时,运营商之间相互挖客户墙角的问题时有发生,客户流失率的急剧上升成为了各大运营商最为直接的难题,尤其是优质客户的流失更是会造成企业极大的经济损失。从运营成本来看,引进新用户的成本远高于维护一个优质的老客户,会对企业的收益产生较大影响。因此,为了帮助企业在客户流失前提前做出预警防范,文章使用数据挖掘分类算法中的组合预测树模型建立了一套具有实际意义的预警检测系统,为企业留住客户提供指导策略。
1 变量的获取与说明
本案例使用的数据来自某移动公司当月的客户信息统计,该企业为我校对口实践实习单位,共4 975条数据,缺失值已处理。因变量是否流失的数据来源于下一个月,自变量的数据来源于当月。数据包含8个变量:1个因变量、7个自变量,其中定性变量6个,定量变量2个。因变量为流失客户,为定性变量,1代表客户流失,0代表客户未流失;套餐金额为定性变量,共3个水平:1为96元以下,2为96到225元,3为225元以上;改变行为为定性变量,1代表曾改变过套餐金额,0代表未曾改变过套餐金额;服务合约为定性变量,1代表曾经签订过服务合约,0代表未曾签订过服务合约;关联购买为定性变量,1代表同时办理一项其他业务,2代表同时办理两项其他业务,0代表没有办理其他业务;集团用户为定性变量,1代表是集团用户,0代表不是集团用户;额外流量、套餐使用月数均为定量变量。
2 描述性分析
2.1 集团用户对客户流失的影响
通过绘制马赛克图,了解是否是集团用户在流失用户中所占比例的大小。在图1中,横坐标表示客户是否流失,纵坐标表示客户是否为集团用户。结果显示,在流失的客户群体中,不是集团用户所占比例较大,是集团用户所占比例较小,说明是集团用户的客户更不易流失。同时通过卡方检验得知二者所对应的概率P值小于0.000,应该拒绝集团用户和流失用户之间相关独立的原假设。说明集团用户与客户流失不独立,是否是集团用户对客户是否流失有显著影响。
2.2 服务合约对流失客户的影响
通过服务合约与客户流失两变量的二维列联表与卡方检验来分析其影响显著性。由表1交叉列联频数表可知,在客户流失的个体中,无服务合约的客户有3 340人,有服务合约的用户为554人。无服务合约用户中客户流失的个体占88.9%,有服务合约用户中客户流失个体占45.5%,说明有服务合约用户的个体更不易流失。服务合约与客户流失服从自由度为1的卡方检验,对应的概率P值小于0.000,应该拒绝客户流失与服务合约之间相互独立的原假设。说明服务合约与客户流失不独立,是否签约过服务合约对客户是否流失有影响。
3 预警模型的建立
3.1 数据挖掘
数据挖掘是从当下海量不完全、模糊的数据中提取未知但隐藏在其中的潜在有价值信息的过程。数据挖掘常使用的软件有Weka、KNIME、RapidMiner、R-Programming、Kaggle
等,常使用的算法包括分类算法、聚类算法、关联规则等,其中分类算法包括决策树、逻辑回归、神经网络、支持向量机、Boosting等,本文通过使用分类算法中的组合决策树在R软件中完成数据挖掘全过程。
3.2 组合决策树的构造
决策树分类是最典型的一种分类方法,从实例集中构造决策树,先根据训练子集形成决策树,然后根据叶节点的类称号进行检验记录分类。其核心环节在于解决训练记录的分裂和何时停止分裂的问题。解决第一个问题的关键在于属性测试条件的合理决策;解决第二个问题最好的办法是当样本数量小于某个特定阈值时停止分裂。通过使用RStudio软件编程建立的组合决策树算法调试代码如下:
install.packages("ipred")
library(ipred)
set.seed(1234)
m=m[,-1]
m$流失用户<-as.factor(m$流失用户)
m1<-bagging(m$流失用户~.,data = m,nbagg=25,coob =TRUE)
pre<-predict(m1,m,type = "class")
hx<-table(m$流失用户,pre)
E1<-(sum(hx)-sum(diag(hx)))/sum(hx)
并且,得到的预警监测模型如图2所示,在根节点中总样本量为4 975人,其中流失客户有3 894人;最优特征变量为使用月数在取值25处将决策树分裂为0、1两部分,其中预测客户未流失1 020人,预测客户流失3 955人,预测未流失人数中与真实未流失结果一致的有1 020人,预测流失人数中与真实流失结果一致的有3 894人。结果显示使用月数是客户是否会发生流失的最重要因素,当使用月数大于等于25时,客户流失率最低。
通过数据挖掘方法中的决策树分类模型进行客户的流失监测,将预测结果和真实数据进行对比做组和决策树混淆矩阵,结果如表2所示,真实未流失客户有1 081人,预测未流失客户有1 020人,精确率=1 020/(1 020+61)=94.36%,准确率=(1 020+3 894)/(1 020+61+0+3 894)=98.77%,预警模型的预测准确率高达98.77%。
4 遏制用户流失的措施
手机客户流失预警监测结果说明,在使用月数这一特征上,用户使用月数小于25个月的用户基本都流失了,使用月数大于25个月的用户都得到了保留。在关联性购买特征中,没有办理过其他业务的用户容易流失,辦理过其他业务的用户能得以保留。对于服务合约特征来说,有服务合约用户的个体更不易流失,应该注意无服务合约这一用户群体可能会流失。集团用户特征中,非集团用户中客户流失的个体占88.1%,集团用户中客户流失个体占45.0%,说明是集团用户的个体更不易流失,运营商也应注意不是集团用户的群体可能会有流失的危险。其他影响因素因效果不显著,均未进入预警模型。
所以运营商应在推广各种套餐、关联购买活动、签订服务合约、办理集团用户等方面加大力度取得客户信任,使得客户对运营商更加信任,进而将客户的套餐使用月数提升到25个月以上。除此以外,运营商可以从以下几方面着手遏制用户的流失。
4.1 提升用户的忠实度
提升忠诚度对每一个以客户为中心的企业来说都是长久生存之道。结合老客户的使用习惯、话费回赠、专属优惠等活动制定出不同的VIP高级套餐,以保证老客户的高端心理预期;考虑新客户的现有需求制定灵活多变的新颖策略,吸引新客户的使用好感,提升新客户的留存率,进而提升老客户的转化率。同时,在售后服务上要人性化,举办温馨的送爱心活动,让新老客户不仅有产品享受,更有家一样的温暖体验。
4.2 加强对品牌自身的推广和创新
5G时代汹涌而至,对每个企业来说机遇和挑战并存。在宣传方面,应借助互联网优势,采取多样化流量推广,例如在微博、抖音、B站、微信等社交媒体上通过各种视频、文案等宣传企业品牌文化和优惠套餐活动,尤其是需要将利益化的点可视化;在运营模式上,借助互联网对客户群体实行网格化管理,实现“一网撒天下,客户尽在掌握中”的全局运营管理模式,不错过一个新客户,不放弃一个老客户;在产品创新上,要与时俱进,不断研发新的核心产品,提高企业核心竞争力,要不断招募年轻人才,创新出更为特色、更为符合客户需求的营销手段。
4.3 定制差异化营销策略
在营销方面,可以借助数据挖掘方法对真实的客户数据进行客户人群细分,进而完成精准的人物画像,按照客户的不同喜好、不同消费层面、不同需求,划分为4~8种画像描述,然后针对不同画像的客户定制不同层级的个性化服务和优惠活动,同时要及时把握自身品牌的差异化塑造,从情感、文化、家庭归属感等方面来及时调整自身定位,提升品牌核心竞争力。
5 结 论
客户流失率的日益增长已经成为电信行业各大运营商最为棘手的问题之一,而数据挖掘技术的产生便为解决该问题提供了极大的便利。本文通过大量查找文献、研究相关理论基础,并结合企业真实客户数据,使用R语言做数据挖掘建立模型,基于决策树的构建,形成了手机客户流失预警系统,经混淆矩阵的准确率评估,该模型基本达到预期效果,可以将其用在解决该企业客户流失管理的实际问题中。但由于数据中存在所选因素的种类有所欠缺、与客户相关的其他信息不够全面等问题,模型的准确性有待进一步提升。
参考文献:
[1] CALZADA-INFANTE L,?SKARSD?TTIR M,BAESENS B. Evaluation of customer behavior with temporal centrality metrics for churn prediction of prepaid contracts [J/OL].Expert Systems With Applications,2020,160.[2020-05-28].https://www.sciencedirect.com/science/article/abs/pii/S0957417420303778.
[2] 李鑫.基于数据挖掘的电信客户流失预警研究 [D].昆明:云南财经大学,2020.
[3] 张磊.基于深度学习的电信客户流失预测研究 [D].昆明:云南财经大学,2020.
[4] 赵慧珂.流失客户的识别、预警与对策研究 [D].天津:天津财经大学,2019.
[5] 周艳.基于数据挖掘技术的电话经理业务支撑系统设计与实现 [D].长沙:湖南大学,2016.
[6] 王玉玲.中国电信B公司宽带客户流失预警及对策研究 [D].秦皇岛:燕山大学,2018.
[7] 程勇,梁吉祥.基于数据挖掘的掌银客户流失预测建模方法研究 [J].中国金融电脑,2019(8):51-60.
[8] 张利利,马艳琴.基于数据挖掘技术的航空客户流失与细分研究及R语言程序实现 [J].数学的实践与认识,2019,49(6):134-142.
[9] 姜辉辉.WA移动分公司存量客户营销策略研究 [D].邯郸:河北工程大学,2020.
[10] 王晓婷.邢台移动用户流失预警系统分析与设计 [D].北京:北京邮电大学,2010.
作者简介:杨英英(1989—),女,汉族,陕西延安人,专职教师,助教,硕士研究生,研究方向:数据分析。