基于R语言的运营商4G用户流失预警模型研究
2017-07-06曾国文赵宝峰王波
曾国文 赵宝峰 王波
【摘 要】为了减少运营商核心资源的流失,降低4G用户流失率,通过采用与大数据技术紧密结合的R语言技术,从消费异动、竞争对手影响、不正常沉默和长期异地漫游等维度设计建模指标,基于逻辑回归分析搭建了4G用户流失预警模型,并通过卡方检验和ROC分析等方法验证了模型的正确性。该模型预测效果明显,可以很好地对4G用户的状态进行精准定位,以达到对4G用户的保有。
【关键词】4G用户 流失预警模型 R语言 逻辑回归
1 引言
随着数据通信与多媒体业务的发展,第四代移动通信(4G)快速兴起,为移动通信用户提供了“高速对话”,通信运营商全业务经营已成趋势,这也加剧了市场竞争,为了获得更多的市场占有率,运营商想方设法降低用户流失率,以减少用户离网现象的发生。研究表明,若一个公司的用户流失率降低5%,则利润将会增加25%~85%[1]。企业往往获得一位新用户的费用是比较高的,但是挽留一位用户有时仅仅只需要一个电话或者策略[2]。因此,运营商需对用户属性进行精准定位,试图挽留存在流失倾向的用户资源[3]。4G用户资源俨然已成为运营商核心资源,如何通过建立数据挖掘模型进行4G用户流失预警,对有流失倾向的用户进行精准定位是当前重要课题。本文通过对用户流失历史情况进行统计分析,归纳出用户流失的共有特性,设计建模指标,搭建4G用户流失预警模型并提出相应的挽留政策,最终目的是降低用户流失率[4]。
2 建模技术及模型选择
2.1 建模技术选择
R语言一直是统计学家的经典工具,它是一种开源软件编程语言与操作环境,主要用于统计分析、绘图、数据挖掘。R语言具有丰富的统计方法,拥有强大的统计功能,是一套完整的数据处理、计算和制图软件系统,提供数学计算的环境,用户能够灵活地在其中进行数据分析,甚至创造出符合需要的新的统计计算方法。
此外,大数据处理是潮流和趋势。当前出现了以Hadoop家族为代表的用于开发和运行处理大规模数据的软件平台,重点是全量数据分析,而R语言的重点则是样本数据分析,这两种技术结合在一起刚好取长补短。因此,本文采用R语言作为数据建模语言,后续的建模过程均基于R语言开展。
2.2 模型选择
用户流失即企业原有用户不想或不再使用该企业的服务[5]。用户流失的原因多种多样,如:Kenveney通过对消费品用户流失原因进行分析,将用户流失类型分为价格流失型、产品流失型、服务流失型、技术流失型、便利流失型等;Madden、Savage和Coble以澳大利亚ISP市场不同的移动用户消费行为为研究对象,提出定价、不方便性、核心服务失败、服务接触失败、服务失败的反应、竞争对手、道德问题等因素影响用户流失意愿[6]。
逻辑回归分析方法[7]是数据挖掘技术中的分类方法,也是基于统计理论的识别技术。其主要目的是进行分类,同时预估事件发生的概率,优点是能处理二值因变量,不需满足其他多变量技术所要求的假设,可进行模型精确度和拟合优度的检验以便评估模型的预测力等。
本文采用了逻辑回归技术来搭建4G用户流失预警模型。从运营商的角度来看,用户状态可分为在网和离网。其中,在网为依然使用运营商为其提供的服务;离网为不再使用,也即是流失。判断用户状态属于一个典型的二分类变量问题时,可采用逻辑回归分析来处理。逻辑回归模型公式如下[8]:
(1)
由于邏辑回归模型是非线性模型,所以就少了像线性模型那样的约束,如自变量与因变量需具有线性关系等。其实逻辑回归本质上是线性回归的一种,只是逻辑回归中的因变量是未知的类别变量取某一个值的概率[9]。逻辑回归是一个被逻辑方程归一化后的线性回归,事实上以上模型公式只需进行log it变换即可变换成线性形式,公式如下:
log it (2)
4G用户流失预警模型设计流程如图1所示:
3 用户流失预警模型构建
3.1 分析思路
本文将搭建4G用户流失预警模型,其研究过程主要实现以下目标:
(1)定义4G用户的消费异动、不正常沉默、呼转竞争对手、异地漫游这4类流失类型的口径,完成建模指标的设计;
(2)搭建4G用户流失预警模型;
(3)对模型进行评估验证。
建模过程:该业务问题是一个二元预测问题(是否流失),并且与之相关的数据大都是数值型的数据,适合采用逻辑回归的方法来建模。
3.2 建模指标设计与分析
通过对已流失4G用户进行观察、统计和分析,发现在用户流失之前可能会出现以下方面的情况,可围绕这些情况进行建模指标的选取:
(1)消费异动:与历史消费水平相比,突然出现消费异常波动,一般通信行业选取ARPU(Average Revenue Per User,每用户平均收入)值作为衡量用户消费水平的指标,因此设计建模指标包括近三个月ARPU标准差、(本月ARPU-前三均值)/前三均值;
(2)竞争对手影响:用户日常联系的主要通信圈子外网占比增加,网外通话占比增加,受竞争对手客服的影响或者有呼转到竞争对手的情况,因此设计建模指标包括本月网内通话次数占比、本月网外通话时长占比、本月网外主叫次数占比、本月竞争对手客服主被叫通话次数、本月呼转竞争对手次数;
(3)不正常沉默:通信行为出现突然减少乃至不正常沉默,从通话时长、通话次数和4G流量的使用情况综合考量,因此设计建模指标包括(本月通话时长-前三均值)/前三均值、最近三个月MOU(Minutes Of Usage,平均每户每月通话时间)值标准差、(本月通话次数-前三均值)/前三均值、前三月通话次数均值/本月通话次数、最近三个月联系次数标准差、本月4G流量;
(4)长期异地漫游:若用户近期经常在异地漫游,则有可能该用户主要生活在异地,并有可能换号,因此设计建模指标包括(本月异地漫游通话次数/本月通话总次数)-(异地漫游通话次数前三均值/通话总次数前三均值)、(本月异地漫游通话次数/本月通话总次数)-(上月异地漫游通话次数/上月通话总次数)、本月异地漫游通话次数、上月异地漫游通话次数;
(5)其他:统计分析还发现流失用户与入网时长关系紧密,入网时长越长,流失的可能性就越小,因此把入网时长也作为建模指标。
3.3 数据准备与数据探索
(1)数据准备
从广东移动某分公司经营分析数据集市,通过ETL获取上述建模指标所需数据源,数据提取的口径完全参照该运营商市场部门日常工作需求。如提取2015年涉及上述指标所需的在网和离网4G用户消费及通信行为基础数据集,总样本数为559 185,其中选取训练集和测试集比例为6:4。
将所有基础数据集从数据集市导出到R语言建模环境,在该建模环境对数据进行预处理,采用统计方法计算生成数据建模指标。因变量为用户是否流失,也即该字段判断用户是在网还是已经离网;自变量为用户消费通信行为各指标字段。
(2)数据探索
在对基础数据进行数据探索的过程中,发现存在缺失值,因此利用R语言函数进行缺失值分析。绘制缺失值统计图如图2所示:
考虑到缺失值或异常值对统计分析结果和建模结果会产生不利影响,因此直接剔除缺失的数据和消费波动很大的数据。
进行建模指标的相关性分析时,部分指标的相关性分析结果如图3所示:
回归分析一般假设建模变量之间都是独立不相关的,如果有任何两个变量存在强相关性,则只需保留其中一个而删除其余变量[9]。将建模指标中存在明显相关的指标进行筛选剔除,使得所有自变量都不显著相关,避免自变量之间存在很强的共线性而导致模型效果不好。
采用箱线图、直方图、分析曲线等统计图表技术对各建模指标数据进行分散分布情况分析,发现异常指标,寻找奇异值,并进一步进行数据清洗和数据转换,以确保建模数据的有效性。
3.4 数据建模与模型评估
(1)数据建模
本文研究过程中将样本数据按0.6、0.4的比例分为训练集和测试集,进行数据建模分析的时间窗口设置如图4所示:
采用R语言逻辑回归函数对已经完成数据清洗和转换的训练集数据建模指标进行逻辑回归建模,经过反复多次的建模指标分析,剔除掉P-Value值小于0.05的指标,再用评估函数对模型结果进行初步评估,具体如图5所示:
从上述评估结果可以发现,所有变量的P值均小于0.05,这说明通过了显著性检验。至此,已完成了基于R语言搭建的通信运营商4G用户流失预警模型,下面需要对模型进行深入评估。
(2)模型评估
先对模型进行卡方检验,检验结果如图6所示:
随着变量从第一个到最后一个逐个加入模型,模型最终通过显著性检验,这说明由上述这些变量组成的模型是有意义且正确的。
采用ROC曲线(Receiver Operating Characteristic Curve,受试者工作特征曲线)分析方法这样一种可视化的方法来衡量模型的优劣。该曲线的横坐标、纵坐标分别表示1-反例的覆盖率和正例的覆盖率。采用R语言专有函数包计算ROC曲线各项结果值,并用绘图函数绘制图形,具体如图7所示。
ROC分析思想来源于统计学的决策理论,ROC曲线越凸则说明判断模型价值越高,并可以通过计算ROC曲线下的面积做定量分析,面积越接近1,表明模型效果越好[10]。
图7中,AUC即为ROC曲线和y=x直线之间的面积,模型的优劣是通过该面积大小来判断的,而对于一般情况而言,AUC大于0.7就能够说明模型是比较合理的。上述结果中,AUC为0.86,这表明本文研究中建立的模型是合理的。
使用已建好的模型计算测试数据集流失概率,取流失概率大于0.5的用户预测其潜在流失,再与实际情况比较得到命中率为pv=74%,而在随机的方式下抽取出正类的比例为k=10%,从而可得pv/k=7.4,预测效果提升了7.4倍,同时计算模型的整体准确率达到了91.4%,因此本文研究搭建的模型效果是明显的,模型预测的准确率也能达到较高水平,可从消费异动、竞争对手影响、不正常沉默和长期异地漫游等维度指标建模准确地预测用户是否潜在流失。
4 结论
本文采用能够很好地结合大数据技术的R语言来建模,并从消费异动、竞争对手影响、不正常沉默和长期异地漫游等维度创新性地设计建模指标,最终成功搭建了4G用户流失预警模型。通过卡方检验和ROC曲线验证了模型是正确的、合理的,计算提升值提升了7.4倍,且计算模型的整体准确率达到了91.4%,这表明模型预测效果是明显的,从而验证了本文研究的模型有助于对有流失倾向的用户进行精准定位,以便及时地進行预警挽留,达到对核心资源的保有。
参考文献:
[1] 方红. 读者流失预警模型及其在公共图书情报机构中的应用[J]. 黑龙江科技信息, 2007(4): 103.
[2] 严伟. 如何防范客户流失[J]. 企业管理, 2003(6): 52-54.
[3] 林明辉. 基于BP网络的通讯行业客户流失预警模型研究[J]. 陕西学前师范学院学报, 2016,32(3): 146-149.
[4] 顾光同,王力宾,费宇. 电信客户流失预警规则及其信度测定实证研究——以云南电信为例[J]. 云南财经大学学报, 2010,26(6): 94-98.
[5] 肖水清. 基于CRM探讨电信业的客户流失问题[J]. 现代计算机, 2006(1): 57-59.
[6] SY Hung, DC Yen, HY Wang. Applying data mining to telecom churn management[J]. Expert Systems with Applications, 2006,31(3): 515-524.
[7] 施朝健,张明铭. Logistic回归模型分析[J]. 计算机辅助工程, 2005,14(3): 74-78.
[8] 付杰,方芳,严克文. 基于Logistic回归的通信业客户流失预测与挽留研究[J]. 鄂州大学学报, 2015,22(6): 110-112.
[9] 任康,李刚. Logistic回归模型在判别分析中的应用[J]. 统计与信息论坛, 2007,22(6): 71-73.
[10] 万柏坤,薛召军,李佳,等. 应用ROC曲线优选模式分类算法[J]. 自然科学进展, 2006,16(11): 1511-1516.