APP下载

基于多算法融合的移动通信客户流失预测模型

2018-08-21王荣波王亚杰黄孝喜谌志群

计算机技术与发展 2018年8期
关键词:基尼决策树准确度

王荣波,王亚杰,黄孝喜,谌志群

(杭州电子科技大学 计算机学院,浙江 杭州 310018)

0 引 言

随着现代社会通信技术的飞速发展,手机等移动通信设备几乎成了人们生活中不可缺少的一部分,面对中国13亿的巨量人口,一场对通信用户的竞争在各电信运营商之间愈演愈烈。随着竞争的白热化,客户的流失成了各大电信运营商面临的主要困难,同时挖掘一个新客户所投入的成本也越来越高。有数据显示,成功赢得一个新客户比维护一个老客户所付出的代价要高出5倍左右[1]。客户的流失意味着所占市场份额缩小,在竞争中处于不利地位,甚至还存在着用户故意欠费后离网的异常行为等,这些都大大增加了运营商的运营成本。因此,在发展新用户的同时,维护老用户不离网成了各大运营商在市场争夺战中的核心竞争力,同时,对本网用户是否即将离网进行准确的预测有助于运营商及时有针对性地调整营销策略来挽留用户。所以,用户流失预测模型对电信运营商维护自身利益有着非凡的意义。

传统的预测模型主要有决策树[2-4]、Logistic回归[5]、贝叶斯分类器[6-7]和聚类[8-9]。比较智能的方法有神经网络[10-11]、自组织映射[12]、进化学习算法[13]、支持向量机[14]等。然而并没有一种模型适用于所有情况,每种模型都有各自的优点与不足,对于同一个数据集,不同的预测模型可能会得到不同的预测结果。目前国内的移动通信运营商拥有极其强大的数据存储和查询能力,但其使用的预测方法仍是基于单一算法预测的模型。为进一步提高客户流失预测的正确率,针对决策树、Logistic回归和人工神经网络这三种算法模型的特点和数据仓库[15]提供的大量信息,文中尝试将这三种模型进行合理的结合来构造优于它们单独预测效果的模型,并利用构造出的模型在该移动通信企业提供的数据集中进行预测,验证其有效性。

1 决策树、Logistic回归和神经网络

1.1 决策树

决策树是分类与回归的基本方法之一,决策树模型呈树状结构,在分类问题中,基于实例各个特征的分类过程可以看作是一个if-then规则集,也可以看作是定义在类空间和特征空间上的条件概率分布。它的主要特点是模型具有可读性并且分类的速度快。学习时,该模型是根据训练数据集和最小损失函数来建立的,预测时,训练好的模型将对新数据进行分类。决策树学习通常由三步组成:特征的选择、决策树的生成和决策树的剪枝。这里,通过基尼指数[16-17]来进行特征的选择,通过CART生成算法[18]来进行决策树的生成。

1.1.1 基尼指数

基尼指数是用来描述一个数据集的不确定性,基尼指数越大,数据集的不确定性也就越大。客户流失的预测问题属于二分类问题,对于二分类问题,若整个数据集D中样本属于正类的概率为p,则该样本集的基尼指数为:

Gini(D)=2p(1-p)

(1)

在该数据集中,根据特征A是否取某个值将其划分为两个独立的数据集D1和D2,则该数据集D基于特征A的基尼指数为:

(2)

1.1.2 CART生成算法

CART生成算法的主要思想是通过训练集生成尽可能大的决策树,之后利用验证数据集通过最小化损失函数的方法来修剪出最优子树,其算法步骤如下:

Step1:设节点的数据集为D,则对数据集D中的每个特征A的每个取值a,计算所有的基尼指数Gini(D,A)。

Step2:选择基尼指数最小的特征及其对应的值,根据该特征是否取这个值从数据集D生成两个子节点。

Step3:对这两个子节点递归地调用Step1和Step2,直到满足停止条件。

Step4:生成CART决策树。

1.1.3 CART剪枝算法

CART剪枝算法从“完全”的决策树的底部剪去一些子树,使原来的“完全”决策树变得简单,修剪后的决策树具有更好的泛化能力。该修剪过程主要分为两步:从“完全”决策树T0的底部不断进行修剪,直到T0根节点,该过程形成若干棵子树,组成序列{T0,T1,…,Tn};在独立的验证数据集上通过交叉验证法选择最优子树。

1.2 Logistic回归

对于二分类问题,Logistic回归是非常典型且应用极为广泛的模型,其本质上是利用线性回归模型[19]来逼近真实结果标记几率的自然对数。这种分类方法具有很多优点,例如可以直接对分类问题进行建模,而不需要事先的分布假设,从而避免了不准确的分布假设带来的问题。这种方式不仅仅是预测“类别”,而是预测所得类别的概率,这对许多使用概率进行决策的任务是非常有意义的。此外,Logistic回归采用的Sigmoid函数是具有任意阶导数的凸函数,具有良好的数学性质,现有的许多优化算法都可直接用于求解最优解[20]。假设输出的正类标记为“1”,输出的负类标记为“0”,则

(3)

其中,w为输入的权重向量;x为输入的特征向量;b为偏置值。

1.3 神经网络

人工神经网络是一种基于人的大脑进行仿真的数据分析模型,可以对海量数据进行并行处理和计算,用来表示认知、决策等智能控制行。典型的神经网络主要分为输入层、隐含层和输出层,由若干神经元相互连接,如图1所示。BP神经网络是应用最为广泛的神经网络算法,其输出为:

H=fi(∑wijxi+θj)

(4)

其中,wij为权重;fi为传输函数;θj为偏置值;xi输入。

BP神经网络通过有监督的方式进行学习,能够对任意复杂的非线性关系进行拟合,通过最小化输出误差来逐层修正各个权值和偏置值,学习过程如图2所示。

图2 神经网络学习过程

2 组合预测模型的构建

由于单一的算法模型可能对不同的数据集预测效果变化较大,有时还存在着不能容忍的劣势,现考虑将决策树模型、Logistic回归模型和BP神经网络模型进行线性组合,以对三种单一算法模型相互取长补短。为确定最佳权值系数,构造拉格朗日函数[21]作为评价指标。

(β1h1i+β2h2i+β3h3i-h3i)2+

λ(β1h1i+β2h2i+β3h3i-1)]

(5)

其中,N为训练样本集中的样本总数;β1,β2,β3分别为组合模型中决策树模型、Logistic回归模型和BP神经网络模型的权值系数;h1i,h2i,h3i分别为决策树模型、Logistic回归模型和神经网络模型对第i个样本的预测结果;λ为拉格朗日算子。

由于L(β1,β2,β3)为二次凸函数,故有唯一的极值,即最小值,令:

(6)

(7)

基于多算法组合的移动通信客户流失预测流程如图3所示。

图3 组合模型预测流程

具体的组合模型预测过程如下:

Step1:将预处理后的数据集进行划分,80%的数据作为训练集数据,剩余的20%作为测试集数据。

Step2:使用决策树、Logistic回归和BP神经网络在训练数据集上进行建模,其中,决策树的特征选择使用基尼指数,决策树的生成使用CART生成算法,最后对生成的决策树进行剪枝。

Step3:使用训练好的模型对测试数据集中的数据进行预测结果分析。

Step4:将决策树模型、Logistic回归模型和BP神经网络模型得出的预测结果带入构造好的拉格朗日函数,得出组合模型中各单一模型的权值系数,并构建组合模型。

Step5:根据构建的组合模型得出预测结果。

3 实验结果及分析

实验中的数据来自浙江省杭州市某移动通信公司数据仓库,通过HQL查询得出20 000条客户个人信息和近两个月历史消费情况的记录,其中包含某个客户是否离网的标记。对原始数据进行清洗,去除异常数据,如宽带号码、手机号码不是11位,手机号码不是以“1”开头,手机imei号码为“-99”(异常标记)等异常号码,并进行特征选择,最后选取该数据集中80%的数据作为训练集,余下的20%作为测试集,使用决策树模型、Logistic回归模型、BP网络模型和组合模型分别在训练数据集上进行学习,利用训练好的模型在测试数据集上进行预测,结果如表1所示(由于数据量太大的缘故,这里仅列出了10条数据)。

表1 三种单一模型与组合模型的客户流失预测结果

为了进一步比较3种单一模型和组合模型的预测效果,对表1的测试预测结果进行了详细的统计,结果表明:决策树模型的准确度为88.13%,Logistic回归模型的准确度为85.69%,BP神经网络模型的准确度为87.90%,组合模型的准确度为93.06%,如图4所示。

图4 各预测模型准确度对比

可以看出,组合模型综合了三种单一预测模型的优势,预测效果要优于任意一个单一预测模型,大大提高了预测客户流失的准确度,高达93.06%,与单一预测模型的效果相比,准确度提高了近6%。

4 结束语

在移动通信企业中,客户流失对其经济收益有着非常重要的影响,并且在运营过程中是常常出现的问题,只有有效地控制客户流失才能立于不败之地。由于企业对这部分客户制定策略的盲目性,使移动运营企业在营销过程中遭受了不可忽视的损失。根据决策树模型、Logistic回归模型和BP神经网络模型各自的特点,文中提出的组合模型综合了三种单一预测模型的优点,通过通信企业数据仓库中用户的信息和消费特征等海量数据进行学习,使预测的准确度得到了一定程度的提高。移动通信企业可根据组合模型得出的预测结果采取相应的营销手段来减少因客户流失而造成的损失。组合模型更高的准确度使运营企业在制定营销策略时更具有针对性。

猜你喜欢

基尼决策树准确度
Wimbledon Tennis
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
幕墙用挂件安装准确度控制技术
卷入选战的布基尼
强制“脱衫”
基于决策树的出租车乘客出行目的识别
动态汽车衡准确度等级的现实意义
基于肺癌CT的决策树模型在肺癌诊断中的应用
高炉重量布料准确度的提高