APP下载

基于最优加权组合的电信客户流失预测模型设计研究

2017-07-06张小敏伍小平

赤峰学院学报·自然科学版 2017年12期
关键词:决策树预处理权重

张小敏,伍小平,丰 婷,胡 景

(安徽财经大学 管理科学与工程学院,安徽 蚌埠 233030)

基于最优加权组合的电信客户流失预测模型设计研究

张小敏,伍小平,丰 婷,胡 景

(安徽财经大学 管理科学与工程学院,安徽 蚌埠 233030)

针对电信客户流失问题,本文设计了一种基于决策树C5.0、BP神经网络及SVM支持向量机三种分类器融合的组合预测模型,利用最优加权组合预测方法来确定各模型的权重值.预测结果表明:组合预测模型的准确率高于传统的单一分类预测模型,构建此模型对解决电信客户流失预测方面的问题具有应用价值.

电信客户流失;最优加权组合预测;决策树C5.0;神经网络;支持向量机

0 引言

电随着电信业的竞争日趋激烈,市场日趋饱和,市场份额的扩大对电信业的影响也越来越大.而发展一个新客户比挽留一个老客户所耗费的成本要高很多倍[1],所以采取相应的策略挽留老客户,以避免客户的流失就显得至关重要.目前存在的解决客户流失问题的有效方法,大多数采用数据挖掘技术来建立客户消费特征等属性与客户流失可能性的关联模型,从而对客户状态进行实时预测.数据挖掘中常用于客户流失的分类模型有:Logistic回归、决策树[2]、神经网络[3]、支持向量机[4]、贝叶斯、KNN分类等,但传统的基于参数模型或单一的基于人工智能的方法难以实现较高精度的预测,所以建立组合预测模型,提高预测精度,是解决电信客户流失问题的必然趋势[5].

针对传统单一预测模型的局限性,本文设计了一种基于决策树C5.0、神经网络及支持向量机3种模型融合的组合预测模型,在数据挖掘工具Clementine 12.0中对客户数据进行分析,并利用最优加权组合预测方法来确定各模型的权重值.通过比较这4种模型的预测准确率,验证了组合预测模型的有效性.

1 最优加权组合预测方法

组合预测方法是通过求个体预测值的加权算术平均而得到的组合预测值,能增加预测结果的可靠性和稳定性.根据陈晔[5]对各种组合预测方法的结果及评价,发现最优加权组合预测方法准确率最高,因此本文采用最优加权组合预测方法对客户流失进行预测.最优加权法实际为依据某种最优准则构造目标函数Q,在约束条件下(如使权重之和为1)极小化Q,求得组合模型的加权系数.其数学语言描述如下[6]:

设由实际观察值构造的m种预测方法,记为:φ1(x),φ2(x),…,φm(x).为讨论方便将符号记为:

(1)y=(y1,y2,…,yn)T,y(l)=φ1(x);

(2)在x1,x2,…,xn点的拟合值为:yi(l)=φ1(xi),(i=1,2,…,n);

(3)与实际值的误差为:

由式(1),可得:eij=ei(l)=(φj(xi)-yi).令

于是得到最优非负权重系数的非线性规划模型为:

对于(3)式实际上是一个线性约束的二次规划问题,又由∀W≠0总有ξ(W)>0,可知一定有最优解存在.最后算得其最优解:W*=(W1*,W2*,…,Wm*)T,由此得出最优组合预测模型:

2 组合预测模型的建立

2.1 数据的准备与预处理

本文电信客户流失的数据来源是Clementine 12.0中的数据telco.sav,该数据共有1000条记录,每条记录有42个字段,但不是每个字段都与目标属性churn有关,所以首先需要对数据进行预处理.预处理主要分为两步:一、首先需要检测数据的完整性,观察数据中是否存在缺失数据,如果有,则增加过滤节点将其去除;二、该数据字段很多,所以先要使用特征选择节点,对于不能对预测结果产生有用信息的预测变量或数据,可以将其删除.最后选取了对输出结果churn影响较大的28个字段,预处理后的数据如表1:

2.2 3种单一预测模型的建立

在数据准备与预处理后,就可以将数据输入模型,对每种单一模型进行相关的预测.以决策树C5.0为例构建单一预测模型,在Clementine 12.0中构建其模型流程图.模型的输出用$C-churn、$CP-churn表示,$C-churn代表电信客户是否流失,1代表流失,0代表不流失;$CP-churn表示流失的概率大小.

然后分别用神经网络、支持向量机建立预测模型,得到3种单一模型的实验结果.结果表明:决策树C5.0模型的准确率最高,为91.1%,其误差平方和MSE为89;神经网络模型为的准确率为87.1%,MSE为129;SVM模型的准确率为87.3%,MSE为127.

表1 预处理后的电信客户属性字段

2.3 组合预测模型的建立

然本实验的总样本为1000条,根据3种单一模型的预测结果,并由最优加权法中的(2)式及测试集计算得:

根据(3)式,利用数学软件Matlab求解二次规划,求得权重向量:

即组合模型中决策树C5.0的权重为0.5709,神经网络模型的权重为0.2324,SVM模型的权重为0.1967,于是由(4)式得到组合模型的形式:

3 模型对比与实验分析

根据求得的组合预测模型公式(5),可求出组合预测模型每个样本的离网概率,从而求出预测的正确率,不同模型的预测结果比较如表2所示:

表2 不同模型的预测结果比较

从表2不难看出,4个模型预测的平均精度最高的是组合模型,验证了组合预测模型的准确率高于传统的单一分类预测模型,原因在于:决策树C5.0、BP神经网络及SVM三种模型都是结合自身模型的特点进行预测,对预测对象的分析具有一定的局限性,而组合预测方法能利用更多的信息,是单一模型之间优势互补,提高了预测的精度.

4 结束语

本文针对电信客户流失问题,考虑到传统单一模型难以实现较高精度的预测,提出了一种基于多分类器融合的组合预测模型,在Clementine 12.0中对决策树C5.0、BP神经网络及SVM三种模型分别进行预测,并利用最优加权组合方法来确定各单一模型的权重值,这转化为在Matlab中求解二次规划问题.通过对比4种模型的预测结果得到:组合预测模型的准确率高于传统的单一分类预测模型,更能直观地显示出流失客户的基本特征,构建此模型对解决电信客户流失预测方面的问题具有应用价值.

〔1〕肖仲东.数据挖掘在预测电信客户流失中的研究与应用[D].湖南师范大学,2012.

〔2〕郭彦伟.电信行业客户流失分析的决策树技术[J].科技和产业,2005,5(11):7-9.

〔3〕王志君.基于神经网络的客户流失预警研究[D].吉林大学,2013.

〔4〕仲继.电信企业客户流失预测模型研究[D].西安科技大学,2014.

〔5〕陈晔.基于组合预测的电信客户流失预测分析[D].湖南大学,2011.

〔6〕耿悦敏.基于最优加权的组合预测模型及应用[J].五邑大学学报(自然科学版),2008,22(1):63-67.

O211.67;O29

A

1673-260X(2017)06-0003-02

2017-04-11

安徽财经大学大学生科研创新基金项目 “基于多分类器融合的电信客户流失预测模型”的阶段性成果之一(XSKY1717ZD)

猜你喜欢

决策树预处理权重
权重常思“浮名轻”
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
为党督政勤履职 代民行权重担当
基于预处理MUSIC算法的分布式阵列DOA估计
基于决策树的出租车乘客出行目的识别
浅谈PLC在预处理生产线自动化改造中的应用
基于局部权重k-近质心近邻算法
络合萃取法预处理H酸废水
基于自适应预处理的改进CPF-GMRES算法