基于有效特征选择的高价值移动通信用户预测方法
2017-04-13余自林张晓龙
余自林,张晓龙
(1.武汉科技大学计算机科学与技术学院,湖北 武汉,430065;2. 武汉科技大学智能信息处理与实时工业系统湖北省重点实验室,湖北 武汉,430065)
基于有效特征选择的高价值移动通信用户预测方法
余自林,张晓龙
(1.武汉科技大学计算机科学与技术学院,湖北 武汉,430065;2. 武汉科技大学智能信息处理与实时工业系统湖北省重点实验室,湖北 武汉,430065)
高价值移动通信用户预测是电信客户关系管理中的一项重要内容。针对建立预测模型时遇到的高维、大规模、类不平衡等数据处理问题,提出了一种基于有效特征选择的预测方法。利用欠采样方式从初始不平衡数据集提取多个平衡训练集,使用结合Pearson相关性分析和随机森林特征重要性评估的特征选择策略,在集成学习方法中嵌入加权和投票机制获得最优的特征子集,最后采用随机森林算法建立预测模型。实验结果表明,该预测模型可以有效降低特征集的维度并提升对高价值移动通信用户的预测性能。
移动通信用户;不平衡数据集;特征选择;Pearson相关分析;随机森林;预测模型
随着“互联网+”商业模式的快速推广以及4G通信市场竞争的全面展开,如何识别并发展高价值用户是移动通信企业能否增加利润并提高市场竞争力的关键。目前对高价值电信用户的定义并无统一标准,相关学术研究集中于用户细分[1-3]和流失预警[4-5]等方面,对用户预测类的研究相对较少,因此根据客户消费记录和流失数据建立高价值移动通信用户的预测模型具有重要的应用价值。然而,这些用于建模的数据属于大规模的高维不平衡数据集,其冗余特征不仅会增加应用成本,还可能导致过拟合现象的发生,从而降低模型的泛化能力和对少数类的预测性能[6],所以设计有效的特征选择方法以降低特征集的维度是建立预测模型的核心工作。
对于高价值移动通信用户数据集,在选择最优特征子集时,需要考虑类不平衡问题所带来的训练集提取、特征子集寻优等问题。文献[7]提出了基于过滤式(Filter)的EFSBS方法,使用对称的不确定性为相关性度量准则,可以较好地保证特征之间的独立性,该方法只适用于离散型特征的筛选。文献[8]证实了基于随机森林(random forest,RF)特征选择原理的集成学习方法可以在一定范围内处理不平衡特征选择问题,但在初始特征集包含的冗余特征过多或者过少的情形下,以初始特征个数的平方根为有效特征个数的方式会对模型分类效果造成很大影响。文献[9]提出了基于封装式(Wrapper)的RFFS方法,以随机森林的分类精度为准则函数,采用序列后向搜索策略在小样本上可以取得较好的分类效果。但是,随机森林算法本身对于特征之间的多重共线性并不敏感,因而难以单独实现最大化去除冗余信息。
鉴于现有方法的局限性,本文根据企业实际用户数据以及数据挖掘相关技术,提出一种基于混合式Filter-Wrapper特征选择模式和集成学习思想的不平衡特征选择方法,并采用性能稳定的随机森林算法建立高价值移动通信用户预测模型,以期为后续商业决策提供有价值的分析支撑。
1 数据收集
1.1 高价值移动通信用户的判定
用户平均收益(average revenue per user, ARPU)是通信运营商衡量用户价值的重要指标,结合ARPU和其他不同指标可以识别出不同业务领域的高价值用户。一般情况下,现有移动通信用户连续N月的月均消费水平的维持能力会随N值的增长而提高。因此,可以根据连续一年的月均ARPU值及客户流失情况来快速定位具有良好稳定性的高价值移动通信用户群体。
某省电信公司在2015年9月至2016年8月期间个人和家庭移动通信用户的月均ARPU值及对应各档次的客户年流失率如图1所示。由图1可见,在一定的月均ARPU范围内,随着ARPU值的提高,移动通信用户在未来一年的年流失率会近似按指数规律下降至某一平稳波动水平,即当用户消费水平高于某一阈值后,其流失率较低并且相对稳定。
图1 移动通信用户的月均ARPU及年流失率
Fig.1 Average monthly ARPU and annual loss rate of mobile communication users
据统计,ARPU高于190元的用户群体虽然仅占该省移动通信用户总量的1.3%,但却贡献了高达8.6%的移动通信企业年收入。因此,本文中高价值移动通信用户的判定准则为:在网时长不低于一年且连续一年的月均消费金额不低于190元。
1.2 数据提取
移动通信用户消费水平的提升是一个渐变的过程,从低端直接跨到高端层面的情况极少发生。为了提高模型的预测精度,根据业务经验将研究目标锁定在连续一年月均ARPU值在100~190元之间的用户,将那些在未来一年内会成长为高价值用户的群体标记为正类,其他群体则标记为负类。
基于客户关系管理系统,可以从消费特征、终端特征、消费行为变化、互联网应用和终端行为匹配5个方面提取目标用户的基本特征以及相关数据。本次研究中,随机抽取包含12万条记录、110个用户特征、正负类样本不平衡度接近1∶3的原始数据集。从原始数据集中随机抽取10万条记录作为初始数据集,用于特征选择及模型训练;剩余2万条记录组成验证集,用于检验模型的预测效果。
2 特征选择方法PREFS
从数据挖掘角度来看,高价值移动通信用户预测是基于高维不平衡数据集的大规模二分类问题,其数据集中包含了大量的连续型特征和少量离散型特征,且非目标特征之间存在复杂的线性和非线性关系,难免会出现信息重叠的现象。
为了充分利用Wrapper模式对模型性能的提升作用,可采用随机森林算法自带的特征重要性评估机制进行特征选择。该机制虽然能在一定程度上降低特征集的维度并提高模型的预测精度,但不能有效剔除包含重复信息的特征。对线性关系敏感的Pearson相关性分析可以很好地弥补这一不足,其以Filter模式去除高自相关性特征的优势可以作为特征预选择工具,从而降低特征选择方法的时间复杂度。同时,采用基于随机有放回欠采样技术的集成学习模式,可在多份相互独立的训练集上进行特征选择工作,进一步降低过拟合的风险并提高模型的泛化能力。
在文献[9]中RFFS方法的基础上,本文设计了一种结合Pearson相关性分析和随机森林特征重要性评估的集成特征选择方法(Pearson and random-forest based ensemble feature selection,PREFS)。
2.1 Pearson相关性分析
Pearson相关性分析可以衡量特征之间的线性相关程度。该方法主要用于消除非目标特征之间的多重共线性,可作为Filter特征选择工具进行特征预筛选。对于两个服从正态分布的连续型随机变量x、y,其Pearson相关系数的计算公式为:
(1)
假设特征集有n维,相关系数阈值为ρ(0<ρ<1),通过式(1)可求得非目标特征两两之间的自相关系数ρxi,xj以及(n-1)×(n-1)维的自相关系数矩阵A、非目标特征与目标特征之间的相关系数ρx,y以及n×1维相关系数矩阵B。
对于特征xi和xj,若在矩阵A中存在ρxi,xj>ρ,在矩阵B中存在ρxi,y>ρxj,y,则舍弃特征xi,反之亦然。
ρ值直接影响模型的预测性能。可通过逐渐降低ρ的取值并进行特征选择工作以及相应建模实验,从而确定使表征模型性能的评估指标达到最优时的ρ值。
2.2 随机森林特征重要性计算
随机森林算法是一种基于决策树的组合学习方法,它采用boot-strap重采样技术,以CART回归树作为元分类器,对于含有噪声和缺失值的数据具有很好的鲁棒性。其内嵌的特征重要性评估机制[10]可以作为高维数据的Wrapper式特征选择工具,能同时处理连续型特征和离散型特征。
对于特征x,采用随机森林算法求解其特征重要度的步骤如下:
(1)基于装袋思想,利用袋内数据建立n棵决策树,分别计算每棵树的袋外分类误差exi1,i=1,2,…,n;
(2)随机修改袋外数据的特征x的值,再次计算新的袋外误差exi2;
(3)x对分类模型的重要度由式(2)得出:
(2)
对于同一特征集X,随机森林算法在不同数据集上获取的各个特征重要度大小会有所不同。在以加权和投票方式集成所有训练集上的特征选择结果时,为避免特征重要度大小不同对特征在X中最终排序的干扰,可以对各个特征的重要度进行离差标准化处理,如式(3)所示:
(3)
式中:Impmax和Impmin分别为X中特征的重要度最大值和最小值。经过数据标准化处理后[11],所有特征的重要度均分布于[0,1]区间,Ix即为特征x的重要性权值。
2.3 PREFS方法描述
在PREFS方法中,采用有放回随机欠采样方法从初始数据集中提取多份正负类数量均衡的训练集,综合Pearson相关性分析去除多重共线性的原理以及随机森林算法根据模型评估的反馈信息判断特征重要性的原理,以此作为混合式选择的筛选准则,经过层层过滤与结果集成,最终实现最大化剔除冗余特征和提高模型预测精度的目的。PREFS方法的具体描述如下。
输入:以有放回随机欠采样方式从初始数据集中提取的含m个特征的平衡训练集Si(i=1,2,…,n),阈值ρ。
输出:最优特征子集B,维度K。
处理1:混合式选择
(1)对于训练集Si,在Pearson相关性分析中根据ρ值去除部分冗余特征,生成特征子集Ai;
(2)根据随机森林特征重要性评估,生成降序特征子集Bi(如果特征不在Ai中,其权值补0);
(3)采用前序搜索策略,逐次使用j(j=1,2, …,m)个特征去建模,将使关键模型评价指标达到最优的j作为Si上最优特征子集的维度Ki。
处理2:集成选择
(1)加权:将n个训练集上所得的各个特征的重要性权值分别按照特征名称累加,生成包含m个特征的降序特征子集B0;
(2)投票:统计不同的Ki值及其频数,取频数最多的Ki为最优维度K,在B0中取前K个特征作为最优特征子集B。
3 实验与结果分析
3.1 评估指标
对于不平衡数据集问题,常用预测模型评估指标包括精度、召回率、准确率、F-score[12]和ROC曲线等。模型的运行结果可以用混淆矩阵来表示,如表1所示。
表1 预测结果的混淆矩阵
根据表1指标可以得出[13]:
正类预测精度Precision=TP/(TP+FP);
正类召回率Recall=TP/(TP+FN);
整体准确率Accuracy=(TP+TN)/(TP+FP+FN+TN)。
F-score为正类预测率和正类召回率的调和平均数,可以衡量模型对正类预测的整体性能,其一般形式如下:
F-score=2·Recall·Precision/
(Recall+Precision)
(4)
为了检验PREFS方法在高价值移动通信用户预测研究中对高维不平衡数据预测的提升效果及相应预测模型的整体性能,本文将选用特征子集的维度、整体准确率Accuracy和F-score这3个指标对模型性能进行综合评估。
3.2 实验方案
采用数据挖掘工具R3.2.0以及R语言包“stats”和“randomForest”,实验主要分为两个阶段:特征选择阶段和模型预测阶段。
为了验证所提方法的有效性,引入EFSBS[7]和RFFS[9]这两种传统特征选择方法进行对比,并采用各种方法所对应的原始算法建立预测模型。不同特征选择方法的关键信息如表2所示。
在UCI机器学习数据库中选取3份不同领域的大型不平衡数据集进行测试,如表3中D2、D3、D4所示,表中D1为本研究在数据收集阶段从某省电信公司提取的初始数据集。
表2 不同特征选择方法的关键信息
Table 2 Key information of different feature selection methods
名称模式算法准则PREFS集成+混合式RFPearson相关性、RF特征重要性EFSBS集成+过滤式C4.5对称的不确定性RFFS非集成+封装式RFRF特征重要性
表3 不同数据集的对比
将各数据集按照7∶3的比例分为训练集和测试集,以十折交叉验证方式,采用由不同特征选择方法所确定的最优特征子集和相应算法建立预测模型,再根据各模型在各测试集上的评价结果去比较不同特征选择方法的优劣。
然后,在由数据收集阶段提取的验证集上,使用在D1训练集上建立的预测模型去预测高价值移动通信用户,从而检验模型的实用性。
3.3 特征选择结果分析
在D1数据集上逐渐改变自相关系数阈值ρ并进行建模实验,结果如图2所示。由图2可以看出,F-score值的波动范围很大,表明ρ会对模型的预测结果产生直接影响。根据实验结果,在PREFS方法中,选取使F-score值达到最大的ρ值,即ρ=0.7。
图2 F-score随ρ值的变化情况
采用不同方法针对4个数据集的模型评估结果如表4所示。由表4中的平均值可以看出,PREFS的降维效果最好;相对于EFSBS和RFFS,PREFS在整体准确率这项指标上分别提高了12.9%和1.1%,在F-score指标上分别提高了12.9%和0.8%。这表明随机森林算法比C4.5决策树算法[14]更适合于解决此类包含很多冗余特征的不平衡二分类问题。
针对高价值移动用户数据集D1,与RFFS方法相比,在整体准确率指标基本持平的情况下,PREFS方法的F-score值提高了1.3%,表明初始特征集中确实存在一些影响正类预测的特征,而通过特征选择可以减少这些影响,这在一定程度上凸显了集成学习模式的优点。
表4 基于不同方法和数据集的模型评估结果
注:字体加粗项表示过拟合
在UCI数据集D2~D4上,EFSBS和RFFS方法出现了过拟合现象,PREFS方法表现正常。从D4的评估结果可以看出,对于低维平衡数据集,PREFS方法除了能大幅度降低特征集的维度外,在提升模型预测性能方面并无优势。但从D2和D3的评估结果可以看出,随着数据集规模变大、维度提高、正负类样本不平衡度增大以及高自相关性特征的增多,PREFS的降维效果以及对模型性能的提升作用逐渐得以体现。这在一定程度上说明,在使用随机森林特征重要性评估机制对不平衡数据集进行降维时,先使用Pearson相关性分析进行预选择很有必要,同时也验证了PREFS方法的有效性。
3.4 模型预测结果分析
经过一系列特征选择和对RF算法关键参数的逐一调优实验,得出基于PREFS方法和D1数据集所建模型的关键信息如下。
随机森林参数:决策树棵数ntree=200,随机特征选择个数mtry=7。
特征子集:近3月的月均ARPU,近3月的月均语音通话时长,近6月的大额缴费金额,近3月的月均数据流量,套餐金额,新增积分,长途通话次数,促销合约时长,ARPU/终端价格,增值业务费用,短信交往圈个数,终端销售价格,近3月的月均活动基站数,用户ARPU趋势,在网月份数,漫游通话次数。
所建模型分别在由数据收集阶段提取的验证集和D1测试集上的预测结果如图3所示。可以看到,相对于在D1测试集上的评价结果,预测模型在验证集上的各项评价指标表现稳定,虽然在准确率这项指标上略微下降了0.35%,但在本文最重视的F-score指标上却提升了1.0%,体现了该模型具有较强的泛化能力。考虑到至少有百万数量级的实际用户基数以及操作的复杂程度,本方法对模型预测性能提升而会带来相应的收益。
图3 预测模型用于验证集和测试集上的结果比较
Fig.3 Result comparison of prediction models applied to validation dataset and test dataset
因此,就预测高价值移动通信用户而言,基于PREFS特征选择方法和随机森林算法的模型具有一定的实用性,能够处理在大规模高维不平衡数据集上的二分类问题,可以较好地为企业决策提供服务。
4 结语
针对高价值移动通信用户,本文根据高消费、低流失的判定准则,基于一种特征选择方法PREFS和随机森林算法建立了预测模型。该方法结合Pearson相关性分析和随机森林特征选择原理,用于降低特征集的维度,避免过拟合现象的发生并提高模型的泛化能力,可以有效地处理不平衡数据集上具有连续型、离散型和复杂线性关系的特征选择问题。通过与传统特征选择方法和数据挖掘算法的建模结果对比,验证了该方法的有效性和实用性。今后将在降低PREFS方法的时间复杂度和提高模型的预测精度这两方面开展进一步研究。
[1] 吴昊. 基于用户细分的电信客户数据分析与建模[D]. 广州:广东工业大学, 2015.
[2] Eskafi M, Hosseini S H, Yazd A M. The value of telecom subscribers and customer relationship management[J].Business Process Management Journal,2013,19(4):737-748.
[3] 吴春旭, 鲍满园, 苟清龙.自组织映射聚类算法在电信客户细分中的应用[J].计算机系统应用,2010, 19(8):168-172.
[4] 丁君美,刘贵全,李慧.改进随机森林算法在电信业客户流失预测中的应用[J].模式识别与人工智能,2015, 28(11):1041-1049.
[5] 任谦.基于Clementine软件的电信客户流失分析及预警[D].北京:北京邮电大学,2012.
[6] 徐峻岭,周毓明,陈林,等.基于互信息的无监督特征选择[J].计算机研究与发展,2012,49(2):372-382.
[7] 李霞,王连喜,蒋盛益.面向不平衡问题的集成特征选择[J].山东大学学报:工学版,2011,41(3):7-11.
[8] 尹华,胡玉平.基于随机森林的不平衡特征选择算法[J].中山大学学报:自然科学版,2014,53(5):59-65.
[9] 姚登举, 杨静, 詹晓娟. 基于随机森林的特征选择算法[J]. 吉林大学学报:工学版, 2014, 44(1):137-141.
[10]Wu Q Y, Ye Y M, Liu Y, et al. SNP selection and classification of genome-wide SNP data using stratified sampling random forests[J].IEEE Transactions on Nanobioscience,2012,11(3):216-227.
[11]王正鹏, 谢志鹏, 邱培超.语义关系相似度计算中的数据标准化方法比较[J].计算机工程,2012, 38(10):38-40.
[12]Zhao M J, Edakunni N, Pocock A, et al. Beyond Fano’s inequality: bounds on the optimal F-score, BER, and cost-sensitive risk and their implications[J]. Journal of Machine Learning Research, 2013, 14:1033-1090.
[13]陶晓玲,韦毅,孔德艳,等.基于本体的网络流量分类方法[J].计算机工程与设计,2016,37(1):31-36.
[14]苗煜飞,张霄宏.决策树C4.5算法的优化与应用[J].计算机工程与应用, 2015, 51(13):255-258.
[责任编辑 尚 晶]
Prediction for high-value mobile communication users based on efficient feature selection
YuZilin,ZhangXiaolong
(1.College of Computer Science and Technology, Wuhan University of Science and Technology, Wuhan 430065, China; 2. Hubei Province Key Laboratory of Intelligent Information Processing and Real-time Industrial System, Wuhan University of Science and Technology, Wuhan 430065, China)
The prediction of high-value mobile communication user is an important part of telecom customer relationship management. This paper proposed a predicting method based on efficient feature selection to solve such problems as high dimension, large scale and imbalanced classes in data processing. With balanced training sets extracted from an initial imbalanced dataset using under-sampling, a feature selection strategy based on Pearson correlation analysis and random forest method assessing the feature’s importance was applied and the best feature subset was selected by embedding weighted and voting mechanism in the ensemble learning method. The final prediction model was built by random forest algorithm. Experimental results show that the proposed model not only reduces the dimension of feature set efficiently, but also improves its prediction performance for high-value mobile communication users.
mobile communication user; imbalanced dataset; feature selection; Pearson correlation analysis; random forest; prediction model
10.3969/j.issn.1674-3644.2017.02.013
2017-01-06
国家自然科学基金资助项目(60975031).
余自林(1989-),男,武汉科技大学硕士生.E-mail:1194561632@qq.com
张晓龙(1963-),男,武汉科技大学教授,博士生导师.E-mail:xiaolong.zhang@wust.edu.cn
TP181;TP391
A
1674-3644(2017)02-0149-06