树形算法在电信客户细分中的应用研究

2014-04-29罗军张俊勇

计算机时代 2014年5期

罗军　张俊勇

摘要：树形算法由于其对大量高维数据的有效处理、对噪声点的高容忍度和对知识的有效表示，是最常用的CRM客户细分技术。通过对几类树形算法，包括决策树C4.5算法、决策树CART算法和平衡随机森林BRF算法，在解决电信客户细分问题中的表现进行分析研究，并且选用BP神经网络算法作为树形算法的参照，最终研究得出：平衡随机森林在处理电信客户问题上具有最好的表现。

关键词：决策树；随机森林； BP神经网络；数据预处理

中图分类号：TP393 文献标志码：A 文章编号：1006-8228（2014）05-01-03

Abstract： Due to the effective processing of large amounts of high-dimensional data， high tolerance for noise and effective representation of knowledge， tree algorithm is the most common CRM customer segmentation technique. The performance of tree algorithm， including the C4.5， the CART and the balanced random forest， in solving telecommunication customer segmentation problems is analyzed. BP neural network algorithm is compared. Experiments have shown that balanced random forest has the best performance in dealing with the problem.

Key words： decision tree； random forest； BP neural network； data pre-process

0 引言

在当前我国电信市场激烈的竞争环境中，客户成了电信企业争夺的资源，客户关系管理（Customer Relationship Management，简称CRM）由于其能够帮助企业更好地了解客户并增加盈利，在电信企业中广泛应用。客户细分作为CRM的核心问题日益受到人们的关注。客户细分是指将市场分为具有不同需求、特征或行为的不同购买者的过程。客户细分的主要目的[1]是：①预测客户行为，为企业和客户之间交流提供了基础，使得企业客户为客户提供更好的服务、防止客户流失；②通过对客户合理的类别划分，分析出当前以及预期客户群的区段，判断不同区段的突出特点，准确认识客户的总体构成，对客户的服务和营销更具针对性。

树形算法是最常用的CRM客户细分技术，研究分析各树形算法在对电信客户数据进行细分挖掘时的不同表现，找到客户数据细分效果相对最好的算法，对于提高CRM客户细分技术有推动意义。

1.3 平衡随机森林BRF算法

平衡随机森林是在随机森林的倾斜数据处理问题上，Chen （2004）[7]提出的一种改进算法。BRF是在随机采样输入数据时，使多数类和少数类的数据量相当，在处理大型数据时较为有效。

1.4 BP神经网络

BP神经网络[8]的拓扑结构（见图1）由一个输入层、一个输出层、一个或多个隐藏层组成，单元之间由权重w相连接，每个单元有一个相关的偏倚。网络的训练过程为数据从输入层通过隐藏层到输出层前向传播，在输出层进行评估后将错误反馈回输入层，在此过程中调节网络节点连接权重和偏倚，使得网络的误差平方和最小。最终训练完成的神经网络模型用作树形模型的对照组。

2.2.1 决策树

⑴ Gini指标计算优化

在决策树[9]CART的生成中，Gini指标因为需考虑所有子集划分，所以其计算量随着特征值集的增加呈指数量上升。显然，缩小值集空间能显著降低运算复杂度，但当特征的值个数较少时（如<10），去除前1/3会影响到最优子集的选择，但随着值个数的增加，这种影响会越来越不明显。另外，当每个值出现的次数相对平均时，缩小值集空间会明显影响到最优子集的选择，而当次数差异较大时，去除出现次数非常小的值几乎不会影响到最优子集。因此，为优化Gini指标的计算，对值集空间进行缩减，方法：对于值个数小于10的特征，仅去除分布小于1%的值；而对值个数大于10的特征，去除值分布排名前1/3或其分布小于1%的值。

⑵ 树剪枝

由于前期的数据处理已经对数据中存在的噪声进行了平滑，所以不再采用决策树剪枝。

2.2.2 平衡随机森林

平衡随机森林BRF算法中主要有两个参数需要确定，一为森林规模，即森林中树的数量；二为树节点生成时随机特征集的大小。

⑴ 森林规模

通过对于BRF在不同的数据量和森林规模下的性能评估如图2所示，得出本次BRF算法效果最优值在森林规模scale=610时取到，因此将森林规模设定为610。

⑵ 树节点生成时随机特征集的大小

通过对不同的随机特征集数量设置对BRF挖掘分类效果的影响分析，N代表随机特征集个数，得出：随着随机特征集设置数量的增大，BRF效能也稍有提高，但相应地，森林的生成时间也被明显延长。另外，当随机属性集较大时，算法挖掘效果提升不明显，但森林生成时间却被极大地延长。因此，为了平衡时间与算法挖掘效果，将随机森林中的树节点生成属性集个数设定为5。

学习率的设定对神经网络的建立非常重要，如果学习率太大，可能会在不适当的解之间摆动；反之如果学习率太小，学习将进行得过于缓慢。经验法则是利用训练集迭代次数t，将学习效率置为1/t大小。图3为在均衡样本下学习率分别为1.0和1/t时神经网络收敛比较。4.5是多叉分裂树，而CART为二叉分裂树）不同而带来的性能影响外，还可能由于文本为平衡CART在Gini指标的计算中的时间复杂度问题而进行的算法优化，造成了CART分类效果的降低。神经网络性能最低，这可能是由于其训练周期不够造成的。神经网络在数据量巨大时其训练缓慢是一个不容忽视的问题。

3 结束语

如何更有效地将数据挖掘技术应用于CRM，帮助企业通过有效的交流去了解和影响客户行为，改善客户获取，客户保持，增强客户忠诚度，并由此增加盈利等是目前的研究重点。本文通过分析比较几种树形算法在电信客户细分应用中的表现，得出平衡随机森林具有相对较好的挖掘分类效果的结论，这对树形算法更好的电信客户细分应用提供了一定的技术和理论支持。当然，树形算法在客户细分应用中还有着更为深入的研究，有待于我们进一步探讨。

参考文献：

[1] Turban E， Aronson J E， Liang T P， Sharda R. Decision support

and business intelligence systems[M]. Pearson Education，2007.

[2] John Ross Quinlan. C4.5： programs for machine learning[M].

Morgan Kaufmann，1993.

[3] Jiawei Han， Micheline Kamber. Data Mining Concepts and

Techniques[M]. Slsevier，2007：292-293

[4] Ji Zhou， Dasgupta D. Estimating the Detector Coverage in a

Negative Selection Algorithm[C]. Genetic and Evolutionary Computation Washington， DC June，2005：88-97

[5] Oates T， Jensen D. The effects of training set sizes on decision tree

[C]. Proc of the 14th Int'l Conf on Machine Learning. Nashville： Morgan Kaufman，1997：254-262

[6] Breslow L A， Aha D W. Simplifying decision trees： a survey[J].