一种基于K—Means算法的移动客户聚类分析方法

2016-05-14李睿颖柳炳祥万义成

数字技术与应用 2016年8期

李睿颖　柳炳祥　万义成

摘要：客户投诉是客户对企业管理和服务不满的表达方式，是企业最有价值的信息来源，因此，如何分析处理客户投诉的数据，掌握投诉客户的基本特征，进而把客户的不满转化客户满意，锁定他们对企业和产品的忠诚，赢得客户的信任，是企业核心竞争优势所在。论文将K-means算法应用于移动客户的聚类分析中，针对某企业某段时间的移动通信投诉数据进行聚类分析，目的是根据移动公司投诉数据进行聚类，找到对每个类别客户应该采取的营销策略，以提升公司对客户的价值，改善客户关系管理工作。实验结果验证了方法的可行性和有效性，为移动客户聚类分析提供了一种分析的方法。

关键词：K-means算法移动客户聚类分析

中图分类号：TP309 文献标识码：A 文章编号：1007-9416（2016）08-0157-02

1 引言

客户投诉是每一个企业不可避免遇到的问题，它是客户对企业管理和服务不满的表达方式，也是企业有价值的信息来源，它为企业创造了许多机会。因此，如何利用处理客户投诉的时机而赢得客户的信任，把客户的不满转化客户满意，锁定他们对企业和产品的忠诚，获得竞争优势，已成为企业营销实践的重要内容之一。论文将K-means算法应用于移动客户的聚类分析中，目的是根据移动通信公司投诉数据进行聚类，找到对每个类别客户应该采取的营销策略。

2 K-Means算法

K-Means算法，也称为K-平均算法，是最常用普遍的基于划分的聚类方法，是根据数据样本中的属性值之间的相似度来对数据样本进行区分。它把最终分类的个数k随机地选取k个初始的聚类中心而且不断地迭代，直到取得目标函数的最小值或无法取得更进一步的优化，则生成最后的模型，即为聚类的最终结果。在K-means算法中，每一个簇当中都有一个中心，即为“质心”，k个簇同样就会有k个质心。任何一个样本被划到哪个簇中，就看它和哪个质心的“相似度”最大。K-means算法当中，权衡相似度的标准就是“距离”。一个数据样本为什么划分到这个簇，就是看这个样本是这个簇的质心的距离是最小，则是由样本的每一个属性的取值来共同参与决定。

K-Means算法的流程首先是选择k个簇的质心，由用户选定样本中的簇的数量k，然后生成k个质心；其次是计算每一个样本与k个质心的距离，把他归纳到距离最短的类别去；第三，计算出新的聚类质心，由于在指派样本的过程中，一个簇的某些样本可能会被划分到另一个簇，同时也可能其他的簇中的样本转移到这个簇中，则需要重新确定新的质心；最后，制定算法停止规则，输出最终结果。其中停止规则分为最大迭代次数和差异容忍度两种，最大迭代次数是指算法将不断重复“计算每一个样本与k个质心的距离---计算出一个新的聚类质心”，直达到“最大迭代次数”。当到达了极限后，算法停止计算，产生新的簇。差异容忍度是在每一次迭代介绍后，计算出每个簇计算前后质心的距离差，小于预先设定的差异容忍度，则算法停止，否则继续迭代。

3 K-Means算法在移动客户投诉数据聚类分析中的应用

3.1 实验数据集

实验数据集包含2711个样本，有6个属性（投诉内容，故障行政区，使用网络类型，责任原因，终端描述，客户品牌）组成，如表1所示。其中投诉内容A1-A9分别代表wifi问题、短信问题、宽带问题、国际漫游问题、手机上网问题、通话质量问题、网络设备故障、网络数据问题、信号问题。故障区B1-B20分别代表宝山区、崇明区、奉贤区、虹口区、黄浦区、嘉定区、金山区、静安区、长宁区、闵行区、浦东新区、普陀区、青浦区、松江区、徐汇区、杨浦区、闸北区、其他区域、外省、国外。使用网络类型C1代表2G网络，C2代表3G网络。责任原因D1代表客户问题，D2代表网络部门。终端描述E1-E15分别代表HTC、IPHONE、OPPO、步步高、华为、酷派、联想、中兴、小米、诺基亚、三星、索尼、其他。

客户品牌F1代表全球通，F2代表全球通VIP，F3代表动感地带，F4代表神州行。

3.2 实验过程

选取移动通信公司投诉数据excel表格导入SPPS-Modeler软件当中，首先选择“源”下方“excel”确保数据导入软件当中，其次选择“字段选项”下方“类型”确定模型的类型，最后选择“建模”下方众多模型中的“K-means”算法，完整的数据流如图1所示。

在实验过程中，选择模型使用分区数据时，确定选择聚类为几类，选取K-Means模型节点，分别选取k均值为2，3，4，5，6等多个参数进行实验分析，经过一系列k均值比较，比较得出选取k均值为5，即聚为5类；选用专家模式，选取最大迭代数10，其余参数均为默认，聚类结果如图2所示。

从图2中看出，聚类-1占训练集样本62.6%，聚类-2占6.0%，聚类-3占2.3%，聚类-4占11.0%，聚类-5占18.1%。最大聚类（聚类-1）与最小聚类（聚类-2）的比例为1：26.95。

3.3 实验结果分析

通过实验结果可知，聚类1中，投诉内容大致为信号问题、短信问题、通话质量差，通常这个投诉点发生在2G网络使用情况下，公司旗下每个品牌都有这些投诉现象。聚类2中，投诉点主要集中“神州行”用户对短信接收问题，以及对短信计费问题。聚类3中，投诉点在信号以及wifi问题。这类的wifi问题指在无线热点没法连接或者信号微弱，以及无法登录。聚类4中，在“神州行”品牌客户中，2G的网络手机网络数据会出现问题，建议所有的使用2G网络的客户，可以到移动营业厅或者网上营业厅进行网络免费手机，免费换3G卡的业务，并且资费不变。聚类5中，责任原因归属在网络部门自己。移动客户投诉所用的问题中，责任都出现在网络部门没有经常性的维护和发现问题。加强内部管理，加大检修力度，将信号问题有效的解决掉，这样客户的满意度才会增长。

4 结语

通过移动通信公司投诉数据聚类分析的实验表明，K-Means算法表现出相对良好的聚类性能。经过k取值的不同进行不断的比较，大大提高了聚类的优越性，从而实现良好的聚类性能。利用K-Means算法对移动通信公司投诉数据进行聚类，找到对每个类别客户应该采取的营销策略，提升客户价值，改善客户关系管理工作。

参考文献

[1]刘尧坤.顾客投诉管理与处理技巧[M].广州：广东经济出版社，2005.

[2]徐远纯，盛昭瀚.一种基于决策树算法的客户流失分析方法[J].计算机与现代化，2004 （8）.

[3]赵小宁，李凤霞.因子分析法和聚类分析法在网上银行客户满意度研究中的应用[J].时代金融，2015（3）.

[4]蒋斌.数据挖掘技术在客户关系管理中的运用[J].云南大学学报（自然科学版），2006 （12）.