一种基于K均值的移动客户投诉数据处理算法研究
2018-07-04周慧珺龙涛陈景航
周慧珺,龙涛,陈景航
(1 中山火炬职业技术学院, 中山 528436;2 中国移动通信集团广东有限公司中山分公司,中山 528400)
1 引言
随着互联网、大数据、云计算等技术的发展,越来越多的软件利用TD-LTE等技术接入网络,采用Android手机、iPhone手机、平板电脑等访问移动设备软件,实现4G移动数据通信和语音通信,进一步实现了人类生活的信息化、智能化和便捷化。TD-LTE网络覆盖面积非常大,覆盖环境涉及崇山峻岭、丘陵沟壑、高楼大厦等,较多的障碍物非常容易遮挡信号,另外雷电、风雨、冰雪和断电等事故多发,也容易造成基站无法工作,信号传输中断,引起移动客户的投诉。
目前,中国移动客户数以亿计,因此产生的投诉量非常大,每一条投诉信息都需要客服人员进行处理,如果不对投诉信息进行分类,投诉处理进度就会非常慢,无法及时回复客户,造成客户转网或离网,不利于占有市场和提升企业利润[1]。因此,本文基于笔者多年的工作实践,提出采用数据挖掘算法针对海量投诉数据进行分类,将投诉信息自动化地归纳到每一个类别中,实现对投诉信息的分类处理,进一步改进客户服务水平。
2 移动客户投诉数据处理现状及存在问题
目前,移动客户投诉频发,投诉条数以千万计,但是处理投诉的客服人员少,从杂乱无章的海量投诉信息中随机地进行人工分类速度慢,因此对投诉信息进行分类,将其划分为网络类、业务类等分配到每一个客服组中,可以迅速地获取投诉处理口径,提高处理速度[2]。目前,移动客户投诉数据分类慢,客户信息处理时效性较低,客户服务水平低下,反馈速度慢[3]。具体描述如下:
(1)客户投诉数据分类慢。移动通信客户的投诉种类非常多,这些投诉信息涉及流量业务、语音业务、数据业务、基础业务、终端业务、集团业务、家庭业务、国际/港澳台业务、信息安全等,但是对这些业务进行人工对比分析的速度非常慢,无法从海量数据中实时地将投诉信息进行分类[4]。
(2)客户信息处理时效性较低。处理客户投诉时,由于不同的业务描述关键词不同,也有可能同样的投诉信息描述的关键词不同,因此容易造成信息处理混乱,因此人工匹配关键词很慢,客户投诉信息处理的时效性非常低,另外也非常容易产生反馈错误[5]。
(3)没有实现简单问题自动回复。由于投诉数据全靠人工、半人工进行比对,所以许多数据分析需要人工映射,没有实现简单的投诉问题自动化回复功能,因此大大地增加了客服人员的工作量,大大地降低了投诉处理水平,降低了客户的感知[6]。
因此,为了解决客户投诉处理速度慢、服务水平低、解决投诉不准确的问题,本文引入K均值算法,该算法可以将客户投诉划分为不同类型,分发给每一个处理人员。
3 基于K均值的移动客户投诉数据处理算法设计
为了能够更加准确的发现移动客户投诉数据信息,本文引入了基于K均值的大数据挖掘算法,该算法假设移动客户投诉数据集合可以使用X={x1,x2,…xn}进行描述,这些数据集中包含了K条投诉记录,其中mi可以描述第i个簇的中心,i=1,2,…k。另外,也可以使用uj(xi)描述使用K均值算法挖掘移动客户投诉记录中的而相关信息,比如第xi个样本对第j类的隶属度,这样引入模糊数学的K均值算法目标函数可以使用公式(1)描述。
其中,常数b是一个模糊度控制因子,其可以根据实际需求调节模糊度。算法执行过程中可以针对目标函数求导,获取最优解,具体的最优解如公式(2)和公式(3)所示。
在程序实现过程中,基于模糊数学的K均值聚类算法可以使用以下伪代码描述。
算法输入参数包括四个,分别是移动客户投诉记录数据、包含N条投诉记录、用户期望得到的K个簇、模糊度控制因子b。
算法输出:用户期望得到的K个簇。
算法步骤:
(1)针对N条投诉记录进行初始化,将其随机的划分到K个簇中,并且可以指定每一个簇的中心为mi。
(2)使用公式(3)计算每一个投诉记录的隶属度,这样就可以得到投诉记录的隶属概率。
(3)然后针对步骤(2)处理的结果进行排序,选择最大隶属度值的数据划分到一个簇,使用公式(2)重新计算K个簇的中心值mi。
(4)然后重复性操作步骤(2)和步骤(3),遍历移动客户投诉记录数据集中的每一个数据对象,直到隶属度不再发生任何变化时,算法终止。
4 移动客户投诉处理改进后的优势
为了更好地验证移动客户投诉数据处理成效,本文采集了广东移动2017年6月和7月的投诉数据,预处理之后每个月选择183万条处理工单,详细数据如表1所示。
实验设计:2017年6月投诉工单量采用传统方法进行分类,7月份采用K均值进行分类。7月份60万条流量业务的处理时间是0.4 s,6月份耗费1.3 s,数据处理速度提高了70%;7月份183万条工单的平均处理时间为0.34 s,6月份平均处理时间为1.16 s,因此利用数据挖掘方法可以提高处理速度,缩短处理时效,分类时间如图1所示。
K均值算法不仅可以提高移动客户投诉数据处理时效,还可以更加准确地对其进行分类。为了验证本文数据处理的准确度,可以对7月份数据进行分类,采用的对比方法包括不使用K均值方法和使用K均值方法两类,详细数据描述如表2所示。
通过对实验进行分析,移动客户投诉处理采用K均值算法之后,投诉处理具有很多优势,这些优势包括以下几个方面。
表1 广东移动客户投诉工单量
表2 两种算法的实验结果精确度对比
图1 投诉工单分类处理时间(s)
(1)大幅度缩短投诉数据处理时间。K均值是一种数据分类算法,其可以对海量的投诉工单数据按照既定的模式进行分类,将纷乱、无章的数据划分到一个个簇中,在这个过程中全部进行自动化处理,不需要人工进行任何操作,也不需要输入任何先验数据,因此数据处理时间就会大幅度缩短。
(2)进一步提升投诉数据处理准确度,方便客服人员反馈处理结果。客户投诉的内容非常多,这些内容包括流量扣费不合理、机卡分离不返费、信息泄露、家庭账户扣费不正常等,这些投诉既包括大众市场业务,又包括集团市场业务,投诉的内容有可能涉及多个类别,既包括流量又包括语音等,采用K均值算法之后,数据处理的分析程度比较全面,可以根据不同类别的归属将其归到某一类,然后由这一类客服人员进行处理,可以更快向客户反馈投诉结果。
5 结束语
随着“互联网+”时代的到来,移动4G通信也逐渐向5G时代迈进,广东移动服务的客户也越来越多。随着用户文化水平的提升,越来越多的客户开始重视自身权益,一旦出现信号不好、扣费不合理、流量用得快等情况,移动客户就会发出投诉信息。因此,处理数以亿计的客户投诉工单需要耗费大量的人力、物力和财力,因此移动公司一直在致力于提升客户服务水平,引入K均值等更加先进的数据处理技术,及时、准确地将投诉工单进行分类,然后将处理结果反馈给客户。
[1] 李睿颖, 柳炳祥, 万义成. 一种基于K-Means算法的移动客户聚类分析方法[J]. 数字技术与应用, 2016(8):157-158.
[2] 刘璐璐, 惠曾强. 一种基于K-均值聚类算法的站点结构优化研究[J]. 中国科技信息, 2016(20):68-69.
[3] 穆荣斌, 仲梁维. 基于K-均值算法的数据挖掘技术研究及应用[J]. 软件导刊, 2017,16(4):185-187.
[4] 饶喆, 唐双喜, 刘国平. 基于蚁群粒子群混合算法的K均值聚类优化算法研究[J]. 数字技术与应用, 2015(4):122-123.
[5] 李莺. 运营商投诉行为的大数据分析及应用[J]. 通信企业管理, 2016(10):67-69.
[6] 岳丹阳. 移动通信客户投诉的智能诊断方法研究[J]. 中国新通信, 2016(17):1-3.