电力工单文本数据分析挖掘模型研究
2017-07-18朱君程雅梦
朱君,程雅梦
(国网江苏省电力公司电力科学研究院,南京210000)
电力工单文本数据分析挖掘模型研究
朱君,程雅梦
(国网江苏省电力公司电力科学研究院,南京210000)
截至2016年12月,全国已注册成立售电公司2 000多家,多元化的售电市场竞争格局已逐渐成形。电网企业需要与社会资本的售电公司开展存量客户与新增客户的“争夺”,为了在竞争中保持并不断扩大优势,除了进一步增强供电服务能力之外,还需不断提升客户服务体验感和满意度,查找、分析并解决95598客户诉求中的热点问题是关键和重要的措施之一。目前电力行业的业务分析与问题分析多数仍停留在依靠人工进行数据处理与分析的阶段,数据处理的方式单一、方法简单,无法对海量数据进行关联分析,不利于及时发现问题。本文基于文本挖掘技术构建客户诉求热点发现模型,针对不同诉求内容的95598电力工单(以下简称“工单”)文本进行分类与聚类,从而有效聚焦服务热点,为针对性地解决问题、提升电网企业客户服务水平奠定了基础。
1 工单文本分析理论研究
1.1 文本挖掘
文本挖掘是指是以计算语言学、统计数理分析为理论基础,结合机器学习和信息检索技术,从文本数据中发现和提取独立于用户信息需求的文档集中的隐含知识。它是一个从文本信息描述到选取提取模式,最终形成用户可理解的信息知识的过程[1]。文本挖掘的一个重要环节是文本的预处理,也就是通过中文文本分词、文本表示、文本特征选择等步骤将自然语言表达的文本数据表示成计算机可以处理的机器语言数据[2]。95598电力工单的文本内容既有客户口语化的描述,又包含了电力行业的专业用语,因此文本预处理的效果对后续的分析挖掘有着直接的影响。
1.2 文本分类
文本分类是指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别[1]。将文本分类的方法运用在95598工单的分析上,能够有效解决目前人工分析效率低、数据处理数量有限等问题,实现对海量工单文本的快速精准的筛选。目前较为常用的中文分类方法主要有朴素贝叶斯分类,向量空间模型以及线性最小二乘LLSF[3]。
1.3 文本聚类
文本聚类是指没有预先定义好的主题类别,它的目标是将文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能大,而不同簇间的相似度尽可能小[3]。95598工单的分类需要预先定义主题类别,但因为客户的诉求将随着供电服务内容的变化而改变,对此类变化的部分或未能穷举的类别需要采用文本聚类的方式,尽可能将反映类似问题的工单聚拢起来,经由人工筛选分析形成新的服务热点类型。聚类算法大体上可以分为划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法[4]。常用的K-Means算法,是聚类分析中一种基本的划分方法,因其思想可靠,算法简洁,得到广泛的关注和研究。
1.4 异常检测
异常检测的目的是在已知常规数据集的基础上,判断未知样本是否属于异常,以此检测出数据集中不符合期望行为的数据[5],即将不属于预定义分类范围之内的95598工单检测筛选出来,作为“其他类型”待进一步分析处理。
图1 工单预处理流程
2 工单文本分析挖掘模型构建
2.1 模型构建思路
95598电力工单的文本内容包含受理内容与答复内容,受理内容为客户基于自身理解所描述的用电问题或其他主动诉求;答复内容为供电公司业务处理人员针对客户问题或诉求所反馈的具体原因说明与解决措施。本文模型构建的思路为分别针对工单文本中的受理内容与答复内容进行文本挖掘与文本分类,实现对客户诉求热点以及服务问题产生原因的精准定位;对无法匹配分类标准的内容采用文本聚类的方式进行二次处理,利用聚类结果优化文本分类的标准。基于受理内容的挖掘分析,能够及时反映客户诉求的热点,便于供电公司采取解决措施与管控措施;基于答复内容的分析,能够聚焦客户服务、专业管理等方面可进一步改进提升的方面,使得管理部门有针对性地采取解决措施,发现一类问题解决一类问题。
2.2 工单预处理
95598工单文本需要经过文本分词、特征提取以及特征向量化的过程将非结构化的文字转化为机器能够识别并计算处理的向量化数据。对95598工单进行文本分词时需要注意电力行业专用词汇与日常用语之间存在的差异性,对易混淆的专用词汇需要添加进“专业词典”,并不断更新和优化,从而提高分词的准确性。例如,针对工单内容:“客户来电反映家中电表有空走现象”中的“有空走现象”,按照日常用语习惯的分词结果为:有∕空∕走∕现象,而经过校准与优化后的分词结果为:有∕空走∕现象。工单预处理流程如图1所示。
2.3 客户诉求分析模型
基于对大量历史工单以及服务现状的分析,总结形成预定义的客户诉求热点类型,例如与客户切身利益相关的“电贾发行”、“电表故障”、“线路故障”等,基于各个热点类型分别选取一定数量的热点工单,经过文本预处理过程后构建形成向量化训练集,利用训练集分别构建各热点问题的二分类器,即预定义了多少数量的热点,就需要构建对应数量的二分类器。这样做的优点是一张工单可能被分进多个热点类型中,因此能够尽可能全面地反映客户诉求集中的方面,缺点则是其工作量将成倍于构建一个多分类器。
新生成的95598工单经过分类器筛选后可快速区分诉求热点,但由于客户诉求并非一成不变,因此还需要考虑对于无法匹配热点类型的工单进行文本聚类计算,将文本特征相似的工单聚到同一个簇中,输出聚类结果给业务人员分析判断,如判断其中包含了新的问题类型,则可增加预定义的热点数量,提高对客户诉求分析与分类的准确性。客户诉求分析模型如图2所示。
2.4 工单答复内容分析模型
对于筛选形成的客户诉求热点工单,仅能够反映供电服务的现状,还需要进行进一步深入分析,才能够提出针对性的解决措施。因此,在客户诉求热点分类基础上,需要针对工单答复内容中反映的问题产生原因、责任部门、对应解决措施等进行挖掘分析,聚焦于问题的根本。
图2 客户诉求分析模型
工单答复内容的分析方法与客户诉求热点的分析类似,需要分析大量的历史工单,并基于训练集构建分类器,但区别在于分析工单答复内容中反映的问题产生原因时,需要尽可能提高原因分析的准确性,也即是分类的准确性,因此一类问题只需要建立一个多分类器。工单答复内容分析模型如图3所示。
4 工单文本分析系统架构
95598电力工单分析系统基于工单文本分析挖掘模型建设,与核心业务系统剥离,通过调用业务系统的数据实现实时分析,从而避免对实际业务流程产生影响。系统在前台展示客户诉求热点分类以及问题产生原因分类情况,通过对工单区域、产生时间、重复发生概率等维度的数据可视化分析,能够直观展现基层单位客户服务过程中存在的欠缺与不足,以及热点问题的变化情况。通过对工单文本分析结果的监控,一方面能够及时向基层供电单位发出服务预警,便于各单位快速聚焦管理区域内客户关注的热点,并及时解决客户的用电问题或诉求,避免因处理不及时而引发负面影响;另一方面能够向专业管理部门呈现业务问题产生原因分析结果,由点及面地反映出管理过程中可能存在的不到位之处,方便专业管理部门快速反应,及时查找问题根源,做到发现一类问题,解决一类问题,真正从源头解决问题,提高客户服务的水平,提升客户服务品质。系统实现架构如图4所示。
图3 工单答复内容分析模型
图4 系统实现架构
5 结束语
95598电力工单文本分析挖掘模型的建立实现了对海量工单数据的分析与精准筛选,为业务人员以及专业管理人员快速发现问题、查找问题以及解决问题提供了新的思路,能够有效提高供电公司业务分析的智能性、准确性和高效性,提高了工作成效,降低了人力成本。
但本文构建的模型仅针对客户诉求热点以及工单答复内容中的原因本身开展分析,尽管能够在一定程度上起到事中管控的效果,但仍然是在客户产生用电问题或诉求之后被动地解决问题,如何进一步优化工单分析挖掘的模型,基于对历史工单的分析结果开展热点问题的预测与预警,将是供电服务变被动为主动的一个新的结题思路。D
Researchontextminingmodelofelectric power work
ZHU Jun,CHENG Ya⁃meng
(Jiangsu Electric Power Company Research Institute of State Grid,Nanjing 210000,China)
介绍了针对电力工单文本开展分析挖掘的模型构建以及系统实现架构,针对95598电力工单中的受理内容以及答复内容分别开展文本分类与文本聚类,实现对海量电力工单的快速精准的定位与筛选,为专业管理部门及时发现和解决问题提供了有力的数据支撑。
95598工单;文本挖掘;文本分类;文本聚类;异常检测
Two kinds of text mining models based on 95598 work order and the system implementation frame are described in this article.The models are established by the application of text classification and text clustering,which show the rapidly and accu⁃rately of filtering massive data.The models provide support for management department to identify and solve problems.
95598 work order;text mining;text classifica⁃tion;text clustering;anomaly detection
10.3969∕j.issn.1009-1831.2017.S1.030
F407.61
C
2017-02-23