基于词向量模型的95598工单文本挖掘

2017-12-19国网山东省电力公司电力科学研究院谢季川宗振国刘宏国张春秋

电子世界 2017年23期

国网山东省电力公司电力科学研究院谢季川宗振国刘宏国张春秋田晓

基于词向量模型的95598工单文本挖掘

国网山东省电力公司电力科学研究院谢季川宗振国刘宏国张春秋田晓

本文结合电力工单特点，提出运用神经网络语言模型进行文本挖掘，使用word2vec方法对电力工单文本进行训练，生成电力工单词向量。在电力工单词向量的基础上，作为其他模型的输入，实现对电力工单进一步的文本挖掘分析，帮助客服人员了解客户诉求，提供更优质便捷的服务。

95598工单；神经网络语言模型；词向量；文本分类

1.引言

95598客服中心作为电网公司与客户交流的窗口，每天都要处理大量来自客户的诉求，形成大量的工单文本数据。目前，针对电力工单数据的文本挖掘已经取得进展，但在方法上仍有可以改进之处。本文通过分析电力工单文本挖掘的现状，结合前沿技术，提出运用神经网络语言模型对工单文本进行训练，形成词向量。在词向量的基础上，作为其他模型的输入，实现进一步的文本挖掘分析，如电力领域词典、工单分类等功能，帮助客服人员了解客户诉求，提供更优质便捷的服务。

2.电力工单文本挖掘现状

当前电力工单文本挖掘（Text Mining）主要有语料分析、文本分类(Text classification)两方面，如客户诉求分析、客户满意度预测[3]，电力标签特征词典、工单自动分类[4]。文本挖掘最基础的环节就是文本表示，电力工单的文本表示多采用LDA主题模型进行特征提取。主题模型可以实现有效的降维，发现文档的潜在主题，但是主题模型需要大量的样本进行学习，训练难度大并且非常耗时，影响了分类的效率[2]，而且无法捕捉词与词之间的共现关系。因此本文采用神经网络语言模型进行训练得到词向量，在词向量的基础上进行相应文本挖掘。

3.词向量模型

词向量(word embedding)将每个词映射成一个固定长度的短向量，既能够降低维度，又能够把词与上下文的联系体现出来。词向量可以通过神经网络训练语言模型可以得到。神经网络语言模型(NNLM)由Bengio 等人于2001年正式提出[6]，2013年，Mikolov 等人提出了 CBoW（ Continuous Bagof-Words）和 Skip-gram 模型。CBoW的优化目标是：给定词序列w1,w2,w3,…,wt，最大化下式，

其中，P(wt|wt−c,…wt−1,wt+1…wt+c)采用log-linear(Softmax)模型用于正确分类当前词，通过用t-n+1…t-1,t+1,…t+n-1的word作为输入，目标是正确分类得到第t个word。

而Skip-gram模型相反，通过输入为当前word，经过projection的特征提取去预测该word周围的C个词，给定词序列w1,w2,w3,…,wt，最大化下式：

其中，c是上下文的大小，P(wt+j|wt)采用softmax方程，vw和vTw为对应的输入和输出词向量。

本文使用的Word2vec便由Google公司依据这两种模型实现，在输出层采用Huffman 编码计算层次Softmax，具有模型简单、训练速度快的特点。

4.电力工单词向量

对电力工单进行文本挖掘，属于特定领域挖掘，没有现成的词向量，因此首先是要训练生成电力工单领域词向量。本文使用Word2Vec进行训练，主要流程有文本预处理、模型训练、输出词向量，其中文本预处理包括工单文本收集、文本分词两步，而模型训练的同时，更新电力特征词库反馈提升文本分词的效果。

4.1 文本预处理

在进行模型训练之前，需要对工单文本进行预处理，主要包含工单文本收集、文本分词、特征词库处理。

4.1.1 工单文本收集

目前营销系统内工单主要被分为故障报修、业务咨询、服务申请、投诉举报等12大类，每一大类又分为二级子类、三级子类。

将工单受理内容整理到文本中，每一行代表一个工单。工单受理内容主要形式是“问题总结+描述”，例如“【电能表异常】客户来电反映，户号为06157*****的电能表异常显示。现申请对电表进行现场检查，请相关工作人员核实处理”，为大类为“服务申请”类型的工单受理内容。因此下一步进行分词，需要考虑去除停用词以及电力领域自身特点。

4.1.2 文本分词

本文分词属于特殊领域的分词，采用jieba分词对文本工单句子进行分词，形成电力工单语料库。在分词是需要结合电力领域词典取得更好效果，同时工单受理内容存有大量无用信息，可利用停用词进行处理。如上面提到的工单文本内容直接用jieba分词后根据词性以及停用词处理后如下“电能表异常客户来电反映户号电能表异常显示申请电表进行现场检查相关工作人员核实处理”，如“现场检查”属于电力领域的特殊词汇可以通过加入电力特征词典进行处理。前期我们通过专家经验初步形成一个简单词典但并不完善，而Word2vec最大的特点恰好就是对于词性的判断，在词向量完成训练的同时可以根据结果不断对电力工单特征词典的进行补充。

4.1.3 模型训练

将经过分词处理的工单文本利用Python工具包Gensim中的Word2vec模型进行训练，Word2vec主要参数为sg-设置训练算法，size-特征向量的维度，window-上下文窗口最大距离，alpha-学习速率，min_count-字典做截断，词频小于不计算等。模型训练完成后，得到vectors.bin这个模型文件。vectors.bin这个文件就是文档中词语和其对应的向量，向量维度就是之前设置的，本次设置为50维。结果如图1所示：

图1 词向量表示图

5.词向量应用

在词向量的基础上结合其他方法，进行进一步的文本挖掘，可以应用到电力领域工单词典构建，也可以作为SVM等分类模型的输出对工单进行分类。

5.1 电力工单词典

电力领域工单词典前期通过专家经验总结产生，后面可以通过词向量找寻与已有词汇相似的词补充加入到电力工单词典中，不断丰富词典内容。Word2vec本身提供distance的应用，读取模型文件中每一个词和其对应的向量，计算所输入query的词，与其他所有词语的cosine相似度，两个词相似度超过阈值便被补充到词典中，不断丰富点力领域工单词典内容。

5.2 电力文本工单分类

电力文本工单分类，属于监督学习。根据之前人工分类结果作为依据，构建分类模型。因为文本工单分类需以语句为最小单位作为输入，所以采用根据词频进行赋权对语句中词向量相加，来表示句子，构造输入向量，保证向量维度，再结合SVM进行构建多分类文本模型。但是这样做忽略了单词之间的排列顺序即上下文的影响，在文本短时有不错效果。为处理可变长度文本的总结性方法，Quoc Le 和 Tomas Mikolov 提出了 Doc2Vec方法。除了增加一个段落向量以外，这个方法几乎等同于 Word2Vec。因此可以利用电力工单预料库，利用Doc2vec进行段落向量，直接作为SVM多分类的输入进行训练分类，构建分类模型，进行文本工单分类。

6.结语

本文完整描述了运用神经网络语言模型对电力工单文本训练，形成电力词向量，并在电力词向量的基础上进行更多进一步的文本挖掘的过程，丰富电力文本挖掘分析的方法。但运用词向量在电力领域进行深入文本挖掘的效果方面，如工单分类的准确率，需要进一步研究与提升。

[1]闫琰.基于深度学习的文本表示与分类方法研究[D].北京科技大学, 2016.

[2]冯贵川.基于Word2vec的文本建模及分类研究[D].深圳大学,2016.

[3]何薇,张剑,于雪霞,吴佐平,张小华,陈晨.基于文本挖掘的电网客户服务满意度评价模型[J].电子世界,2017,(07):81+83.

[4]王震,代岩岩,陈亮,林晓兰.基于LDA模型的95598热点业务工单挖掘分析[J].电子技术与软件工程,2016,(22):190-192.

[5]丁麒,庄志画,刘东丹.基于文本数据挖掘技术的95598业务工单主题分析应用[J].电力需求侧管理,2016,18(S1):55-57.

[6]Bengio Y,Schwenk H,Senécal J S,et al.A neural probabilistic language model[J].Journal of MachineLearning Research,2003, 3(6):1137-1155.

[7]Mikolov T,Chen K,Corrado G,et al.Efficient Estimation of Word Representations in Vector Space[J].Computer Science,2013.

[8]Mikolov T,Sutskever I,Chen K,et al.Distributed Representations of Words and Phrases and theirCompositionality[J].Advances in Neural Information Processing Systems,2013,26:3111-3119.