基于词典扩充的电力客服工单情感倾向性分析
2017-06-12顾斌彭涛车伟
顾斌++彭涛++车伟
摘 要: 为了有效提高电力企业客户满意度及主动服务意识,结合电力客服工单文本特征,构建了电力客服工单情感分析模型。先通过TF?IDF思想进行工单关键词提取,采用word2vec训练得出每个词语的词向量,通过计算余弦相似度将高相似领域词汇扩充到情感词典,再进行工单倾向性分析及文本分类。通过实验分析验证该方法的有效性,实验结果表明,相较于原始情感词典,进行词典扩充及工单情感倾向性分析方法更具优势,准确率更高,可为电力企业客户关系管理提供一定的参考。
关键词: 情感分析; 情感倾向性; 词典扩充; 电力客服工单; 主动服务
中图分类号: TN915.853?34; V249 文献标识码: A 文章编号: 1004?373X(2017)11?0163?04
Dictionary expansion based sentiment tendency analysis of power customer service order
GU Bin, PENG Tao, CHE Wei
(State Grid Jiangsu Electric Power Company, Nanjing 210000, China)
Abstract: In order to improve the customer satisfaction and active service consciousness of the electric power enterprises effectively, the textual characteristic of the power customer service order is combined to construct the sentiment analysis model of the power customer service order. The keywords of the service order are extracted according to TF?IDF thought. The word2vec training is used to get the word vector of each word. The cosine similarity is calculated to expand the high similarity field vocabulary to the sentiment dictionary. The service order sentiment analysis and text classification are performed. The validity of the method is verified with experimental analysis. The results show that, in comparison with the original sentiment dictionary, the method of dictionary expansion and service order sentiment tendency analysis is superior, has higher accuracy, and can provide a certain reference significance for the customer relation management of power enterprise.
Keywords: sentiment analysis; sentiment tendency; dictionary expansion; power customer service order; active service
0 引 言
随着电力体制改革的逐步深化,配电市场竞争不断加剧,迫切需要供电企业改变传统的思维方式和工作模式,进一步树立市场化服务意识,从客户需求出发,挖掘客户的潜在需求和内在价值,从而提升客户满意度和运营效益。作为与客户交流、沟通的重要窗口,电力企业95598客服系统记录了海量的客户信息,若能彻底挖掘客服工单中的客户特征、情感信息并了解客户的关注焦点,对电力企业和客户都将具有十分重要的意义[1]。
电力客服工单情感倾向性分析可以有效地发掘客户情感信息和需求,可根据客户情感倾向性识别潜在的投诉客户,可根据反馈信息判别某项业务的实施效果等。针对文本情感倾向性分析,现有的理论研究比较侧重于文本特征提取以及采用机器学习方法对文本进行分类,但是基于具体业务特征进行情感词典扩充的研究还比较少,导致情感倾向性计算往往会存在一定的差异,因此,根据电力行业的特點,进行客户服务工单情感词典扩充及情感倾向性的研究非常有必要。
情感分析是指利用文本挖掘、机器学习技术分析挖掘隐藏在文本中的情感信息,并将其分类为积极情感态度和消极情感态度[2]。目前,国内外关于文本情感倾向性分析已经进行了较多的研究工作[3?7],文献[3]基于情感词间的点互信息和上下文约束,提出一种两阶段的领域情感词典构建算法,提升了情感词情感倾向的识别能力。文献[4]研究了基于矩阵投影(MP)和归一化向量(NLV)的文本分类算法,实现对商品评价的情感分析,不仅可以有效识别商品评论情感性倾向,而且提升了识别效率。文献[5]将词级别向量和字级别向量作为原始特征,采用卷积神经网络提取文本特征并进行情感倾向性分析,结果表明字级别向量可取得较高的准确率。文献[6]提出一种词图模型的方法,利用PageRank算法得到情感词的褒贬权值,并将其作为条件随机场模型特征预测情感词倾向,提升了具体语境下预测的准确性,但是针对文本数量较大的情况准确率较低。文献[7]结合句子结构上下文语义关联信息,提出一种基于深度神经网络的跨文本粒度情感分类模型,提升了分类准确率,但该方法只适应于特定领域,泛化能力较低。
鉴于以上研究现状,本文以电力客户服务领域文本特征为突破口,构建了电力客服工单情感分析模型,基于工单关键词提取对原始的情感词典进行扩充,并对工单情感倾向性进行分析,最后,通过算例应用验证了本文所提方法的有效性。
1 相关工作
1.1 情感分类
情感分类技术的主要目标是基于文本数据识别用户所表达的情感信息,并将文本数据分为正类和负类。当前,针对情感分类的研究,主要从监督学习、基于规则方法、跨领域情感分析等方面展開研究,与此同时,针对文本特征的提取和特征情感判别是情感分类研究的两个关键问题。
1.2 Word2vec介绍
word2vec是Google在2013年开源的一款将词表征为实数值向量(word vector)的高效工具,采用的模型有CBOW(Continuous Bag?of?Words,即连续的词袋模型)和Skip?Gram两种,word2vec采用的是Distributed Representation的词向量表示方式,经过对输入集数据进行训练,可以实现将文本词汇转换为维空间向量,然后基于空间向量相似度来表达文本语义相似度,模型输出结果可用于自然语言处理领域相关工作,比如文本聚类、词典扩充、词性分析等。
word2vec生成词向量的基本思想来源于NNLM(Neural Network Language Model)模型,其采用一个三层神经网络构建语言模型,假设某个词的出现只与前个词相关,其原理示意图如图1所示。
图1中,最下方的为前个输入词,并根据其预测下一个词每个输入词被映射为一个向量,为词语的词向量。网络的第一层(输入层)为输入词语组成的维向量网络第二层(隐藏层)计算为偏置因子,使用激活函数tanh;网络第三层(输出层)包含个节点,每个节点表示下一词的未归一化log概率,并使用softmax激活函数将输出值归一化,最后使用随机梯度下降法对模型进行优化。
图1 NNLM原理模型图
模型的目标函数为:
需要满足的约束条件为:
2 电力客服工单情感分析模型
本文以某电力公司客服工单数据为研究对象,在深入理解电力业务及工单文本语义特点的基础上,建立了一种电力客服工单情感分析模型。首先,在进行文本预处理的基础上,对文本进行分词处理并且完成关键词提取;然后,采用word2vec训练工单数据,并基于关键词进行情感词典扩充,构建电力客服领域专用情感词典;最后,进行工单情感倾向性分析。
2.1 工单文本预处理
由于工单文本数据中存在大量价值含量较低甚至没有价值意义的数据,在进行分词、情感分析中会对结果产生较大的影响,那么在文本挖掘之前就必须先进行文本预处理,去除大量没有挖掘意义的工单数据。工单文本预处理工作主要包括:删除未标注业务类型数据、分句处理、文本去重、短句删除等。
分句处理:将工单数据处理成以句子为最小单位,以句尾标点符号为标志分割,包括“,”,“。”,“;”,“!”等符号。
文本去重:就是去除工单数据中重复的部分,常用的方法有观察比较删除法、编辑距离去重法、Simhash算法去重等。
短句删除:删除过短的文本,如“还可以”,“非常好”等,设置文本字符数下限为10个国际字符。
2.2 电力客户服务领域情感词典构建
2.2.1 分词
本文采用python的jieba分词工具对数据集进行分词,并完成词性标注和去除停用词,由于情感分析通常由名词、形容词、副词和连词等反映出来,因此删除词性为动词的词汇。jieba中文分词工具包包含三种分词模式:精确模式、全模式和搜索引擎模式,综合分词效果及后文的研究,本文选择精确模式进行分词,三种模式的分词效果如表1所示。
另外,在实际的分词过程中,出现了个别分词结果与实际的语义不符,原因是字典中缺少相关的专有名词,或者是这些词语的词频较低,比如“客户/咨询/抄/表示/数等/信息”,“客户/查户/号”,“变压器/重/过载”,“查/分/时/电价”等,因此,需要对原有词典进行更新。python中采用jieba.load_userdict(dict.txt)语句添加自定义词典,其中dict.txt是保存字典内容的文件,其格式为每一行分三部分:一部分为词语;另一部分为词频;最后为词性(可省略),用空格隔开。
2.2.2 关键词提取
构建电力客户服务领域专属情感词典,需要尽可能保证领域词典的多样性,关键词的提取要求一方面能够尽量反应出这个特征项所属的类别,另一方面能够把自身属于的类别与其他类别有效地区分开来,依据此原理,本文采用TF?IDF思想进行电力客户服务领域关键词的提取,关键词选取的权重决定了情感词典的多样性,为下文情感词典的扩充做好基础,算法原理如下。
将工单文档和特征项构建成二维矩阵,各条工单的特征向量可表示为:
式中:表示第个工单中第个特征中的词频。则与为:
式中:表示语料库中的文件总数;表示包含词语的文件总数,防止分母为零的情况,通常对分母做+1的处理。因此,的计算公式为:
实际应用中,依据维度的大小确定相应的权重大小,这样就形成了代表语料特征的关键词集。
2.2.3 基于word2vec进行情感词典扩充
随着经济技术的发展及客户文化的差异,不同的客户通常使用不同的词汇描述同一个对象特征,且电力行业中存在许多专用词汇,同样也表达了一定情感,但这些词脱离于现有的情感词典,因此,有必要对现有的情感词典进行扩充,进而提升工单情感倾向性分析的准确性[8]。选取中国知网情感词集和大连理工大学林鸿飞教授整理和标注的中文情感词汇本体库作为基础的情感词典,然后依据权重较大的关键词对原有词典进行扩充[9]。基于上文电力客户服务工单中提取的关键词,采用word2vec工具对工单数据集进行训练,根据CBOW模型或Skip?Gram模型训练出每个词的词向量,并通过计算余弦相似度得到文本语义上的相似度,并将相似度较高的词语加入到情感词典中。
依据上文分词后得到的工单文本数据,采用Linux Version2.6环境对数据进行训练,操作命令如下:
./word2vec ?train data95598.txt ?output vectors_95598data.bin ?cbow 0 ?size 200 ?winodw 5 ?negative 0 ?hs 1 ?sample le?3 threads 12 ?binary 1
其中,data95598.txt为输入数据集;vectors_95598data.bin为模型输出文件;采用Skip?Gram模型进行训练,词向量维度设置为200;训练窗口大小设置为5;-sample表示采样的阈值,训练结果采用二进制方式存储。这样,得到的模型文件中就包含了每个词的词向量。
采用余弦相似度计算关键词的相似词,即基于生成的词向量计算两个维向量的相似度,因为word2vec本身就是基于上下文语义生成的词向量,因此,余弦值越大,表明两个词语的语义越相似。向量与的余弦计算公式如下:
通过distince命令计算输入词与其他词的余弦相似度,经过排序返回相似词列表,再经过人工筛选,将这些词加入到原有情感词典中,实现对原有情感词典的扩充。
2.3 工单情感倾向性分析
工单情感倾向性分析是基于构建的情感词典,计算每个客服工单的情感分值,从而判断工单的情感倾向性。通过上文处理,每一个客服工单都可以被分割成一个个子句片段,表示为每个子句片段由一系列分词后的词语构成,提取每个句子的情感词、否定词等,表示为依据情感词典中给定词的极性值计算每个子句的情感值,分别計算每个句子的正向和负向情感分值,计算公式如下:
式中:SenSum表示某个客服工单的情感分值;表示第个子句中第个正向情感词的极性值;表示第个子句中第个负向情感词的极性值。
在否定子句中,当为偶数时,否定子句情感为正;当为奇数时,否定子句情感极性为负。对所有的子句情感分值求和并求均值,就得到了整个客服工单的情感值,进而判断客服工单的情感倾向性,若SenSum为正,表示工单情感为正向;否则,工单情感为负向。
3 实验分析
3.1 实验数据准备
本文的实验环境基于Linux系统,采用python语言进行算法的实现,抽取某电力公司95598客服工单数据作为研究对象,运用jieba包进行中文分词处理,并采用word2vec训练数据生成词向量及扩充情感词典。由于工单数据是按照业务类型生成的,因此选取业务类型为表扬的工单作为正类,选取业务类型为投诉的作为负类,其中,正类和负类数据比例为21,共得到20 000条数据作为实验数据集,随后进行情感倾向性分析,随机选择70%的数据作为训练集,30%的数据作为测试集。
3.2 评价指标
当前针对文本分类效果评估有许多方法,本文选择准确率(precision)、召回率(recall)和值进行文本情感分类效果的评估,准确率是对分类精确性的度量,召回率是对分类完全性的度量,值越大说明分类效果越好,准确率和召回率是一组互斥指标,值是将二者结合的一个度量指标,值越大,分类效果越好,并将通过本文情感分析模型得到的结果与业务员标注的类型做对比分析。它们的计算公式如下:
3.3 实验结果及分析
本文基于抽取到的客服工单数据,结合设计的电力客服工单情感分析模型,实现对电力客户服务领域情感词典的扩充,并基于构建的电力客服领域专属词典进行工单情感倾向性分析,70%的数据用于训练word2vec并进行情感词典的扩充,30%的数据用于测试工单情感分类的准确性。测试集共包含工单数6 000条,其中正类工单3 895条,负类工单2 105条。将采用本文情感分析模型得到的结果与原始基础情感词典得到的结果进行对比分析,见表2。
由表2可知,采用本文构建的电力客服工单词典针对正向和负向的情感词都有较高的准确率、召回率和值,由此可知,本文设计的电力客服工单情感分析模型是合理的,且具有明显的性能优势。
4 结 语
本文设计了一种电力客服工单情感分析模型,构建了电力客服领域情感专用词典并进行工单情感倾向性分析。采用word2vec工具对采集到的数据进行训练,并用测试集数据对本文提出的模型进行验证分析,结果表明,本文所提方法具有一定的合理性和可行性,可为电力企业客户关系管理提供一定的参考意义,促进企业客户满意度及运营效益的提升。此外,本文主要研究了基于构建的电力客服专用情感词典进行客户情感倾向性分析,但是对于无监督性学习方法情感倾向性分析以及情感强度的分析还有待进一步研究。
参考文献
[1] 李胜宇,高俊波,许莉莉.面向酒店评论的情感分析模型[J].计算机系统应用,2017,26(1):227?231.
[2] SINGH VK, PIRYANI R, UDDIN A, et al. Sentiment analysis of movie reviews: a new feature?based heuristic for aspect?level sentiment classification [C]// Proceedings of 2013 International Multi?Conference on Automation, Computing, Communication, Control and Compressed Sensing (iMac4s). Kottayam: IEEE, 2013: 712?717.
[3] 郗亚辉.产品评论中领域情感词典的构建[J].中文信息学报,2016,30(5):136?144.
[4] 钟将,杨思源,孙启干.基于文本分类的商品评价情感分析[J].计算机应用,2014,34(8):2317?2321.
[5] 刘龙飞,杨亮,张绍武,等.基于卷积神经网络的微博情感倾向性分析[J].中文信息学报,2015,29(6):159?165.
[6] 黄挺,姬东鸿.基于图模型和多分类器的微博情感倾向性分析[J].计算机工程,2015,41(4):171?175.
[7] 刘金硕,张智.一种基于联合深度神经网络的食品安全信息情感分类模型[J].计算机科学,2016,43(12):277?280.
[8] 黄仁,张卫.基于word2vec的互联网商品评论情感倾向研究[J].计算机科学,2016,43(z1):387?389.
[9] 张冬雯,杨鹏飞,许云峰.基于word2vec和SVMperf的中文评论情感分类研究[J].计算机科学,2016,43(z1):418?421.