基于LDA主题的改进TFIDF95598工单智能分类研究
2020-04-22武光华李洪宇刘二刚柳长发李倩
武光华 李洪宇 刘二刚 柳长发 李倩
摘 要:为了提高95595工单智能分类的准确率,提出了基于LDA (Latent Dirichlet Allocation)的改進TFIDF算法。先对文本提取特征词,然后采用K-means算法进行聚类处理。构建LDA模型,获得概率分布函数θ和φ,求取语义影响力SI(semantic influence, SI) 作为特征词的权重,该改进算法记作SI-TFIDF(semantic influence-term frequency inverse document frequency, SI-TFIDF)。将SI-TFIDF算法与传统的TFIDF算法在sougou的数据库进行特征词提取,并采用K-means算进行聚类,对比结果显示,采用SI-TFIDF算法提取的特征词聚类效果优于TFIDF,验证了所提出方法的可靠性。在95598投诉工单上进行仿真实验,SI-TFIDF算法的投诉工单聚类准确率高于传统的TFIDF算法,验证了SI-TFIDF更适用于处理工单投诉的分类研究。
关键词:95598; 投诉工单; Latent dirichlet allocation; term frequency inverse document frequency
中图分类号: TM73
文献标志码: A
Abstract:In order to improve the accuracy of intelligent classification of 95595 work order, an improved TFIDF algorithm based on LDA (Latent Dirichlet allocation) is proposed. The text feature words are extracted and then the K-means algorithm is used for clustering processing. The probability distribution functions θ and φ are obtained by constructing the LDA, and semantic influence (SI) is obtained as the weight of feature words. The improved algorithm is denoted as the semantic influence-term frequency inverse document frequency (SI-TFIDF). SI-TFIDF algorithm and the traditional TFIDF algorithm are used to extract feature words in Sougou database, and K-means algorithm is used for clustering. The comparison results show that the feature words extracted by SI-TFIDF algorithm is better than TFIDF, which verifies the reliability of the method proposed in this paper. Simulation experiments on 95598 complaint work order shows that the clustering accuracy of the complaint work order of SI-TFIDF algorithm is higher than that of the traditional TFIDF algorithm, which verifies that SI-TFIDF is more suitable for the classification research of handling complaint work order.
Key words:95598; Complaint sheets; Latent Dirichlet allocation; Term frequency inverse document frequency
0 引言
随着人们对电的需求量越来越大,人们对电的质和量两方面的关注也越来越高,相关监管部门在此背景下迫切需要提升居民用电服务质量,要充分了解用电消费者对电力的各方面需求[1]。电力客户服务热线95598是架设在电力企业和电力客户之间的一个很好沟通的桥梁,通过95598工单受理内容,电力企业可以了解用户的诉求,更加接近民生民意[2]。同时,通过95598客服人员,又能解决用户诉求,提升用户用电感知与电力企业的效益。但难点在于95598工单量巨大,用户的诉求又存在差异性和重复诉求,无法快速查询到每个用户的诉求和诉求热点。面对大量的客户诉求,需要运用合理的数据分析方法来完善和闭环各项工单的处理工作,聚焦用户的热点问题,以保证用户的诉求能够及时有效的解决[3]。基于大数据挖掘分析技术,可对95598工单受理内容短文本数据提取主题,进而实现自动分类,工作人员可快速查询用户的不同诉求类型及共同的诉求热点,从而能够有针对、有重点的提出解决办法[4]。
如何提高投诉工单处理水平,提高客户服务水平,针对95598的工单分类问题的研究还比较少。文献[5]采用TF-IDF方法提取工单的关键词,再将词汇扩展到情感测点,实现本文分类,该方法的工单分析方法具有更高的准确率[5]。文献[6]对95598的投诉工单采用自动分类方法,建立快速精准的分类模型,实现了电力工单的分析挖掘[6]。文献[7]将成本矩阵引入到C4.5,结合Adaboost方法建立95598工单分类模型,提高了质检效率,降低了漏检率[7]。文献[8]采用LDA方法对投诉工单进行数据挖掘,实现了电力工单的分类筛选,便签判断和初步归因[8]。
上述研究都是采用传统的语义聚类方法,聚类效果不尽人意,本文基于LDA的主题概念,对TFIDF算法进行了改进,提高了算法的聚类效果,最终实现95598工单的智能分类。
1 基于LDA的改进TFIDF
1.1 LDA算法
LDA (Latent Dirichlet Allocation, LDA) 模型是由Blei D M在2003年提出的,是一种概率生成模型,能够对语料库进行建模,达到对文档降维的效果[9]。LDA的概率模型图如图1所示。
从图3和表4的对比结果可以看出,SI-TFIDF提取的关键词聚类的时候效果优于TFIDF。查全率R提高了20%;查准率P提高了17%。F值由0.601上升到了0.783 7。上述仿真结果验证了SI-TFIDF提取的特征词更利于文本分类。SI-TFIDF比TFIDF算法聚类效果更好,证明了本文所提方法的有效性。
从表6可以看出,SI-TFIDF算法比TFIDF算法提取的特征词具有更好的聚类结果,验证了本文所提的SI-TFIDF算法更适用于95598工单聚类分析。
从图4可以看出,采用IS-TFIDF提取特征词的平均聚类准确率为0.997 9,而采用TFIDF方法提取特征词的平均聚类准确率为0.953 6,验证了改进后的TFIDF算法提取的特征词更适用于95598工单分类处理。SI-TFIDF算法提高了分类器的准确性。
3 总结
增加了SI(semantic influence,SI)语义影响力对TFIDF算法进行了改进,实验对比结果验证了SI-TFIDF算法比传统的TFIDF算法提取的特征词具有更高的分类效果。在处理95598工单时,SI-TFIDF算法具有更高的聚类效果及投诉工单聚类准确率,验证了本文所提方法的有效性。
参考文献
[1] 朱君,程雅梦.电力工单文本数据分析挖掘模型研究[J].电力需求侧管理,2017,19(S1):87-89.
[2] 杨鹏,刘扬,杨青.基于层次语义理解的电力系统客服工单分类[J].计算机应用与软件,2019,36(7):231-235.
[3] 吴刚勇,张千斌,吴恒超,等.基于自然语言处理技术的电力客户投诉工单文本挖掘分析[J].电力大数据,2018,21(10):68-73.
[4] 林溪桥,严旭,黄蔚.基于主成分分析法的95598客户服务工单分类优化[J].广西电力,2017,40(4):10-12
[5] 顾斌,彭涛,车伟.基于词典扩充的电力客服工单情感倾向性分析[J].现代电子技术,2017,40(11):163-166.
[6] 邹云峰,何维民,赵洪莹,等.文本挖掘技术在电力工单数据分析中的应用[J].现代电子技术,2016,39(17):149-152.
[7] 刘建,赵加奎,杨维,等.电力95598客户服务质检抽样算法研究[J].电网技术,2015,39(11):3163-3168.
[8] 刘兴平,章晓明,沈然,等.电力企业投诉工单文本挖掘模型[J].電力需求侧管理,2016,18(2):57-60.
[9] 路荣.基于隐主题分析和文本聚类的微博客中新闻话题发现[J].模式识别与人工智能,2012,25(3):382-387.
[10] 张建娥.基于TFIDF和词语关联度的中文关键词提取方法[J].情报科学,2012,30(10):1542-1544.
[11] 孙鸿飞,侯伟.改进TFIDF算法在潜在合作关系挖掘中的应用研究[J].现代图书情报技术,2014(10):84-92.
(收稿日期: 2019.10.21)