APP下载

桌面云坐席系统电力客户工单信息精准查询方法

2023-11-09杨维张浩张才俊曹璐曾月阳徐强

微型电脑应用 2023年10期
关键词:工单特征选择分词

杨维, 张浩, 张才俊, 曹璐, 曾月阳, 徐强

(1.国家电网有限公司客户服务中心,天津 300300;2.北京中电普华信息技术有限公司,北京 100085)

0 引言

随着社会经济的不断发展,现代企业逐渐受到时代变化的影响,电网企业是电力业务发展的首要单位,对电网企业数据进行合理管理[1-3],能够有效约束企业的风险影响。由于互联网技术的广泛传播,电网公司的运营逐渐信息化,当客户工单的不断增多[4],电网系统中的信息也呈海量增长。现阶段我国电网公司的客户工单信息报送部分还在使用人工的形式[5],这使得电网公司对信息的管理以及查询存在缺失,导致电力客户工单信息维护困难,出现质量差错[6]。

许多学者对电力信息的查询问题进行研究,如杨捷等[7]研究面向电力工单文本的服务失误识别,具体应用时存在查询及时性较差问题;邵冠宇等[8]研究基于依存句法分析的电力设备缺陷文本信息精确辨识方法,但面对海量的电力工单信息时,仍然存在信息难以精准分类,特征提取关联度低等问题。

桌面云坐席系统是电网企业中所采用的有效的管理系统,能够使用户随时随地对个人桌面进行查看,具有使用方便等特点,还能够整合客户端技术、虚拟桌面以及远程桌面访问技术,能够有效改善电力公司的统一信息操作过程,因此,本文提出了桌面云坐席系统电力客户工单信息精准查询方法,并对其性能进行了分析。

1 桌面云坐席系统电力客户工单信息精准查询方法

1.1 文本分词

通过塑造文本表示模型实现自动分词。由于中文句子存在特殊性,各个词语所组成的句子当中,并不会存在分隔符或者英文空格符[9-10],所以若想实现中文文本挖掘,必须实现自动分词。现阶段存在较多的分词算法,如HMM算法、CRF算法等,其中本文采用条件随机场CRF(Conditional random field)分词算法实现自动分词,该算法是一种标注算法,并且依据概率图模型设计,现阶段较为成熟,且精准度较高,还拥有更好的适用效果[11],是马尔科夫随机场的条件概率约束的一种特殊状态。设随机变量X、Y,并设计无向图G=(R,Q),该无向图由Y组成,并采用公式(1)描述马尔科夫随机场。

P(YR|X,YW,γ)=P(YR|X,YW,ω-γ)

(1)

式(1)中,YR、YW表示节点r、w相应的随机变量,点ω-γ表示在图G=(R,Q)中,全部节点剔除掉节点r之后,所剩下的节。

马尔科夫随机场中所存在的某种特殊情况,即是该分词算法中所使用的条件,由一致图形态的线性链条件随机场构成,该条件被X、Y拥有。设计随机变量的序列,并共同存在于线性链表示中,由X={X1,X2,X3,…,Xn}、Y={Y1,Y2,Y3,…,Yn}描述,当随机变量序列X的约束已经确认时,随机场由序列Y的条件概率P(Y|X)组成,n表示序列的长度,序列位置由i描述,通过公式(2)描述该过程:

P(Yi|X,Y1,Yi-1,Yi+1…Yn)=P(Yi|X,Y1,Yi-1,Yi+1)

(2)

进行标注调整中文分词过程中,X表示等待调整的添加序列,Y表示发送的标记序列。进行文本训练过程的学习,可以获取分词过程中随机场模型的参数,最终实现电力客户工单信息文本分词[12]。

1.2 特征选择

在文本分词的基础上,通过特征选择算法选择特征,为下一步工单信息分类实现精准查询做好基础工作。常见的特征选择算法有卡方特征选择(CHI)、信息增益(IG)等算法,本文采用改进CHI特征选择算法,以使特征项中负相关的问题削弱或剔除,通过式(3)描述该算法改进后:

(3)

对该算法的改进过程,是将因子A/(A+C)乘以未改进的算法,主要目的是,每类的χ2(w,c)在被特征项预计时,不研究本类别中不存在的特征词,即A为0,依据公式(3)最终获知χ2(w,c)=0。若A/(A+C)略小,即该类别文本中,存在频率并不大的词,其χ2(w,c)同时变小,当A/(A+C)较大,即频率较大的词存在时,χ2(w,c)一并变大。

通常特征项的CHI值,是其全部类别的CHI最大或平均值,而本文所改进之后,全部类别的CHI最大值来描述CHI值。

1.3 文本向量化

通过VSM方法进行文本表示,对于VSM列矩阵变量,采用上述特征选择后的特征项。依据TF-IDF算法,计算特征向量的权重,具体为

wik=tfik×idfik

(4)

式(4)中,tfik表示文本di内存在已获取特征项tk的频率,idfik表示特征项tk的逆向工单频率,该公式的含义是该特征项的重要性随着特征项tk存在于文本集中的区域决定,存在的区域越大,特征项的重要度即越低,计算过程如式(5):

(5)

式(5)中,N表示全部文本数量,表示nk涵盖特征项tk的全部文本数量,α=0.01。

由于特征项权重值会因为文本大小发生改变,因此,归一化调整权重,通过式(6)描述:

(6)

1.4 朴素贝叶斯分类算法

基于上述获取的特征项重要度,利用朴素贝叶斯分类器,依据特征选定给定的输入值内需要划分的标签。分类器首先对标签的先验概率进行计算,以实现标签向输入值提供的过程,计算形式依据训练集中标签频率的验证结果获知。并且整合特征的先验概率与重要度,能够对标签的似然分数进行获取,输入值中会保存似然估计分数最大的标签,并且最终得分可以用作表示被取出值的概率估计。Label表示发送标签由,features表示添加的n个特征值,该算法通过以下步骤进行计算:

(1) 计算过程如式(7):

P(features)=∑label∈labelsP(features,label)

(7)

(2) 所给出标签特征的概率乘以标签的概率,可以描述似然标签,当特征不依赖于其他条件时,计算过程如式(8):

P(features,label)=P(label)×P(features|label)=P(label)×∏f∈featuresP(f|label)

(8)

式(8)中,P(label)表示标签的先验概率,其含义是标签可能性中,每个特征的贡献,是训练所给出标签与所给出特征的比例,通过如式(9):

P(f|label)=count(f|label)/count(label)

(9)

(3) 若所给标签与特征未同时存在过,并且该特征出现在训练集中,P(f|label),使得标签疑似为0,导致该标签中不会出现所添加的值,最终使分类效果变差,准确度不高。采用“拉欧拉斯修正”,在预算概率值时进行剔除修正,以防止训练集内隐藏的属性值剔除各式属性带领的信息。

设训练集D内疑似的类型数由M表示,Mi表示第i个属性疑似取值,Dc表示D中第c类样本构成的集合,Dc中第i个属性上,当样本值为xi,所构成的集合通过Dcixi描述,具体计算公式为

(10)

(11)

(4) 计算P(label|features),对于新添加特征值的标签成果,采用与最大概率相应的标签。

通过上述过程完成电力客户工单信息录入后的自动分类,实现精准查询。

2 实验结果与分析

将本文方法应用至某电网企业的桌面云坐席系统中,以该电网企业3月份收集的53 692条电力客户工单信息为数据样本。为分析本文方法的桌面云坐席系统电力客户工单信息精准查询能力,选取文献[7]面向电力工单文本的服务失误识别方法与文献[8]基于依存句法分析的电力设备缺陷文本信息精确辨识方法作为本文的对比方法,进行分类训练。

2.1 特征提取能力

分析3种方法训练后的信息特征选择关联度,分析结果如表1所示。根据表1可知,经训练后,3种方法的特征词汇关联度有所不同,文献[7]方法关联度最高的词汇为“损坏”,达到0.52,而文献[8]方法的关联词汇关联度最高的是“登记”,关联度为0.54,本文方法在所选关联词汇中关联度均要高于其他2种方法,且最高达到0.78,因此本文方法的具有较高的信息特征选择关联度。

表1 特征词汇及其关联度

分析不同方法的特征选择能力,选取上述8个特征的12 000个特征样本进行训练,随着特征数量的不断提升,不同方法的F1值,分析结果如图1所示。根据图1、图2可知,随着训练特征样本数的不断上升,不同方法的F1值也随之上升。当特征样本数为2000时,文献[7]方法的宏平均F1值与微平均F1值分别为65%与74%,低于文献[8]方法与本文方法,且文献[8]方法的F1值同时也低于本文方法,在特征样本数达到12 000时,本文方法的宏平均F1值为97%,微平均F1值为96%,在特征样本数不断变化下一直高于其他两种方法,由此可知,当特征样本数量相同的情况下,本文方法所选择特征包含较多信息,可为工单信息精准查询提供强有力数据支撑。

图1 不同方法宏平均F1值对比

2.2 精准查询能力

分别对比3种方法查询结果的准确率、精度以及召回率,并通过以下方式进行计算,分析结果如表2所示。根据表2可知,从准确率来看3种方法都在85%以上,都有较高的准确率,但文献[7]方法与文献[8]方法的准确率低于本文方法,且本文方法的查询准确率达到95%,因此本文方法具有较高的查询准确率。本文方法的查询召回率、精度都要高于另外两种方法,因此本文方法能够明显提高查询能力。

表2 不同方法的查询结果

选取电力客户5类工单,分析本文方法对电力客户工单信息精准查询的支持度,分析结果如图3所示。根据图3可知,不同方法对每种工单类别的查询支持度有所不同,其中文献[7]方法在工单关键词为“停送电”的支持度最高,与其他工单关键词支持度存在较大差距,而文献[8]方法不同工单关键词支持度较为相似,但一直保持较低水平,本文方法同样存在较为稳定的精准查询类工单关键词支持度,并且一直保持高于文献[7]方法与文献[8]方法,因此本文方法具有较高的工单信息精准查询支持度。

图3 不同查询方法支持度

分析不同方法对5种工单类别的120个工单信息的查询遗漏率,分析结果如图4所示。根据图4可知,随着工单信息的增加,3种方法的查询遗漏率有所下降,其中文本方法与文献[7]方法一直保持随着工单信息的增加逐渐下降的趋势,而文献[8]方法在工单信息数量40~60时突然出现下降,出现波折趋势,查询遗漏情况不稳定,本文方法的查询遗漏率最高达到7.1%,最低只有5.2%,一直保持在最低状态,因此本文方法不会出现较大的查询遗漏问题。

图4 不同方法查询遗漏率

分析不同方法在精准查询时的加速比,分析结果如图5所示。根据图5所示,特征样本数量的提升影响了不同方法的总处理时间,但本文方法的处理时间虽然受到特征样本数量的影响,但时间增加较为缓慢,并且保持始终低于另外2种方法,因此本文方法拥有较好的加速比。

图5 不同方法查询加速比

选取固定信噪比,分析不同方法随着信噪比变化的工单信息精确查询程度,分析结果如图6所示。根据图6可知,当信噪比由10 dB逐渐下降到-6 dB时,3种方法的查询准确率逐渐变低,尤其是在信噪比下降到0 dB后,文献[7]方法与文献[8]方法的准确率逐渐下降到65%以下,本文方法在信噪比为0 dB时信噪比未低于78%,并且在0 dB以下依旧保持着70%以上的信噪比,因此,本文方法具有较强的抗噪性能,且信息精准查询准确率较高。

图6 不同方法的信息精准查询结果

3 总结

本文提出了桌面云坐席系统电力客户工单信息精准查询方法,通过条件随机场分词算法进行文本分词,通过改进CHI特征选择算法,进行电力客户工单信息特征选择,依据文本向量化过程,最终采用朴素贝叶斯算法实现特征分类,最终完成工单信息精准查询。未来阶段可继续加深研究,在桌面云坐席系统中实现更精准的电力客户工单信息查询。

猜你喜欢

工单特征选择分词
基于量化考核的基层班组管理系统的设计与应用
基于transformer的工单智能判责方法研究
结巴分词在词云中的应用
基于HANA的工单备件采购联合报表的研究与实现
Kmeans 应用与特征选择
值得重视的分词的特殊用法
联合互信息水下目标特征选择算法
电力95598热线全业务集中后的工单预警机制
基于特征选择和RRVPMCD的滚动轴承故障诊断方法
基于二元搭配词的微博情感特征选择