APP下载

基于文本挖掘的电力运维服务项目智能辅助管理

2021-03-16王文娟李鸿健

计算机应用与软件 2021年3期
关键词:服务项目分类器运维

王文娟 李鸿健

1(国网重庆电力公司 重庆 400060)

2(重庆邮电大学计算机科学与技术学院 重庆 400065)

0 引 言

在电力系统中,运维服务项目计划将成为运维服务日常管理工作中的一个重要环节,实行严格的运维服务项目计划是电力企业发展的迫切需要,也是建立规范有效的内控制度的必要环节。然而,当前的运维服务项目计划管理是管理工作中比较薄弱的环节,对运维服务项目计划进行有效的管控,保证项目计划合理、完整、准确具有重要意义。当前电力系统运维服务项目计划管理存在以下问题:(1) 项目计划类别错误,项目内容不规范、运维服务内容超范围等,给后续的管理工作带来诸多不便;(2) 项目存在重复申报和立项的问题,资金使用效率低,审批过程中无法进行实时分析,管理过程不能实时跟踪和追溯;(3) 申报过程繁琐,周期较长,项目的管理过程复杂耗费了大量的人力资源。因此,电力系统对运维服务项目计划申报和管理提出了更高的要求。目前文献[1-2]针对科研项目的重复立项和管理提出了一些辅助查询分析和预警,然而科研项目管理与电力运维服务项目计划管理具有不同特点,难以有效地解决电力运维服务项目计划管理的问题。

基于中文文本挖掘实现智能文本处理是一项重要且具有挑战的技术[3-5]。目前,基于文本挖掘的中文分词技术已经广泛应用于中文自动分类、自动摘要、自动校对等领域[6-8]。中文文本挖掘的应用有时是很困难的,经常需要与专业知识进行密切结合[9]。随着大数据和互联网的发展,中文文本挖掘在网页中的应用越来越广泛,然而在专业领域的应用如在电力领域文本挖掘还正处于初级阶段[10]。在国内电力系统研究中,文献[11]采用文本挖掘技术对电力设备典型故障案例进行研究,采用智能文本技术提高对故障原因信息提取的准确率;文献[12]深入研究了电力系统设备缺陷的文本分类模型,将深度学习方法应用于该领域的分类模型。在国际上,文献[13]通过历史事件和天气等信息对变电站负荷进行预测;文献[14]通过文本挖掘技术对电力系统的故障风险进行研究等。由此可见,文本挖掘技术可应用于电力系统并提高运行维护的效率。

本文将文本挖掘技术应用于电力系统运维服务项目计划的辅助管理,设计并实现了基于智能分词处理技术的项目计划辅助管理系统。首先采用智能分词技术对电力运维服务计划材料进行分词,然后设计多层级多分类器融合分类方法进行项目分类,并进行项目相似度计算,实现项目申报的分类检查和高重复度的智能提示,避免项目类别填报错误、项目重复申报和立项、项目内容不规范、运维服务内容超范围等问题。本文构建了一种适用于电力系统运维项目智能辅助管理的框架,基于该框架通过智能分类和计算项目相似度,在检测项目重复度和分类匹配的同时,为项目过滤评审和管理提供必要提示信息。通过该模型和系统对电力系统运维服务管理项目进行规范化管理,数据结果表明,分类匹配精确度对比传统分类方法提高3个百分点以上,能够检查高重复度项目,过滤不规范项目,有效提高了运维服务项目管理效率。

1 模型框架和系统设计

1.1 模型框架

本节构建电力运维服务项目智能辅助计划管理框架,基于该框架实现电力系统运维服务项目智能管理辅助系统。

基于文本挖掘技术的电力运维服务项目智能辅助管理框架如图1所示。首先对申报材料进行智能分词处理;然后提取和表示项目特征,基于特征向量进行多层级多分类器融合分类和相似度计算,过滤分类错误项目和重复申报项目,并在专家评审阶段分类评审;最后实现项目一键式材料归档,降低人工成本,将已立项项目纳入项目库进行后期管理。

图1 电力运维服务项目智能辅助管理框架

申报项目立项进入管理库后,可对本模型进一步优化训练,采用历史样本对初始运维服务项目智能申报分类模型进行训练,得到的运维服务项目智能申报模型再经过测试项目验证和优化。在该框架下,还可以采用数据挖掘和分析技术对目标项目数据资源进行定期分析和跟踪,以达到对运维服务项目智能申报模型的训练和学习,使运维服务项目智能申报模型能够不断优化。运维服务项目智能申报模型通过定期的分析和跟踪,能够及时进行调整和评价,使模型能够不断地进行优化,从而使得运维服务项目智能申报各种功能模块的效果越来越好。

1.2 系统设计

电力系统运维服务因纳入项目化管控时间较短,对于项目需求评审、运维服务过程规范等内容检查仍在摸索阶段,公司根据运维服务管理的经验,提取运维服务管理过程中的痛点和难点,重点加强项目计划端管控力度,实现项目立项有据可依,项目计划管控全程可追溯。图2为电力运维服务项目智能辅助管理功能模块图,主要功能如下:1) 实现在线计划填报、项目计划修改、审核全程可追溯。2) 通过智能分词技术实现过滤、分类和重复度检测,分析检测项目内容,为项目计划审核主动提供审核提示,提高工作效率。智能分词技术实现的具体功能包括:(1) 过滤,自动过滤不符合要求项目;(2) 分类匹配,对申报项目进行自动分类检查;(3) 项目重复度检测,对项目进行相似度计算,包括与已立项项目进行对比和同时申报项目之间的比对,给项目管理者和项目评审专家提供参考。3) 在项目计划确认后一键生成后期资料,减少因资料文档工作量大而造成的人工重复工作量,提升运维服务管理规范性、精益化水平。

图2 电力运维服务项目计划智能管理系统功能设计

本系统主要目的是减少人力处理数据环节,节省大量人工操作,实现自动化辅助管理,减少项目重复申报和立项,提高项目管理和资金利用效率。同时还能实现智能提示,避免项目内容不规范、运维服务内容超范围等情况。

2 流程与方法

2.1 层级多分类器融合分类方法

本文采用文本分类方法对申报材料进行分类,电力运维服务项目共分三级科目,例如一级科目分为五大类:软件系统信息统推(IC)、硬件设备(IB)、基础设施(ID)、一级客服(IA)、其他系统(IE)。本文对一级科目和二级科目的分类精确度进行优化提升。项目在申报时由于各种原因可能存在申报分类不正确的问题,会给后续项目评审、绩效评估、项目管理、归档等带来各种问题,因此在项目初审时必须严格筛查。本系统采用文本分类方法对项目申报材料进行自动分类,对可能存在类别错误的项目进行提示,减少人工筛查的巨大工作量,提高了初审效率。

2.1.1一级科目分类方法设计

针对一级科目分类,采用单分类器不能充分挖掘项目文本信息的特征,其分类效果不能得到进一步提升。因此,本文设计了一种多分类器融合分类方法来进行处理,该分类方法组合了组合朴素贝叶斯、逻辑回归、随机森林三种分类器。通过三种分类器重复提取项目材料的特征,并提高分类的效果。

由于五类一级科目申报材料中的内容差异较大,描述的对象各不相同,例如软件系统信息统推(IC)类材料往往会出现软件、数据库、中间件等,而这些词语基本不会出现在其他类材料中,所以考虑用申报材料的词语作为文本的特征。同时为了避免构建的词语特征空间出现特征稀疏、维度灾难等问题,使用卡方检验抽取与类别相关度最大的1 000个词语作为特征来构建文本词语特征空间。接着使用词袋模型将每份申报材料转换为特征向量。

对申报材料构建文本特征表示后,需要训练分类器来对材料进行分类,由于不同的分类器具有不同的分类性能,而Stacking集成学习方法能有效地组合分类器并提升性能,所以本文使用Stacking方法组合朴素贝叶斯、逻辑回归、随机森林三种分类器来对申报材料进行分类,具体过程如图3所示。首先将申报材料的文本词语特征分别输入到每个分类器中。在每个基分类器下,评论文本都获得属于五个类别的五个后验概率。将五个基分类器对评论文本输出的十五个后验分类概率进行拼接,形成新的十五维文本特征向量。最后使用十五维文本特征向量训练XGBoost分类器[15],并进行一级科目分类,获取申报材料的一级科目类别。

图3 多分类器融合分类框架图

2.1.2二级科目分类方法设计

经过一级科目分类后,还需要将每份申报材料划分到一级科目下的二级子科目中。由于相同一级科目的申报材料属于同一领域,因此其内容相通且材料中的用词十分相近,此时若以词语来作为申报材料的特征将不再具备区分度。所以本文考虑综合使用卷积神经网络[16]和自编码神经网络[17]来分别构建申报材料的局部特征和全局特征。

首先使用Word2Vec方法训练得到申报材料的词向量并作为卷积神经网络的输入,接着使用不同高度的卷积核进行卷积计算,当卷积核的高度不同时对应地提取不同长度的局部特征。然后经过池化层、Dropout层和全连接层进行分类。模型训练完成后,提取池化层的输出向量作为申报材料的局部特征。

自编码网络能通过具有隐藏层的神经网络的逐层特征变换获得原始数据的低维表示,从而达到在显著降低文本特征维度的同时尽量保留原本输入内容的目的。本文自编码网络的结构如图4所示。

图4 自编码网络结构图

Lθ表示自编码网络的目标函数,计算式如下:

(1)

(2)

训练过程中通过反向传播梯度下降的方法更新参数,使得目标函数减小。当输出误差L足够小时,表明输入样本数据可以通过隐藏层重构表达,此时隐藏层输出即为提取的申报材料全局特征。

最后将获取的申报材料的局部特征和全局特征拼接作为输入来训练新的XGBoost分类器并进行二级科目的分类。

2.2 项目文本重复度计算

2.2.1基于TF-IDF算法的特征项选取

采用TF-IDF算法进行文本特征项提取,根据本文的具体应用,对项目范围和项目内容等文本内容进行特征项提取。构建项目的文本特征向量,其具体步骤包含:(1) 对文本向量进行降维;(2) 采用TF-IDF的算法对特征项进行评估并排序;(3) 根据阈值选取评估分值高的作为特征项。

2.2.2计算文本相似度

采用余弦相似性算法对电力运维服务项目材料包括维护范围、维护内容、维护要求等综合分析项目之间相似性。余弦相似性算法[18]已经广泛应用于文本相似度计算,如式(3)所示,通过计算两个项目特征的向量余弦相似度,检测项目文本重复度。

(3)

通过计算余弦相似度能够快速查重,一方面检测申报项目与历史立项项目间的重复度,避免重复立项;另一方面检测同时申报的项目间的重复度,避免重复申报,通过检查高重复度项目为项目评审和管理人员提供辅助决策信息,节约了大量的人工比对和操作时间,进一步提高项目管理效率。

3 系统实现与结果分析

3.1 实验设置

软硬件配置:本实验采用的计算机系统为64位Windows 10系统,处理器为Core-i7,内存为16 GB,硬盘为128 GB的固态硬盘、2 TB机械硬盘。本文对文本进行一系列预处理工作,包括去掉申报材料中的相同内容部分、无用部分,进行中文分词。分词工具采用的是NLPIR汉语分词系统,其主要功能包括中文分词、词性标注等,该系统在中文分词任务中有很好的表现。

以该系统在某省电力运维服务计划项目管理中的应用为例,通过对2016年及以前的共1 600个历史申报项目进行训练和测试,将其划分为训练集为1 200个项目,测试集400个项目,然后对2016年—2018年新申报的350个运维服务申报项目进行文本分析。本实验采用的评价指标包括准确率(Precision)、召回率(Recall)和F1值,计算分别如下:

(3)

(4)

(5)

式中:TP和FP分别表示为识别的正类总数和负类总数;未识别的正类总数由FN表示。Precision为查准率,表示检索出来的条目有多少是正类的;Recall为召回率,表示正类中有多少被检索出来;F1值作为反映模型好坏的评价指标,可以保证客观公正。

3.2 结果分析

3.2.1分类结果

为了测试本文采用的多分类器融合方法的效果,将本文方法与SVM、LG、CNN、文献[19]方法的测试效果进行对比,一级分类结果如表1所示。

表1 一级分类结果 %

可以看出,本文采用的多分类器融合方法在一级分类中效果显著,本文方法准确率达到90%以上,相比其他传统方法,准确率提高了2.4~5.4个百分点,F1值提高了2.2~6.0个百分点。由此可见,本文方法相比其他传统方法具有更好的分类效果。

在几种传统的单一分类器的对比中,CNN方法由于具有自我学习能力,表现出较好的分类效果。而LG、SVM方法的特征是人为确定的,CNN方法相比于LG、SVM方法有较高的适应性。另一方面,LG、SVM、CNN三种方法与本文方法相比的分类结果相差较大,主要原因是LG、SVM提取的特征较少,所以很容易受到噪声影响,从而造成了分类结果较差,而CNN方法虽然可以自动从样本中提取特征,但由于数据量较小,容易过拟合,从而分类效果降低。

而文献[19]方法尽管也采用了两种分类器进行融合分类,然而其在一级分类中准确率仍然无法达到90%及以上,本文结合三种分类器进行融合分类的方法,获取更多文本特征满足分类要求。

二级分类结果如表2所示。SVM方法的准确率最低,原因可能是数据量过多和样本中有缺损数据,导致SVM在二级分类中表现相对较差的原因还在于SVM分类器自身的泛化能力过于强大,无法区分出类间的不同。而且SVM方法效率较低,因为SVM无法直接给出多分类的最终结果,要通过多个SVM分类器才能给出最终结果,花费的训练时间和测试时间都有所上升。LG方法与SVM方法相比准确率提高了1.8个百分点,F1值提高了2.0个百分点,但LG方法同样无法直接给出最终结果,需要多个分类器才能给出多分类的最终结果。

表2 二级分类结果 %

CNN与SVM相比,其准确率分别提高了2.3个百分点,召回率器高了4.3个百分点。CNN在二级分类中更能区分出类间的不同,因为CNN强大的拟合能力是其他方法不具备的。

本文方法与CNN方法相比,在准确率、召回率、F1值均方面分别提高了4.4、4.4和5.6个百分点。这是因为本文把自编码网络与CNN相结合,通过自编码网络能获得原始数据的低维表示,从而达到在显著降低文本特征维度的同时尽量保留原本输入内容的目的,提升了在二级分类中的分类效果。

3.2.2相似度分析结果

通过上述相似度计算,可得历史已立项项目库的文本重复度情况如表3所示。高度重复项目主要是项目申报者对已立项的项目做了简单改动并重复申报,例如:电力维护服务项目中,有些项目尽管名称不同,但维护内容和维护范围却高度相同。尽管电力维护服务项目在服务内容上存在一些重复,然而为了杜绝项目申报只进行简单修改就重复申报的情况,对高重复度项目仍有必要进行自动提醒。

表3 历史已立项项目库的文本重复度情况表 %

近三年未立项项目的文本最大重复度情况如表4所示,未立项项目的最大重复度远大于已经立项项目的重复度。由此可见,对于通过项目重复度计算找出高重复度项目,为项目评审和管理提供重复度信息很有必要。

表4 近三年未立项项目的文本最大重复度情况表 %

3.3 系统界面

基于文本挖掘的分类、相似度计算等技术,本文开发了电力运维服务智能管理系统,该系统实现了电力运维项目自动分类检查、高文本重复度提示、格式规范检查等功能,系统部分界面如图5所示。

(a) 项目提交界面

4 结 语

通过全面分析电力运维服务项目计划管理现状,和对现有问题剖析,结合目前工作实施中的痛点和难点,研发运维服务项目计划管理系统。规范电力运维服务项目计划,利用研发的管理系统实现项目申报智能提醒、项目填报智能提示,对项目管理各个环节的行为数据进行全过程、全流程、全留痕记录,实现数据的实时分析、实时跟踪、实时追溯,引入人工智能技术,切实提升运维服务项目的水平、质量、效率。目前该系统在重庆电力运维服务项目申报中得到了很好的运用,随着该项目的进一步改进和完善,将在电力系统中得到更广泛的应用。

猜你喜欢

服务项目分类器运维
少样本条件下基于K-最近邻及多分类器协同的样本扩增分类
学贯中西(6):阐述ML分类器的工作流程
基本公共卫生服务项目专项资金使用存在问题及建议
基于朴素Bayes组合的简易集成分类器①
基于GPS的电力运维轨迹定位系统
IT运维管理系统的设计及应用
项目制与社会组织服务供给困境:对政府购买服务项目化运作的分析
老龄化背景下辽宁省养老地产发展研究
基于AdaBoost算法的在线连续极限学习机集成算法
江苏省大丰市2014年前三季度CPI简析