电力基建施工问题文本分类研究
2019-09-10谢志炜冯鸿怀许锐埼李慧夫
谢志炜 冯鸿怀 许锐埼 李慧夫
摘 要:针对实际电力基建施工问题数据集庞大,导致运监管理难度较大的问题,本文提出一种基于朴素贝叶斯分类器的电力基建施工问题文本分类方法,实现对施工问题的自动分类工作。首先整理收集施工问题数据集,然后将施工问题短文本进行中文分词,构建特征向量空间,最后采用朴素贝叶斯分类器对施工问题文本进行分类,并通过实例分析证明了本文所用方法的有效性与优越性。
关键词:施工问题;中文分词;朴素贝叶斯;文本分类
中图分类号:TP391;O212.8 文献标识码:A 文章编号:2096-4706(2019)17-0017-03
Abstract:Aiming at the huge dataset of actual power infrastructure construction problems,it is difficult to manage the operation and supervision. This paper proposes a text classification method based on Naive Bayesian classifier for power infrastructure construction,which realizes the automatic classification of construction problems. Firstly,collect the construction problem data set,and then use the Chinese text segmentation of the short text of the construction problem to construct the feature vector space. Finally,the Naive Bayes classifier is used to classify the text of the construction problem. The validity and superiority of the method used in this paper are proved by an example analysis.
Keywords:construction problems;Chinese word segmentation;Naive Bayes;text classification
0 引 言
随着经济的快速发展,现有的电力供应能力无法满足人们日益增长的需求,每年供电部门都会开展大量电力基建工程以解决此问题[1]。但由于基建施工是动态的立体作业过程,人员的流动性、生产设施的临时性、施工工艺的标准性、生产过程的规范性、作业环境的多变性,形成了人、机、料、法、环等多维度施工问题集,所存在的问题会对工程项目建设的效率、质量以及水平造成一定的影响[2]。因此基建工程管理起着越来越关键的作用,也是电力建设事业必须注重的环节。
目前,基建项目管理主要手段为现场核查,核查后对施工现场状况以及存在问题进行记录。由于基建项目基数大,运监部门在处理记录施工问题的文档时较为低效,需要对每条记录进行审阅,无法快速对现场状况以及存在的问题进行定性的分析。
国内外有许多文本数据挖掘方法,它们也被应用到了电力领域:文献[3]初步探讨了文本挖掘技术在电力行业的应用,并讲述了文本挖掘的概念、流程方法以及对客户反馈信息进行情感分析的应用;文献[4]针对电力客户投诉文本展开数据挖掘研究,运用自然语言处理技术,通过构建文本分类器模型,实现投诉热点的自动分类,进而实现差异化服务;文献[5]针对电网生产管理系统中存在大量设备缺陷文本的特点,构建电力设备缺陷文本分类模型,减轻人工比对筛选的工作量。
现有文献对施工问题的研究较少,故本文针对施工问题数据量庞大且缺乏相关处理技术使得监控管理存在较大难度的问题,提出一种基于朴素贝叶斯分类器的电力基建施工问题文本分类方法。首先向相关部门收集并整理施工问题数据集,利用Python平台中的工具包对各条施工问题短文本进行中文分词,进而构建特征向量空间。最后对朴素贝叶斯分类器进行训练,进而实现施工问题文本分类,有助于提高运营监控管理水平和工作效率。
1 贝叶斯理论
1.1 贝叶斯理论介绍
目前,贝叶斯理论作为一种开放式的决策性体系,已广泛地应用于国防军事、资源评估、水利水电、风险投资、金融保险等各个社会領域[6]。贝叶斯理论的思想如图1所示。
尽管朴素贝叶斯分类器的条件独立性假设在一定程度上限制了其范围,但在实际应用中发现,即使在属性显著相关的情况下,朴素贝叶斯网络也显示了更好的准确性和效率[9]。
2 施工问题文本分类步骤
施工问题文本分类是基于主流的文本挖掘技术开展的,所采取的挖掘步骤如图3所示。
(1)数据预处理:在获取文本数据后,要对数字字符和英文字符等对文本意义不大的内容进行删除,同时将冗余、重复的样本进行识别和删除,留下对分类更有价值的数据。
(2)中文分词:中文文本与英文文本不同,没有单词与单词之间的明显间隔,所以在进行中文文本挖掘时必定要进行中文分词。一般分词具有基于字典的方法、基于注释的方法、基于规则的方法和基于统计的方法[10]。在Python中常用Jieba分词工具。分完词后,还需要使用停用词库对一些介词或常用词进行删除。
(3)特征向量空间:分词过后,文本被分解为一个个的特征词。通过使用词频来度量每个特征词,进而将文本数据转化为特征向量空间。
(4)模型搭建:搭建文本分类模型,本文采用朴素贝叶斯分类器。将预处理好的样本进行划分,一部分作为训练集导入分类器进行训练,剩余部分作为测试集(验证集)对分类器的性能进行检测验证。
(5)模型评估:本文采用AUC值对分类模型进行性能评价。AUC值是ROC曲线下方所围成的面积值。分类器的AUC值等价于将随机选择的正样本排序在随机选择的负样本之前的概率。AUC值越大,说明该分类器的效果越好。
3 实例分析
本文从某供电局基建部门收集了共1000条的施工问题集。通过数据预处理,除去冗余、重复等意义不大的文本数据,取剩余800条文本作为实验样本。由于本文所采用的分类方法为有监督学习机制,故已请专家为这800条施工问题提前进行分类。为保证分类器能识别正常的状态,施工问题集中保留了正常类别。该施工问题集所涉及类别如表1所示。
对施工问题文本进行中文分词,采用Python中的Jieba分词工具,随机取10项进行分词后的展示,如图4所示。
由图4可见,各条施工问题文本已被分为多个词语,在每条施工问题后面还带有其类别属性。分词后,采用sklearn工具包中的CountVectorizer将文本转化为特征向量空间,利用词频对施工文本数据进行量化处理;最后,采用sklearn工具包中的MultinomialNB搭建分类预测模型:随机取90%的样本作为朴素贝叶斯分类器模型的训练样本,对分类器模型进行训练。剩余10%作为测试样本对训练好的模型进行性能验证。
为了证明本文所设计的模型具有更好的性能,还分别建立了常用的SVM分类模型以及KNN分类模型进行比较,所得这三种分类器的性能对比如表2所示。
由表2可得,本文所提朴素贝叶斯分类器的AUC值为0.88,比KNN(0.76)、SVM(0.80)分类器的分类效果更佳。
4 结 论
本文针对施工问题数据量庞大,导致监控管理存在难度较大、效率低下等问题,提出一种基于朴素贝叶斯分类器的电力基建施工问题文本分类方法。通过实例证明了本文所提模型具有有效性,且分类效果优于其他分类模型。本文研究有利于提高运营监控管理水平,提高工作效率,为电网精细化管理提供技术支持。
参考文献:
[1] 韦锡芝.电力基建工程管理中常见问题及改进措施 [J].技术与市场,2016,23(2):98+100.
[2] 曹武明.当前电力建设工程施工安全管理问题分析与应对措施 [J].时代经贸,2009(11):101.
[3] 施萱轩,姜红红,梁浩,等.文本挖掘技术研究及其在电力行业的应用 [J].机电信息,2017(30):42-45+47.
[4] 吴刚勇,张千斌,吴恒超,等.基于自然语言处理技术的电力客户投诉工单文本挖掘分析 [J].电力大数据,2018,21(10):68-73.
[5] 刘梓权,王慧芳,曹靖,等.基于卷积神经网络的电力设备缺陷文本分类模型研究 [J].电网技术,2018,42(2):644-651.
[6] 庄晟.基于朴素贝叶斯的电力变压器故障诊断 [D].上海:上海交通大学,2015.
[7] 岳全中,朱永利.基于朴素贝叶斯分类器的电流互感器状态评估 [C]//中国高等学校电力系统及其自动化专业第二十四届学术年会论文集.北京:中国农业大学,2008:208-211.
[8] 雍明超,吕侠,周钟,等.基于朴素贝叶斯算法的电力变压器故障诊断方法研究 [J].电氣应用,2017,36(14):32-35.
[9] 田炳伟,高钏.基于贝叶斯分类器的电力变压器设备故障诊断研究 [J].电子设计工程,2017,25(15):54-57+61.
[10] 梁浩波.基于文本挖掘的用电客户诉求智能聚类研究 [J].广东电力,2016,29(8):45-50+66.
作者简介:谢志炜(1984-),男,汉族,广东广州人,工程
师,硕士,研究方向:配电网工程管理、配电网工程造价管理、配电网规划;冯鸿怀(1981-),男,汉族,广东恩平人,信息系统项目管理师,研究方向:电力行业信息化、大数据分析;通讯作者:许锐埼(1995-),男,汉族,广东潮阳人,硕士研究生,研究方向:电力数据挖掘分析;李慧夫(1994-),男,汉族,湖北咸宁人,硕士研究生,研究方向:电力数据挖掘分析。