APP下载

电力文本挖掘技术研究综述

2020-01-16白开峰杨波魏军

电子技术与软件工程 2019年22期
关键词:实体文本信息

文/白开峰 杨波 魏军

1 引言

当前,大数据云计算研究的成熟与发展推动着电子化自动化技术的产业应用。智能电网的管理、服务、监测、运行、诊断、营销、评估等方方面面的工作开始获得一体化联网管理模式。信息的高度集中使得大量的非结构化关键性数据与内容存在于各类形式以及多种来源的文本文件中。井喷式增长的电力大数据对于智能电网的研究意义已获得业内普遍认可。它既是智能电网发展的前沿领域,也是关键技术基础。作为资源密集型的电网企业,大数据资源的科学统筹管理与综合分析是关键任务之一。

电力文本数据具有的数据体量大、类型丰富、信息密度低、更新速度快的特征。其中,数据体量大,指24 小时全时段无间歇运作的电力设备系统不断产生数目庞大的数据;类型丰富,指电力数据描述电力系统运行的方方面面包括设备运行监测诊断维护,电网公司运营评估,客户相关信息报告,呈现数据形式多样,数据来源多样,数据内容多样的现象;价值密度低,指异常数据占比低,但数据价值高。因此采用文本挖掘技术挖掘电力文本具有很高的应用意义。

目前,文本挖掘技术主要被应用于医学信息、生物学、社交媒体等领域,而在电力行业内则停留于研究实验阶段。人工智能及其子方向自然语言处理理论与技术的发展为电力文本挖掘的实现提供先决条件。与此同时,电力企业长期运营所积累的大量数据为电力文本挖掘的研究提供数据保障。电力行业经过长期发展,在数据管理分类,规程规章,数据体制方面有较高的完整性和统一性。上述三点为未来完全实现对电力文本的自动化知识与关键内容获取具有可行性以及技术保障。

根据电力文本挖掘技术目前的研究探索与实验,本文将就电力文本挖掘技术的研究成果与初期应用探索展开讨论。重点就文本挖掘技术及其电力领域应用、研究现状、未来工作与挑战做简要分析。

2 文本挖掘技术

文本挖掘作为自然语言处理与数据挖掘的交叉应用,该概念于20世纪80年代中期被正式提出,至今以经过30 多年的发展。随着大数据时代的到来,该项技术重新受到关注与应用。文本挖掘的主要任务是从大量现有非结构化文本数据中挖掘未知的、价值高的、高可用的结构化知识,并应用于信息管理、组织、归纳、二次利用。文本挖掘技术主要涉及三方面的内容。

如图1所示,文本挖掘的发展主要基于深度学习、机器学习、自然语言处理、概率统计为理论依据。换言之,文本挖掘是上述理论的具体任务。技术基础部分主要包含文本信息抽取、文本分类、文本聚类、文本数据压缩、文本数据处理。在此基础之上主要应用信息访问和知识发现,其中信息访问具体涉及信息检索、信息浏览、信息过滤、信息报告,知识发现则涉及数据分析、数据预测。具体应用领域主要覆盖于医学生物以及社交媒体信息的研究,如医学知识图谱构建,电子病历自动处理,文献自动阅读、用户行为分析、情感分析、话题热度监测及分析等方面的工作。

3 文本挖掘

3.1 文本挖掘难点

文本挖掘的难点主要来源于两个方面——文本数据和应用领域。文本作为一种非结构数据,本身存在诸多难点需要克服。文本作为语言的一种表示形式以及种类多样,不同语种的语法不同,无统一且机器可理解的形式与规则。第二,从语言学的角度看,文本本身存在诸多语言学现象,使得理解过程中容易出现歧义和模糊,为机器理解增添难度。第三,缺乏高可用且评估性能高的数据集。

除了针对社交类、新闻类等开放性文本以外,文本挖掘技术的价值更是应用于生物医学、教育教学、电力电网等社会或生产领域中。无论是开放性文本或是领域性文本,都需要结合应用场景和所用语言做出针对性的、准确的、高效的文本挖掘工具。从宏观上看,这类工具的鲁棒性较差,效果欠佳,目前尚无解决方案。

图1:文本挖掘三部分结构

由于电力行业的文本一般是人工书写完成,存在一定数量的书写错误,语法错误、歧义错误等。因此,在文本挖掘过程中,容错性以及错误理解性也是数据处理人员需要优化解决的一项挑战。除此之外,领域性文本也包含了大量表格型数据。因此,针对这类数据的挖掘也是文本挖掘中的一项重要子任务。

3.2 电力文本挖掘方法

3.2.1 电力文本挖掘预处理

与一般的文本挖掘不同,电力文本挖掘在考虑确定问题需求的初始阶段时,需要就文本类型做基于电力专业知识的内容分析。电力行业涉及的文本类型丰富,来自不同部门、不同岗位、不同设备、不同领导层次等等,且这一特点具体体现在文本挖掘的各项子任务中。如命名实体识别(Named Entity Recognition,NER),是实现文本分类,自动评估、自动筛检的基础任务。其具体目标是从电力数据文本中识别出关键的指定性内容,如工程属性,设备名称、运行数据等,从电力专业的角度实现关键信息的抽取和分类。

电力文本常以非结构化的自由数据形式存在,因此在进行文本挖掘的初始准备阶段,需要完成文本数据预处理以及文本表示的工作,之后才能进行文本挖掘工作。文本预处理的具体工作一般包含中文分词、取停用词、词性标注等。除此之外,预处理工作中一项重要子任务是构建电力文本问题语料库并在此基础之上建立领域性字典。其中在语料库数据采集上,需要尽可能保证数据集的平衡性和多样性。换言之,我们需要尽量从电力部门现有的各类文本数据中选取,如电力设备的运行、维护、测试报告或日志,供电局现场维修记录单、工单,电力行业工作守则、指南、标准等等。在此基础之上,结合现有的通用字典,在优先完成去除停用词的前提下,采用基于统计的分词方法,如隐马尔科夫链或是条件随机场模型等对文本做分词处理,并根据词频做排序,之后还需要电力专业人员做人工校正并进行补充更新,以保证字典的科学性、准确性和及时性,为之后的工作提供数据保障和资源支持。

3.2.2 电力文本的表示方法

除了高效准确平衡的数据集之外,在被广泛应用的深度学习模型算法中,文本数据的计算机可理解化表示是电力文本数据挖掘过程中需要解决的另一个问题。常用的表示方法有空间向量模型、嵌入式向量模型、正则表达式、树结构模型等。不同模型的侧重点有区别,需要基于任务目标合理选择。如前文所提到的,常用的两类向量表示方法中空间向量模型主要关注句子的整体内容而忽略句中词语的顺序;嵌入式向量模型则关注于句子中的关键信息的内涵以及优先级排序。目前,处理这类问题的主流方法是词袋方法以及Word2Vec 方法。基于向量空间模型的词袋方法简单且可操作性强,但是以升高维度和忽略上下文内容为代价。而Word2Vec 则是由目前被广泛应用的神经网络训练获得的,因此,相较于词袋方法,具有词向量纬度的特点,且通过计算向量相似度的手段在训练阶段即考虑上下文对模型以及最终预测结果的影响。Doc2Vec 则是基于Word2Vec 发展起来的方法,旨在实现抽取主要内容实现文本摘要的工作。

3.3 命名实体识别以及关系抽取

广谱型的命名实体识别旨在识别出现在文本数据中的人名、地名、机构名、时间、日期、货币和百分比,而领域型的命名实体识别则更加注重研究、设备运营以及生产领域文本数据的类别性的关键实体内容抽取工作,也是实现构建电力系统知识图谱电力文本数据分类、关系抽取、文本摘要的首要任务之一,包括前文提及的文本数据预处理,基于专业知识的文本数据分析、模型训练、测试等子任务。针对电力文本的数目多、体量大、内容杂的特点,命名实体识别方法有利于快速有效的实现句子关键信息的识别以及分类,为之后的命名实体间的关系抽取提供前提保障。

如图2所示,命名实体识别的步骤主要包括数据清洗、预处理、模型训练以及实体识别,其中还包含非常重要的一步,数据标注。数据标注的质量一定程度上影响着实体识别结果的准确性。常用的命名实体识别工作是使用条件随机场以及深度学习的方法。

图2:命名实体识别流程

关系抽取一般使用基于规则、监督学习、半监督以及无监督学习。基于规则的方法是从语法规则以及语法现象的角度寻找主谓宾、suchas、including 等语言结构。此类方法准确度高,适合垂直场景,但其缺点也很明显,信息覆盖率低、人力成本高、设计难度高使得这类方法无法在电力文本数据这类领域性文本中推广。而监督学习提高了模型的鲁棒性,但前期的准备工作需要专业性知识的介入,如定义关系和实体类型,并准备好已标注实体以及关系的训练数据。接下来则是提取特征,并对特征做分类。特征包括此特征和位置特征。上述方法中的数据标注需要耗费大量的人力物力,且对标注人员的专业性要求高。但由于其较好的预测效果使之依然被应用在很多工作中。而半监督学习一定程度上解决了监督学习的这一缺点,它只需要少量的标注语料以及大量未被标注的预料数据,逐渐获得在生产中获得应用。

4 结语

文本挖掘是集统计学、数据分析处理、机器学习、深度学习、语言学、数据库技术等多学科于一体的新兴手段。该项技术的发展使大量隐藏于文本数据背后的关键信息和知识被人们快速获取。未来的研究方向中也将朝着电力运维中文知识图谱的构建工作中,帮助快速高效的做出设备诊断。在电力生产中的应用将有利于高效准确地获取文本数据中的关键信息,尤其在电力设备运营维护以及现场作业方面发挥重要作用,也有利于推动电力企业信息电子化的进程以及智能电网的发展,具有极大的应用和研究价值。

猜你喜欢

实体文本信息
前海自贸区:金融服务实体
在808DA上文本显示的改善
基于doc2vec和TF-IDF的相似文本识别
实体的可感部分与实体——兼论亚里士多德分析实体的两种模式
两会进行时:紧扣实体经济“钉钉子”
振兴实体经济地方如何“钉钉子”
文本之中·文本之外·文本之上——童话故事《坐井观天》的教学隐喻
如何快速走进文本