电力文本数据挖掘现状及挑战
2019-04-02王慧芳
王慧芳,曹 靖,罗 麟
(1.浙江大学电气工程学院,杭州 310027;2.国网浙江省电力有限公司舟山供电公司,浙江 舟山 316021)
0 引言
随着智能电网建设的全面展开,以及电力信息通信与电网企业经营管理的深度融合,电力数据出现爆发性增长[1-2]。这些数据中隐藏着丰富的关系到电网安全稳定经济运行的信息,因而成为电网企业宝贵的数据资产[3]。电力大数据虽已成为当前热点研究对象,然而每年只有少量的数据被挖掘利用[4],因此电力数据挖掘是智能电网发展迫切需要研究的前沿领域。
电网企业是资产密集型企业,电力设备健康状态管理是其核心任务,利用大数据进行科学管理是必然趋势[5]。然而普遍认为,电网数据存在体量大、类型多、价值密度低和变化快的特点,较难利用。其中,数据价值密度低,是指绝大部分数据是电网正常数据,只有极少量的异常数据[6]。数据的严重偏斜影响基于机器学习、深度学习等人工智能方法的挖掘效果。幸运的是,电力数据类型众多,其中文本数据,因“重要的事情常常被记录”而具有价值密度高的特点,挖掘前景好,因此电力文本挖掘是电力设备健康管理重点关注的关键技术之一。
当前自然语言处理、人工智能等技术快速发展,为电力文本挖掘提供了良好的技术基础;同时电网企业已积累了大量与电力设备健康相关的文本,如缺陷、消缺等短文本,以及试验、故障分析报告等长文本,具备了文本挖掘的数据条件。此外,电网企业已建立了诸多与设备健康相关的标准,如分别针对输变电设备和配电网设备的缺陷分类标准、设备状态评价导则、状态检修试验规程等,为文本挖掘的应用提供了参照与规则支持。因而,电力文本挖掘的条件已具备,且发展前景广阔。
然而,由于现阶段知识和技术层面上的匮乏,文本挖掘技术在国内电力行业还属于新兴的前沿领域,大部分研究还处于探究试验阶段,应用效益尚未显现。与互联网、医学等行业取得的成就相比,电力行业的文本挖掘研究还有待加强。
为此,基于电力文本挖掘领域已做的前期探索,本文归纳了电力文本数据挖掘的关键技术和典型应用,分析了这一领域面临的挑战。首先介绍文本挖掘技术的发展历程,指出文本挖掘技术的难点;接着重点分析电力文本数据挖掘关键技术及研究现状;然后介绍文本挖掘技术在电力缺陷文本中的典型应用;最后,提出电力文本挖掘面临的挑战。
1 文本挖掘技术概述
1.1 文本挖掘技术发展过程
文本挖掘的概念最早出现在20世纪80年代中期,它集成了自然语言处理和数据挖掘的部分技术与理念,至今已有30多年的历史。早期,文本挖掘的科学性一度受到质疑和诟病,但随着文本挖掘技术的进步和发展,其应用逐渐得到认可,并成为研究热点。
狭义上,文本挖掘是指从大量文本数据中提取事先未知的、可理解的、最终可用的知识的过程,同时运用这些知识更好地组织信息、解决问题;广义上,文本挖掘既包括文本知识抽取,也包括面向各种应用的文本数据处理过程。
目前,理论研究方面,文本挖掘的主要研究方向有文本结构分析、文本语义分析、文本摘要、文本关联分析等;应用研究方面,在社科情报和生物医学领域的研究成果较多。在社科情报领域,文本挖掘被用于微博热点话题监测[7]、情感分析[8]、用户评论语义分析[9]、垃圾邮件分类[10]等。在生物医学领域,有基于文本挖掘提取领域知识[11]、通过挖掘事件记录发现突发事件与医学救援装备之间的关联[12]等研究。
1.2 文本挖掘技术难点
文本数据属于自然语言,其挖掘涉及语言学、数学、计算机科学、信息学、心理科学、认知科学以及应用领域等众多学科。
从技术角度看,文本挖掘存在数据和方法两方面困难。数据方面,文本属于非结构化数据,无确定形式并且缺乏机器可理解的语义,需要转化为结构化数据才能被进一步挖掘;同时,文本属于自然语言范畴,容易出现模糊性和歧义性,准确理解和使用难度大;此外,文本采用的语言不同,挖掘技术就难以简单地移植。方法方面,虽然现有的文本挖掘方法已能解决一部分问题,但依然存在效果欠佳问题,例如搜索引擎还无法根据输入文本返回精准答案;还有很多文本挖掘问题尚无有效解决方法。
从应用角度看,通用的文本挖掘方法运用于专业领域时,常会出现各种各样的问题,因此专业领域的文本挖掘需考虑通用挖掘方法的适应性。此外,只有引入应用领域的专业知识,文本挖掘才更具有针对性与准确性,因此需要结合应用领域的专业特点去探索解决文本挖掘问题的方法。
2 电力文本数据挖掘关键技术研究现状
2.1 电力文本预处理技术
非结构化的电力文本数据需要先进行文本预处理以及文本表示,才能转化为结构化数据进行挖掘。文本预处理通常包括文本分词、词性标注与去停用词等。电力文本预处理还需要构建电力领域本体字典。
电力本体字典的构建是指将电力词汇分别按照同义、近义、反义、上下位、整体-部分等本体关系进行组织,并存储在数据库中以供查询、调用[13]。构建电力本体字典前,首先要构建电力文本语料库,如选择各类电力设备的缺陷、消缺、检修、试验等记录或报告,也可以选择企业颁布的与电力设备相关的导则、标准,还有电力企业的各种工单、工作票、操作票等;然后结合已有的外部通用字典,采用基于统计的分词模型,如采用基于隐马尔科夫模型、条件随机场模型等,对语料库进行分词,并基于词频对分词结果进行排序;最后依靠具有电力领域专业知识的人员对专业术语、通俗用语、名词堆砌的词串和短语词汇等进行修正,并按照同义词集、整体-部分关系、实体-属性关系等构建本体字典[14]。需说明的是,本体字典的构建不会是一次完成,而是随着新语料库的增加,会有补充或修订。电力本体字典的构建是必须的基础工作,其质量关系着后续电力文本挖掘的科学性。
文本分词技术可分为3类:基于本体字典的分词技术、基于统计规律的无字典分词技术以及二者的结合。本体字典的建立可以大大提高分词的准确性与停用词的识别效果。基于统计规律的无字典分词技术虽可以减轻建立字典的负担,但准确性难以保证,分词后需进行词性标注。词性既可以是名词、动词等,也可以根据挖掘需求自行定义,例如文献[15]中的大部件、小部件、属性、程度,以及文献[16]中的实体、缺陷现象、定性缺陷程度、定量缺陷程度等。词性标注的本质是分类问题。将电力文本切分为一个个词汇后,除了有用的电力词汇,还会出现人名、地名、符号等停用词[14],可根据实际挖掘需求去除待处理文本中的停用词。
2.2 电力文本表示方法
文本表示方法是指将文本数据表示成计算机可处理的形式,表示方式将直接影响后续数据挖掘的效率和效果。表示方法有很多,如向量空间模型、嵌入式向量模型等向量化表示方法,以及语义框架模型、树/图结构模型、正则表达法等等。
(1)向量空间模型用于快速提取句子的整体含义,而对句子中词汇顺序不是很关注;而嵌入式向量模型用于需要突出某一个或几个词汇含义或顺序的文本。常见的向量化方法有词袋方法与Word2Vec方法。词袋方法基于向量空间模型,简单通俗,但向量维度高,而且词向量忽略了句法;Word2Vec方法基于神经网络训练得到,属于嵌入式向量模型,词向量维度低,而且由于训练时考虑了上下文,不同词之间具有同义、近义、反义等语义信息,可通过计算向量相似度衡量。Doc2Vec是Word2Vec的拓展,用类似的方法将句子向量化,优点在于可以提取句子主旨。
(2)语义框架模型,是指对于特定内容的文本,根据其语法基本模型,定义语义槽和语义框架,然后采用基于本体字典的槽填充方法,实现文本的特殊表示。
(3)树结构模型可以分析句法结构,形成以“核心词-依存关系-依存词”为基本形式的依存关系树。图结构模型是将一条文本表示为图结构形式,表示过程与知识图谱相似,首先基于本体字典识别文本中的实体与属性,然后进行共指消解,查找出所有表示实体/属性的词当中的同义词,接下来进行关系抽取,识别各实体/属性间是否存在关系及相应关系类型,最后进行关系筛选,如删除冗余的包含关系等。图结构的表示形式能够一定程度上反映文本中复杂的关联信息,是文本挖掘的有效手段之一。
(4)电力文本还可以采用正则表达式法,用于提取句中的数字、字母、特殊符号等隐含重要信息的字段。不同的文本挖掘需求可以采用一种或多种方法融合表示。
2.3 电力数据挖掘方法
电力文本在经过预处理与表示环节后,转化为计算机可以处理的结构化数据,从而可以利用结构化数据挖掘方法进行数据挖掘。数据挖掘方法有很多,常见的有各种机器学习方法。
基于机器学习方法,可以根据学习模式将机器学习分为有监督学习、无监督学习、半监督学习,是否有监督取决于训练数据是否有标注,有标注的文本可以应用于分类问题,无标注的文本可以应用于聚类问题。根据学习方法,又可以将机器学习分为传统机器学习和深度学习等[17]。传统机器学习算法有逻辑回归、隐马尔科夫方法、支持向量机方法、K近邻方法、贝叶斯方法以及决策树方法等;深度学习算法有深度置信网络、卷积神经网络、受限玻尔兹曼机和循环神经网络等。其中,由循环神经网络变种而来的长短时记忆网络,由于加入了长期记忆机制,在处理长序列时具有优势,因而适用于长文本的挖掘。
3 文本挖掘技术在电力缺陷文本中的应用
3.1 电力缺陷文本的特点及挖掘需求
在电力文本挖掘领域,已有一些针对电力缺陷文本的应用。电力缺陷文本来自于电网企业日常运维记录,一般包括计算机可直接处理的格式规范、语义清晰的内容,如缺陷设备编号、名称、缺陷发现时间、缺陷等级等;也包括计算机难以理解的文本,主要为缺陷详细描述,如“2号主变冷却器风扇有异响”“有载分接开关呼吸器硅胶变色2/3以上”。缺陷描述由现场工作人员记录,可能存在一些不规范或错误需要进行更正。此外,缺陷描述包含的内容通常较为丰富,一条文本可能包含多条缺陷信息,每一条缺陷信息包含着缺陷发生部件、现象及程度等缺陷特征,因此需要进行缺陷分离、特征抽取、关系挖掘等研究。图1示例了缺陷文本挖掘的几种典型应用。
图1 缺陷文本挖掘典型应用
3.2 缺陷文本错误识别与质量提升
缺陷文本常常存在各种原因造成的质量问题,如描述不完整、有歧义等,若将这些存在质量问题的记录作为有效文本进行挖掘,会造成挖掘结果偏差。因此需采用适当的方法对缺陷文本进行质量评价,对质量较差的历史文本进行质量提升,对新录入文本给出改进建议,从源头上保证文本质量,对确保后续文本挖掘效果具有重要意义。
邵冠宇等进行了卓有成效的研究[18]。通过对大量实际缺陷文本的分析,首先总结出电网设备缺陷文本容易出现的不完整、不具体、冗余度过高等问题。然后,定义了缺陷文本质量的评价指标,并提出了基于“层次-自适应灰色关联分析法”的评价方法。接着,基于潜在狄利克雷分布方法,结合国家电网公司的缺陷分类标准修正文本。针对新录入文本,利用文本质量评价方法进行质量问题提示,利用词向量映射方法给出修正建议,保证新录入缺陷文本的质量。其算例表明,历史缺陷文本在修正后其文本质量得分有较大提升,新录入文本存在的质量问题能被准确识别并给出修正建议。
刘梓权等则提出了基于知识图谱的缺陷文本错误识别方法[19]。首先利用现有电力设备缺陷记录语料库,通过实体抽取、属性抽取、共指消解、关系抽取、关系筛选等步骤,构建出电力设备缺陷知识图谱;然后基于缺陷知识图谱,采用图搜索方法识别不同类型的缺陷文本错误并给出提示;最后通过算例分析表明,基于知识图谱的缺陷文本错误识别方法各项评估指标均优于其他人工智能学习方法,并且运行效率能满足工程应用。
3.3 缺陷严重等级自动分类
电力设备缺陷的严重程度常分为紧急、严重、一般3类,不同等级缺陷有不同的消缺时间要求,因此缺陷文本的准确分类非常重要。人工对缺陷文本进行严重等级分类,不仅效率低,而且由于主观因素和经验差异,准确性难以保障。
文献[20]基于one-hot词袋模型,实现了文本的向量化,然后基于KNN(自主区间搜索K最近邻)算法,将待归类的缺陷文本与缺陷文本库中已归类的缺陷文本进行对比,找到最相近的文本,然后将待归类文本归入最接近文本的一类。算例验证了基于KNN算法对文本进行分类的可行性。
文献[21]则提出了基于卷积神经网络的电力设备缺陷文本分类模型。首先以大量经过文本预处理的电力设备缺陷文本为语料库,训练出每个词的词向量表示,词向量的各个维度代表通过神经网络语言模型学习到的词的语义特征。然后参考电力设备用语规范,对同义词的词向量进行合并。接下来构建卷积神经网络分类器,以准确标注缺陷等级的文本为训练数据,构建以缺陷文本为输入、以分类等级结果为输出的电力缺陷文本分类模型。算例展示了该模型在分类效果上的显著优势,为电力文本分类提供了有效手段。
我至今仍记得,高三某一天晚上,说有台风,学校很早就让我们回宿舍了,而第二天早上,6点半都不到,您却从校道上迎面走来,想必您是整晚都没回家。
3.4 缺陷文本智能检索
目前,缺陷处理工作依赖于工作人员的知识与经验。如果可以通过检索找到相同缺陷情况的历史记录,就可以借鉴前人的经验,参考以往的处理方法对该缺陷进行相应处理,这在实际缺陷管理中,尤其是对于知识和经验相对不足的人员有着重要的指导意义。
刘梓权等在已构建的电力设备缺陷知识图谱基础上,利用图搜索技术实现了电力设备缺陷文本的检索[16]。算例对比了基于知识图谱的缺陷记录检索方法与传统机器学习语义分析方法的检索效果,表明基于知识图谱的检索方法准确性更好。
3.5 缺陷文本中的缺陷细节提取
缺陷文本包含对缺陷细节的描述,如何提取这些细节、进而统计分析发现缺陷规律是一个重要的问题。
曹靖等通过建立缺陷文本语义框架,实现了缺陷细节的提取,为电力设备缺陷的精细化统计分析提供了技术手段[15]。缺陷文本的语义框架由大部件、小部件、属性、程度4个语义槽构成,在进行缺陷文本的槽填充过程中记录词位信息,然后在构建语义框架时根据词位信息计算路径距离,并区分核心词是小部件或属性,选择不同方向的最小路径距离进行槽匹配,最后经词串合并实现最终的语义框架。由于缺陷细节即为语义框架中的语义槽,因此可对挖掘出的缺陷细节进行统计分析。
3.6 缺陷文本的健康状态自动评价
电力设备缺陷文本蕴藏着设备健康既往史,对客观评价设备健康状态发展过程大有用处。
邱剑等以断路器为例提出通过缺陷文本挖掘把缺陷等级融入基于状态监测数据的状态评价模型中,建立了比率型全寿命状态评价模型[14]。其中,缺陷等级分类采用基于KNN算法的文本分类方法;比率型状态信息融合模型可实现断路器全寿命健康状态的展示,对于电力设备状态评价与全寿命健康管理有重要作用。
既然可以把缺陷严重程度分类结果融入健康状态评价模型,那么也可更进一步从句子结构和语义的角度对缺陷文本进行深入挖掘,通过对比缺陷描述与标准导则,给出缺陷文本当时场景下的设备健康得分,这样设备既往史融入健康状态评价的科学性会大大提高。但是,实际缺陷文本与标准导则之间的自动准确匹配仍是一个难题,对比文本相似度的准确度不够高,采用知识图谱技术,或者利用依存句法分析,将缺陷描述转化为树形结构,基于树匹配算法与导则进行比较,从而得到健康指数分值,是正在研究的解决办法。
3.7 缺陷文本挖掘的启发
上述电力缺陷文本的挖掘研究提供了以下启发:
(1)电力文本种类多,文本挖掘技术手段也多,需根据文本特点及挖掘需求研究适合的挖掘方法。
(2)文本挖掘效果与文本本身质量、本体字典质量有重大关系,因此应通过管理和技术手段保证电力文本质量,并建立完善的电力本体字典。
(3)文本数据是电力大数据中的一种模态,需结合其他模态数据的挖掘成果,融合起来才能发挥更大的作用。
4 电力文本挖掘面临的挑战
4.1 电力本体字典的构建
电力本体字典的构建是电力领域文本挖掘的基础工作。本体字典蕴含了电力领域最基本的知识,其质量与数量不仅决定着文本预处理中分词、词性标注等的准确性,也影响着消除歧义、构建知识图谱等工作,是电力文本挖掘中最根本的知识库。
电力本体字典的构建是个难题。一方面,电力领域相关术语的数量非常庞大,仅名词类词汇就有近万个。另一方面,电力领域分支众多,在不同分支领域有不同的专业词汇、俗称及表达习惯等,比如GIS在设备层面是指气体绝缘组合电器,而在电网层面则是指地理信息系统。然而,电力领域毕竟是一个确定的封闭域,虽然困难,但只要电力领域科研工作者共同努力,不断丰富完善,高质量的电力本体字典建设是可以实现的。
4.2 电力知识图谱的构建与应用
刘梓权等虽然已经对电力知识图谱的构建进行了技术路线探索与验证[16],但仅限于变压器的缺陷文本。从整个电力领域看,电力知识图谱还缺乏顶层设计,因此还具有巨大的发展潜力。
在已实践的电力知识图谱构建过程中,基于本体字典进行实体识别,准确率较高;但在关系抽取中,如何定义电力实体间的关系类型,做到不冗余、不缺漏,又满足挖掘需求,是需要不断实践与总结的。此外,还有尚未实践的知识图谱领域更深层次问题,比如:如何根据已有实体属性与实体间的关系,推理得到新的属性或者关系,这对于电力知识图谱的智能化运用非常关键;如何将各种电力知识表示成“实体-关系-实体”三元组,是一个富有挑战性的问题;是不是可以打破这种知识表示的限制,创造更多的知识表示的方法,更是一个关系电力知识图谱架构本身的值得研究的问题。
目前大规模知识图谱的应用还比较有限,领域内的知识图谱更是如此。如何有效实现电力知识图谱的应用,提高大规模知识图谱计算效率,不仅需要研究人员探索相关技术,还需要发掘合适的应用场景进行示范。例如,在电力设备运维管理的智能查询、策略推送方面,知识图谱技术可望有所作为。
4.3 多模态数据融合挖掘提升应用价值
前文介绍的各种文本挖掘应用虽已能解决一小部分浅层次的问题,然而要获得更深层次的应用,需进行多模态数据融合挖掘研究。数据融合是数据挖掘的研究分支之一。除常见的结构化数据外,还有文本、图像、视频、波形等多种模态的非结构化数据。目前开展较多的是结构化数据之间的融合研究,如多传感器监测数据融合的故障诊断研究,但还缺乏多模态数据融合研究。以电力设备健康状态评估为例,若通过对历史缺陷文本的缺陷细节挖掘,获得电力设备缺陷发生的深层次规律,指导设备进行测试性设计,获得更有效的各种模态监测数据,再加上挖掘的设备既往史,则能更全面准确地评估设备的健康状态。因此电力文本数据挖掘与其他模态数据融合挖掘能提升工程应用价值。
5 结语
近十多年来,自然语言处理技术发展迅速,促使机器能够在一定程度上“理解”文本。但是,电力是个专业性非常强的行业,且对文本挖掘模型的准确性和可靠性要求高,需要研究者同时具备电力领域知识和文本挖掘经验,才能结合适应性改进和自主创新,建立起符合电力文本特点和应用要求的文本挖掘技术体系。
目前,电力文本数据挖掘研究已引起重视,但还面临着挖掘需求不明确、挖掘效果难以达到预期的困扰,已取得的研究成果还远远不足以支持智能电网和资产管理的发展,因此迫切需要有文本挖掘应用成果来示范和引领,启发出更多的电力文本挖掘需求,吸引更多人员参与电力文本挖掘技术及应用的研究中,促进电力文本挖掘理论与工程应用的蓬勃发展。