APP下载

基于深度学习的电力安全作业实体识别方法

2022-03-09李英娜刘爱莲马鑫堃

电视技术 2022年1期
关键词:注意力向量实体

郭 宇,李英娜,刘爱莲,马鑫堃

(昆明理工大学 信息工程与自动化学院,云南 昆明 650500)

0 引 言

电力技术不断发展,电力作业人员在操作设备、现场工作的安全极其重要[1]。电网的安全作业都是文本化形式,且多类文本并存,没有一个完整、详细的安全作业图谱,查询各类安全作业之间关联及设备安全使用方法直接的联系存在一定的阻碍。提取各类实体关键词是将知识图谱构建出来的第一步。随着人工智能技术的不断发展,从自然语言中提取实体、关系、属性等高层次结构化语义信息并用来处理各个行业的需求是当下的研究热点[2-3]。在电力行业,大多数电力安全作业为非结构化文本[4],相比结构化的表格,更加详细地描述了各类场景下应该注意的安全规范,但对于实体识别难度较大,且准备工作前期需要标注数据。因此,对电力安全作业文本进行实体识别的难度相对较大。

命名实体识别(Named Entity Recognition,NER)技术[5]传统上采用基于字典+匹配的方法[6-7],随着技术的发展,出现了机器学习中隐马尔科夫、支持向量机、随机条件场(Conditional Random Field,CRF)等方法[8-9],这些方法依赖手工设计的特征和特定任务的训练数据,因此人工开发成本就变得高昂,同时,训练出来的实体模型难以应用到新任务以及新领域。当下,基于深度学习的方法展现出很多优势,逐渐成为主流。循环神经网络(Rerrent Neural Network,RNN)以及双向长短时记忆网络(Bi-directional Long Short-Term Memory,BiLSTM)等模型[10-11]近年来在通用领域表现优秀,具有时效性强、准确率高等特点。

电力专业领域需要对数据进行处理、标注。目前,电网的诸多领域都开展了基于深度学习方法的深入研究,但少有基于深度学习的电力文本实体识别[12],对于电力安全规程方面的命名实体识别仍处于空白。文献[13-14]采用了循环卷积神经网络(RNN)对1 000余条变压器的故障类文本进行分类,根据故障现象、故障位置等信息将设备状态分为“故障/普通/一般”3种类型。冯斌等人[15]采用BiLSTM+Attention模型进行电力设备缺陷文本分类,融入了注意力机制,重点挑选出对文本分类具有影响的电力信息。上述两种方法在分类种类不多的情况下准确率可达到90%以上,但缺乏对电力文本具体信息识别的研究,不能直接用于知识图谱的搭建。蒋晨等人[16]提出了一种新的电力实体信息识别方法,对560份电力设备故障检修文本进行实体识别,最终该算法的识别结果比目前常用算法的F1值高出2.33%~11.25%,该算法模型对硬件要求高,且处理时间较长。

为实现电力安全作业的命名实体识别的高准确率,提高在知识图谱中的实用性,本文构建了基于百度百科、电网文件等多数据来源的电力安全规程领域语料集,对数据集进行处理并提出了一种融合注意力机制与ALBERT-BiGRU-CRF的识别方法。

1 电力安全规程文本实体识别难点

电力安全规程(以下简称安规)文本实体识别具有以下难点。

(1)相比其他电力计量、电力文本分类,安全规程文本实体识别的实体识别对象是安全规程中的信息词语、具体操作,更加细致且均为非结构化数据。通用的分词工具算法对于专业电力术语安规的准确率一般,如“室内高压断路器”就会被分割为“室内”“高压”“断路器”,从而造成一些语义丢失、不当。

(2)安全作业文本中有一些相同的设备、注意事项,但描述不同,容易产生歧义。

(3)对于一些具体的数值如距离30 m、电压220 V等,对这些数值术语的实体判断需要结合上下文语境进行识别。

2 融合注意力机制与ALBERT-BiGRU- CRF算法的模型

为了对每一个字符的向量表示进行上下文的语义信息融合,将电力安规文本通过句子的形式迭入ALBERT语义编码层进行预训练,将包含全局信息的字向量输入到BiGRU层,预测实体信息文本的时序特征和上下文信息,并且结合多头自注意力机制,用来获取文本序列的全局特征表示以及各种字符之间的关联强度。程序最终将以上两个模块的输出结合,共同输入CRF层,用来获得最终的输出结果标签。算法模型架构如图1所示。

图1 本文算法模型架构

2.1 ALBERT字向量语义编码层

当前主流的embedding层中对于字向量、词向量的预测大多使用bert语言模型[17]。其中以字符为单位的预训练成为掩码预测。在该阶段,ALBERT对输入的句子选取15%作遮掩处理,其中80%替换成[MASK]掩码符号,10%保持不变,10%随机替换成其他字符。如图2所示,随机选取句子中的字符,例如,对“绝、缘、等”进行3种遮掩处理,其中“绝”用符号[MASK]代替,“缘”变为随机字符,“等”不变,完成该遮掩步骤,利用ALBERT对句子进行预测,过程中,根据上下文信息对当前字符用向量来表示,对于误差进行反向传播来修正参数模型。

ALBERT可以整合整句信息来预测,信息提取范围更大,相比传统的word2vec方法只能通过一个字符的上下有限个字符预训练有了显著提升,为下游任务提供了更方便的操作。从图2可以看出,ALBERT实现了句子层面的电力安规文本特征提取,模型的参数得到进一步优化。ALBERT网络结构更加复杂,采用了残差连接和归一化来解决训练缓慢和梯度消失的问题,使得下游自然语言处理任务得以提升准确率。

图2 ALBERT掩码预测

2.2 BiGRU字符实体信息标签预测层

本文设计的训练模型的编码器和解码器基于BiGRU实现。GRU算法[18]模型由CHO等人提出,近几年,其基于结构简洁、高效等优势被得到广泛应用。GRU由门控单元调节单元内部的信息流。当下深度学习中广泛应用的长短时记忆网络(Long Short-Term Memory,LSTM)中有3个门控单元——输入门、遗忘门、输出门,这3个门控单元分别控制输入值、记忆值、输出值。而在GRU中只有两个门控单元——更新门和重置门。两者性能相似,GRU模型的结构更加简单,因此预测时间短。

BiGRU模型由两个独立的GRU模型构成,经过ALBERT层处理之后输出的文本向量输入BiGRU转换为输入序列,分别输入前向GRU和后向GRU,由此得到的文本特征信息都包含了上下文的关联性。BiGRU模型结构如图3所示。

图3 BiGRU模型结构

在时刻t,BiGRU由两个独立的GRU共同决定,计算公式如式(1)~式(3)所示:

BiGRU层的作用主要是对句子间的长距离依赖关系进行提取和识别,通过该算法可以进一步提取电力安规文本的深层次特征。经过该层提取后,得到更准确丰富的文本特征信息。

2.3 注意力机制

注意力机制可以重点捕捉句子间的信息结构[19],并学习词之间的依赖关系。在NER方面,词与词之间的依赖关系、句子间的结构信息等对于提升命名实体识别的质量而言都具有重要意义。尤其是电力安全作业文本,包含了许多术语,结构多样,且专业名词丰富,多头注意力机制对于该类复杂内容进行解析,有助于分析复杂的安规文本内容。通过对当前词语的隐状态单头注意力权重训练,再对多头单元注意力进行结合,输出多头注意力。

对当前词语的隐状态单头注意力权重训练的计算式为:

式中:wm为权重参数;h代表拼接的数量,且每个单头注意力输出之间不共享参数。

2.4 CRF全局标签优化层

CRF(条件随机场)是一种序列化标注算法[20],充分考虑到相邻字符之间的约束条件和依赖关系,给定训练数据集。CRF模型用极大似然估计得到条件概率模型。

模型训练中,CRF标注流程如图4所示。以“通信设备”为例,首先,字向量经过ALBERT层和融合注意力机制的BiGRU层得到字符的隐藏向量h1~h4,其中向量的维度对应各个安全作业实体的得分,在CRF层中根据得分高低以及不用标签的转移来计算最终得分,对比情况,选出一条得分最大的标签路径作为最优标注,即图中绿线所示,“通信设备”标注结果为“B-SUBJ,I-SUBJ,I-SUBJ,I-SUBJ”。

图4 CRF标注流程

3 实验与分析

3.1 实验数据

3.1.1 数据集

通用领域的实体识别语料集,目前网上公开数据很多,如微博数据、1998人民日报数据等,且都经过标注,具有很强大的普适性,命名格式相对统一。但在电力领域,目前尚未有公开的数据集可供直接训练,各类信息错综复杂,格式不一。因此,本文自主构建了电力安规的文本语料库。

语料库的数据来源于百度文库、中国南方电网公司安规文本、中国电力百科网(http://www.ceppedu.com/) 上各类通知文本、相关规定以及一些期刊论文所用的数据。其中大多都为非结构化数据。

3.1.2 电力安规实体标注策略

相比通用领域的文本,电力安规文本具有专业性且更为复杂,常常存在命名实体边界模糊的问题。例如,“巡视电气设备”可以认为是一个电力现象实体,也可以认为“巡视”是一个动作,“电气”是电力对象实体,“设备”是电力对象实体;“阻波器短接”能看做是一个电力现象实体,也可将“阻波器”看作电力现象实体,“短接”为电力动作实体。

针对这种边界模糊的现象,结合电力专家建议和相关知识文献及资料,决定采用序列标注BIO(B-begin,I-inside,O-outside)的标注方法。其中,标注的实体分为主(SUBJ)-谓(PRED)-宾(OBJ)三种词性的实体,分别对其进行识别。对标注完的整段预料,利用标注的分隔符进行程序处理,字符切分、格式重构、单据空行、一个句号为一个单位,构建了33 726条的数据集,并将语料集按照5∶1的比例划分为训练集与测试集,且测试集是随机抽取的,抽出来的为测试集,剩余数据为训练集。

3.2 实验设置及评价指标

3.2.1 实验环境设置

本文算法实验环境采用Keras2.4深度学习框架,底层为TensorFlow 1.13.2版本,使用Python作为编程语言,运行环境为Ubuntu系统、PyCharm软件,内存32 GB。实验过程中需要多次调整参数,超参数的设置在每次实验完成后根据结果的准确率、损失率进行调整,最终得到理想效果,batch_size设置为16,epoch为80次。epoch对应的F1值如图5 所示。

图5 epoch对应的F1值

3.2.2 评价标准

本文采用的评价指标有精确率P(precision)、召回率R(recall)和F1值(F1-score)。计算公式如式(6)~式(8)所示。

式中:TP(Ture Positives)代表所有正样本中正确识别正样本的数量,FP(False Positives)代表负样本被识别为正样本的数量,FN(False Negatives)代表正样本被错误识别为负样本的数量。

这三类指标中,精确率P与召回率R分别是以查准和查全作为指标对本文模型进行评价。精确率是对该模型识别出的结果中正确实体个数的比例,因此在计算过程中没有将未识别的实体个数纳入其中,只计算了识别出的实体和其标签的对应情况。召回率则是针对标注的样本,表示样本中被正确识别出的实体个数比例。将召回率与精确率的调和平均数F1值作为综合评价指标,F1值越高,代表该模型的识别效果越好。

3.3 实验结果及分析

验证本文提出的模型对电力安规数据集的有效性,将融合注意力机制与ALBERT-BiGRU-CRF算法模型与当下主流高效的算法模型进行对比。

采用BiLSTM-CRF双向长短时记忆网络进行对比,BiLSTM可以预测每一个字属于不同标签的概率,但没有考虑标签间的联系,加入CRF层以考虑标签之间的相关性。

采用ALBERT-BiLSTM-CRF进行对比,相较于BiLSTM-CRF算法模型,引入了ALBERT预训练模型,使得训练后的输出数据进入BiLSTM层后的识别效果更佳。

三种算法对于本文数据集中的实体识别结果如表1所示,可以看出,本文算法模型的识别效果明显好于上述两种算法。对于三种算法的F1值比较,本文算法明显具有较强的识别效果,对于SUBJ、PRED、OBJ三者都有比当下主流算法的效果好。

表1 三种算法在数据集上的实验结果

ALBERT预训练电力安规文本,使embeding输出能够根据文本的上下文对语句中的每个字符进行编码,将原始的语言符号转换为后续算法处理的语义向量形式,从而使得在实体标签层中运用到的有效文本信息更多,F1值更高。本文算法融合了注意力机制和BiGRU,识别效果提升显著,首先,BiGRU相对于BiLSTM,输出门改为两个,具有更简单的模型结构;其次,处理速度更快,模型实现效果好;最后,融合注意力机制到BiGRU算法模型中,利用并行的结构,充分结合不同层次、不同角度的相关特征,从而增强了模型的表示能力,提升了整体性能。

4 结 语

电力安全作业的实体识别是开展电力知识图谱构建最基础的一个环节,主流算法模型识别效果未能达到理想F1值,特征能力不足。本文改进的算法模型与主流算法对比,具有较强的性能效果,提升了电力安全作业实体识别的准确率。然而,本文算法模型也存在一定的局限性,采用标注好的数据集,还未确定对于其他数据集的性能评估,在未来的工作学习中,将会利用其他数据集来测试本文算法模型的可扩展性和泛化能力。本文所提的方法为电力安规知识图谱的构建奠定了坚实的基础,对于电网现场安全作业、监督安全施工方案,应用价值较高。

猜你喜欢

注意力向量实体
向量的分解
让注意力“飞”回来
聚焦“向量与三角”创新题
如何培养一年级学生的注意力
前海自贸区:金融服务实体
实体书店步入复兴期?
两会进行时:紧扣实体经济“钉钉子”
振兴实体经济地方如何“钉钉子”
A Beautiful Way Of Looking At Things
向量垂直在解析几何中的应用