APP下载

面向航空发动机故障知识图谱构建的实体抽取*

2021-11-03黄海松姚立国

组合机床与自动化加工技术 2021年10期
关键词:字符图谱实体

韩 涛,黄海松,姚立国

(1. 贵州大学现代制造技术教育部重点实验室,贵阳 550025;2.中国航发贵阳发动机设计研究所,贵阳 550081)

0 引言

航空发动机是现代工业“皇冠上的明珠”,是一个国家科技工业水平的重要体现。和其他复杂机械系统一样,在其研制和使用过程中,时常会发生故障。据统计,航空发动机的故障发生率约占整个飞机故障的1/3左右。因此,如何利用现有知识经验,快速高效处置故障,保证航空发动机稳定安全工作,一直是困扰研究人员和用户的难题。近年来,作为人工智能三大技术领域之一的知识图谱(Knowledge Graph)技术,能够以更接近人类认知世界的形式表达和描述文本知识数据中的信息,为高效管理、组织和理解海量知识信息提供了可能[1]。自提出以来,知识图谱已在医疗、金融、社交、教育、军事等领域得到了深入研究探索[2]。在故障研究领域,文献[3]研究了无人系统故障知识图谱的构建方法,文献[4]探索了面向电网调度故障处理的知识图谱关键技术,文献[5]研究了数控设备故障领域知识图谱构建方法。建立航空发动机故障领域的知识图谱是高效处理和利用既有知识的客观需要,是推进航空发动机故障智能决策处置的主要技术基础,并在航空发动机可靠性设计、产品质量管理等方面也具有较大的应用潜力。

实体抽取是航空发动机故障知识图谱构建关键环节之一。航空发动机故障文本实体抽取,主要是实现对故障部位、故障原因、故障特征、处理措施等关键实体的识别,目前国内外在该领域的研究还鲜有涉及。基于此,本文针对航空发动机故障领域知识图谱实体抽取的需要,构建了航空发动机故障文本数据集并进行了实体标注,以解决该领域数据集缺乏问题;提出了一种Lattice Transformer-CRF实体抽取方法,以研究航空发动机发动机故障领域文本中的实体自动抽取问题,为航空发动机故障知识图谱的构建奠定基础。

1 航空发动机故障领域数据集构建

1.1 数据介绍

本文所建立的故障数据集,来源于某研究所在航空发动机研制过程中长期积累的故障分析报告、发动机外场使用维护记录、情报文献等资料。经脱敏处理、筛选整理后,遴选出430余份文献(约73万字)作为原始数据。通过对文献内容进行分析,并结合航空发动机研究人员建议,将数据中的实体分为故障部位、故障原因、故障特征、处理措施等4类,并采用本文1.2节中的标注策略进行数据标注。

1.2 标注策略

本文采用BIOES标注规范对数据集进行标注。即将每个实体的第一个字标记为“B-(实体名称)”;中间的字标记为“I-(实体名称)”;结尾的字标记为“E-(实体名称)”;单个字符字标记为“S-(实体名称)”;对于无关字,全部标记为O。标记好的数据处理后共分17个大类,分别为B-POS、I-POS、E-POS、B-FEA、I-FEA、E-FEA、B-CAU、I-CAU、E-CAU、B-MET、I-MET、E-MET、S-POS、S-FEA、S-CAU 、S-MET、O。

具体标注说明如下:

故障部位(POS):本文标注的故障位置是指故障发生的部件、元器件等,由于航空发动机故障类别较多,大致可以分为性能、结构、附件等故障类型,其中属于发动机整机性的故障,以“发动机”、“飞机发动机”等一级实体作为故障部位;

故障特征(FEA):是航空发动机故障表现或现象,如裂纹、喘振、烧蚀、放炮等;

故障原因(CAU):是故障发生的原因,航空发动机故障原因错综复杂,往往是多种因素耦合作用的结果,在数据标注时应特别注意标注的完整性,典型的原因如:腐蚀、磨损、老化等;

处理措施(MET):对故障的处理方式,如“采用喷丸处理”、“增加叶片自振频率”等;

以“发动机供油管因材料腐蚀导致开裂后,发生渗油故障。”为例进行序列标注,标注后结果如图1所示。

图1 序列标注示例

2 Lattice Transformer-CRF模型

本文提出了一种可以用于航空发动机中文故障文本实体识别的Lattice Transformer-CRF模型,结构如图2所示。该模型结构是以融入句子序列中字和词位置信息的预训练的字向量和词向量同时作为模型输入后,采用Transformer模型作为编码和解码器,后通过条件随机场(CRF)作为分类器对Transformer输出的特征进行序列标注,从而得到标签序列的最优解。

图2 Lattice-Transformer-CRF模型

2.1 Lattice

中文实体抽取算法按照输入类型可大致分为基于字符(Character-based)的模型和基于词(Word-based)的模型。不同于英文或其他语种文本数据,中文文本数据中字符为最小语言单位,词与词之间界限区分不明显,因此基于词的模型对分词效果具有很强的依赖性,且易受分词算法的影响。基于字符的模型尽管无需分词,但是仅采用字向量会导致内在信息丢失,因为有些上下文中的词序列蕴含的语义信息可辅助模型性能的提高,比如“磨蚀”这个词,若采用字向量,就成了“磨”和“蚀”,这两个字的单独含义明显区别于它所组成的词的含义。

在基于字符的实体抽取结构中通过引入词汇信息来提升识别性能指标,已成为中文实体抽取的一个重要研究方向。文献[6]在所研究的BGRU-CRF实体抽取模型中,将潜在词信息整合其中,模型明确地利用了词与词之间的序列信息,能够不受分词错误的影响;文献[7]提出了融入字符-词-位置三种信息的BiLSTM-Attention模型,该模型在MSRA数据集和微博数据集的实验验证中均取得较高的精确率和召回率,并表现完整性、简单性和稳定性等特点;文献[8]构建了融合字词信息的命名实体识模型,可在不需要人工特征的条件下获得较好的结果。

Lattice是一种可以利用字符和词序列信息、门控结构选择最相关的字符和单词以获得更好的实体抽取结果的结构。如图3所示,Lattice结构是一个有向无环图,其中每个节点都是一个字符或一个潜在的词。Lattice包括句子中一系列的字符和词,这些字符和词不是按顺序排列的,词的位置由词的第一个字符和最后一个字符决定。文献[9]构建了Lattice LSTM模型用于中文文本实体识别,结果表明模型可以同时利用中文字符和单词的信息,可对字符和单词的信息进行选择,消除歧义,有效提升了实体抽取性能。文献[10]采用Lattice LSTM模型,研究了古汉语的实体抽取问题,文献[11]基于Lattice LSTM模型,构建了对抗训练Lattice LSTM模型(AT-Lattice LSTM-CRF),研究了中文临床实体抽取方法。文献[12]研究了基于句子级Lattice-LSTM的中文电子病历实体抽取方法。

图3 Lattice结构

上述研究中,相较于单纯的基于字符的模型或基于词的模型,Lattice LSTM模型均取得了相对较好的识别效果。然而, Lattice LSTM模型是LSTM模型为基础,通过改进输入信息,来提升的模型效果,在训练过程中受LSTM模型的影响,会出现信息损失、计算性能低下、可迁移性差等问题[13]。

2.2 Transformer

Transformer模型是最近一年多来NLP领域最重要的进展。与LSTM一样,Transformer模型可以对输入序列每个字之间的特征关系进行提取与捕捉。Transformer 模型本质是由两个结构类似的编码器(Encoder)和解码器(Decoder)构成[13],如图4所示。二者均由6个相同的基本层堆叠而成,每一个基本层都由两个子层组成,其中一个是多头注意力层(Multi-Head Attention),另一个是密集型全连接前馈神经网络层(Feed Forward Network)。解码器结构中还有一个用于对编码器层的输出进行多头注意力操作的隐蔽式多头注意力层(Masked Multi-Head Attention)。每个子层中使用残差连接,然后进行层归一化操作[14]。

图4 Transformer模型框架

通过自注意力机制和对多个基本的编码器与解码器单元进行连续堆叠,Transformer模型可以发现单字在不同语境下的不同语义,从而实现了一词多义的区分,比LSTM具备更强的特征提取性能[15]。以Transformer模型为基础,通过引入Lattice结构作为模型输入,可提升实体抽取效果。

(1)

其中,ec表示字符嵌入查找表。

由于引入了词汇信息,还要考虑句子中的词典子序列w1,3,每个词典子序列w1,3的向量可表示为:

(2)

其中,ew表示词嵌入查找表。

由于Transformer中未包含递归和卷积,为了使模型能够利用序列的顺序,本文为每个字符嵌入和词嵌入增加了位置编码(Lattice Position Encoding)。字的位置是在字符序列中的位置,词的位置是这个词的开始字符的字符位置。例如“涡轮转子叶片裂纹”中“涡”的位置为0,“涡轮”的位置也为0。

Transformer 模型完全基于注意力机制实现的。注意力机制通常可以进行如下描述:将查询向量(Q)和一系列键向量(K)与值向量(V)的键值对映射到输出上。Transformer首先使用h个注意头对输入序列单独实现自我注意,然后对每个头部进行级联和线性变换运算,即为多头注意力。在实际应用中,可同时计算一组查询的注意函数,将它们打包成一个矩阵Q,键和值也被打包成矩阵K和V。假设Lattice输入序列向量为X∈Rn×d,则输出的序列表示计算为:

(3)

在Transformer模型中,多头注意力是通过h次不同的线性变换将dmodel维的Q,K和V这3个向量分别映射成dk维、dk维和dv维。基于每个映射组的Q、K和V,并行执行Attention函数,产生h×dv维的输出值。然后,将它们连接并再次映射,产生最终值,具体公式如下:

要将调整法运用到图论问题中,必须先要确定存在可以取最值的结构组合,然后在取最值时要充分观察以及分析研究,选择组合对象可能满足的特质,同时要用调整法来体现出它所具备的特质,在不具备该特质的情况下,应当及时调整改编组合对象的结构,促使其能够满足题目要求的条件,但会使相应的函数值变大或变小,以致出现矛盾,最后通过在取最值时,满足组合对象相应的条件来解出这个最值。

MultiAtt(Q,K,V)=Concat(head1,head2,…,headh)WO

(4)

(5)

2.3 CRF

CRF是文献[16]提出的一种用于分割和标记有序数据的判别式概率无向图模型,具有表达长距离依赖性和交叠性特征的能力,能够较好地解决标记偏置等问题,通过将所有特征进行全局归一化来得到全局最优解。

由于Transformer模型无法充分利用输出标签之间的关联,输出结果中很可能会出现无效标注的情况,如在预测结果中可能出现{B-POS,I-REA,E-MET,…}的情况。因此需要引入CRF层,把Transformer的输出信息作为输入信息加到CRF中。

3 实验与分析

为了验证使用预训练模型的有效性,本文采用MSRA、微博等公开数据集对模型的有效性进行验证。而后再采用三个模型Lattice LSTM、BERT、BiLSTM-CRF、Transformer-CRF等4个模型对比验证本文所提模型在自建数据集的适用性,对比模型均采用CRF进行序列标注。

3.1 实验环境及参数设置

所有实验采用的实验环境配置:处理器为Intel Xeon Silver 4210,双路CPU,20核40线程,主频为2.2 GHz,显卡为GeForce RTX 2080Ti,显存为11 G,内存为256 GB,如表1所示。

Lattice Transformer-CRF模型参数的设置对模型的准确性和鲁棒性均会有较大的影响。经过实验调参,得出的识别效果较好的Lattice Transformer-CRF模型主要参数如下:单句最大长度限制200个字,Attention层数目为6,多头数目h为8,隐藏层维数为200,dropout为0.5,使用Adam 优化器优化,训练学习率lr为1e-5,batch size为10,如表2所示。

表1 实验环境及配置

3.2 评估标准

NER的评价标准主要包括精确率(P)、召回率(R)和F值。具体公式如下:

(6)

(7)

(8)

其中,Tp为模型识别正确的实体个数;Fp为模型识别到的不相关实体个数;Fn为模型没有检测到的相关实体个数。

3.3 实验结果及分析

为了对本文模型有效性做出更加客观的评价,本文分别对微博数据集和微软亚洲研究院的MSRA数据集进行测评。这两个数据集是国内公开的中文评测数据集,包含了人名(PER)、地名(LOC)和组织机构(ORG)等3种实体类型。本实验主要对这三类实体进行识别评测。语料具体规模如表2 所示。实验结果如表3、表4所示。

表2 两个数据集统计

表3 微博语料的模型对比(单位: %)

表4 MSRA语料测试的模型对比(单位: %)

在微博数据集上,通过对比表3中模型的P值、R值和F值可知,Lattice-LSTM、LR-CNN、Lattice-Transformer-CRF这三种采用了Lattice结构,同时引入词、字符、词序信息的模型,其F值要明显高于直接基于字符的BiLSTM+CRF+adversarial+self-attention的模型结果,分别达达到了58.79%、56.54%、65.65%。CAN-NER模型也是以字符特征向量为输入的模型,并同时引入了卷积注意力模型、门控循环网络模型(GRU)、Global Attention、CRF模型等,模型结构非常复杂,仅比只有两层模型结构的Lattice LSTM模型高了0.52%。这说明,Lattice结构通过增加输入信息,可以在提高识别率的同时简化神经网络模型结构。

在MSRA数据集上,基于字符特征向量的ME-CNER模型,要比其他几个基于词、字符、词序信息等特征向量输入模型至少低于1%。Lattice LSTM模型和Lattice Transformer模型,可知,在同样向量输入的条件下,模型中主要结构对识别准确率有很大影响,引入多层注意力模型的Lattice Transformer-CRF的P值、R值和F值均比Lattice LSTM模型的高,分别是94.12、96.26、95.18。表4中,LR-CNN模型的P值、R值要比Lattice Transformer-CRF模型要高一些,这可能是Transformer模型中缺乏递归和卷积网络,不像CNN模型那样对序列顺序有较强的利用能力,但Lattice Transformer-CRF的F值比LR-CNN要高。

表3、表4中,Lattice-LSTM、LR-CNN、Lattice Transformer-CRF结果表明在同一模型上,数据集不同,产生的结果也大有很大差异。因此,为了验证所提方法在自建的数据集上的可用性,实验同时采用Lattice LSTM、BERT、BiLSTM-CRF、Transformer-CRF、Lattice Transformer-CRF等共5种实体抽取模型进行对比研究。实验中,从自己标注的航空发动机故障数据集中随机选取300份中文故障数据作为实验数据集,其中80%作为训练集,10%作为测试集、10%作为验证集。实验结果如图5所示。

图5 实验结果

由图5可知,Lattice LSTM、BERT、BiLSTM-CRF、Transformer-CRF、Lattice Transformer-CRF等模型在本文所建数据集上均取得了较高的F值,分别是92.16、92.27、83.07、87.24、95.18,这说明本文所建数据集数据标注规范合理,可以作为新的原始数据标注的参照。通过Lattice LSTM模型和BiLSTM-CRF模型结果对比,Transformer-CRF模型和Lattice Transformer-CRF模型结果对比可知,在模型主要结构一致的情况下,采用Lattice结构能够有效提高NER的准确率。通过表3、表4及图5中,Lattice LSTM模型和Lattice Transformer-CRF模型对比、BiLSTM-CRF模型和Transformer-CRF对比,可知Transformer模型比LSTM具备更强的特征提取性能。

4 结束语

本文为满足航空发动机故障知识图谱构建过程中实体抽取的客观需要,结合自建数据集特点,制定了一套能基本反映航空发动机故障内在信息的数据标注策略,提出了能够充分利用字序列和词序列信息的Lattice Tansformer-CRF模型,并在公共数据集和自建数据集上开展了模型实验验证。在微博、MSRA等公共数据集上,所提模型F值分别达到了65.65%、95.18%,均高于其他研究者的模型得分,且在P值、R值上也均取得较好的得分,表明Lattice Transformer-CRF模型总体表现良好,方法有效可行。在自建故障数据集上,通过与4种传统模型对比验证实验,Lattice Transformer-CRF模型F值达到了95.18%,取得了较好的结果,表明所提模型有效,能够满足航空发动机故障文本数据实体抽取任务的要求。

猜你喜欢

字符图谱实体
绘一张成长图谱
字符代表几
前海自贸区:金融服务实体
一种USB接口字符液晶控制器设计
HBM电子称与西门子S7-200系列PLC自由口通讯
消失的殖民村庄和神秘字符
实体的可感部分与实体——兼论亚里士多德分析实体的两种模式
补肾强身片UPLC指纹图谱
两会进行时:紧扣实体经济“钉钉子”
振兴实体经济地方如何“钉钉子”