APP下载

结合双层多头自注意力和BiLSTM-CRF的军事武器实体识别

2022-05-10俞海亮彭冬亮

无线电工程 2022年5期
关键词:字符向量标签

俞海亮,彭冬亮,谷 雨*

(1.杭州电子科技大学 圣光机联合学院,浙江 杭州 310018;2.杭州电子科技大学 自动化学院,浙江 杭州 310018)

0 引言

随着军事信息化的快速发展,网络公开的军事新闻数据越来越多,但是非结构化的军事武器信息不利于国防工作者提取有效信息,尤其军事武器实体信息。因此,从非结构化的军事文本新闻中准确识别出军事武器实体、属性、实体之间的关系等信息是至关重要的。军事武器实体识别就是从海量公开军事新闻数据中识别出军事武器实体,是军事知识本体库构建的关键一步。常见的军事武器实体包括飞机、舰船、坦克、火炮、枪械和导弹6大类,本文也是基于这6类武器实体构建数据集,实现识别任务,从而构建系统的军事武器本体知识库,为军事武器情报信息检索提供辅助支持。

传统的实体识别方法主要以统计学和语言学为基础,通过词性分析和依存句法分析等技术人工建立规则模板实现文本的实体识别,主要包含基于规则的方法[1-2]、基于统计的方法[3-4]以及基于统计和规则相结合的方法[5-6]。随着机器学习尤其是深度学习技术的发展,实体识别实现了重大突破,研究者借助支持向量机(Support Vector Machine,SVM)[7]、隐马尔科夫模型(Hidden Markov Model,HMM)[8]和条件随机场模型(Conditional Random Field,CRF)[9-10]将实体识别问题转化为分类问题或者序列标注任务。

使用深度学习方法,可以利用深度学习模型自动学习词语本身的向量化信息作为输入,对输入特征自动学习能力更强。赵洪等[11]提出了BiLSTM-CRF深度学习模型,该方法的F1值达到了84.52%,相比于以往基于统计学习和浅层机器学习方法效果有所提升。马建红等[12]为提高新能源汽车领域实体识别准确率,在使用BiLSTM提取特征基础上,加入注意力机制(Attention Mechanism)[13],实现对关键词信息的提取。实验结果表明,加入注意力机制后,实验精度进一步提高。2020年,吴俊等[14]提出基于BERT嵌入BiLSTM-CRF模型的中文专业实体识别研究,该模型相对于上述2种模型采用BERT字向量嵌入代替词向量嵌入,该模型对实体提取的F1值为92.96%。

上述方法在输入特征层面,都只考虑了字符特征或者词典特征等单一特征,或者只是将二者进行了一个简单拼接。然而实际情况是,对于某一特征在嵌入层以及在命名实体识别任务中的语义理解上的重要程度是不一样的。因此为区别不同特征的重要性,本文提出了一种新的军事武器实体识别方法,采用双层自注意力机制与BiLSTM-CRF模型结合的方法识别候选实体,然后参考军事武器实体构词特点加入校验机制,对候选实体过滤,从而得到最终实体。为验证本文提出模型的性能,在自建的军事武器实体识别数据集上,进行了消融实验,实验结果验证了本文提出方法的有效性。论文主要创新点包括以下2个方面:

① 为了区别字符不同输入特征对实体识别效果的影响,本文使用多头自注意力对字符特征、位置特征以及标签特征进行加权融合,从而获得更优的字符嵌入。

② 针对具有军事背景的武器实体识别任务,结合武器实体构词特点,加入正则匹配模板,对模型识别的武器实体进行过滤,进一步降低了误识别率。

1 理论基础

注意力机制最早在计算机视觉领域被提出,它指出注意力机制可以对传统的视觉搜索方法进行优化,通过调整视觉对网络的处理,减少了需要处理的样本数据并且增加了样本的特征匹配[15-16]。

注意力机制的本质来自于人类视觉注意力机制,人类往往根据需求会着重关注于特定的一部分,而不是全部。在自然语言处理任务中,希望通过注意力机制能够学习到对文本语义理解起关键作用的词或者字符。

传统的注意力机制广泛应用于Encoder-Decoder框架中,输入和输出内容是不一样的。比如对于机器翻译任务来说,输入是英文句子,输出目标是对应中文句子,注意力机制发生在输出目标元素和输入元素之间,将查询矩阵和键矩阵进行相似度计算得到权重。然后通过softmax函数对权重进行归一化,最后将权重和相应的键值加权求和得到注意力表示,采用的是加权求和的方式。而自注意力机制只需要考虑输入句子内部之间的信息,不需要考虑外部信息。然后通过计算每个词和句子内部所有词的注意力函数,所以可以更好地捕获词语在长距离文本依赖中的语义关系。

在军事武器实体识别任务中,高质量的军事新闻文本语料相对较少,而且军事武器实体构成多为多种类型字符组合,如中英文混合以及与数字字符组合,给识别任务造成了一定的困难。因此,使用自注意力机制可以动态学习字符的关键特征,而且使用多头自注意力机制也可以提取字符的重要语义特征,从而更准确地识别所有军事武器实体。

2 结合双层多头自注意力和BiLSTM-CRF的模型设计

军事武器实体识别任务通常被当作序列标注任务来处理,模型整体结构如图1所示。模型主要包括Embedding层、MHA-BiLSTM-MHA层以及CRF层。为了区分不同输入特征在实体识别任务中的重要程度,本文在BiLSTM层之前加入多头自注意力机制[17],使用多头自注意力机制给予输入特征不同的权重系数。BiLSTM层用于学习句子序列的时序信息,并且对文本进行特征提取,后面一层多头自注意力层用于获取文本序列的关键字符信息以及字符之间的依赖信息,最后通过CRF层获得最终的标签序列。

图1 模型整体结构Fig.1 Overall structure of the model

2.1 Embedding层

军事武器实体和其他命名实体有很大不同,它具有很强的军事背景,构成较为复杂,通常由多种类型字符组合而成,例如“歼-20”“天燕1号”等。因此直接使用jieba等分词器对原始新闻文本分词,效果较差,分词结果不符合军事武器实体特点,从而导致生成的词向量嵌入不具有武器实体语义特征。因此加入自定义叙词表,将常见军事武器实体加入自定义词典中,然后对新闻文本进行分词。

2.1.1 字符特征

字符特征表征字符的语义信息,本文首先在中文维基百科数据集中加入从新浪军事网站爬取的大规模中文军事数据,经过自定义军事领域词典进行分词以及去除常见停用词处理之后,使用word2vec训练得到词向量表Vw=[vw1,vw2,…,vwn],vwi表示经过训练之后生成的每个字符的向量。

然后对于分词后的军事武器新闻文本数据在词向量表中查找其对应的词向量,对于没有在词向量表中找到的字符集合,随机生成其向量,于是对于输入序列得到其字符嵌入表示为Vc=[vc1,vc2,…,vcn],其中,vci表示第i个字符的嵌入向量。

2.1.2 位置特征

字符特征仅表征了字符本身的语义信息,对于文本理解实体的依赖关系没有效果。位置特征则解决了该问题,例如对于新闻文本序列“武直-10两侧武器短翼可挂载反坦克导弹以及空对空导弹”,通过表示字符之间的位置特征,可以学习实体之间的依赖关系,以便于准确识别“武直-10”“反坦克导弹”“空对空导弹”所有武器实体,而且不会有所遗漏。

首先基于新闻文本中出现的所有字符集合构建词典集合,然后通过前序词典匹配以及后序词典匹配方法,标记每个字符距离最近标签实体的相对位置。然后通过向量化方式将其映射为低维向量,于是对于输入文本序列可以得到其位置嵌入表示为Vp=[vp1,vp2,…,vpn],其中,vpi表示第i个字符的位置向量。

2.1.3 标签特征

除了考虑字符特征和位置特征,也考虑了标签特征。通过学习字符的标签特征,可以将字符与标签建立联系,有助于对字符标签的预测。本文采用BIO数据标注格式,对于分词后的字符,得到其对应的“B-Gun”“I-Gun”“O”等标签特征。

为了便于将标签特征转化为向量形式,将所有字符对应的标签信息随机初始化为一个向量,然后通过此向量代替对应的标签信息,于是对于每一个输入文本序列中的字符,都可以通过查找映射表得到该标签的向量表示,从而对于每一段输入文本序列都可以得到其标签嵌入,表示为Vb=[vb1,vb2,…,vbn],其中,vbi表示第i个字符的标签向量。

2.2 MHA-BiLSTM-MHA层

经过Embedding层,得到3种嵌入向量表示,传统方法通常对3种向量做拼接得到最终BiLSTM层的输入向量。该方法将所有特征默认看成是同等重要的,然而对于不同的文本序列,不同特征在语义理解上所产生的效果不同,因此有必要动态生成3种特征的权重,本文中采用多头自注意力机制,生成3种特征的权重系数。

将输入序列表示为S={x1,x2,…,xn},n为输入文本序列的字符个数,使用多头自注意力机制,对字符特征Vc、位置特征Vp和标签特征Vb生成不同的权重系数,分别表示它们对文本语义理解的重要程度,于是最终的嵌入向量可以表示为:

V=α·Vc⊕β·Vp⊕γ·Vb,

(1)

式中,·表示乘积运算符;⊕表示向量拼接运算符。

2.2.1 BiLSTM神经网络模型

本文采用了BiLSTM对输入向量进行特征提取。BiLSTM网络不止有前向传播而且也包含反向传播,因此可以学习到句子的前后时序信息,有助于文本的语义理解。BiLSTM网络主要由LSTM网络构成,LSTM单元结构如图2所示。

图2 LSTM单元结构Fig.2 Structure of LSTM unit

LSTM结构由3个门控单元组成,分别是输入门、遗忘门和输出门,计算公式为:

ft=σ(Wf·[ht-1,xt]+bf),

(2)

it=σ(Wi·[ht-1,xt]+bi),

(3)

(4)

(5)

ot=σ(Wo·[ht-1,xt]+bo),

(6)

ht=ot*tanh(Ct),

(7)

式中,ft,it,ot分别代表遗忘门、输入门、输出门;x,h表示输入层、隐藏层;W,b代表权重矩阵和偏置向量;*为点积。BiLSTM模型通过对输入文本特征提取,得到句子级别特征,最终输出每个字符对应标签类别的概矩阵记为矩阵P=[p1,p2,…,pn],其中,pi表示该字符对应各标签类别的分数。

2.2.2 多头自注意力机制

使用多头自注意力机制可以学习文本序列中更为重要的信息,本文中2次使用多头自注意力机制,分别是对特征嵌入,使用多头自注意力机制得到3种特征输入的权重系数,以及在BiLSTM特征提取过程中,使用多头自注意力机制提取关键字符的语义信息。单个字符注意力计算公式为:

(8)

(9)

Q,K,V首先经过一个线性变换,然后输入到放缩点积Attention,注意这里要做h次,也就是所谓的多头,本文中h为8,头之间参数不共享,即每次线性变换的参数W是不一样的。然后将8次的放缩点积Attention结果进行拼接,再进行一次线性变换得到的值作为多头Attention的结果。

2.3 标注层

经过MHA-BiLSTM-MHA层得到每个字符属于哪一类标签的概率矩阵P,也就是状态分数矩阵同时也是CRF的发射概率矩阵,定义pij表示i字符对应标签j的概率。对于预测序列y={y1,y2,…,yn},它的概率计算为:

(10)

式中,矩阵A是状态转移矩阵;Aij表示从标签i转移到标签j的概率;y0,yn是预测句子开始和结束的标志。在训练过程中标记序列的似然函数为:

(11)

通过式(11)可以计算出所有可能的标记输出序列,最终通过式(12)输出概率最大的一组标记序列,即为最优的标注结果:

(12)

2.4 基于词典与规则的校验

尽管使用上述模型对军事武器实体识别已有不错的效果,但还是会存在一定的误识别。所以对经过模型识别之后的武器实体进行二次过滤是很有必要的。对爬取的大量军事武器新闻文本分析,发现军事武器实体构词有如下特点:军事武器实体多为名词或名词短语组成,军事武器实体命名规则单一,一般由4个部分中的几个组合而成,分别是“武器系列”“型号字符串”“特定汉字”“武器系列”[18]。

参考以上军事武器实体命名规则,如AK-47突击步枪,由武器系列(英文字符AK),型号(数字47),武器类型(突击步枪)组成,根据不同的军事武器实体类型构建对应的正则表达式模板,部分规则匹配模板如表1所示。

表1 部分武器实体正则匹配模板Tab.1 Some weapon entity regular matching templates

结合军事武器实体命名规则,按以下步骤对军事武器实体进行过滤。先过滤掉非名词和名词短语的候选实体,然后利用正则匹配模板对候选实体进行下一步过滤,最后对删除的候选实体进行人工校验避免因模板不够全面而导致的误删的情况,最终得到实体。对候选实体的校验规则流程如图3所示。

图3 候选实体过滤流程Fig.3 Candidate entity filtering flowchart

3 实验过程及结果分析

3.1 语料标注

利用网络爬虫技术以“武器”“坦克”“导弹”“航空母舰”等为关键词爬取网络公开军事新闻数据,本文从新浪军事网站(URL:https:∥mil.news.sina.com.cn/roll/index.d.html)爬取公开军事新闻数据、原始数据为非结构化文本数据,然后对数据进行专题数据筛选,去除与军事武器无关的军事新闻数据,得到最终需要标注的数据。

通过阅读现有的军事武器实体库,学习军事武器专业实体,然后对以上数据采用BIO数据标注格式完成对语料的标注。B表示实体起始字符,I表示实体内部字符,O表示当前字符不再是实体,图4给出了军事武器实体标注示例。

图4 军事武器实体标注示例Fig.4 Examples of military weapon entity labeling

标注完成后,将标注后的数据集按照7∶2∶1分别划分为训练集、验证集以及测试集。训练集用于对模型的训练,验证集对学习过后的模型进行验证,调整模型相应参数、优化模型,测试集最终评判模型的优劣。数据集统计信息如表2所示。

表2 数据集统计Tab.2 Statistics of datasets

3.2 实验环境与实验参数

本实验的服务器环境配置如表3所示。

表3 实验环境配置Tab.3 Configuration of experimental environment

本实验的实验参数设置如表4所示。

表4 实验参数设置Tab.4 Settings of experimental parameters

3.3 实验结果与分析

为检验本文提出模型在军事武器实体识别领域的具体效果,以BiLSTM-MHA-CRF为基准模型,作为本文提出的MHA-BiLSTM-MHA-CRF模型的实验对比,模型的具体识别结果如表5所示。从实验结果中可以看出,对于文本语义简单的新闻文本,2种模型均能准确识别出所有武器实体,而对于存在干扰实体或者武器实体间距很小的新闻文本中,BiLSTM-MHA-CRF模型则会出现错误识别的情况,例如将“涡扇-10发动机”识别为飞机实体、“鹰击62和鹰击83空对舰导弹”识别为一个导弹实体。但MHA-BiLSTM-MHA-CRF模型依然能够准确识别出所有实体,由此推断出双层自注意力相比于单层自注意力在实体识别方面更具有优势。

为具体评判本文提出方法的性能,采用2阶段对比实验,验证本文提出方法的优越性,首先采用不同模型在字符嵌入作为输入特征上做实验对比得到实验结果,然后从一阶段实验结果中选取最佳模型作为基准模型与本文提出的双层多头自注意力机制模型分别在字符特征与融合特征方面做实验对比,由此验证本文提出方法的优势。

采用精确率(Precision,P),召回率(Recall,R)和F1值(F1-score,F1)作为评价指标,得到一阶段实验结果如表6所示。

表6 基准模型实验结果对比Tab.6 Comparison of benchmark model experiment results

从表6中的实验1,2,4可知:CRF与HMM和BiLSTM相比,CRF表现出更好的性能,由此可以推断出CRF在序列标注等任务上有较大的优势;表6中的实验3,5分别利用CNN网络和BiLSTM网络提取特征,然后使用CRF模型生成实体标注序列,发现CNN网络和BiLSTM网络相比,在提取文本序列特征时,CNN效果较差。而BiLSTM-CRF模型在使用BiLSTM网络提取特征之后相比于CRF模型在精度、召回率和F1值上均有提升,说明BiLSTM在序列标注任务上提取特征是有效的,可以增强CRF模型的实体识别效果。

从表6中的实验7可知:BiLSTM-MHA-CRF模型确实优于其他模型,因此将BiLSTM-MHA-CRF作为基准模型,与本文提出的MHA-BiLSTM-MHA-CRF模型进行实验对比,论证双层自注意力在输入特征融合方面的优越性,实验结果如表7所示。

表7 本文提出方法实验结果对比Tab.7 Comparison of experimental results of the proposed method

从以上实验结果可以看出,当使用字符、位置、标签3种特征拼接作为BiLSTM-MHA-CRF模型输入时,在精确率、召回率以及F1值方面均比仅使用字符特征嵌入有所提升。然后通过BiLSTM-MHA-CRF与MHA-BiLSTM-MHA-CRF模型对比,发现在字符特征嵌入对比实验中,2种模型实验在精确率等评价指标上很接近,但是在使用字符、位置和标签3种特征融合时,MHA-BiLSTM-MHA-CRF相比于BiLSTM-MHA-CRF在精确率、召回率以及F1值上分别提升了0.92%,0.9%,0.82%,由此可以看出,在BiLSTM层之前使用多头自注意力机制确实可以对输入特征向量进行有效的加权融合,可以在不同新闻文本实体识别过程中动态地赋予关键特征更高的权重,使得识别效果达到更优。最后,通过结合军事武器实体构成特点,加入校验机制对武器实体进一步过滤,可以进一步完善实体识别效果。

4 结术语

本文提出了一种结合双层多头自注意力机制和BiLSTM-CRF模型的军事武器实体识别方法,实验结果表明通过双层多头自注意力机制,不仅可以在BiLSTM层之后找到关键字符信息,而且能够在BiLSTM层之前对输入的不同特征进行有效的加权融合,生成最终输入的特征嵌入,使得实体识别效果更好,同时对于军事武器实体,利用正则匹配构建规则模板对武器实体过滤也具有不错的效果。

猜你喜欢

字符向量标签
向量的分解
聚焦“向量与三角”创新题
正则表达式快速入门
字符代表几
图片轻松变身ASCⅡ艺术画
不害怕撕掉标签的人,都活出了真正的漂亮
向量垂直在解析几何中的应用
向量五种“变身” 玩转圆锥曲线
让衣柜摆脱“杂乱无章”的标签
科学家的标签