基于BERT_IDCNN_CRF的军事领域命名实体识别研究
2021-11-30李成军刘敬蜀
张 祺,李成军,刘敬蜀
(中国人民解放军91977部队,北京100036)
0 引言
命名实体识别(NER)是一种可以从一段自然语言文本中,提取出命名实体、位置等三大类、七小类信息的方法[1],三大类是指时间类、实体类和数字类,七小类是指时间、地点、人名、机构名、百分比、日期和货币。命名实体识别的研究,有助于计算机更好地处理自然语言文本数据[2]。目前命名实体识别技术已广泛应用于知识图谱构建[3]、问答系统[4]等多种自然语言处理任务中。
目前命名实体识别的常用方法有:基于规则和词典的方法、基于统计的方法以及统计与规则相结合的方法。基于规则和词典的方法需要经常完善词典内容,费时费力,且无法发现新实体,在识别率和召回率上很难再有新的突破[5]。基于统计的命名实体识别方法主要依托于机器学习,解决了无法发现新实体的问题。Morwal[6]使用隐马尔可夫模型(HMM)算法解决序列标注问题,实验结果证明此模型具有一定的适用性,但由于输出独立性假设的局限性,使得文本中的上下文特征不能很好地发挥作用。MeCallum等[7]提出了最大熵隐马模型(MEMM),通过使用局部最优值方法解决了隐马尔科夫模型的问题,但却带来了标记偏见的问题。2001年,Laffrt等[8]提出了条件随机场(CRF),该方法对最大熵模型和隐马尔可夫模型进行了一定的融合,通过监督学习的方式,使实体识别任务更加高效,还可以对新实体进行预测,但识别率较低。基于统计的方法通常缺少语料库的辅助,识别率难以提高。混合方法则融合了基于规则、词典的方法和基于统计的方法的优点,使最终的识别率得到了一定的提升。Google于2018年提出了一种基于双向Transformer的大规模预训练语言模型(Bert)[9],该模型在解决命名实体识别领域的问题上取得了较好的效果。Strubell等[10]提出了一种Iterated Dilated CNN+CRF模型,该模型在命名实体识别领域取得了较好的效果,但存在召回率不够理想的问题。Huang等[11]提出了Bi LSTM-CRF模型,该模型充分利用了文本中上下文的特征,识别率和召回率都有了一定的提升。赵耀全[12]等针对医疗领域提出了一种基于N-grams新词发现的Lattice-LSTM的多粒度命名实体识别模型,构建了一个医疗领域的词典,适合医疗领域的命名实体识别问题,但不适合其他领域。同样,周晓进[13]提出的面向中文电子病历的多粒度模型也仅仅适用于医疗领域的中文电子病历的识别。2020年,杨春明等[14]提出了一种基于BERT-Bi LSTM-CRF的命名实体识别模型,该模型主要针对政务领域的实体,政务领域实体具有长度较长、实体并列、别称等特点,该模型能较好的解决政务领域的问题,但同样不适用于其他领域。
上述模型或因方法问题,导致实体识别率和召回率不高,或因模型单一,领域性较强。本文提出了一种基于BERT-IDCNN-CRF的命名实体识别方法,融合BERT、IDCNN、CRF模型的优点。通过BERT预训练语言模型得到字的上下文表示,再结合IDCNNCRF模型,在保持BERT模型优点的同时,减少相应的训练参数,取得了较好效果。
1 军事领域命名实体识别模型
1.1 BERT预训练语言模型
近年来,在预训练神经网络作为语言模型的基础上,使用微调的方式处理垂直任务取得了一定的效果。在典型的语言模型中,通过预训练模型可以获得固定的词向量,但固定的词向量无法表示词的多义性,BERT模型的提出解决了一词多义的问题[15]。BERT模型可以表征句子结构以及词的多义性,并且可以获得词的上下文相关表示。BERT模型如图1所示。
图1 BERT预训练语言模型
为每个词的表示都能够融合词的上下文信息,BERT模型的编码器采用了双向Transformer。双向transformer编码结构也是BERT模型最重要的部分,其基于自注意力机制,替代了RNN循环式网络结构,对文本进行建模。双向Transformer编码单元如图2所示。
图2 Transformer编码单元
自注意力(Self-Attention)机制是编码单元的核心机制,如公式(1)所示。
式中输入词向量矩阵Q、K、V分别表示Query、Key、Value向量,dk为输入向量维度。
自注意力机制的核心思想认为,一段话中不同词之间的联系以及词在一段话中的重要程度可以由词与词之间的关系所体现。因此Q KT表示计算词向量之间的关系,并通过dk缩小后,使用softmax函数归一化,得到每个词的权重。这种新的表达方式不仅可以表达词本身,也可以表达词在所在句子中的上下文关系,这种表达方式相比传统词向量更能体现全局性。
为使模型在不同位置上都具备良好的表达能力,Transformer采用了“多头(Multi Head)”模式,扩大注意力单元表示子空间,如公式(2)和(3)所示:
与其他预训练模型相比,BERT模型可以充分地利用词的上下文信息,因此拥有较好的词分布式表示。
1.2 IDCNN层
膨胀卷积(dilated convolution)也叫空洞卷积,其主要目的是在不增加模型参数和保持模型速度前提下,增大模型的感受野[16]。
在典型的卷积神经网络中,卷积核在连续的区域内滑动计算特征,而膨胀卷积在经典的卷积神经网络中加入了膨胀宽度,在卷积核进行特征计算时会跳过膨胀宽度间的数据,以此保证在卷积核的大小不变的前提下,可以得到更广的输入矩阵,增大卷积核的感受野。图3为普通CNN与膨胀CNN结构的对比。针对窗口大小为3的三层卷积神经网络,在膨胀卷积神经网络第二层卷积时,跳过了中心相邻节点,出现了2个空洞,直接捕获了与中心相邻的节点,膨胀率为2。因此,普通卷积神经网络的第三层中每个节点仅能捕捉到第二层前后三个节点的信息,但是膨胀卷积神经网络中在保持参数与模型速度不变的前提下,第三层的节点可以捕捉到第二层中前后九个节点的信息,此时膨胀率为4,出现了6个空洞。膨胀卷积最大程度上提高了模型的有效性和准确性。
图3 普通CNN与膨胀CNN结构对比
1.3 CRF层
膨胀卷积神经网络可以抽取语句特征,并使用softmax分类器对标签进行预测,但是softmax分类器没有考虑标签间的依赖关系,因此,特征序列的联合概率表示需要使CRF对数线性模型[17]。
若句子长度为n,句子序列为x=(x1,x2,x3,...,x n)且对应预测标签为y=(y1,y2,y3,...,y n),则预测列总份数如公式(4)所示,其中转换矩阵W,经过线性映射得到的标签分数P。
因为预测序列存在多重可能性,且仅有一种是正确的,因此需要对所有可能序列进行处理,使其全局归一化,如公式(5)所示:
1.4 BERT_IDCNN_CRF模型
BERT_IDCNN_CRF模型图如图4所示,以“美国空军在华盛顿完成实验”作为输入语句为例,语句首先通过BERT预训练模型将语句转化为向量表示,然后通过IDCNN提取词句特征,最终通过CRF获得预测结果。
环己烷主要用于制备环己酮、环己醇,在涂料工业中广泛用作溶剂[1]。异丙醇也是重要的有机化学原料,用于化工、制药工业、汽车和航空燃料中[2,3]。在生产过程中,它们会混合在一起,大量存在工业废水中。因此,需对混合物分离和回收。常压下,异丙醇-环己烷形成最低共沸物,共沸温度:68.6℃,共沸组成:0.33(异丙醇质量分数)[4]。因此,该体系不能用普通精馏分离,需要用特殊精馏方法。
图4 BERT-IDCNN-CRF模型图
2 实验及结果分析
2.1 模型参数设置
本文参数设置见表1。
表1 参数设置
2.2 数据集
由于本文的目标是识别军事命名实体,所以采集了一些军事网站的相关报道作为标注语料库的原始语料,即生语料,然后对准备好的生语料进行标注。本实验以字为单位进行标注,采用BIO标注模式进行标注,将每个元素标注为B-X、I-X和O。其中,B-X表示此字所在的词语属于X类型并且此字在此词语的开头,I-X表示此字所在的词语属于X类型并且此字在此词语的非开始位置,O表示此字不属于任何类型。本实验的军事命名实体标注见表2。
表2 军事命名实体标注
标注完成后,生语料就标注成了熟语料,数据分布情况见表3。
表3 数据集划分
对于本文的命名实体识别而言,依照惯例引入P,R,F1评测指标来评价试验结果如下:
对于部队、军事地名、武器装备和人名4类军事命名实体基于BERT_IDCNN_CRF的军事命名实体识别效果见表4。
表4 基于BERT_IDCNN_CRF的各类军事命名实体识别效果
2.3 实验结果
为验证BERT_IDCNN_CRF模型的有效性,本文对比了Bi LSTM_CRF,IDCNN_CRF,Lattice_LSTM_CRF等命名实体识别方法,实验结果见表5。
表5 命名实体识别的对比结果
基于BERT_IDCNN_CRF的军事命名实体识别模型效果明显优于Bi LSTM_CRF、IDCNN_CRF、Lattice_LSTM_CRF,且F1值分别提升了4.84%、5.86%、1.63%,相比于传统的词向量表示方法,BERT效果更好。
相较于其他的命名实体识别模型,基于BERT_IDCNN_CRF的军事命名实体识别模型使用基于BERT的字向量生成模块集合了文本的字特征、位置特征和句子特征,使用BERT微调机制进行特征向量的生成,使用IDCNN模型,经过卷积层提取特征,再经过映射层连接到CRF层。
基于CRF的编码模块,对序列进行全局最优的标签预测。使得识别效果超过其他3种模型。
3 结束语
本文通过分析军事实体的数据特征,结合现有命名实体识别算法特点,设计提出了基于BERT_IDCNN_CRF的军事目标命名实体识别模型,经过对比,本文提出的模型在F1分数上效果更优。未来工作中,将尝试提升部队、军事实体别名等命名实体的识别效果,以弥补现有模型的缺陷。