基于BiLSTM-CRF的军事命名实体识别方法
2020-11-23高学攀吴金亮
高学攀,杜 楚,吴金亮
(中国电子科技集团公司第五十四研究所,河北 石家庄 050081)
0 引言
命名实体识别是自然语言处理中的一项基本研究任务,也是信息抽取的一个子任务,最早是在MUC-6会议上引入这一评测任务,作为信息抽取技术的子课题供广大学者讨论研究,旨在识别出自然语言文本中的专有名词和有意义的数量短语,并加以分类。
通用领域的命名实体识别已经得到了广泛研究,其识别方法可分为基于规则的方法和基于统计的方法2大类。基于规则的方法通过分析实体本身的词汇特征和短语的搭配习惯,人工构建规则集抽取预先定义的各种类别的实体[1],需要具备大量的专业知识,召回率低、可移植性差。基于统计的方法是从给定的、己标注好的训练集出发,定义特征集合,并应用学习算法训练统计模型,完成命名实体识别。目前常用的统计模型包括支持向量机(Support Vector Machine,SVM)[2-3]、隐马尔可夫(Hidden Markov Models,HMM)[3-4]和条件随机场(Conditional Random Fields,CRFs)[5-6]等,这些模型都需要人依靠逻辑直觉和训练语料中的统计信息手工设计出大量的特征,其识别性能很大程度上依赖于所设计特征的准确度。目前,深度学习方法已在图像处理任务中取得突破性进展[7-8];在自然语言处理领域,基于词嵌入[9]的神经网络方法也正在快速发展,并应用于各种文本分析任务中。相比传统机器学习方法,该方法可从原始输入中学习到更好的特征和表示,使原始数据表示经过逐层变换和抽象后得到优化,有助于提高实体识别的泛化性能。深度学习方法已成为当前命名实体识别领域的研究热点[10-11]。
军事命名实体识别属于特定领域[12-15]的命名实体识别,仍属于命名实体识别领域的研究,旨在从军事文本中识别与军事相关的各种命名实体,主要包括人物姓名、军用地名、军事机构名、武器装备、设施目标和部队番号等,是军事数据库建设、军事知识图谱和情报分析挖掘等上层应用的重要基础工作。已有诸多学者开展对军事命名实体识别的研究,宋瑞亮[16]提出Tri-Training算法对CRF模型进行迭代学习,能够识别军事文本中的命名实体。冯蕴天等[5]通过分析军事文本语法特点构建特征集合,构建CRF模型并引入Self-Training算法对军事命名实体进行识别,并利用词典和规则的方法对识别结果进行修正,比仅用CRF模型进行识别效果要好。单赫源等[6]提出一种小粒度策略下基于CRF的军事命名实体识别方法,在保证较优识别准确率的前提下,还能降低训练集标注的复杂度。
现有的面向军事文本的实体识别方法大多采取基于规则或基于浅层模型的学习方法,往往需要大量的特征工程,依靠从军事文本数据中定制、提取特征的手段制定规则或学习模型,针对真实语料中的军事命名实体的识别效果有待提高。考虑到军事命名实体构成模式多样、实体名称组成复杂和结构嵌套等特点,对军事命名实体的识别任务必须兼顾其语言规律和军事特性,并充分考虑领域分词困难以及缺乏大规模人工标注训练语料等诸多问题。本文针对军事命名实体识别,主要进行以下工作:
① 构建军事语料库,准确标注了十万量级的军事命名实体;
② 将军事文本编码为字向量序列作为输入,能够有效降低对分词工具的依赖性,避免了分词带来的级联误差;
③ 提出BiLSTM-CRF模型,利用深度学习方法自动学习任务特征,提高了军事命名实体识别效果。
1 军事命名实体识别模型
1.1 总体流程
基于BiLSTM-CRF的军事命名实体识别方法将命名实体识别问题转为序列标注问题,并采取BIO的数据标注模式,即定义3种实体范围标签:实体起始、实体内部和实体之外,分别用B,I,O进行标注。双向长短时记忆神经网络(Bi-directional Long-short Term Memory,BiLSTM)结合条件随机场的序列标注方法[17-18],既具备BiLSTM能够充分利用上下文语境信息的能力,也具备CRF能够避免标注偏置问题的能力,同时也避免了CRF模型所需的复杂的特征工程,在序列标注问题中具备强大的建模能力以及良好的性能,总体流程如图1所示。
图1 基于BiLSTM-CRF的军事命名实体识别方法流程Fig.1 Procedure of military named entity recognition based on BiLSTM-CRF
历史军事文本数据经由简繁转换、全半角转换等预处理后,一方面基于词嵌入技术学习字符的分布式表示,得到字向量查找表,另一方面应用BIO标注方法对每个句子中的每个字符进行人工标注,得到标注样本集;然后,基于标注样本集和字向量查找表,利用BiLSTM神经网络处理输入的字符向量序列,统筹上下文语义学习任务特征,并将学习到的特征接入线性链式条件随机场进行军事命名实体标注,训练生成用于军事命名实体识别的模型;最后,对于待处理的军事文本,经由简繁转换、全半角字符转换等预处理后,输入军事命名实体识别的模型进行计算,标注文本中的军事命名实体并输出,完成军事命名实体识别。
1.2 字符的分布式表示
首先需要将输入的军事文本转换为计算机能够进行计算的向量形式。传统针对字/词的独热表示方法,无法捕捉字/词之间的语义关系,且存在严重的维度灾难和数据稀疏问题。分布式表示方法能够把字/词映射成固定长度的低维、稠密的实值向量表示,并且可以根据向量空间中字/词的分布引入距离来衡量字/词之间的语义相似性,能够很好地克服独热表示的缺点。尤其是在2013年,Mikolov提出word2vec模型[13],分布式表示迈入实用化阶段后,深度学习在自然语言处理领域中的应用达到了一个新高度。
相比于普通实体结构,军事命名实体具有组成复杂、结构嵌套及较强的领域特点,如“F-22”战斗机。为有效获取军事命名实体中字符间的紧密结合特征,并回避专业领域分词对实体识别带来的级联误差,本文采用字符级别的分布式表示方法,采用word2vec中的Skip-gram模型在大规模军事文本预料上无监督训练出字符向量查找表,将字符向量序列作为模型的初始化输入。
训练得到的字向量表中共5 000个字符(包括常用汉字、英文字母、数字、标点符号及其他特殊字符)以及它们的数值向量形式。每个数值向量有100维,每一维表示一个特征。字向量表查找的过程是让原始军事文本中每一个字符在表上查找对应的字向量,如果某字符在表中不存在,则被初始化为一个统一的数值向量。
1.3 BiLSTM-CRF序列标注模型
用于军事命名实体识别的BiLSTM-CRF序列标注模型架构如图2所示。
图2 BiLSTM-CRF模型架构Fig.2 Architecture of BiLSTM-CRF model
模型的第1层是字向量映射层。以军事文本中的句子为单位,将一个含有n个字符的句子(由字符组成的序列)记作x=(x1,x2,...,xn),其中xi表示句子的第i个字符在字典中的ID,进而可以得到每个字符的独热向量,维数是字典大小。利用训练得到的字向量查找表将军事文本中的每个字符xi由独热向量映射为低维稠密的字向量ci∈Rd,d是字向量的维度,作为神经网络初始输入的特征向量。
pt=softmax(Wht+b),
式中,W为权值参数;b为偏置项。计算后,将隐状态向量从m维映射到k维,k是标注集的标签数,从而得到自动提取的动向文本句子特征,记作矩阵P=(p1p2...pn)∈Rn×k。可以把pi的每一维pij都视作将字符xi分类到第j个标签的打分值,值越高说明给当前字分配该维度对应标记的可能性越大。LSTM模型训练选用交叉熵建立目标函数:
模型的第3层是CRF层,进行句子级的序列标注。CRF层的参数是一个(k+2)×(k+2)的矩阵A,Aij表示从第i个标签到第j个标签的转移得分,进而在为一个位置进行标注的时候可以利用此前已经标注过的标签。如果记一个长度等于句子长度的标签序列为y=(y1,y2,...,yn),则模型对于句子x的标签等于y的打分为:
整个序列的打分等于各个位置的打分之和,而每个位置的打分由2部分得到:LSTM输出的pi和CRF的转移矩阵A。模型训练时通过最大化对数似然函数实现。
2 实验验证
2.1 实验设置
由于目前没有比较统一的军事语料库,因此采用人工收集的方式构建军事文本数据集。数据集共包括2 000篇军事新闻和3 000份军事报文,总计3 088 098个字符,共标注了人物姓名、军用地名、军事机构名、武器装备名、设施目标名和部队名称6类共109 797个军事命名实体。数据集统计结果如表1所示。
表1 数据集统计Tab.1 Statistics of the dataset
评价指标包括正确率P、召回率R和F1值:
2.2 实验结果
为了测试本文所提方法在军事命名实体识别上的效果,实验采用了5折交叉验证的方法,即将数据集随机划分为5份,依次使用4份进行训练,用剩下的1份进行测试,对结果取平均值。6类军事命名实体识别结果如表2所示。
表2 基于BiLSTM-CRF模型的军事命名实体识别效果
另外,为了验证基于BiLSTM-CRF模型的军事命名实体识别方法的有效性,在实验比较中设置了BiLSTM模型和LSTM-CRF模型作为对比,结果如表3所示。
表3 对比实验结果Tab.3 Results of the comparison experiment 单位:%
通过对实验结果的分析可得,基于BiLSTM-CRF模型的军事命名实体识别方法在6类军事命名实体识别的准确率和召回率均大于80%,且综合识别性能均优于2种基准方法,验证了本文所提方法的有效性。
3 结束语
针对军事领域命名实体识别,通过对现有方法的研究与应用现状的分析,结合军事命名实体组成复杂、结构嵌套的特点,设计出了基于BiLSTM-CRF模型的军事命名实体识别方法并对方法的实现过程进行了详细论述。实验结果表明,本文提出的方法在准确率和召回率上均优于基准方法,且对于每一类实体的识别均有较好的识别效果,验证了方法的有效性,具备一定的应用前景。