APP下载

基于分层标注的中文嵌套命名实体识别

2022-11-15金彦亮谢晋飞吴迪嘉

关键词:嵌套字符语料

金彦亮, 谢晋飞, 吴迪嘉

(上海大学通信与信息工程学院, 上海 200444)

命名实体识别(named entity recognition, NER)是自然语言处理中的底层关键技术, 其主要目的是在非结构化文本中提取出具有特定含义的实体, 并将其分类为预定义的类型, 如人名、地名和组织名等. 有效地识别出有意义的实体对于自然语言的语义理解起着至关重要的作用, 并有利于进行关系提取、事件抽取和问答系统等后续任务. 近年来, 非嵌套命名实体识别的研究取得了较大的进展, 但是非嵌套命名实体识别未考虑文本中命名实体嵌入其他实体中的情况. 如图1 所示, 句子“[[上海市][金山区]新华书店]”是2 层嵌套命名实体, 其中地名(location, LOC)被嵌入到组织机构名(organization, ORG)中. 这种复杂的中文文本给命名实体识别任务带来技术上的挑战.

图1 嵌套命名实体示例Fig.1 Example of nested named entities

对于中文命名实体识别任务, 现有的标准方法是将该任务看作一个序列标注问题,并利用双向长短时记忆网络(bidirectional long short-term memory, BiLSTM)和条件随机场(conditional random field, CRF)来捕获上下文字符的信息, 最终通过对字符分配标记来完成命名实体识别. 序列化标注的方法可分为基于词模型和基于字符模型的方法. 前者存在2 个问题: ①单词边界模糊导致分词准确度具有不确定性; ②单词数量庞大容易出现未登录词(out of vocabulary, OOV). 而基于字符模型的方法对嵌套命名实体进行识别可以有效避免上述问题, 但是该方法只利用了字符的信息, 不能捕捉潜在的词级别信息. 因此, 如何合理地在字符模型方法的基础上引入潜在的词汇信息对于提高嵌套命名实体识别的准确率有着重要的意义.

为提高中文嵌套命名实体识别的性能, 本工作提出了一种层级神经网络模型. 该模型在BiLSTM 模型的基础上引入了基于位置感知的自注意力机制, 可以有效识别当前层级实体的边界信息, 克服传统的基于字符模型的缺点. 首先, 在输入层中由词长度特征得到的Softword 将被作为字符向量特征的补充. Softword 的引入可以使字符序列模型利用潜在的词序列信息, 在输入层同时获取字符信息和词汇信息. 其次, 得到高维度特征后, 将输入层特征表示送入BiLSTM 模型以进行特征提取并生成有效的上下文信息表示. 然后, Highway 神经网络被用来获取句子中感兴趣的字符表示. 最后, 模型使用位置感知自注意力在多个不同子空间捕获相邻字符信息, 输出识别结果. 实验结果表明, 本模型相比于几种基线模型在实体识别中取得了较好的性能.

1 相关工作

现有的嵌套命名实体识别方法可以分为3 类: 基于规则和字典的方法、基于机器学习的方法和基于深度学习的方法. 早期的命名实体识别系统主要基于规则和字典, 其缺点是规则的灵活性差、可扩展性差和OOV 单词查找能力不足. 随着统计机器学习的出现, 命名实体识别任务被抽象为序列标记问题. 传统的序列标记方法大多采用层次模型, 将嵌套命名实体识别任务转换成多个层次的序列标注问题. 周俊生等[1]利用层叠条件随机场模型来识别中文机构命名实体, 该方法在低层条件随机场进行人名和地名实体识别, 并将结果传递到高层条件随机场,以识别复杂的嵌套组织机构名; Fu 等[2]采用双层条件随机场模型进行嵌套命名实体识别, 低层模型识别基本实体, 高层模型在已经识别的基本实体上引入实体语素特征以识别出嵌套的命名实体; 尹迪等[3]提出了一种联合学习模型, 将中文嵌套命名实体识别看作是一种联合切分和标注的任务, 该模型能够处理分词和嵌套命名实体识别任务; Xing 等[4]构建层次条件随机场模型来完成中文微博命名实体识别任务, 在低层条件随机场设置滑动窗口来提取文本的实体特征, 高层条件随机场基于低层的特征进行实体识别; 李雁群等[5]采用由内而外的层次模型方法,利用外部数据语料和多个条件随机场模型来识别由内到外不同嵌套层次的实体. 但是, 以上模型都严重依赖于特征工程和外部资源. 近年来, 深度学习提供了一种解决自然语言处理问题的新方法; Katiyar 等[6]提出了一种循环神经网络构建方法, 该方法使用从循环神经网络提取的特征来学习嵌套实体的超图表示, 在嵌套实体抽取任务中有着优秀的表现, 基于图结构的方法在很大程度上具有很高的复杂性; Ju 等[7]利用动态堆叠的LSTM-CRF 模型从内到外提取实体, 这种层次化结构在生物医学嵌套命名实体识别中有较好的效果; 顾溢[8]设计了多层的基于位置信息和主题信息优化的BiLSTM-CRF 模型结构, 低层网络在优先侧重召回率的情况下进行粗粒度命名实体的识别, 然后将低层网络输出送给高层网络进行细粒度命名实体识别, 该方法在新闻嵌套命名实体识别中取得了不错的效果.

上述方法研究表明, 通过构建多层命名实体识别模型来层次化识别嵌套命名实体, 可以获得不错的效果. 但是, 这些方法无法有效捕获嵌套实体之间的边界信息, 这将限制嵌套实体识别的性能. 为了解决上述问题, 本工作提出了一种层叠深度神经网络模型, 该模型在不利用外部资源情况下可以有效识别嵌套实体相应层级的边界信息, 实现端到端的特征提取.

2 中文嵌套命名实体识别模型

2.1 系统框架

与大多数命名实体识别方法一样, 本工作也将实体识别任务转化为序列标注问题. 本模型架构如图2 所示. 整体结构分为5 层: 第1 层为字粒度嵌入层, 获得字粒度的特征向量表示;第2 层为基于Highway-BiLSTM 的编码层, 经过Highway-BiLSTM 编码器得到上下文的序列表示; 第3 层为基于位置感知的注意力信息交换层, 通过注意力网络来捕获每层实体类型边界信息; 第4 层为Gate 过滤层, 利用Gate 过滤机制对相应的文本特征表示进行嵌套识别; 第5 层为CRF 解码层, 基于单词标签之间的制约关系, 从内到外分别给出每层的最优标注序列.

图2 本模型的总体框架Fig.2 Overall framework of the proposed model

2.2 字粒度嵌入层

大多数研究表明, 将分词信息作为基于字符NER 模型的softword 可以有效提高实体识别性能[9-10]. 在本模型中, 分割的标签向量被用来连接字向量以增强输入编码的表示能力. 分词信息由BIOES 标记策略表示,其中B 表示为实体的开始部分, I 表示为实体的中间部分, E 表示为实体的结尾, S 表示为单个实体的标记, O 表示为非实体的部分. 在字粒度表示层上, 中文句子被编码为X={x1,x2,··· ,xn}, 其中xi表示为输入句子X中的第i个字符, 则每个字符的输入表示都以xci的形式嵌入到分布空间中:

式中:ec和es分别为预训练的字向量表和分词标签向量表;⊕表示连接操作符; seg(xi)表示由分词器得到的词向量.

2.3 基于Highway-BiLSTM 的编码层

Hochreiter 等[11]提出了用LSTM 来解决传统递归神经网络的梯度消失和梯度爆炸问题,该方法利用自适应门控机制和存储单元来更好地建模句子长距离依赖关系. 对于给定句子X={x1,x2,··· ,xn}, 每个时刻t中各个单元的隐藏状态ht计算如下:

式中:σ为逻辑回归中的sigmoid 函数;it、ft、ot、ut、ct分别为输入门、遗忘门、输出门、时刻记忆单元状态候选值和状态值;W、U为LSTM 单元输出的权值矩阵;b为偏置向量;⊙为元素级乘法计算.

因隐藏状态流是单向传递的, LSTM 仅保留单向序列的信息. 为了利用双向序列信息, 本工作采用双向LSTM 捕获句子的上下文特征. 通过构造2 个正反方向的隐藏层来捕获上下文信息, 得到隐藏状态输出ht为

Highway 网络允许信息高速穿过深度神经网络的各个层, 从而有效地减缓了梯度消失问题. 本工作使用Highway 网络的自适应门控来控制信息流, Highway 网络架构如图3 所示. 通过Highway 网络层, 模型可以智能地选择与当前字符更相关的单词. 其计算如下:

图3 Highway 网络结构Fig.3 Architecture of Highway network layer

式中:σ为逻辑回归中的Sigmoid 函数;f为整流线性单元;W、b分别为对应权值矩阵和偏置向量;⊙表示元素级乘法计算; tg 表示转换门, 控制有多少信息被转换并传递给下一层,而1-tg 称为进位门, 允许输入直接传递到下一层. 因此, Highway 网络的输入h和输出z需要保持相同形状.

2.4 基于位置感知的注意力信息交换层

在字符向量经Highway-BiLSTM 编码后, 自注意力网络被用来学习句子中任意2 个字符之间的依赖关系, 以及捕获句子的内部结构信息. 在嵌套命名实体识别模型中, 各层的注意力网络都在相应的嵌套级别识别重叠的实体, 彼此相互独立.

在嵌套实体中, 内层嵌套的边界特征有益于外层嵌套实体的识别. 因此, 本工作结合不同层级实体的位置信息设计了跨层的注意力机制, 用来实现不同层实体边界信息的交换. 位置信息有助于提升注意力机制的编码能力, 从而帮助模型更好地评估句子内每个字符的相对贡献. 对于输入句子X={x1,x2,··· ,xn}, 本工作使用共享的可训练嵌入矩阵P来获得相应的位置嵌入表示XPi={pi1,pi2,··· ,pin}. 对于第一层嵌套实体, 模型使用Highway-BiLSTM 输出Z= [z1,z2,··· ,zn]来初始化K和V, 并在全局序列特征表示Z上引入额外的位置信息查询来初始化Q. 后续嵌套层则将内层的上下文注意力表示ck-1作为额外查询来初始化Q, 其中K和V值与第一层相同. 该注意力的计算可以表示为

多头注意力机制在参数不共享的前提下,首先通过使用不同的线性投影矩阵将Q、K、V投影h次; 然后,h个投影并行执行缩放的点积注意, 得到不同空间的注意力headi, 最终将其合并投影以得到新的特征表示. 多头注意力可以表示为

考虑到序列中每个位置标签的权重不一致性和嵌套实体分层识别带来的误差扩散, 本模型引入了一种Gate 过滤机制对序列特征表示进行调整, 将zt和ct加权得到结合上下文特征和自身特征的表示. Gate 过滤机制输出表示为

式中:σ为逻辑回归中的sigmoid 函数;Wg、bg分别为对应权值矩阵和偏置向量;⊙为元素级乘法计算.

最后, 执行一个全连接层来计算概率评分矩阵, 其计算如下:

式中:Ws、bs分别为全连接层的权值矩阵和偏置向量.

2.5 CRF 解码层

在NER 序列标记任务中, 相邻字符的标签之间有很强的依赖性, 如I-LOC(I-location)标签不能出现在B-PER(B-person)标签或S-PER(S-person)标签后面. 因此, 模型不是直接使用全连接层的输出来做标记决策, 而是利用CRF 来共同推断实体标记序列的输出. 这里,CRF 可以表达这种依赖性并有效地向最终的预测标签序列添加一些约束.

对于给定句子X={x1,x2,··· ,xn}, CRF 层被训练用来预测最大概率标签序列y={y1,y2,··· ,yn}, 标记序列的分数计算如下:

式中:Oi,yi表示为句子中第i个字符xi的第yi标签的分数;T为转移分数矩阵, 表示从标签i到标签j的转移得分;y0和yi+1为句子的开始和结束标记, 被添加到可能的标记集中. 真实标签序列y的概率定义为

式中:y为正确的标签序列; ~y为任意标签序列;Yx为输入的所有可能输出标签序列的集合. 在解码阶段, 维特比算法被用来预测获得最高得分标记序列的最佳路径.

在训练过程中, 本模型使用对数似然作为结构损失函数. 给定一组训练示例{(xi,yi)}|Ni=1,第n层的损失函数Ln可以定义为式中:k为嵌套的层数, 目标函数由各层损失函数加权平均得到. 最后, 本工作采用Adam 更新规则的随机梯度下降方法来优化目标函数[12].

3 实验设计与结果分析

3.1 实验数据集

为验证所提模型的有效性, 本工作采用由北京大学标注的1998 年1 月份的《人民日报》语料进行相关实验研究. 该语料包含了19 484 个句子, 并提供了2 层嵌套实体信息. 本工作将80%的语料用作训练集, 10%的语料作为验证集, 10%的语料作为测试集. 该语料的详细的统计信息如表1 所示.

表1 《人民日报》数据集结构Table 1 Structure of information People′s Daily dataset

该语料已经标注了人名、地名和组织机构名等信息. 本工作采用BIOES 标记策略表示命名实体, 从原始数据自动提取已经标注的嵌套实体信息, 并去除特殊标点字符和数字日期表示. 该语料中各实体类型统计信息如表2 所示.

表2 《人民日报》数据集统计信息Table 2 Detailed statistics information of People′s Daily dataset

3.2 实验参数设置

本模型采用Tensorflow 框架, 并用NVIDIA 的1080Ti GPU 进行加速训练. 本工作将字符嵌入大小和BiLSTM 的隐藏层大小设为300 维, 多头自注意机制的投影数h设为6.Highway 网络的门偏置使用-1 矢量初始化. Adam 作为模型优化工具, 初始学习率设为0.001,梯度范数为5. 为避免过度拟合, 使用dropout 技术来防止过拟合, 其值设为0.5. 设定100 个训练阶段, 并采用了早期停止策略. 实验中模型使用的字符嵌入来自Li 等[13], 是由负采样Skip-Gram 在3.9 G 的人民日报语料上进行预训练生成. 实验中具体的参数设置如表3所示.

表3 参数设置Table 3 Parameter settings

3.3 实验结果分析

为了验证本模型的有效性, 将本模型结果与其他5 个模型结果进行了对比, 其中3 个模型是文献中提到的方法[1,3,5]. BiLSTM+CRF 将作为基准模型, Highway-BiLSTM+CRF 模型在基准模型的基础上引入了Highway 信息过滤层. 本模型在Highway-BiLSTM+CRF 模型基础上引入了具有位置感知的多头注意力机制. 实验对比结果如表4 所示.

表4 《人民日报》数据集实验结果Table 4 Experimental results on People′s Daily dataset

表4 中列出了本模型在1998 年1 月份《人民日报》语料上的性能. 周俊生等[1]提出了层叠条件随机场模型用于识别中文嵌套机构名, 该算法在低层模型中识别较简单的人名、地名等实体, 并将低层识别结果传递到高层模型, 为高层复杂机构名的识别提供决策支持, 获得了89.07%的F1 分数值; 尹迪等[3]提出了一种联合学习模型, 将嵌套命名实体识别看作是一种联合切分和标注任务, 该模型可以实现较快的收敛速度, 达到了80.85%的F1 分数值; 李雁群等[5]在原始语料上采用半自动标注方式重新标注了多层的嵌套命名实体, 取得了94.22%的准确率, 但在召回率上表现不足.

同时, 从表4 可以看出, 本模型仅使用了字符嵌入和softword 词信息便获得了90.35%的F1 分数值. 实验结果表明, 基准模型的R分数值和F1 分数值已经超越了文献中模型的结果. 与基准模型相比, Highway-BiLSTM+CRF 模型在F1 得分方面有着显著提高, 取得了90.91%的F1 分数值. 这表明门控网络可以执行更详细的特征提取, 并学习更复杂的依赖关系. 由表4 可知, 在加入基于位置感知自注意力机制后, 模型的整体性能得到了提升, 本模型的F1 分数值比文献[1]模型的结果(89.07%分数值)提升了2.34%, 并比基准模型提升了1.06%, 表明本模型具有更强的特征提取能力, 在不需要引入外部词典信息情况下, 可以有效地应用到中文嵌套命名实体识别任务.

3.4 非嵌套NER 对比实验

为了验证所提模型的泛化能力, 本工作将模型的任务层数k设置为1, 使本模型变为非嵌套NER 模型, 并与非嵌套命名实体识别的模型进行比较. 本实验采用2006 年SIGHAN 中文命名实体识别评测的MSRA 数据集[14]. 该数据集包含3 种带标记的命名实体类型: 人名、地名和组织名. MSRA 数据集具体统计信息如表5 所示. 验证集在MSRA 数据集中不可用. 因此, 本工作将训练集的10%数据作为验证样本.

表5 MSRA 数据集统计信息Table 5 Detailed statistics information of MSRA dataset

本模型在MSRA 数据集上的性能如表6 所示. Zhou 等[15]将中文NER 视为联合识别和分类任务, 并利用具有丰富的人工特征的统计模型实现了90.28%的F1 分数值; Dong 等[16]提出了结合汉字偏旁部首特征的LSTM-CRF 来进行中文命名实体识别; Cao 等[17]使用对抗迁移学习和自注意力机制来联合训练中文NER 任务和中文分词任务, 以获得更好的性能; Yang 等[18]考虑语义信息和n-gram 特征, 提出了一种基于五笔的CNN-BiRNN-CRF 的中文NER 任务模型, 并取得了91.67%的F1 分数值; Xu 等[19]研究了不同的字符嵌入在BiGRUCRF 中文命名实体识别框架上的效果, 得到了91.45%的F1 分数值.

表6 MSRA 数据集实验结果Table 6 Experimental results on MSRA dataset

从表6 可知, 与现有的非嵌套NER 模型相比, 本模型和Highway-BiLSTM+CRF 模型均取得了较好的F1 分数值, 且本模型F1 分数值超越了表中所有模型的结果, 达到了92.74%,较Yang 等[18]的模型提高了1.07%的F1 分数值. 可见, 本模型也可以较好地对非嵌套实体识别进行建模, 模型通用性较好.

4 结束语

本工作针对中文嵌套命名实体任务的特点, 提出了一个基于分层标注的嵌套命名实体识别模型. 该模型在不使用外部资源的情形下, 能够通过完全端到端的方式, 利用内部实体信息来学习嵌套实体之间的依赖关系. 在《人民日报》语料上的实验结果表明: 具有位置感知的自注意力机制可以有效捕获文本特征和每层嵌套实体的边界信息; 同时Gate 过滤机制可对输入特征进行调整, 使模型能专注于学习与实体相关的特征, 从而提高了对中文嵌套命名实体的识别能力. 最终, 本模型F1 分数值为91.41%, 取得了较好的效果. 由于中文语料库的限制, 故本工作只考虑了2 层嵌套命名实体的识别, 对于多层嵌套命名实体识别, 可对本模型进行扩展.在今后的研究工作中, 本工作将扩大实验的规模, 进一步验证模型的有效性, 并降低模型计算成本以提高模型的学习效率.

猜你喜欢

嵌套字符语料
Python实现图片转字符画
正则表达式快速入门
浅谈视频语料在对外汉语教学中的运用
可比语料库构建与可比度计算研究综述
图片轻松变身ASCⅡ艺术画
论电影嵌套式结构的内涵与类型
嵌套交易如何实现逆市盈利
如何使用第二外语学习者语料
巧用嵌套交易实现逆市盈利
表格在网页中的灵活运用