融合ERNIE与改进Transformer的中文NER模型

2022-10-24夏骄雄

计算机技术与发展 2022年10期

罗峦,夏骄雄

(上海理工大学光电信息与计算机工程学院，上海 200093)

0 引言

随着互联网的普及和计算机技术的发展，人们获取信息的途径愈加丰富，同时网络上的文本信息呈指数级增长。这些海量文本中蕴含着科技创新的前沿趋势、热点话题、经济社会的舆情民意等重要信息，因此，如何从海量文本数据中挖掘出有价值的关键信息给研究者们带来了巨大挑战。在这一背景下，信息抽取[1]技术(Information Extraction，IE)应运而生。信息抽取主要是对文本中的非结构化信息进行处理，从文本中抽取出特定的实体或事件，帮助研究人员对海量文本内容进行自动分类、提取和重构。命名实体识别(Named Entity Recognition，NER)作为信息抽取的重要子任务，受到了国内外研究者的广泛关注。

命名实体识别是自然语言处理领域的一项基础任务，主要任务是从文本数据中自动地发现信息实体以及识别它们对应的类别。自然语言处理研究领域的信息检索[2]、信息抽取、知识图谱[3]、问答系统[4]等多项任务均需要命名实体识别任务作为基础。随着自然语言处理技术的不断发展，对文本中包含的语义知识的挖掘变得愈发重要，丰富的语义知识会使得后续的任务取得更好的效果，而命名实体作为文本中的关键信息，包含了丰富的语义知识，因此正确识别文本中这些实体并进行分类，具有重要的研究意义。

1 相关工作

实体识别任务早期通常采用基于规则和词典的方法，这种方法考虑了数据的结构和特点，对于结构性强的实体(日期、时间、货币等)具有较好的识别效果，但对于结构性不强的实体识别效果差，且编写规则的过程复杂。基于统计模型的方法对特征选取要求更高，需要提取出对实体识别有影响的各种特征。基于统计的机器学习方法主要包括隐马尔可夫模型(Hidden Markov，HMM)、最大熵(Maximum Entropy，ME)、支持向量机(Support Vector Machine，SVM)等，这些方法需要人工提取特征，且特征的选取对识别效果有很大影响。

近几年，随着深度学习的不断发展，深度学习在自然语言处理的许多应用中都取得了长足进步，于是，NER的研究热点逐渐从早期基于词典和规则的方法过渡到基于神经网络的方法。深度学习是一种从原始数据中自动学习特征的方法，具有较强的泛化能力，在很大程度上减弱了对繁琐的特征工程和专业知识的依赖。

文献[5]使用了多层叠加的双向长短期记忆网络(Long Short-Term Memory，LSTM)进行文本特征提取，在多种不同任务上进行实验，均取得了较好的识别效果，并证明了字符级的标注方法相较于词语级的标注方法效果更好；文献[6]通过多层叠加的CNN来扩大处理范围从而提高长距离信息捕获能力，并且使用空洞卷积在维持相同处理范围的同时有效减少了参数数量，在取得良好效果的同时降低了模型的运算复杂度；文献[7]使用大量的无标记语料来训练神经网络模型，将训练好的语言模型与序列标注模型进行拼接，将语言模型学到的知识作为额外特征以提高序列标注任务的性能；文献[8]提出了将带有局部注意力层卷积网络和带有全局注意力层的门控循环网络相结合的CAN，以更好地捕获相邻字符和句子上下文的信息；文献[9]提出一种协同图神经网络(Collaborative Graph Network)，通过词意信息自动构建词汇来解决命名实体识别中分词边界信息缺失问题；文献[10]提出一种词字-图卷积网络(WC-GCN)，使用了一种交叉GCN模块同时处理两个方向的词字有向无环图，提高对长距离依赖的捕获能力；文献[11]将实体识别任务转变为问答任务以解决实体嵌套的问题。上述方法对实体识别的贡献大多体现在优化词向量或优化特征表达其中一方面，兼顾两者的方法大多结构复杂耗时较长。为此，该文提出的模型具有以下贡献：使用ERNIE训练词向量作为嵌入层，摆脱了模型对于分词预处理过程的依赖，避免出现因分词错误以及信息缺失引起错误传播而导致准确率降低的情况；通过自注意力层增加了约束正则项提高对参数约束性以提高每个生成标签的准确性；最后，加入计划采样机制以解决模型训练与测试过程中存在的不匹配问题。

2 模型实现

编解码器[12-13]解决问题的主要思路是通过神经网络模型在每个时间段不断地去学习输入文本序列的编码向量，然后根据存储的信息向量解析成目标序列。在每一步中，模型都是自循环，当生成下一个输出时，会将之前的输出作为附加的输入。

模型的结构如图1所示。

图1 融合ERNIE和改进Transformer的模型示意图

该模型的整体运作流程是：首先输入文本序列，利用ERNIE预训练模型，获得包含序列总体信息的动态词向量，接着将新的词向量输入到multi-head自注意力层进行特征提取，捕捉序列的特征信息，编码器通过学习将输入的文本序列编码成状态向量，状态向量会作为每个时刻特征输入，并结合之前时刻的输出进行学习并输出。编码器由N=6个相同的基础层叠加组成，每个基础层由两个子层组成，分别是multi-head自注意力层和全连接层，其中每个子层都加了残差链接[14]和层标准化，子层的输出可表示为：

sublayeroutput=LayerNorm(x+(SubLayer(x)))

(1)

其中，x和SubLayer(x)分别对应multi-head自注意力层和全连接层的输入和输出。解码器由N=6个相同的基础层叠加组成，但相比于编码器的基础层多了一个子层，该子层输入部分的K、V来自编码器，Q来自上一位置解码器的输出，并且也包括残差链接和层标准化。

2.1 ERNIE词嵌入

在自然语言处理中，文本序列处理由以下几个步骤组成。首先将原始文本序列嵌入至稠密的表征词嵌入，其次将词嵌入序列转化为定长的表征向量，最终输入后续任务中。对词嵌入表征的研究向来是自然语言处理的重中之重。然而，类似于Word2vec词向量模型存在无法解析一词多义以及上下文信息缺失等缺点，往往对性能的提升并不明显。ERNIE[15]作为一种预训练语言模型，是通过在海量语料中进行自监督学习而得到的一组适用性十分广泛同时还能在具体任务中动态优化词向量，所谓自监督学习是指在没有人工标注的数据上运行的监督学习。ERNIE Embedding的结构如图2所示。

图2 ERNIE Embedding的结构

其训练过程与BERT类似，但BERT模型主要是聚焦在针对字或英文单词粒度的学习，没有充分注重到中文字级结构及语义单元之间的联系[16-17]。为此，ERNIE训练过程通过对连续的语义单元掩码，对训练数据中的词法结构、语法结构、语义信息进行统一建模，使得模型学习完整概念的语义表示，进一步增强了在中文文本上的语义结构表示能力。

2.2 位置编码

由于多头自注意力层缺少对序列中字词顺序的表示，因此需要在序列中添加位置编码向量：Positional Encoding，该向量包含当前字词在序列中的位置信息，公式如下：

(2)

(3)

其中,pos表示当前字词在句子中的位置，i表示位置编码向量中的第几个维度，dmodel表示词向量的维度，位置编码的作用是将字词在句子中的位置pos映射成dmodel维的位置向量，最后，将同维度的位置向量与词向量进行矩阵求和得到具有位置信息的词向量。

2.3 Multi-head自注意力模块

Multi-head自注意力模块在Transformer中首次被提出，其最大的特点是替代了传统的RNN和CNN，整个结构完全由attention机制组成[18]。传统的RNN(或者LSTM，GRU等)的计算限制为顺序的，也就是只能从左往右或者从右向左依次计算，这种机制带来了两个问题：t时刻的计算必须依赖t-1时刻的计算结果，这样限制了模型的并行能力；顺序计算的过程中信息会丢失，尽管在RNN上添加门控机制等方法一定程度上缓解了长期依赖的问题，但仍存在依赖递减的问题。而Multi-head自注意力模块有效解决了上述问题。

Multi-head自注意力机制的计算过程相当于多个不同的单自注意力机制的集成，单自注意力机制输入由维数同为dk的query和key，以及维数为dv的value组成，输出为：

(4)

Multi-head自注意力机制的计算过程相当于多个不同的缩放点积注意力模块集成，如图3所示。

图3 Multi-head自注意力

首先将Q,K,V经过一个线性变换，然后再做缩放点积注意力运算，整个过程重复h次。具体如公式(5)所示：

(i=1,2,…,h)

(5)

MultiHead(Q,K,V)=Concat(headi,…,

headh)WO

(6)

其中，WO∈Rhdv×dmodel，表示再进行一次线性变换，最后得到所求注意力。

2.4 约束正则项

上面介绍了融合ERNIE和Transformer的模型，本节将引出约束正则项提高对参数约束性以提高每个生成标签的准确性，进一步对模型参数进行优化。因为需要为每个令牌都生成一个标签，因此在生成特定的标签时，应该更多注意到对应的令牌，而不应该让整个序列的标签过分地受到某一个令牌的影响，降低准确性。为解决此问题，即需要使令牌之间在整个解码过程中获得的注意力差不多，因此，在解码过程中，损失函数上加入注意力正则项：

(7)

(8)

2.5 计划采样机制

由于在训练时解码器每个时间点接入的都是真实序列标记，而在测试时每个时间点接入的都是上一时间点解码器的输出，这种训练和测试时编码器输入不匹配的差异会导致当在某一步做出错误预测后，后面会产生累积错误，也就是上一时间点生成了错误的标签，那么以它为输入生成的下一标签的准确性也会被影响。为解决此问题，引入一种计划采样策略：训练时不再完全采用真实序列标记作为下一时间点的输入，而是引入概率解决这个问题，以概率p选择真实标记，以1-p选择模型自身的输出，p采用反sigmoid函数，公式如下：

(9)

其中，x为已使用数据集比例，k为超参；概率p的大小在训练过程中是动态变化的：开始时p尽量选择较大值，因为模型训练不充分，尽量使用真实标记。随着训练的进行，p值逐渐减小，因为随着模型训练越来越充分，需要尽量选择模型自己的输出以避免训练测试不匹配问题。

3 实验研究

3.1 实验数据及评价指标

实验采用1998年1月的人民日报语料作为数据集，该数据集是北京大学计算语言学研究所和富士通研究中心共同制作的标注语料库，被作为原始数据应用于大量的研究和论文中。实验过程按80%、10%、10%将其随机划分为训练集、验证集和测试集。数据集使用BIO标注方式(Beginning，Inside，Outside)进行标注，其中包括3种实体类型，人名、地名和组织名(PER，LOC，ORG)，共7种标签(‘B-PER’，‘I-PER’，‘B-LOC’，‘I-LOC’，‘B-ORG’，‘I-ORG’，‘O’)。实验中采用精确率P、召回率R和F1值作为模型的评价指标。计算公式如下：

(10)

(11)

(12)

3.2 实验设置与结果分析

实验中，首先将文中模型与其他模型进行对比，验证模型的有效性；然后通过在不同比重数据集上进一步验证研究融合ERNIE的有效性；最后，通过消融实验进一步验证约束正则项及计划采样机制的有效性。

3.2.1 实验1：文中模型与其他模型的比较

实验选取了几种效果较好且主流的模型包括CRF、LSTM-CRF、GRU-CRF以及RD-CNN-CRF[19]与文中模型进行对比，结果见表1。实验结果显示，文中模型相比于其他模型在各个指标上都有所提升，通过在相同数据集上对比实验结果说明在实体识别任务中应用文中模型能够提高识别效果。

表1 不同模型实验结果对比 %

3.2.2 实验2：评估融合ERNIE后模型效果

按照不同比例从数据集中进行不放回随机取样生成不同规模的数据集，在ERIT上将词向量训练方式改为常规word2vec以此作为对比模型。实验结果见图4。在不同规模的数据集上训练文中模型与对比模型，结果表明随着数据集规模增大，两者的结果均明显提高，表明了模型的有效性；同时在不同的规模数据集上文中模型表现均优于对比模型，说明融合ERNIE方式相较于word2vec词向量训练法可以提升实体识别模型的表现，这种情况在数据集较小时更加明显。

图4 实验2结果

3.2.3 实验3：消融研究

为了验证模型中约束正则项和计划采样机制的有效性，对文中模型进行消融研究。通过在训练过程中移除和添加这两部分然后在测试集上验证其对性能指标的影响。具体实验做法为分别对正则项和计划采样设置权重系数λ1、λ2，当λ1分别置为0或1时，即分别表示移除或添加了约束正则项；当λ2置为1时即为在训练时解码器每个时间点接入的都是真实序列标记，当λ2置为p时，即表示加入了计划采样机制，实验结果见表2。

表2 消融实验结果 %

通过对比模型在没有采用约束正则项与计划采样机制(λ1=0，λ2=1)时和只采用正则项(λ1=1，λ2=1)时的实验结果表明，后者相较于前者取得了更好的效果，这验证了约束正则项的有效性，又与λ1=0，λ2=1的结果对比发现将计划采样机制集成到模型中会进一步提高性能。值得注意的是，加入计划采样机制会使得模型在训练集上效果有所下降，但在测试集上有明显提升，因为加入计划采样机制，训练时不再完全采用真实标记，会策略性地选择上一时间点的输出接入解码器，这虽然降低了在训练集上的效果，但却使模型更具鲁棒性，所以实际测试效果更好。这些结果表明，提出的约束注意力正则项和计划采样机制是非常有效的。

4 结束语

提出的模型使用ERNIE训练词向量作为嵌入层对文本序列进行了特征提取，兼顾输入文本识别精度的同时进一步优化输入语句的词向量。利用Transformer获取输入序列的上下文信息并进行充分的特征提取，相比传统神经网络模型效果提升显著，在此基础上提出了约束正则项提高对参数约束性以提高每个生成标签的准确性，并加入计划采样机制以解决模型训练与测试过程中存在的不匹配问题，通过实验证明提出的约束注意力正则项和计划采样机制能进一步提升模型性能。