面向科技学术会议的命名实体识别研究

2022-02-18于润羽杜军平薛哲徐欣奚军庆

智能系统学报 2022年1期

于润羽，杜军平，薛哲，徐欣，奚军庆

（1.北京邮电大学智能通信软件与多媒体北京市重点实验室, 北京 100876; 2.司法部信息中心, 北京 100020）

科技大数据[1-2]可以定义为与科研相关的活动产生的海量数据，其以论文数据为主体，具有数据规模大、内容专业化、特征属性繁多的特点。科技学术会议数据包含某个领域内的论文集合。以学术会议为单位进行画像的构建，可以帮助科研人员快速获得有价值的科研信息，而构建画像的核心工作即为命名实体识别。

命名实体识别是自然语言处理中知识抽取领域中的重要研究方向，其目的是将给定文本中的实体按照预定义好的类别进行分类[3-4]。学术会议论文数据的命名实体识别与通用领域的识别有一定区别，主要原因在于通用领域的数据集的文本有较为严格的组成规范。但由于科研领域技术更新迭代快，导致论文数据集中有大量的专业术语[5]。同时实体之间的关系也相对复杂，增加了实体识别的难度。

中文命名实体识别的准确率和中文分词结果直接相关，如果在分词阶段发生错误，会严重影响识别效果[6]。目前在中文命名实体识别过程中，大部分方法是基于字符模型编码，这种方式在通用领域的命名识别中取得了较好的效果，但它无法挖掘到一串字符信息中的词级别的信息。为了解决这个问题，可以把字符级模型和词级别的模型相结合，降低歧义发生的概率[7]。然而在学术论文数据中，由于专业词汇较多，采用这种方式很有可能产生错误的词语边界。因此本文引入论文关键词特征,提出关键词−字符编码方式，在编码阶段同时考虑到关键词级别和字符级别的语义信息。此外，在长短期记忆网络 (long-short term memory, LSTM)和条件随机场(conditional random field, CRF)为主体框架的基础上，在LSTM层引入自注意力机制(self-attention mechanism, SA)，弥补长短期记忆网络无法考虑到全局信息的缺陷，最后将LSTM和注意力机制输出的结果进行融合再通过CRF进行标注，兼顾了字符之间的依赖关系，在论文数据集中取得了更好的识别效果。

本文的主要贡献:

1)提出了一种结合基于关键词−字符LSTM和注意力机制(keyword-character long-short term memory and attention mechanism, KCLA)的命名实体识别方法，利用论文数据集进行训练并进行命名实体的识别；

2) 使用预训练模型对关键词特征进行训练，获得对应的词向量，在神经网络中将其与字符级别特征进行融合，获取文本中潜在的语义信息；

3) 为科技学术会议论文数据中的实体进行定义，在网络层同时使用长短期记忆网络和注意力机制，充分考虑文本中的上下文信息以及全局信息，优化实体识别的效果。

1 命名实体识别的研究现状

近年来命名实体识别的研究方法快速发展，包括基于统计机器学习的方法和基于深度学习的方法。机器学习方法一般是通过标注好的文本进行训练，利用训练好的模型进行识别[8]。常用模型有隐马尔可夫模型[9]、最大熵模型、决策树、支持向量机等。

基于深度学习的方法近年来发展迅速，可以通过不同的神经网络完成该任务，首先是卷积神经网络 (convolutional neural network, CNN)，Yao 等[10]提出提出了一种基于CNN的适合医学文本内容的训练的命名实体识别方法，无需构建词典同时保证较高的准确率。Strubell等[11]提出了迭代扩张卷积神经网络(iterated dilated convolutional neural networks, IDCNN)命名实体识别的方法，与下文提到的目前最具有表现力的LSTM模型相比，该模型只需要O(N)的时间复杂度，在保持与LSTM相当的精度的条件下，可以实现8倍的速度提升。Yang等[12]分别采用字符级CNN和词级别CNN的的方式进行命名实体识别，在字符级CNN中使用单层CNN，词级别采用多层CNN，最后利用Softmax或者CRF的方式实现实体的标注。Kong等[13]提出了一种完全基于CNN的模型，充分利用GPU并行性来提高模型效率，模型中构造多级CNN来捕获短期和长期上下文信息，在保证较高识别准确率的情况下大幅提高了效率。

循环神经网络循环神经网络(recurrent neural network, RNN)也可以用于命名实体识别，RNN的变体LSTM在命名实体识别方面取得了显著的成就。Huang等[14]融合双向长短期记忆网络和条件随机场(BiLSTM-CRF)应用于自然语言处理基准序列标记数据集。Zhang等[15]提出了针对中文NER的Lattice LSTM模型。与基于字符的方法相比，显式地利用了词序列信息，达到了最佳结果。Han等[16]针对专业领域内命名实体识别通常面临领域内标注数据缺乏的问题，将生成对抗网络与长短期记忆网络模型相结合，在各项指标上显著优于其他模型。

近年来，基于深度学习的命名实体识别研究除了基于卷积神经网络和循环神经网络的方法外，还出现了一些更新的技术。首先，Transformer模型[17-18]不再使用传统的神经网络思想，使用到的只有注意力机制[19]。BERT模型于2018年被提出，在自然语言处理的各个领域都取得了令人瞩目的效果[20]，在命名实体识别领域，Dai等[21]在中文电子病历表识别的应用上使用了BERT+BiLISM+CRF的网络结构，取得了很好的效果，Li等[22]使用了多层变种网络结构进行中文临床命名实体识别，同样取得了很好的识别效果。文献[23]中利用预训练的BERT模型结合BiLSTM，提高了在Weibo中文数据集上命名实体识别的准确率。Li等[24]针对现有的Lattice LSTM结构复杂的问题，提出了FLAT，在性能和效率上均有提升。Yoon等[25]提出一个新型的命名实体识别(named entity recognition, NER)模型，由多个双向LSTM网络构成，每个网络作为一个单独的任务识别某一种制定的实体类型，多个任务将各自学习到的知识进行转移，获得更准确的预测。

2 KCLA命名实体识别算法

在本节中，主要介绍结合关键词-字符LSTM和注意力机制的科技学术会议论文命名实体识别算法。

2.1 算法整体结构

本文提出一种结合关键词−字符LSTM和注意力机制的科技学术会议论文命名实体识别算法。如图1所示，模型的分为向量表示层(Embedding)、融合双向长短期记忆网络和自注意力机制层(BiLSTM-SA)，以及条件随机场层(CRF)。具体而言，向量表示层抽取了字符级别的特征以及关键词特征，挖掘了数据中潜在的语义信息，生成向量作为后续网络的输入。BiLSTM-SA层通过神经网络提取局部和全局的文本的特征，最后通过CRF层获得最大概率的命名实体分类。

图1 KCLA算法整体框架Fig.1 Framework of KCLA algorithm

2.2 向量表示层

向量表示层主要将科技学术会议论文中的自然语言文本映射成后续层次能够识别计算的形式。向量表示层可以基于不同的模型实现，下面分别介绍字符级别编码模型，词级别编码模型以及本文提出的关键词−字符编码模型。

2.2.1 基于字符级别编码

基于字符级别编码模型是将按照每一个中文字符进行编码，给定一个论文标题文本序列：基于神经网络的文本分类,可以将其表示为s=[c1c2cn]，其中ci表示句子中的第i个字符，每个字符经过式(1)的变换，获得对应的输入向量。

式中Ec代表字符级别的向量表示。最终的输入向量可以表示为输入到LSTM网络中。

2.2.2 基于词级别编码

基于词级别编码模型是将按照词中文词汇进行编码，同样给定文本序列：基于神经网络的文本分类，按照常规的中文分词方式对其进行切分，然后按照词级别进行编码，可以将其表示为s=[w1w2wn]，通过式(2)的变换，获得对应的输入向量。

式中Ew代表词级别的向量表示。最终的输入向量可以表示为输入到LSTM网络中。

2.2.3 关键词−字符编码模型

关键词−字符编码模型主要考虑到了科技学术会议中论文数据本身的特点。由于论文数据专业性强，因此常规的分词方式并不适用于论文数据集，如果采用基本的字词融合，可能会产生很多错误的边界，影响识别准确率。考虑到论文数据集中有关键词这一特征，例如对于文本序列：基于神经网络的文本分类模型，在关键词字段中包含了神经网络、文本分类等词汇，如果不考虑关键词信息，该句会被切分为

对于本文想要识别的实体，显然产生了错误的词汇边界，因此要引入关键词特征，构建词典，对于例子中的文本序列，需要将其正确切分为

获得了正确的词汇边界后，在上述的文本序列中，字符层面依然通过=Ec(ci)对输入的字符进行变换，获得对应的向量。除此之外要考虑关键词层面的信息，这里运用来表示一个关键词信息，例如：表示关键词“神经网络”，表示关键词“文本分类”，通过式=Ew(wb,e)进行变换。在实现的过程中，首先利用Word2Vec对文本中的关键词进行预训练，获得关键词的词向量模型，在模型中提取出词向量矩阵，然后和字符级别的向量共同输入到LSTM网络层中，在LSTM中对二者进行融合，整体结构如图2所示。

图2 Keyword-Character编码结构Fig.2 Structure of Keyword-Character

2.3 BiLSTM-SA层

LSTM是一种特殊的RNN，与传统的RNN相比，LSTM同样是基于xt和ht−1来计算ht，但加入了输入门it、遗忘门ft以及输出门ot3个门和1个内部记忆单元ct。

第t层的更新计算公式为

LSTM模型按照文本序列的输入处理上文的信息，而下文的信息对于科技学术会议论文数据的处理也有重要意义，因此本模型采用BiLSTM，它由两层LSTM组成，向量表示层得到的向量按照正序作为正向LSTM的输入，即可以得到输出序列：

再通过反向输入的方式，得到逆向LSTM输出序列：

将两层的输出进行融合，得到包含上下文的特征hn=[hLhR]。

在本文提出的关键词−字符编码模型中，LSTM的输入需要包含字符级关键词级信息。在2.2.3节中，我们获得了字符级向量以及关键词级向量对于关键词级向量同样通过式(3)进行变换获得LSTM的单元但不需要输出门，因为最终的预测是以字符为单位，因此在词级别不需要进行输出。

BiLSTM在可以考虑到上下文的信息，但对于全局信息无法充分的表达，因此本模型将自注意力机制作为BiLSTM模块的补充，提高命名实体识别的准确率。

Attention的计算如式（5）所示。Q、K、V三个矩阵均来自同一输入，首先计算Q与K之间的点乘，然后除以一个尺度标度dk，然后将其结果归一化，再乘以矩阵V就得到权重求和的表示。由于Attention本身就考虑到了全局的输入，因此直接利用字符级别编码进行输入。

获得了BiLSTM和Attention的输出之后，LSTM的输出为h=[h1h2hn]。

Attention层的输入为字符编码的向量，输出通过式(5)的计算后，输出为a=[a1a2an]，然后对这两个输出进行融合操作，假设BiLSTM-SA层的输出为yn，在进行融合操作时采用归一化求和的形式，即

2.4 CRF层

在预测当前标签时，CRF通常可以产生更高的标记精度。由于论文数据相邻字符之间有较强的依赖关系，因此，在模型的最后一层，利用CRF来对前序层中得到的融合特征信息进行解码。

我们获得LSTM-SA层的序列输出为y=[y1y2yn]，CRF的标记过程为

式中：Oi,yi表示第i个单词标记为yi个标签的概率；Ti,j表示由标签转移到标签的概率。CRF在语句S中标记序列的概率为

最终的解码阶段通过CRF中的标准Viterbi算法，预测出最优的命名实体识别序列。

3 实验结果

本节进行实验并对结果进行分析。首先介绍算法的评价指标和实验参数，然后描述了在该评价指标和参数下KCLA算法的实验结果，并和其他网络结构进行了对比。

3.1 评价指标

本实验使用准确率(precision)、召回率(recall)以及F1值作为科技学术会议论文命名实体识别对比实验的评价指标。

准确率P、召回率R、F1值的公式分别为

式中：TP表示实际为真且预测为真的个数；FP表示实际为假但预测为真的个数；FN为实际为真但预测为假的个数。

3.2 实验采用数据集

本实验中，利用scrapy爬虫框架，对知网上的论文数据，按照不同的领域进行了爬取，利用按照领域爬取的数据进行训练及测试。实验中，获取了信息科学和机械工业分类下的论文数据各20 000条，按照8∶2的比例构建训练集和测试集，将命名实体定义为研究技术(TEC)、研究问题(PRO)、研究形式(MOD) 3类实体,然后对数据集中的数据进行标注，数据集标注后数据分布情况如表1、2所示。

表1 信息科技领域数据集分布情况Table 1 Distribution of data sets in the field of information technology

表2 机械工业领域数据集分布情况Table 2 Distribution of data sets in the field of machinery industry

3.3 实验结果

在本文实验中，KCLA算法的关键词的特征向量维度设置为50，LSTM的隐藏层维度为128，batch size设置为32，学习率设置为0.001，dropout为0.5，优化器使用Adam。

本节使用IDCNN、IDCNN+CRF、BiLSTM、BiLSTM+CRF以及Lattice-LSTM这几种算法进行对比实验，实验结果在信息科学数据集下如表3所示，在机械工业数据集下如表4所示。

表3 信息科学分类论文数据不同算法的对比实验Table 3 Comparative experiment of different algorithms in information science papers

表4 机械工业分类论文数据不同算法的对比实验Table 4 Comparative experiment of different algorithms in mechanical industry papers

根据表3可以看出，在信息科学数据集中，本文提出的KCLA算法在性能方面要优于对比算法。首先，IDCNN是CNN卷积神经网络的改进，它通过引入空洞卷积的概念，共享参数防止过拟合。IDCNN+CRF则在IDCNN的基础上加入CRF，通过Viterbi算法，预测出全局最优的标注序列。CNN的优点在于时间复杂度相对较低，但准确率不及以BiLSTM为主体的算法。对比算法中，BiLSTM+CRF同时考虑到上下文的信息和字符之间的关联，因此效果相对较好，但其并没有挖掘到潜在词级别的语义信息，KCLA算法通过融合关键词的特征，对关键词信息进行预训练获得对应的词向量，获取到了文本中潜在的语义信息、准确率、召回率、F1值均有一定程度的提高。

根据表4可以看出，在机械工业数据集的对比算法中，KCLA算法也取得了最好的识别效果。以LSTM为主体框架的算法的效果仍然优于IDCNN算法，其中Lattice LSTM对比BiLSTM+CRF没有明显的提升，主要原因在于其利用通用领域的词向量，可能会产生错误的词汇边界，因此影响了识别效果。

图3描述在信息科学数据训练过程中loss的变化趋势，图4给出在第一个epoch中loss随batch的变化趋势。

图3 loss随epoch的变化趋势Fig.3 Trend of loss with epoch

图4 loss随batch的变化趋势Fig.4 Trend of loss with batch

根据图3可以看出，epoch到达10时基本收敛。本文实验中将训练epoch参数设置为20，但设置了提前终止条件：如果两个周期内验证集准确率没有提升，则提前停止训练。在实验中训练到第10个epoch时，提前停止。

根据图4可以看出，loss在第一个epoch中快速下降。在机械工业数据集中的loss变化与信息科学领域趋势相同。

3.4 网络参数对于模型性能的影响

3.4.1 LSTM 隐藏层参数对识别效果的影响

将LSTM的隐藏层维度设置不同数值进行实验，确定其对论文数据命名实体识别效果的影响，图5和图6分别给出隐藏层维度对信息科学和机械工业数据识别效果的影响。

图5 隐藏层维度对信息科学数据识别效果的影响Fig.5 Influence of hidden dimension in the information science data

图6 隐藏层维度对机械工业数据识别效果的影响Fig.6 Influence of hidden dimension in the machinery industry data

根据图5可以看出，在信息科学数据集中，隐藏层维度分别设置为 32、64、128、256、512。识别的各项评价指标开始随着隐藏层维度的增大而升高，128维时获得最好的识别效果，对比32维的识别效果，128维的识别准确率、召回率、F1值分别提升了约16%、8%、12%，可见隐藏层维度是影响命名实体识别效果的重要参数。但随着维度的继续增加，识别的效果并没有提升，甚至有轻微幅度的下降。

根据图6可以看出，在机械工业数据集中，隐藏层维度在128维和256维时都获得了很好的识别效果。对比32维时，128维的准确率、召回率、F1值分别提高了约9%、7%、8%。1到达512维时有很微小的下降，结合图5、6可以得出结论：当隐藏层维度较低时，KCLA不足以充分的学习到文本中的特征，影响了识别的效果。但如果维度设置的过高，可能导致过拟合现象，导致识别效果下降。

3.4.2 batch size参数对识别效果的影响

将batch size设置不同数值进行实验，确定其对论文数据命名实体识别效果的影响，图7、8分别给出batch size对信息科学和机械工业数据识别效果的影响。

图7 batch size对信息科学数据识别效果的影响Fig.7 Influence of batch size in the information science data

根据图7可以看出，在信息科学数据集下，从F1值来看，batch size为64时，识别效果最好，但和其他size相比，效果波动幅度很小，并没有明显的差异。

根据图8可以看出，在机械工业数据集中，F1值在32时获得了最好的识别效果，和在信息科学数据集中一样，在batch size从32增加到160的整个过程中，只有小幅度的变化。同时，准确率、召回率、F1值会有一定的波动，并没有在某一个size下共同取得最好的效果。结合图7、8可以得出结论，参数batch size对于KCLA算法影响较小。

图8 batch size对机械工业数据识别效果的影响Fig.8 Influence of batch size in the machinery industry data

4 结束语

本文针对科技学术会议论文数据，提出了结合关键词−字符LSTM和注意力机制的命名实体识别算法（KCLA），对学术会议中包含的论文信息进行实体定义，对数据集按照实体定义进行标注，然后利用KCLA算法对实体进行识别。其中KCLA算法模型由向量表示层、BiLSTM-SA层和CRF层构成。实验数据表明，KCLA算法可以对科技学术会议中论文数据的命名实体进行有效的识别。通过对比实验，将KCLA与IDCNN, BiLSTM等算法进行比较，KCLA算法在科技学术会议论文数据集中有更好的表现。基于识别出的命名实体，结合论文数据中结构化的数据中获取到的关联关系，可以对学术会议数据构建知识图谱和精准画像，更加直观形象地展示出科技学术会议中潜在的语义信息，为科研人员进行科研信息的获取以及进行科研决策提供良好的数据支撑。