基于BERT的高校图书馆微信信息服务的命名实体识别方法
2023-03-29李东升鲍玉来刘建华等
李东升 鲍玉来 刘建华等
关键词: 命名实体识别; 高校图书馆; 微信服务; BERT; 双向长短记忆网络; 条件随机场
DOI:10.3969 / j.issn.1008-0821.2023.04.007
〔中图分类号〕TP391.1 〔文献标识码〕A 〔文章编号〕1008-0821 (2023) 04-0064-13
随着互联网技术的不断普及和发展, 网络信息服务已成为高校图书馆重要的服务新模式[1] 。高校图书馆重视智慧服务的研究工作逐渐增强, 它是一种知识服务的新模式, 通过利用先进的信息技术和图书馆的资源, 以主动的搜寻、嵌入式的服务、有效的信息分析和创新为基础实现图书馆的智能化服务, 促使高校图书馆开展更加丰富的实践[2-4] 。命名实体识别(Name Entity Recognition, NER)作为文本信息识别的技术方法, 是正确理解文本的基础,也是智慧化服务的知识引擎[5] 。NER 技术是将实体类型预先定义, 能够实现在大量的半结构化和非结构数据中识别出不同的实体, 因而广泛应用于知识图谱、智能问答、机器翻译、对话和信息检索等复杂的自然语言处理任务[6-8] 。网络信息资源为高校图书馆信息服务拓展提供了大量的图情类文本信息, 借助NER 技术, 图书馆工作人员能够从大量的相关文本信息中快速识别出领域内有价值的知识,在图书馆服务模式的推广与应用中具有较大的参考价值。图书馆的服务能否及时和高效地利用网络信息资源, 并借鉴新的服务发展模式, 有效满足用户新的信息需求, 将成为其保持对用户吸引力和有效性的关键[9] 。高校图书馆微信移动信息服务是各大高校图书馆拓展服务的重要平台, 为图书馆服务的开展提供了有效的方式, 是便捷的信息获取和资源共享的可靠平台。高校图书馆可以利用命名实体识别技术, 有针对性地从其丰富的知识、多样的信息资源中挖掘知识, 形成知识服务产品, 为其服务拓展、优化和创新提供参考依据。
基于深度学习的命名实体识别技术, 在文本信息上特征提取的深度和模型的精确度的优异表现,已成为有序、有效地利用信息资源的重要方法[10] 。2013 年, Mikolov T 等[11] 提出模型Word2vec, 该模型采用skip-Gram 或CBOW 模型预测词汇并通过神经网络训练相应的嵌入向量, 在命名实体识别方面取得良好的效果。在词训练方面, 如Glove、Fast?text 等模型在命名实体识别中有较多的尝试应用,均有较大的研究进展[12] 。然而, Word2vec 等预训练模型仍然存在无法表征一词多义的问题, 因为它们主要关注的是词或者字符之间的特征, 而忽略了词的上下文语境, 导致其实体识别能力有限。在中文命名实体识别自然语言处理领域, 相比英文存在较多困难, 英文的词语构造形式比中文在实体命名识别方面体现出更多的语义信息[13] 。Su T R 等[14]基于汉字字形学习特征, 在词向量方面的研究对中文文本在训练出现的语义特征所存在的困难和问题有较好的效果; Yu J 等[15] 研究提出一种组合学习语义特征的状态和更加细粒度的Subcharacter 的方法, 并學习了中文在语言相似性和语言特征融合任务上词向量任务。在实体命名识别领域中, BERT在词向量训练方面有效解决一词多义的问题, 是一种基于序列到序列模式(Seq2Seq)结构上的创新。
2018年, Google团队提出基于注意力机制的Trans?formers[16] 模型的BERT(Bidirectional Encoder Repre?sentations from Transformers), 不同于传统的RNN和CNN(卷积神经网络), 该模型使用了Transform?ers 作为算法的主要框架, 增强预训练词向量模型的泛化能力, 使得模型能够更彻底地捕捉语句中的双向关系, 更好地表征不同语境中的句法和语义信息。通过BERT训练词向量, 对前后文本的预测考虑了前后双向的输入信息, 体现出语境不同所含有相同词的语法或字词。因此, 在实体识别领域, 许多学者基于BERT 训练模型学习词向量的分布, 以提高实体识别的精度。黄梅根等[17] 基于BERT优化模型, 采用关系分类与元素抽取两个任务模型进行命名实体识别, 取得了较好的效果。岳琪等[18]基于BERT改进与双向RNN模型分析林业实体识别和实体关系的抽取, 并验证了该领域内构建知识图谱的可行性。在警情领域关键实体文本中, 王月等[19] 使用了BERT 预训练词向量, 模型在命名实体识别研究方法上设计了不同方案以提高准确率。
以上不同研究领域的命名实体识别方法为本文在高校图书馆微信信息服务进行命名实体识别提供了参考。目前, 在高校图情领域命名实体识别的研究中, 由于缺乏对领域实体语料库的研究, 提升实体识别效果存在较大的难度, 如文本中隐含的信息实体类别无法充分识别、数据量小、人工标注成本高等。为了解决高校图情领域的命名实体识别问题, 针对高校图情领域语料资源缺乏、人工标注难以满足等对提升领域实体识别效果的情况下, 通过知识规则具体定义实体的边界, 本文构建了高校图书馆微信服务推文文本的数据集ULICNER。由于BERT 具有较强的语义表达能力, 利用BERT学习大规模文本后生成具有语义特征的字符向量, 接着通过BiLSTM 层对BERT的输入文本序列学习获取上下文的文本特征, 最后通过连接CRF 层得到最佳的序列输出。因此, 本文采用基于BERT-BiLSTMCRF模型构建高校图书馆微信信息服务文本中命名实体的方法, 完成高校图书馆微信服务领域的命名实体识别任务。
1文本数据集的采集与分析
1.1数据的来源
高校图书馆服务信息的文本不同于其他领域文本, 具有服务多样性、规律性、客观性, 这对其文本的语义识别技术使用产生了较大影响。为保证数据的可靠性和准确性, 本文参考了基于教育部的《普通高等学校图书馆规程》[20] 和图书情报检索领域内的《中国图书馆分类法》[21] 的语义分类方法和词语用法。数据文本的采集通过清博指数平台上的高校图书馆微信服务公众号榜单[22] , 该榜单涵盖了全国开通微信服务的946 所高校, 从中爬取了涵盖高校图书馆对服务范围、用户需求、业务能力和文化推广等方面的36 000多条文本, 约60万字符。
1.2文本的实体特征分析
由于不同领域文本的实体有不同的特点, 高校图书馆服务领域语料与医疗、司法和舆情等其他领域存在不同的特征, 它们之间相互的词汇重叠的相似度较低[23] 。因此, 词分布不同的领域文本实体识别效果会在模型中体现出不同的特征, 进而需要设计不同的实体识别方法和分类。如实体类的“文化” 指图书馆文化交流活动, 是各种活动通知、沙龙互动交流、新闻、党建、学术交流、竞赛、文化活动、文化环境和文化展览等, 其他各类实体的含义及示例如表1所示。
1.3数据文本的标注
本文基于BIO 法对高校图书馆微信服务推文文本的数据集ULICNER 进行标记。由于获取的特定数据文本进行标注任务常采用纯人工标注的方法, 在质量控制方面存在效率低和错误率高的问题[24] 。本文的标注人员由图情方向的老师、专家和机器学习方向老师3 名成员组成, 领域内标记开始前需要经过前期软件操作培训和标注规则的熟悉。数据文本的标注工作持续了50 天, 平均每天完成700 多条文本句子。为确保标注质量和降低标注成本, 保证实体标注结果的一致性, 本文采用基于词典规则与人工修正相结合的半自动标注方式,构建高校图书馆微信推文文本数据集。首先, 在标注语料库前, 根据词典与规则匹配方法, 预先采集了领域内的实体名称和实体标签, 此部分实体有600多个类目; 其次, 根据构建的匹配规则与所标注的数据本文进行自动实体标记; 最后, 还需对自动匹配结果中可能出现的错误标注、漏标注等问题以人工校验的方式进一步作调整和改进, 且随着文本被标注校验正确后, 还会与预先定义的实体合并形成动态更新的领域知识库, 进而在随后的文本过程中自动匹配效率得到快速提升。具体实体标注过程如图1 所示。
数据集基于BIO 规则对语言序列进行标注,其中, B-begin 代表实体的开头; I-inside 代表实体的中间或结尾; O-outside 代表不属于实体, 如以句子“图书馆寒假闭馆通知” 为例, 其序列标注如图2所示。
利用以上方法将高校图情语料中的文本实体描述进行识别, 最终构建了ULICNER 语料集, 数据的标签包含7 个粗粒度分类和16 个细粒度分类,如表2 所示。
另外, 本实验使用数据集按照8∶1∶1的比例将数据集划分为训练集、验证集和测试集。领域命名实体的数据集中每一行由两列组成, 数据的两列之间采用空格隔开, 其中第一列为文本内容, 第二列是BIO格式的标签序列, 句子边界用空行标识。数据集组成情况如表3 所示。
2BERT-BiLSTM-CRF语言模型
本文研究采用的BERT-BiLSTM-CRF 模型探索高校图书馆微信文本信息实体识别, 如图3 所示。首先, 使用BERT 预训练模型, 获取每一个标识的向量表示特征, 即字向量表示层; 然后, 输入BiL?STM 模型学习文本之间的关系, 即基于BiLSTM(考虑双向的LSTM)建模以提取语义和结构特征;最后, 基于CRF 的解码层输出预测的标签序列,获取每个标识的分类结果。
为了便于理解本文BERT-BiLSTM-CRF 模型构建, 表4 具体解释了模型流程, 包括输入文本批量数, 维度转换以及输出的过程。
2.1 BERT 预训练模型
由于BERT 在自然语言处理方面具有很强的语义表征优势, 在文本输入训练层的Embedding 层采用BERT 进行预训练, 产生词向量, 获取语境化的词向量来提高实体识别的性能。BERT 采用了Transformer 的双向编码器表示, 在自然语言处理研究中取得很高的成就[25] 。BERT 通过所有Trans?former 层左右上下文共同调节, 来预训练深度双向表示, 不依赖于时间序列, 并在较长上下文本处理中具有较大优势, 可以更好地提升语义表征水平。BERT 训练通常分为两步, 首先对模型进行预训练(Pretraining BERT), 其次在预训练的基础上, 根据下游任务进行模型微调(Fine-tuning BERT)。
传统语言模型训练采用单向方式或者拼接的方式, 但这种模型从left-to-right, 或left-to-right+right-to-left 结合的方式提取特征的能力有限, 而Pre-training BERT 采用一个深度双向表达模型(Deep Bidirectional Representation), 即采用MaskedLM(带Mask 的语言模型训练任务)和Next SentencePrediction(下一句话预测任务, NSP)两种方法分别完成在BERT 训练的构建, 具有较大的创新, 并且效果比较好。
本文在预训练模型考虑多个句子区分级别的任务, 因此, 使用Masked LM 和NSP 进行模型预训练。Masked LM 的任务机制在训练时, 给定一个句子, 会随机Mask(掩码)15%的词, 然后采用BERT來预测这些Mask 的词。在这些被选中的Token 中,数据生成器并不是把它们全部变成[MASK]。通常存在3 种情况: 其一, 在80%的概率下, 用[MASK]标记替换该Token(图书馆暑假闭馆>图书馆暑假[MASK] [MASK]); 其二, 在10%的概率下, 用一个随机的单词替换Token(如: 图书馆暑假闭馆>图书馆暑假通知); 其三, 在10%的概率下, 保持该Token 不变(如: 图书馆暑假闭馆>图书馆暑假闭馆)。Masked LM 模型在训练的过程中, 并不知道将要预测哪些单词。正是在这样一种高度不确定的情况下, 模型能快速学习该Token 的分布式上下文的语义, 最大化地学习原始语言语义表征。同时因为原始文本中只有15%的Token 参与MASK 操作, 并不影响学习原语言的表达能力和语言规则。
BERT 引入NSP(下一句话预测任务)任务, 采用的方式是输入句子对(A, B), 模型来预测句子B是不是句子A 的真实的下一句话。为了更好地实现文本的实体命名识别, 需要模型能够很好地理解两个句子之间的关系, 故采用NSP 模型在对应的任务有良好的效果。NSP模型通过预训练方法来捕捉两个句子的联系, 如有A和B两个句子, B 有50%的可能性是A 的下一句, 训练模型是为了预测B是不是A的下一句, 使模型增强对上下文联系的能力。
另外, 在命名实体识别任务中, 模型微调通过Transformer中的Self-attention 机制提供的BERT 对其下游任务进行建模, 无论他们包含单个文本或多个文本, 只需要替换掉输入和输出。对于每个任务, 需将特定于任务的输入和输出插入到BERT中, 并对所有参数进行端到端微调。本文模型考虑多个句子区分级别的任务, 并分别给每个句子的字符进行标注标签。句子起始的Token 均为特殊分类标记(Classification Token, [CLS]), 结束的Token均为特殊令牌(Special Token, [SEP])。句子的输入过程包含将句子输入到BERT 模型的原有静态词向量编码(Token Embeddings, 表示字向量, 第一个单词是[CLS]标志)和位置编码(Position Embed?dings, 表示位置向量, 是通过学习得出), 另外还加入了语句分割编码(Segment Embeddings, 句向量, 用来区别两种句子), 整个模块的输出结果是3 种Embedding 编码之和, 如图4所示。
2.2 BiLSTM 模型
BiLSTM 模型是由两个独立的长短期记忆网络(LSTM, Directional Long Short-term Memory) 模型组合而成, 一个正向去处理序列, 一个反向去处理序列, 处理完后, 两个LSTM 的输出拼接起来形成的词向量作为该词的最终特征表达。另外, BiL?STM 中的两个LSTM 神经网络参数是相互独立的,它们只共享由BERT 预训练层输入的Word-embed?ding 词向量信息。1997 年, 针对循环神经网络(RNN, Recurrent Neural Networks)的梯度消失和梯度爆炸问题, Hochreiter S 等[26] 提出了该改进模型, 模型对文本特征提取效率和性能要优于单个LSTM 结构模型, 取得良好的效果, 其LSTM 原理结构如图5 和图6所示。
在自然语言处理的实际应用中,发现循环神经网络存在如梯度消失、梯度爆炸以及长距离依赖信息能力差等问题, 因此引入了长短期记忆网络(LSTM)。该模型是RNN 的一种改进, 内部结构拥有更长的记忆, 梯度消失问题得到优化。LSTM 在主体结构上与RNN 类似, 其主要的改进是在隐藏层h 中增加了3 个门控(Gates)结构, 分别是遗忘门(Forget Gate)、输入门(Input Gate)、输出门(OutputGate), 同时新增了一个隐藏状态(Cell State)。LSTM 隐藏层结构原理如图5 所示, f(t)表示t 时刻遗忘门, 可以选择性地遗忘一些信息, 其值范围是0~1; i(t)表示t 时刻输入门, 可以添加新的信息,如假设输入10 个元素信息和原来的4 个全连接层(假设是隐藏单元个数一致的128 个神经元, 输出都是128 个元素的向量)进行拼接, 给C 中传入更新的信息(138 个元素的一维向量); 输出门o(t)依赖前一个状态向量h(t-1)和更新的输入信息x(t), 是长短期“记忆” 的更新变化; a(t)表示t 时刻对h(t-1)和x(t)的初步特征的提取, 会作为下一时刻(t+1)的输入之一。具体的计算过程如下:
3.3实验结果
本文采用的BERT-BiLSTM-CRF 有效地提升了高校图书馆微信推文文本数据集实体命名识别的效果。为验证分析, 研究还设计了4 种不同模型性能比较, 分别是: ①CRF 模型, 该模型定义一个特征函数的集合, 用这个带约束作用的特征函数集合来为一个标注序列打分, 并据此选出最佳的标注序列; ②BiLSTM 模型, 该模型为LSTM 的双向考虑模型, 依靠神经网络强大的非线性拟合能力, 可以将样本的高维空间复杂非线性变换, 该模型将样本标注进行学习并预测; ③BiLSTM-CRF 模型, 经典的实体命名提取模型, 该模型通过加入CRF 层优化了LSTM 层在序列标注学习任务过程, 学习隐含状态序列的特征; ④BERT-CRF 模型, 该模型与BiLSTM-CRF 模型较为相似, 其本质上还是一个CRF 模型, 只是采用BERT 模型来训练CRF 模型中的发射矩阵。实验结果如表5 所示。
由表5 可知, BiLSTM-CRF 模型结合了BiL?STM 模型和CRF 模型的优点, 准确率为94.17%,高于后两种模型91.26% 和93.18% 的准确率;BERT-CRF 模型通过BERT 预训练模型, 在学习到状态序列(输出的标注)之间的关系效果好于BiL?STM 模型, 其準确率提高到了97.85%; BERT -BiLSTM-CRF 模型能够并行获取并优化全局信息,其准确率、召回率和F1 值都是最高的, 分别为98.59%、98.91%和98.75%。另外, 相比BERTCRF模型没有对BERT 预训练输出结果进行上下文关系的匹配, 本文模型在准确率、召回率和F1 值上分别提升了0.74%、0.99%和0.76%。因此, 采用BERT-BiLSTM-CRF 模型的实验结果可以看出,通过BERT模型对输入的词向量进行训练后的结果导入到BiLSTM-CRF 模型, 得出的结果更准确。
为有效分析本文模型在测试集上的实体识别效果, 通过实例分析命名实体标记结果的具体表现进行呈现。为突显高校图书馆微信信息服务的特色和影响力, 随机选出两篇高校图书馆在榜单中影响力排名靠前的微信推文, 具体结果如表6 所示。
由表6 可见, 本文通过命名实体识别技术应用, 分别实例分析了两类不同办学层次高校图书馆微信推文的实体识别效果, 并以此较为全面地提取了高校图书馆服务平台上的领域内容介绍中的各类专业名词术语, 极大地丰富了图书馆知识服务。其中, 北京大学图书馆发布的“灵气所钟—山东临朐红丝砚历史文化展” 微信推文取得良好的社会影响, 阅读量和点赞量非常高, 有效地实现文化传播在高校图书馆的推广和应用, 其微信推文的实体识别效果如图7 所示。同时, 该文的知识发现可以推荐作为高校图书馆微信信息服务与地方特色历史文化相结合, 为读者提供了便捷的信息分享条件,提升读者的关注, 实现资源共享和服务推广等。另外, 信阳师范学院图书馆发布的“关于师院的独家地理知识, 你知道多少?” 微信推文的影响力较佳, 在阅读量不高的情况下取得较高的点赞量, 深受读者的欢迎, 该文介绍了校内特色人文地理环境, 借鉴图书馆微信平台宣传吸引当地读者的注意, 能够引起读者的共鸣, 塑造良好的校园环境,也是高校图书馆信息服务过程和信息服务创新模式的有效策略, 该文的实体识别效果如图8所示。因此, 通过分析高校图书馆微信平台具有影响力的推文, 采集具有特色和影响力的推文实体, 可以实现高校图书馆服务内容的结构化呈现, 为图书馆特色服务和发展模式的拓展提供了可借鉴的资源获取和利用平台。采用命名实体识别技术, 通过进一步挖掘信息资源的各类实体关系, 如构建高校图书馆知识图谱, 实现信息资源的实体之间更深层次和更大范围的关联, 优化领域内的内容推荐、检索等服务质量, 提升图书馆知识服务的发现能力。
3.4各类实体识别结果
为明确本文的不同模型对不同类别实体的识别效果, 本文通过准确率、召回率和F1 值3 个指标对不同类别实体识别进行了对比分析, 结果如表7所示。本文模型在用户、时间、机构和地址等实体识别的准确率、召回率和F1 值都较高, 而只是对实体数较少的服务简称(SER_JC)的实体识别评价指标的数值偏低, 可能与该实体数量偏少有关, 存在降低实体分类能力, 该实体识别的准确率、召回率和F1 值分别为80.00%、100.00%和88.89%。可见, 本文采用的BERT-BiLSTM-CRF 模型对高校图书馆微信服务的推文文本信息中各类不同实体的识别效率效果良好。
4结语
针对高校图书馆服务领域内实体名称多样、特征信息提取不明确的问题, 将高校图情领域的数据集预先定义为7 个粗粒度分類和16 个细粒度分类,并进行了实体识别标注, 数据集涵盖领域内的服务内容, 用户需求、业务能力和文化推广等方面。
高校图书馆如何有效地整合服务推广平台信息, 使服务模式的重要信息联系起来, 是高校图书馆移动信息服务提高的关键。因此, 本文以BERTBiLSTM-CRF 模型作为高校图书馆微信推文文本实体识别方法。首先, 采用BERT 预训练模型, 获取每一个标识的向量表示特征; 然后, 基于BiLSTM层以提取更加准确的语义和结构特征; 最后, 使用CRF 层输出预测的标签序列, 获取高校图情微信服务领域的实体识别中存在的特征关系进行约束,进一步提高了实体识别的提取效率。另外, 本文模型提升了高校图书馆信息服务领域命名实体识别效果, 并实例分析了高校图书馆微信推文在知识服务过程中的发现能力。本文下一步的研究内容主要有两个方面: 一是如何解决数据集实体中数量不平衡问题; 二是提高模型的实体识别效率, 同时提高标注的准确率, 如训练耗时长、参数冗余和资源成本高等方面进行模型改进, 为自然语言处理技术在高校图书馆服务领域中的应用提供方案。