基于BERT的高校图书馆微信信息服务的命名实体识别方法

2023-03-29李东升鲍玉来刘建华等

现代情报 2023年4期

李东升　鲍玉来　刘建华等

关键词：命名实体识别；高校图书馆；微信服务；ＢＥＲＴ；双向长短记忆网络；条件随机场

ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１００８－０８２１．２０２３．０４．００７

〔中图分类号〕ＴＰ３９１.１〔文献标识码〕Ａ〔文章编号〕１００８－０８２１（２０２３）０４－００６４－１３

随着互联网技术的不断普及和发展，网络信息服务已成为高校图书馆重要的服务新模式［１］。高校图书馆重视智慧服务的研究工作逐渐增强，它是一种知识服务的新模式，通过利用先进的信息技术和图书馆的资源，以主动的搜寻、嵌入式的服务、有效的信息分析和创新为基础实现图书馆的智能化服务，促使高校图书馆开展更加丰富的实践［２－４］。命名实体识别（ＮａｍｅＥｎｔｉｔｙＲｅｃｏｇｎｉｔｉｏｎ，ＮＥＲ）作为文本信息识别的技术方法，是正确理解文本的基础，也是智慧化服务的知识引擎［５］。ＮＥＲ技术是将实体类型预先定义，能够实现在大量的半结构化和非结构数据中识别出不同的实体，因而广泛应用于知识图谱、智能问答、机器翻译、对话和信息检索等复杂的自然语言处理任务［６－８］。网络信息资源为高校图书馆信息服务拓展提供了大量的图情类文本信息，借助ＮＥＲ技术，图书馆工作人员能够从大量的相关文本信息中快速识别出领域内有价值的知识，在图书馆服务模式的推广与应用中具有较大的参考价值。图书馆的服务能否及时和高效地利用网络信息资源，并借鉴新的服务发展模式，有效满足用户新的信息需求，将成为其保持对用户吸引力和有效性的关键［９］。高校图书馆微信移动信息服务是各大高校图书馆拓展服务的重要平台，为图书馆服务的开展提供了有效的方式，是便捷的信息获取和资源共享的可靠平台。高校图书馆可以利用命名实体识别技术，有针对性地从其丰富的知识、多样的信息资源中挖掘知识，形成知识服务产品，为其服务拓展、优化和创新提供参考依据。

基于深度学习的命名实体识别技术，在文本信息上特征提取的深度和模型的精确度的优异表现，已成为有序、有效地利用信息资源的重要方法［１０］。２０１３年，ＭｉｋｏｌｏｖＴ等［１１］提出模型Ｗｏｒｄ２ｖｅｃ，该模型采用ｓｋｉｐ－Ｇｒａｍ或ＣＢＯＷ模型预测词汇并通过神经网络训练相应的嵌入向量，在命名实体识别方面取得良好的效果。在词训练方面，如Ｇｌｏｖｅ、Ｆａｓｔ?ｔｅｘｔ等模型在命名实体识别中有较多的尝试应用，均有较大的研究进展［１２］。然而，Ｗｏｒｄ２ｖｅｃ等预训练模型仍然存在无法表征一词多义的问题，因为它们主要关注的是词或者字符之间的特征，而忽略了词的上下文语境，导致其实体识别能力有限。在中文命名实体识别自然语言处理领域，相比英文存在较多困难，英文的词语构造形式比中文在实体命名识别方面体现出更多的语义信息［１３］。ＳｕＴＲ等［１４］基于汉字字形学习特征，在词向量方面的研究对中文文本在训练出现的语义特征所存在的困难和问题有较好的效果；ＹｕＪ等［１５］研究提出一种组合学习语义特征的状态和更加细粒度的Ｓｕｂｃｈａｒａｃｔｅｒ的方法，并學习了中文在语言相似性和语言特征融合任务上词向量任务。在实体命名识别领域中，ＢＥＲＴ在词向量训练方面有效解决一词多义的问题，是一种基于序列到序列模式（Ｓｅｑ２Ｓｅｑ）结构上的创新。

２０１８年，Ｇｏｏｇｌｅ团队提出基于注意力机制的Ｔｒａｎｓ?ｆｏｒｍｅｒｓ［１６］模型的ＢＥＲＴ（ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｃｏｄｅｒＲｅｐｒｅ?ｓｅｎｔａｔｉｏｎｓｆｒｏｍＴｒａｎｓｆｏｒｍｅｒｓ），不同于传统的ＲＮＮ和ＣＮＮ（卷积神经网络），该模型使用了Ｔｒａｎｓｆｏｒｍ?ｅｒｓ作为算法的主要框架，增强预训练词向量模型的泛化能力，使得模型能够更彻底地捕捉语句中的双向关系，更好地表征不同语境中的句法和语义信息。通过ＢＥＲＴ训练词向量，对前后文本的预测考虑了前后双向的输入信息，体现出语境不同所含有相同词的语法或字词。因此，在实体识别领域，许多学者基于ＢＥＲＴ训练模型学习词向量的分布，以提高实体识别的精度。黄梅根等［１７］基于ＢＥＲＴ优化模型，采用关系分类与元素抽取两个任务模型进行命名实体识别，取得了较好的效果。岳琪等［１８］基于ＢＥＲＴ改进与双向ＲＮＮ模型分析林业实体识别和实体关系的抽取，并验证了该领域内构建知识图谱的可行性。在警情领域关键实体文本中，王月等［１９］使用了ＢＥＲＴ预训练词向量，模型在命名实体识别研究方法上设计了不同方案以提高准确率。

以上不同研究领域的命名实体识别方法为本文在高校图书馆微信信息服务进行命名实体识别提供了参考。目前，在高校图情领域命名实体识别的研究中，由于缺乏对领域实体语料库的研究，提升实体识别效果存在较大的难度，如文本中隐含的信息实体类别无法充分识别、数据量小、人工标注成本高等。为了解决高校图情领域的命名实体识别问题，针对高校图情领域语料资源缺乏、人工标注难以满足等对提升领域实体识别效果的情况下，通过知识规则具体定义实体的边界，本文构建了高校图书馆微信服务推文文本的数据集ＵＬＩＣＮＥＲ。由于ＢＥＲＴ具有较强的语义表达能力，利用ＢＥＲＴ学习大规模文本后生成具有语义特征的字符向量，接着通过ＢｉＬＳＴＭ层对ＢＥＲＴ的输入文本序列学习获取上下文的文本特征，最后通过连接ＣＲＦ层得到最佳的序列输出。因此，本文采用基于ＢＥＲＴ－ＢｉＬＳＴＭＣＲＦ模型构建高校图书馆微信信息服务文本中命名实体的方法，完成高校图书馆微信服务领域的命名实体识别任务。

１文本数据集的采集与分析

１.１数据的来源

高校图书馆服务信息的文本不同于其他领域文本，具有服务多样性、规律性、客观性，这对其文本的语义识别技术使用产生了较大影响。为保证数据的可靠性和准确性，本文参考了基于教育部的《普通高等学校图书馆规程》［２０］和图书情报检索领域内的《中国图书馆分类法》［２１］的语义分类方法和词语用法。数据文本的采集通过清博指数平台上的高校图书馆微信服务公众号榜单［２２］，该榜单涵盖了全国开通微信服务的９４６所高校，从中爬取了涵盖高校图书馆对服务范围、用户需求、业务能力和文化推广等方面的３６０００多条文本，约６０万字符。

１.２文本的实体特征分析

由于不同领域文本的实体有不同的特点，高校图书馆服务领域语料与医疗、司法和舆情等其他领域存在不同的特征，它们之间相互的词汇重叠的相似度较低［２３］。因此，词分布不同的领域文本实体识别效果会在模型中体现出不同的特征，进而需要设计不同的实体识别方法和分类。如实体类的“文化” 指图书馆文化交流活动，是各种活动通知、沙龙互动交流、新闻、党建、学术交流、竞赛、文化活动、文化环境和文化展览等，其他各类实体的含义及示例如表１所示。

１.３数据文本的标注

本文基于ＢＩＯ法对高校图书馆微信服务推文文本的数据集ＵＬＩＣＮＥＲ进行标记。由于获取的特定数据文本进行标注任务常采用纯人工标注的方法，在质量控制方面存在效率低和错误率高的问题［２４］。本文的标注人员由图情方向的老师、专家和机器学习方向老师３名成员组成，领域内标记开始前需要经过前期软件操作培训和标注规则的熟悉。数据文本的标注工作持续了５０天，平均每天完成７００多条文本句子。为确保标注质量和降低标注成本，保证实体标注结果的一致性，本文采用基于词典规则与人工修正相结合的半自动标注方式，构建高校图书馆微信推文文本数据集。首先，在标注语料库前，根据词典与规则匹配方法，预先采集了领域内的实体名称和实体标签，此部分实体有６００多个类目；其次，根据构建的匹配规则与所标注的数据本文进行自动实体标记；最后，还需对自动匹配结果中可能出现的错误标注、漏标注等问题以人工校验的方式进一步作调整和改进，且随着文本被标注校验正确后，还会与预先定义的实体合并形成动态更新的领域知识库，进而在随后的文本过程中自动匹配效率得到快速提升。具体实体标注过程如图１所示。

数据集基于ＢＩＯ规则对语言序列进行标注，其中，Ｂ－ｂｅｇｉｎ代表实体的开头；Ｉ－ｉｎｓｉｄｅ代表实体的中间或结尾；Ｏ－ｏｕｔｓｉｄｅ代表不属于实体，如以句子“图书馆寒假闭馆通知” 为例，其序列标注如图２所示。

利用以上方法将高校图情语料中的文本实体描述进行识别，最终构建了ＵＬＩＣＮＥＲ语料集，数据的标签包含７个粗粒度分类和１６个细粒度分类，如表２所示。

另外，本实验使用数据集按照８∶１∶１的比例将数据集划分为训练集、验证集和测试集。领域命名实体的数据集中每一行由两列组成，数据的两列之间采用空格隔开，其中第一列为文本内容，第二列是ＢＩＯ格式的标签序列，句子边界用空行标识。数据集组成情况如表３所示。

２ＢＥＲＴ－ＢｉＬＳＴＭ－ＣＲＦ语言模型

本文研究采用的ＢＥＲＴ－ＢｉＬＳＴＭ－ＣＲＦ模型探索高校图书馆微信文本信息实体识别，如图３所示。首先，使用ＢＥＲＴ预训练模型，获取每一个标识的向量表示特征，即字向量表示层；然后，输入ＢｉＬ?ＳＴＭ模型学习文本之间的关系，即基于ＢｉＬＳＴＭ（考虑双向的ＬＳＴＭ）建模以提取语义和结构特征；最后，基于ＣＲＦ的解码层输出预测的标签序列，获取每个标识的分类结果。

为了便于理解本文ＢＥＲＴ－ＢｉＬＳＴＭ－ＣＲＦ模型构建，表４具体解释了模型流程，包括输入文本批量数，维度转换以及输出的过程。

２.１ＢＥＲＴ预训练模型

由于ＢＥＲＴ在自然语言处理方面具有很强的语义表征优势，在文本输入训练层的Ｅｍｂｅｄｄｉｎｇ层采用ＢＥＲＴ进行预训练，产生词向量，获取语境化的词向量来提高实体识别的性能。ＢＥＲＴ采用了Ｔｒａｎｓｆｏｒｍｅｒ的双向编码器表示，在自然语言处理研究中取得很高的成就［２５］。ＢＥＲＴ通过所有Ｔｒａｎｓ?ｆｏｒｍｅｒ层左右上下文共同调节，来预训练深度双向表示，不依赖于时间序列，并在较长上下文本处理中具有较大优势，可以更好地提升语义表征水平。ＢＥＲＴ训练通常分为两步，首先对模型进行预训练（ＰｒｅｔｒａｉｎｉｎｇＢＥＲＴ），其次在预训练的基础上，根据下游任务进行模型微调（Ｆｉｎｅ－ｔｕｎｉｎｇＢＥＲＴ）。

传统语言模型训练采用单向方式或者拼接的方式，但这种模型从ｌｅｆｔ－ｔｏ－ｒｉｇｈｔ，或ｌｅｆｔ－ｔｏ－ｒｉｇｈｔ＋ｒｉｇｈｔ－ｔｏ－ｌｅｆｔ结合的方式提取特征的能力有限，而Ｐｒｅ－ｔｒａｉｎｉｎｇＢＥＲＴ采用一个深度双向表达模型（ＤｅｅｐＢｉｄｉｒｅｃｔｉｏｎａｌＲｅｐｒｅｓｅｎｔａｔｉｏｎ），即采用ＭａｓｋｅｄＬＭ（带Ｍａｓｋ的语言模型训练任务）和ＮｅｘｔＳｅｎｔｅｎｃｅＰｒｅｄｉｃｔｉｏｎ（下一句话预测任务，ＮＳＰ）两种方法分别完成在ＢＥＲＴ训练的构建，具有较大的创新，并且效果比较好。

本文在预训练模型考虑多个句子区分级别的任务，因此，使用ＭａｓｋｅｄＬＭ和ＮＳＰ进行模型预训练。ＭａｓｋｅｄＬＭ的任务机制在训练时，给定一个句子，会随机Ｍａｓｋ（掩码）１５％的词，然后采用ＢＥＲＴ來预测这些Ｍａｓｋ的词。在这些被选中的Ｔｏｋｅｎ中，数据生成器并不是把它们全部变成［ＭＡＳＫ］。通常存在３种情况：其一，在８０％的概率下，用［ＭＡＳＫ］标记替换该Ｔｏｋｅｎ（图书馆暑假闭馆＞图书馆暑假［ＭＡＳＫ］［ＭＡＳＫ］）；其二，在１０％的概率下，用一个随机的单词替换Ｔｏｋｅｎ（如：图书馆暑假闭馆＞图书馆暑假通知）；其三，在１０％的概率下，保持该Ｔｏｋｅｎ不变（如：图书馆暑假闭馆＞图书馆暑假闭馆）。ＭａｓｋｅｄＬＭ模型在训练的过程中，并不知道将要预测哪些单词。正是在这样一种高度不确定的情况下，模型能快速学习该Ｔｏｋｅｎ的分布式上下文的语义，最大化地学习原始语言语义表征。同时因为原始文本中只有１５％的Ｔｏｋｅｎ参与ＭＡＳＫ操作，并不影响学习原语言的表达能力和语言规则。

ＢＥＲＴ引入ＮＳＰ（下一句话预测任务）任务，采用的方式是输入句子对（Ａ，Ｂ），模型来预测句子Ｂ是不是句子Ａ的真实的下一句话。为了更好地实现文本的实体命名识别，需要模型能够很好地理解两个句子之间的关系，故采用ＮＳＰ模型在对应的任务有良好的效果。ＮＳＰ模型通过预训练方法来捕捉两个句子的联系，如有Ａ和Ｂ两个句子，Ｂ有５０％的可能性是Ａ的下一句，训练模型是为了预测Ｂ是不是Ａ的下一句，使模型增强对上下文联系的能力。

另外，在命名实体识别任务中，模型微调通过Ｔｒａｎｓｆｏｒｍｅｒ中的Ｓｅｌｆ－ａｔｔｅｎｔｉｏｎ机制提供的ＢＥＲＴ对其下游任务进行建模，无论他们包含单个文本或多个文本，只需要替换掉输入和输出。对于每个任务，需将特定于任务的输入和输出插入到ＢＥＲＴ中，并对所有参数进行端到端微调。本文模型考虑多个句子区分级别的任务，并分别给每个句子的字符进行标注标签。句子起始的Ｔｏｋｅｎ均为特殊分类标记（ＣｌａｓｓｉｆｉｃａｔｉｏｎＴｏｋｅｎ，［ＣＬＳ］），结束的Ｔｏｋｅｎ均为特殊令牌（ＳｐｅｃｉａｌＴｏｋｅｎ，［ＳＥＰ］）。句子的输入过程包含将句子输入到ＢＥＲＴ模型的原有静态词向量编码（ＴｏｋｅｎＥｍｂｅｄｄｉｎｇｓ，表示字向量，第一个单词是［ＣＬＳ］标志）和位置编码（ＰｏｓｉｔｉｏｎＥｍｂｅｄ?ｄｉｎｇｓ，表示位置向量，是通过学习得出），另外还加入了语句分割编码（ＳｅｇｍｅｎｔＥｍｂｅｄｄｉｎｇｓ，句向量，用来区别两种句子），整个模块的输出结果是３种Ｅｍｂｅｄｄｉｎｇ编码之和，如图４所示。

２.２ＢｉＬＳＴＭ模型

ＢｉＬＳＴＭ模型是由两个独立的长短期记忆网络（ＬＳＴＭ，ＤｉｒｅｃｔｉｏｎａｌＬｏｎｇＳｈｏｒｔ－ｔｅｒｍＭｅｍｏｒｙ）模型组合而成，一个正向去处理序列，一个反向去处理序列，处理完后，两个ＬＳＴＭ的输出拼接起来形成的词向量作为该词的最终特征表达。另外，ＢｉＬ?ＳＴＭ中的两个ＬＳＴＭ神经网络参数是相互独立的，它们只共享由ＢＥＲＴ预训练层输入的Ｗｏｒｄ－ｅｍｂｅｄ?ｄｉｎｇ词向量信息。１９９７年，针对循环神经网络（ＲＮＮ，ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋｓ）的梯度消失和梯度爆炸问题，ＨｏｃｈｒｅｉｔｅｒＳ等［２６］提出了该改进模型，模型对文本特征提取效率和性能要优于单个ＬＳＴＭ结构模型，取得良好的效果，其ＬＳＴＭ原理结构如图５和图６所示。

在自然语言处理的实际应用中，发现循环神经网络存在如梯度消失、梯度爆炸以及长距离依赖信息能力差等问题，因此引入了长短期记忆网络（ＬＳＴＭ）。该模型是ＲＮＮ的一种改进，内部结构拥有更长的记忆，梯度消失问题得到优化。ＬＳＴＭ在主体结构上与ＲＮＮ类似，其主要的改进是在隐藏层ｈ中增加了３个门控（Ｇａｔｅｓ）结构，分别是遗忘门（ＦｏｒｇｅｔＧａｔｅ）、输入门（ＩｎｐｕｔＧａｔｅ）、输出门（ＯｕｔｐｕｔＧａｔｅ），同时新增了一个隐藏状态（ＣｅｌｌＳｔａｔｅ）。ＬＳＴＭ隐藏层结构原理如图５所示，ｆ（ｔ）表示ｔ时刻遗忘门，可以选择性地遗忘一些信息，其值范围是０～１；ｉ（ｔ）表示ｔ时刻输入门，可以添加新的信息，如假设输入１０个元素信息和原来的４个全连接层（假设是隐藏单元个数一致的１２８个神经元，输出都是１２８个元素的向量）进行拼接，给Ｃ中传入更新的信息（１３８个元素的一维向量）；输出门ｏ（ｔ）依赖前一个状态向量ｈ（ｔ－１）和更新的输入信息ｘ（ｔ），是长短期“记忆” 的更新变化；ａ（ｔ）表示ｔ时刻对ｈ（ｔ－１）和ｘ（ｔ）的初步特征的提取，会作为下一时刻（ｔ＋１）的输入之一。具体的计算过程如下：

３.３实验结果

本文采用的ＢＥＲＴ－ＢｉＬＳＴＭ－ＣＲＦ有效地提升了高校图书馆微信推文文本数据集实体命名识别的效果。为验证分析，研究还设计了４种不同模型性能比较，分别是： ①ＣＲＦ模型，该模型定义一个特征函数的集合，用这个带约束作用的特征函数集合来为一个标注序列打分，并据此选出最佳的标注序列； ②ＢｉＬＳＴＭ模型，该模型为ＬＳＴＭ的双向考虑模型，依靠神经网络强大的非线性拟合能力，可以将样本的高维空间复杂非线性变换，该模型将样本标注进行学习并预测； ③ＢｉＬＳＴＭ－ＣＲＦ模型，经典的实体命名提取模型，该模型通过加入ＣＲＦ层优化了ＬＳＴＭ层在序列标注学习任务过程，学习隐含状态序列的特征； ④ＢＥＲＴ－ＣＲＦ模型，该模型与ＢｉＬＳＴＭ－ＣＲＦ模型较为相似，其本质上还是一个ＣＲＦ模型，只是采用ＢＥＲＴ模型来训练ＣＲＦ模型中的发射矩阵。实验结果如表５所示。

由表５可知，ＢｉＬＳＴＭ－ＣＲＦ模型结合了ＢｉＬ?ＳＴＭ模型和ＣＲＦ模型的优点，准确率为９４.１７％，高于后两种模型９１.２６％和９３.１８％的准确率；ＢＥＲＴ－ＣＲＦ模型通过ＢＥＲＴ预训练模型，在学习到状态序列（输出的标注）之间的关系效果好于ＢｉＬ?ＳＴＭ模型，其準确率提高到了９７.８５％；ＢＥＲＴ－ＢｉＬＳＴＭ－ＣＲＦ模型能够并行获取并优化全局信息，其准确率、召回率和Ｆ１值都是最高的，分别为９８.５９％、９８.９１％和９８.７５％。另外，相比ＢＥＲＴＣＲＦ模型没有对ＢＥＲＴ预训练输出结果进行上下文关系的匹配，本文模型在准确率、召回率和Ｆ１值上分别提升了０.７４％、０.９９％和０.７６％。因此，采用ＢＥＲＴ－ＢｉＬＳＴＭ－ＣＲＦ模型的实验结果可以看出，通过ＢＥＲＴ模型对输入的词向量进行训练后的结果导入到ＢｉＬＳＴＭ－ＣＲＦ模型，得出的结果更准确。

为有效分析本文模型在测试集上的实体识别效果，通过实例分析命名实体标记结果的具体表现进行呈现。为突显高校图书馆微信信息服务的特色和影响力，随机选出两篇高校图书馆在榜单中影响力排名靠前的微信推文，具体结果如表６所示。

由表６可见，本文通过命名实体识别技术应用，分别实例分析了两类不同办学层次高校图书馆微信推文的实体识别效果，并以此较为全面地提取了高校图书馆服务平台上的领域内容介绍中的各类专业名词术语，极大地丰富了图书馆知识服务。其中，北京大学图书馆发布的“灵气所钟—山东临朐红丝砚历史文化展” 微信推文取得良好的社会影响，阅读量和点赞量非常高，有效地实现文化传播在高校图书馆的推广和应用，其微信推文的实体识别效果如图７所示。同时，该文的知识发现可以推荐作为高校图书馆微信信息服务与地方特色历史文化相结合，为读者提供了便捷的信息分享条件，提升读者的关注，实现资源共享和服务推广等。另外，信阳师范学院图书馆发布的“关于师院的独家地理知识，你知道多少？” 微信推文的影响力较佳，在阅读量不高的情况下取得较高的点赞量，深受读者的欢迎，该文介绍了校内特色人文地理环境，借鉴图书馆微信平台宣传吸引当地读者的注意，能够引起读者的共鸣，塑造良好的校园环境，也是高校图书馆信息服务过程和信息服务创新模式的有效策略，该文的实体识别效果如图８所示。因此，通过分析高校图书馆微信平台具有影响力的推文，采集具有特色和影响力的推文实体，可以实现高校图书馆服务内容的结构化呈现，为图书馆特色服务和发展模式的拓展提供了可借鉴的资源获取和利用平台。采用命名实体识别技术，通过进一步挖掘信息资源的各类实体关系，如构建高校图书馆知识图谱，实现信息资源的实体之间更深层次和更大范围的关联，优化领域内的内容推荐、检索等服务质量，提升图书馆知识服务的发现能力。

３.４各类实体识别结果

为明确本文的不同模型对不同类别实体的识别效果，本文通过准确率、召回率和Ｆ１值３个指标对不同类别实体识别进行了对比分析，结果如表７所示。本文模型在用户、时间、机构和地址等实体识别的准确率、召回率和Ｆ１值都较高，而只是对实体数较少的服务简称（ＳＥＲ＿ＪＣ）的实体识别评价指标的数值偏低，可能与该实体数量偏少有关，存在降低实体分类能力，该实体识别的准确率、召回率和Ｆ１值分别为８０.００％、１00.00％和８８.８９％。可见，本文采用的ＢＥＲＴ－ＢｉＬＳＴＭ－ＣＲＦ模型对高校图书馆微信服务的推文文本信息中各类不同实体的识别效率效果良好。

４结语

针对高校图书馆服务领域内实体名称多样、特征信息提取不明确的问题，将高校图情领域的数据集预先定义为７个粗粒度分類和１６个细粒度分类，并进行了实体识别标注，数据集涵盖领域内的服务内容，用户需求、业务能力和文化推广等方面。

高校图书馆如何有效地整合服务推广平台信息，使服务模式的重要信息联系起来，是高校图书馆移动信息服务提高的关键。因此，本文以ＢＥＲＴＢｉＬＳＴＭ－ＣＲＦ模型作为高校图书馆微信推文文本实体识别方法。首先，采用ＢＥＲＴ预训练模型，获取每一个标识的向量表示特征；然后，基于ＢｉＬＳＴＭ层以提取更加准确的语义和结构特征；最后，使用ＣＲＦ层输出预测的标签序列，获取高校图情微信服务领域的实体识别中存在的特征关系进行约束，进一步提高了实体识别的提取效率。另外，本文模型提升了高校图书馆信息服务领域命名实体识别效果，并实例分析了高校图书馆微信推文在知识服务过程中的发现能力。本文下一步的研究内容主要有两个方面：一是如何解决数据集实体中数量不平衡问题；二是提高模型的实体识别效率，同时提高标注的准确率，如训练耗时长、参数冗余和资源成本高等方面进行模型改进，为自然语言处理技术在高校图书馆服务领域中的应用提供方案。