基于RoBERTa的工商业领域命名实体识别方法

2023-07-07雷景生唐小岚

计算机应用与软件 2023年6期

顾泽雷景生唐小岚

(上海电力大学计算机科学与技术学院上海 201300)

0 引言

自然语言理解包括多种多样的任务,如文本蕴含、问答、语义相似度评估和文档分类[1]。命名实体识别是自然语言处理的基础任务之一,主要是研究从文本中识别实体,如人名、地名、时间和组织机构名等。命名实体识别还被广泛应用于信息提取[2]、问答系统[3]、句法分析[4]和机器翻译[5]等应用领域,是从文本信息中自动提取潜在知识的第一步,也是信息提取和知识图领域的重要组成部分[6-7],其研究应用范围广,具有重要意义。

工商业领域的迅速发展,从商业、财经类新闻文本中抽取关键信息,辅助分析当前经济发展状况和发展关系,越来越引起了广泛关注。本文目的是识别工商业领域中重要的几类实体,包括公司负责人(CPER)、公司名(CORG)和公司地址(CLOC)等,是统计分析商业经济发展详情的关键概念。例如:“曹萍,于2008年3月5日注册创办了苏州太谷电力股份有限公司,注册资本达6 500万元人民币,是一家专业致力于电力行业电能管理技术研究的专业公司,现位于苏州工业园区……”。“苏州太谷电力股份有限公司”是公司名,“曹萍”是公司法人,“苏州工业园区”是公司位置。

基于神经网络模型的中文命名实体识别(NER)依赖于单词表征,单词表征又依赖于单词、字符的任意组合。根据NER任务中语料库的特征,广泛使用预先训练好的单词嵌入来提高一系列NLP任务的性能已被得到了验证和改进。单独使用字符嵌入会导致单词之间的特征关系缺失,因此单词嵌入和字符嵌入的组合使用方式被应用于NER任务。

在NER的任务中,由于中文命名实体的构词、特殊性,同一个词在不同的应用中有不同的含义。例如“苹果”是一种常见水果的名称,也是一家企业的名字,因此,获取上下文信息是至关重要的。最近,Peters等[8]介绍了一种Embeddings from Language Model(ELMo)深语境化的词表示模型,称为嵌入语言模型。ELMo模型研究的重点是,根据一个字在不同句子中的特点生成对应的词向量,且生成的词向量与放入哪个特定环境的语义中没有太多关联。该模型解决了汉语中存在句法结构和语义的关键问题。在不考虑时间成本的情况下,其思想给了后来的研究提供了思路。

在过去几年中,传统的机器学习方法如条件随机场(CRF)[9]和最大熵[10]已经被用于NER任务。CRF已被证明在自然语言处理(NLP)的许多领域是有效的,包括序列标签任务和命名实体识别(NER)。与其他统计模型相比,CRF在主成分分析中使用了具有大量特征的观察序列,能在特定领域的NER任务中的提取该领域的知识特征。在最近的神经网络模型中,特别是LSTM模型,被证明对NER任务是有效的。LSTM支持自动利用正交特征,能结合上下文,提取句法特征,并且能从多层结构提取出语义特征。但是,如果训练数据缺乏,LSTM模型也很难学习完整的标记规则,并且会导致全局序列执行不能优化处理。文献[11]提出了单向的GPT,利用Transformer编码器进行预训练,获取句子上下文信息。文献[12]提出BERT,一种多层双向Transformer微调的编码器,使用了self-attention机制,能依赖于左右两侧的上下文获取特征表示,使得模型的上下层直接全部互相连接。BERT的双向Transformer机制在11个任务中均取得了不错的效果。文献[13]提出的RoBERTa模型是BERT的改进版(A Robustly Optimized BERT)。它在模型规模、算力和数据上,增强了字的语义表示,取消了下一句预测(NSP)任务,采用动态Masking,与BERT相比优势更大。

在实际的应用中,用于学习这些特定任务的标记数据却很少,而且很难获得,这导致了模型难以充分运行。文献[1]提出了一种结合无监督预训练和监督微调的语言理解任务的半监督方法。受此启发,本文采用半监督的训练方法,使用标记和未标记的数据来提高工商业领域中NER的性能。

本文提出一种基于工商业领域的半监督实体识别模型ICFNER。ICFNER模型是基于双向长短期记忆、条件随机场组成(BiLSTM-CRF)的基本结构,并融合RoBERTa做预训练时的特征提取,实现工商业领域实体识别。实验表明,ICFNER模型利用较少的标记数据集,能够更大限度地提取字与字之间的关系,更加符合识别工商业领域中实体识别任务的需求。

1 NER模型

1.1 NER的CRF模型

深度学习已经成为NER任务的一个突出应用。利用深度学习方法可以不再依赖手工制作的数据而实现自动提取复杂的特征,这些特征同时也具有更丰富的表达能力。条件随机场(CRF)凭借在主成分中的分析的优势已被证明在自然语言处理的许多领域是有效的,命名实体识别(NER)任务就是其中之一。

Sobhana等[14]基于条件随机场(CRF)开发了一个应用单词的上下文信息和单词特征来预测各种命名实体(NER)类别的文本任务系统。

1.2 NER的LSTM模型

LSTM使用记忆细胞取代RNN的普通神经单元,实验结果表明LSTM在处理长时间依赖效应问题上表现不错。这也让LSTM语言模型能结合上下文内容学习到语义更丰富的词表征。

Limsopatham等[15]设计的NER的LSTM模型被用于解决推特上短文本的日常口语化的问题。Hammerton[16]提出了一种方法,应用LSTM来完成命名实体识别的任务,在实验结果上取得了不错的效果。

1.3 NER的BiLSTM-CRF模型

许多研究表明,不同学习系统的组合是获得优异性能的更好方法。一种是具有序列条件随机场的双向长短记忆神经网络(BiLSTM-CRF)就是一种新模型。该模型与Huang等[17]提出了一种双向长短记忆神经网络(BiLSTM)语境模型相似,通过该模型获得语境特征,并利用单词级标签信息,较少依赖于单词嵌入,获得了较好的稳健性和更高的精度。类似的方式也被应用在多个领域,如:Xu等[18]的医学领域中文实体识别,该方法模型依赖于从监督数据集训练的字符级单词表示来学习特征;Lample等[19]提供了一种基于LSTM和CRF的混合标记模型结构,该模型类似于文献[17]中提出的方法,不仅能从未标记语料库训练的无监督单词表示,而且能从标记语料库训练的字符级单词表示。

1.4 NER的RoBERTa模型

文献[13]提出一个改进的训练BERT模型的方法,我们称之为RoBERTa,RoBERTa模型包含无监督的Pre-train和有监督的Fine-tune,改进了BERT训练不足。在整个训练过程中,采用了更大的模型参数,尝试了更大的bacth size和更多的训练集。RoBERTa建立在BERT的语言掩蔽策略的基础上,修改BERT中的关键超参数,删除BERT中对结果影响不大的下一个句子预测(NSP)任务,采用动态掩码方式训练模型,并使用更大的bacth size进行训练。RoBERTa也接受了比BERT多一个数量级的训练,耗时更长。这使得RoBERTa能够表示比BERT更加丰富的特征信息,而且能更好地推广到下游任务中。

1.5 NER的ICFNER模型

双向长短期记忆神经网络(BiLSTM)模型和条件随机场(CRF)模型的结合的优势,已在本文的1.3节中详细阐述。本文设计的ICFNER模型是利用RoBERTa、BiLSTM-CRF模型,结合半监督的训练方式来完成我们的工商业领域语料库实体提取任务,这类似于Yang等[20]提出的框架。

该模型主要包括两个阶段:无监督的Pre-train模型学习到更加普遍、更适用的表征;模型以很小的Fine-tune预训练后的模型迁移到一些特定的有监督学习任务上。方法概述如图1所示。

图1 命名实体识别的模型框架

在第一阶段,将大量被标记过数据被输入到预处理的语言模型中,利用RoBERTa预训练语言模型对预料字符进行编码,得到单个字符对应的词向量。在第二阶段,将训练好的词嵌入BiLSTM层,对输入文本进行双向编码,增强上下文相关的语义信息,最后将包含上下文信息的语义词向量应用于下一轮CRF模型层中进行解码,在CRF层中分类器中,输出概率最大的标签序列,并最终通过该模型获得测试数据的实体标签。

2 方法

2.1 RoBERTa模型

文献[12]中的BERT(Bidirectional Encoder Representation from Transformers),一种基于微调的多层双向Transformer的编码器,该模型在预训练方法上模型提出了创新,采用掩码语言模型和对下一句预测分别捕捉词语和句子级别的表示特征。文献[13]在文献[12]的基础上改进了模型,在训练方法的基础上,从以下几个方面改进了BERT模型:(1) 去掉下一句预测Next Sentence Prediction(NSP)任务。(2) 动态掩码(mask)。BERT 依赖随机掩码和预测token。RoBERTa使用了动态掩码:每次向模型输入一个序列时都会生成新的掩码模式。这样,在大量数据不断输入的过程中,模型会逐渐适应不同的掩码策略,学习不同的语言表征。(3) 文本编码。Byte-Pair Encoding(BPE)是字符级和词级别表征的混合,支持处理自然语言语料库中的众多常见词汇。

Roberta模型进一步增加词向量模型泛化能力,采用Transformer[21]对文本中的字词进行编码(Encoder)和解码(Decoder)。Transformer分别有6层Encoder层和6层Decoder层,具有更深的层数和更好的并行性,在预测词的时候能双向综合地考虑上下文特征。

基于上述的改进方式使得Roberta模型获得了更高的性能,可以通过无监督的方式学习到一些特征,再迁移到特定的有监督任务上,适用于从商业、财经类新闻中抽取实体信息。

2.1.1 输入表示

RoBERTa模型的输入表示能够在一个标记序列中清楚地表示单个文本句子或一对文本句子。对于给定的词,其输入表示可以通过Token Embeddings、Segment Embeddings和Position Embeddings三个向量求和组成。Embedding的表述如图2所示。

中文处理过程中可以是词向量或是字向量,词向量用Token Embeddings表示,CLS作为第一个词的分类标志,常常用于分类任务。在应对两个句子为输入的分类任务时,Segment Embeddings常被用来区分句子之间的不同,Position Embeddings常被用来标记序列位置所属信息。Token Embeddings、Segment Embedding和Position Embeddings三个向量组成RoBERTa模型的输入表示方式。

2.1.2动态mask

在预处理时,静态mask对每个样本只会进行一次随机mask,后续的每个训练步都采用相同的mask,每一个序列随机选择15%的默认遮挡字符(以下称为Tokens)替换成[MASK],为了消除与下游任务的不匹配,还对这15%的Tokens进行如下遮挡方法:

(1) 80%的时间替换成[MASK];

(2) 10%不变;

(3) 10%的随机替换成其他词。

后续的每个训练步都采用相同的mask,之后不会再变化。在修改版静态mask中,在预处理时将数据集拷贝10次,每次拷贝采用不同的mask。这等价于原始的数据集采用10种静态mask来训练。

动态mask区别于静态mask,在一开始没有预处理的时候就执行mask,把预训练的数据复制10份,每一份都随机选择15%的Tokens进行Masking。也就是说,同样的一句话有10种不同的mask方式,然后每份数据都训练N/10个epoch。动态mask并没有在预处理时执行mask,而是在每次向模型提供输入时动态生成mask,这就相当于在这N个epoch的训练中,每个序列被mask的Tokens是会时刻变化的,其表示方式如表1所示。

表1 动态mask方式

2.1.3Attention层

文献[21]中Transformer模型完全抛弃了RNN和CNN等网络结构,Attention层是RoBERTa模型重要的信息提取方式,经过编码来获取上下文相关的语义信息特征是Attention层主要功能任务。Attention函数可以描述为映射一个请求和一系列键值对到一个输出,其可以表示为{Ki,Vi|i=1,2,…,m},其中请求向量query(Q),键向量key(K),值向量value(V)长度相同,都属于输出向量。V是所有values的加权,权重由query和key计算而来,计算方法分为三步:

第一步,计算比较Q和K的相似度,用f来表示:

f(Q,Ki)i=1,2,…,m

(1)

f函数可以用点乘方式实现,表示为:

f(Q,Ki)=QTKi

(2)

第二步,将得到的相似度进行Softmax操作,进行归一化,表示为:

(3)

第三步,针对计算出来的权重αi,对V中所有的values进行加权求和计算,得到Attention向量,表示为:

(4)

计算流程如图3所示。

图3 Attention三个阶段计算过程

Attention帮助解决了字符级词语边界区分难的问题,能够一步到位捕捉到全局的联系,能直接将序列进行两两比较,其计算量为O(n2)。

2.2 BiLSTM层

应用于序列数据的RNN是典型的神经网络模型,是传统前馈神经网络的扩展。RNN包含一个循环的隐藏状态,隐藏状态的激活依赖于前一时间的激活。然而,梯度消失和梯度爆炸使得模型难以处理长文本。

LSTM中的门控记忆机制,能够缓解长期依赖限制[22]。如图3所示,LSTM单元包括三个门:一个输入门i、一个遗忘门f和一个输出门o。这些门包含一个sigmoid神经网络层和一个逐点乘法运算,并被合并以可选地移除或添加信息。

在每一步时间t,LSTM的输出被迭代以通过式(5)-式(9)计算。

it=σ(Wxixt+Whihi-1+WciCt-1+bi)

(5)

ft=σ(Wxfxt+Whfht-1+WcfCt-1+bf)

(6)

ot=σ(Wxoxt+Whoht-1+WcoCt+bo)

(7)

Ct=ftCt-1+itanh(Wxcxt+Whcht-1+bc)

(8)

ht=ot⊗tanh(ct)

(9)

式中:σ表示sigmoid激活函数;⊗表示元素乘法;xt表示输入向量。具有不同下标的Wt分别表示输入xt、输出ot、存储单元Ct和隐藏状态ht的权重矩阵;b是三个门的偏置矩阵;it、ft和ot分别是时间步长t处的输入门、遗忘门和输出门向量,它们都具有与存储单元向量Ct和隐藏向量ht相同的大小。

双向长短期记忆BiLSTM是由前向的LSTM与后向的LSTM结合成,其编码过程如图4所示。前向LSTML接收信息形成向量{hL0,hL1,hL2,…},后向LSTMR依次形成向量{hR0,hR1,hR2,…},前向和后向的隐向量拼接得到{h0,h1,h2,…}。

图4 BiLSTM编码过程

数据中有许多长句,文本序列中提到的每个实体都可以依赖于长距离信息文本。双向长短期记忆(BiLSTM)学习前一时刻的输出权重和当前时刻每个序列的输入。此外,句子序列的过去(向后)和未来(向前)信息可以同时被BiLSTM中的前向网络和后向网络捕获,从而获得句子序列建模过程中的上下文信息。因此,该方法被用于在长句序列建模期间捕获所有信息。基于LSTM的这些特点,本文利用BiLSTM来提取文物实体的长距离相关性。

2.3 CRF层

LSTM的输出是每个标签的预测分数,因此可以得到句子中每个单元的预测标签。然而,在命名实体识别任务中,不能保证每次预测的标签都正确预测,并且独立分类是不充分的,因为文本中句子的上下文具有许多标记约束。当单独标记每个字符时,序列有它们自己的局限性。例如,总是有必要考虑顺序标签之间的相关性,并对输出标签之间的相关性建模[23]。CRF是一个判别概率无向图模型,CRF考虑了邻域中标签之间的相关性[24],它更关心句子的层次,而不是单个的位置。因为在本文的任务中,并非独立地对每个标签进行解码,而是将CRF层添加到BiLSTM-CRF网络的BiLSTM层,并利用CRF对输出标签进行联合建模。

BiLSTM-CRF网络的输入是序列X={x1,x2,…,xn},其中xi是输入向量的第i个字,并且预测的输出标签序列是Y={y1,y2,…,yn},对于输入序列X.P,大小为n×k,对应于双向LSTM输出的分数矩阵,其中k表示输出标签的数量。Pi,j表示第i个字符的第j个标记的分数,该分数定义如下:

(10)

式中:A表示大小为K+2的转换分数的方阵;Ayi表示从标记y到标记i的转换值。句子的开始和结束标记是y0和yn。

CRF利用一系列潜在函数来估计输出标签序列的条件概率分布。公式如下:

(11)

式中:φ(x,y)代表特征向量,w是参数向量。所有可能的y上P(y|x,w)的累积和是Z(w,x)。

给定的训练集(Y,X)={xi,yi},i=1,2,…,n,用于通过最大化似然条件来训练模型。

w=arg maxwp(Y|X,w)

(12)

给定通过上述方法训练的输入序列x和参数w,使模型最大化的标签序列y是训练的CRF的最终预测。

y*=arg maxyp(y|x,w)

(13)

CRF使用Viterbi算法,该算法可以有效地解决训练和解码问题,以预测标签的最佳序列。CRF层考虑了序列之间的限制,可以通过模型训练自动学习这些约束,使最终的实体标签结果更加有效。

2.4 神经网络体系结构

ICFNER模型是以RoBERTa的BiLSTM-CRF架构,将BiLSTM网络和CRF模型结合起来,模型结构如图5所示。

图5 基于语言模型(RoBERTa)的模型架构

Tokens列表是模型的输入,预测的实体类型是模型的输出。预处理后的RoBERTa与剩余LSTM一起,用于从每个标记的字符序列中学习信息丰富的形态学表示。然后,单词表示将被传递到包含前向LSTM和后向LSTM的BiLSTM层,并通过利用左右上下文信息返回一个序列。BiLSTM网络可以给输出层提供一个序列点完整的上下文信息,这样的输出被输入到通用CRF层。最后在CRF层,标签将被解码和输出。总的来说,BiLSTM-CRF模型输入的是词向量,输出的是每个单词的预测的序列标注。

按照图5的步骤,ICFNER模型具体实现过程:

第一步:输入层输入文本内容,向量表示层进行编码,进入RoBERT层获取字符序列之间的特征信息,编码方式已在2.1.1节中详细阐述。

第二步:进入BiLSTM层,通过学习上下文的信息,输出每个单词对应于每个标签的得分概率score(BiLSTM节点的输出得分是一个矩阵)。

第三步:第二步中的score作为CRF层的输入,CRF层通过学习标签之间的顺序依赖信息,得到最终的预测结果。

第四步:择优比较CRF层最终预测结果,(如图5所示,B-PER、I-PER、I-PER、O、O的最优预测结果为0.9)得出最终预判。

3 实验与结果分析

3.1 实验数据及评价指标

数据集采用公开的SmoothNLP文本数据集,其公开的数据集达到8万多条。对这些数据集中的数据文本采用IOB格式(Inside,Outside,Beginning)标记方式表示,其中,词条是一个命名实体的开始那么就标记其为B标签,I标签指词条在一个命名实体的内部,O标签指词条在一个命名实体的外部。标注工具采用哈工大开源的产品pyltp,该工具能提供准确的自然语言处理服务。在标注时候做好标签类别定义(如地址、组织机构等),标记时尽量标记完全、细致。对于出现的缩略词进行人工判断之后直接标注,可以实现直接对应。

考虑到在工商业领域中数据集相对匮乏的问题,采用半监的训练方式补充大量未标记的语料库来改进训练数据集。为了避免标记错误,会采用自学习算法,随机选取少量标记数据进行预处理,逐步从非分类样本中获得的假设,帮助预测非分类数据,保障具有高置信度的样本被迭代地正确分类。

采用准确率(P)、召回率(R)以及调和平均数F1值作为每一类命名实体的评价标准。定义如下:

(14)

(15)

(16)

3.2 模型搭建和参数设置

本文采用由Google开源的专门针对GPU加速的神经网络框架Tensorflow进行搭建。在ICFNER模型中,我们不考虑不断更新整个模型的参数模型训练方法,而只研究采用固定RoBERTa的部分参数,更新BiLSTM-CRF的参数的方法来进行训练测试。训练时使用SGD(随机梯度下降法)以0.01的学习率优化参数,以5.0为梯度的阈值。BiLSTM-CRF模型用前向和后向LSTM各一个独立层,维度各100,并加入了剔除率为0.5的dropout,防止梯度爆炸,输入维度seq_length和训练集batch_size分别为128和64,具体参数如表2所示。

表2 参数设置

3.3 实验结果

在数据集上,采用了CRF、BiLSTM、BiLSTM-CRF、BERT-BiLSTM-CRF、ICFNER模型进行性能分析。

1) CRF模型:条件随机场通过引入自定义的特征函数,不仅可以表达观测之间的依赖,还可表示当前观测与前后多个状态之间的复杂依赖。

2) BiLSTM模型:LSTM依靠神经网络超强的非线性拟合能力,能应对处理长时间依赖效应问题。能够自动提取观测序列的特征,其缺点是无法学习到状态序列之间的关系,比如B(某实体的开头)类标注后面不会再接一个B类标注。为了正确获得一个词的表示,有效利用上下文信息。使用两个LSTM网络,首先将句子中单词输入第一个网络,然后再将输出与句子单词反向输入第二个网络,即双向LSTM,两个网络不同。

3) BiLSTM-CRF模型:CRF的优点就是能对隐含状态建模,学习状态序列的特点,但它的缺点是需要手动提取序列特征。所以在BiLSTM后面再加一层CRF,以获得两者的优点。

4) BERT-BiLSTM-CRF模型:BERT模型提出了较为完善的预训练模型的概念,提高一系列NLP任务的性能。

5) ICFNER模型的实验效果图,包含准确率、召回率以及调和平均数F1,如图6所示。

图6 准确率、召回率以及调和平均数F1

可以看出,精确度、召回率和F1得分值在0和1之间较高的值表示更好的性能[25-26]。开始训练阶段,精确度、召回率和F1得分的值急剧增高,模型开始发挥其性能。经过一定次数的充分训练,训练次数增加到20时,模型性能得到充分发挥,其性能开始趋于饱和,精确度、召回率和F1得分值三者都开始逐渐平稳,最终在训练次数达到100时,趋于95%。

ICFNER模型的损失函数曲线如图7所示。

图7 损失函数曲线

可以看出,损失函数曲线有较为明显的阶段性特征,最后趋于平缓,逼近于0到1之间,符合模型中采用了SGD[27]自动调节学习率的优化效果。将图6与图5的曲线图走势对比,整体上呈现负相关特性。从细节中可以看出,在训练次数达到20时,loss值开始趋于平缓,当训练次数达到100时,loss值趋于稳定,在整个训练过程中clip参数的设置有效避免了梯度爆炸现象的出现。图5与图6两者之间的曲线走势特性也相互印证了该模型的效果。

公司法人、公司所在地和公司名三类实体准确率、召回率、F1值如表3所示。

表3 不同类型命名实体识别结果(%)

可以看出,不同类型命名实体的识别结果值都比较高。其中,公司名称的准确率相较于其他值普遍偏低,猜想是因为机构名称中的嵌套和简写(如:国网、中石化等)较多,会在一定程度上对模型的识别造成干扰。

综上所述,该模型在命名实体识别上达到了较好的结果,显示出了该模型的优势。

3.4 实验对比分析

从表4中可以看出,本文中提出的半监督训练的ICFNER模型与其他模型相比,在中文命名实体识别上获得了更高的平均精确度、召回率和F1得分值。

表4 模型在SmoothNLP数据集上的识别效果对比(%)

对比分析表4和图8之间的关系可以分析出,神经网络模型在中文命名实体中优势比较明显,从与CRF模型的对比中可以看出,神经网络的模型在准确率、召回率、F1值表现性能都好于CRF模型;双向长短记忆神经网络BiLSTM模型能够获取更多的上下文信息序列的信息,学习能力更强,BiLSTM模型再结合CNN模型实现标签分类目标,其准确率高于CRF模型;在BiLSTM-CRF模型中,若直接通过取BiLSTM输出的标签概率最大值作为最终预测输出,可能会出现I开头的词、两个连续的B开头的词、B-PER和I-LOC连在一起等情况,模型效果将会降低,因此该组合模型中的BiLSTM层充分学习上下文序列信息,CRF层可以并修正BiLSTM层的输出,从而保证预测标签的合理性,提升了模型性能;BERT模型充分刻画了文本数据中字符间的关系特征,BERT与BiLSTM-CRF模型得组合,取得了92.54%的准确率,增幅大,性能优势明显;RoBERTa模型改进了原来的BERT模型方法训练方法,采用动态掩码方式,提取字符级和词级别的信息表征,删除了作用不大的NSP任务,RoBERTa模型在与BiLSTM-CRF的结合使用,继承了BiLSTM-CRF的综合优势,相比前者在准确率性能又有了进一步的提升,可以看出本文中ICFNER模型,中文命名实体识别整体性能的提升明显,可以做进一步研究。

图8 不同模型的准确率、召回率和平均数F1

4 结语

工商业领域中的命名实体识别是自然语言处理的重要组成部分。考虑到标记的文本数据集匮乏,本文提出的命名实体识别的半监督ICFNER模型,属于以RoBERTa模型为基础的深度学习框架。RoBERTa基于Transformer的并采用动态掩码的方式,改进了BERT,具有很强的特征提取能力。该模型将文本数据和深层网络模型训练出来的预训练模型作为输入,缓解标记数据集稀缺的问题,挖掘BiLSTM在学习词语的上下文信息的能力强优势,结合CRF模型通过全局信息推断标签的能力,增强字符间的推理能力,使模型充分学习文本的特征信息,模型性能有了一定的提升,实验取得了较为满意的结果。相比于传统的实体识别方法,ICFNER神经网络模型的中文命名实体识别方法提升了实体识别的效果,接下来的实验将考虑如何简化模型大小,提升模型的效率。