APP下载

基于预训练模型的关系抽取研究综述

2023-03-21王浩畅刘如意

计算机与现代化 2023年1期
关键词:领域语言模型

王浩畅,刘如意

(东北石油大学计算机与信息技术学院,黑龙江 大庆 163318)

0 引 言

信息时代网络上无穷无尽的信息生成和共享为人们提供了丰富的数据,其中大部分构成了非结构化的文本资源。为了更好地理解这些数据,并在它们之间建立联系,人们使用文本中实体之间的相关事实来表示,也称之为关系。基于此衍生出了自然语言处理(Natural Language Processing,NLP)的一个子任务:关系抽取(Relation Extraction,RE)。关系抽取任务在1998 年MUC-7[1]会议上第一次被提出,当时主要用的方法就是用模板提取出实体之间的关系。之后ACE[2]会议为关系抽取提供了相当规模的数据集,进一步促进了关系抽取的发展。SemEval会议[3]补充定义了常见名词及其之间的关系,还提供了至今常用的SemEval-2010 Task8 数据集。随着词向量技术的发展,也进一步推动了关系抽取的发展。

关系抽取是指从文本中抽取出2 个或多个实体之间的关系,这些关系可以是不同的类型,并且抽取结果通常用三元组进行表示。关系抽取所应用的方法也通常基于以下3 种方法:基于规则、监督学习和半监督与无监督学习方法。早期Aone 等人[4]根据专家针对语料文本的自身特点编写的规则,从而抽取出文本中的实体关系。很明显基于规则的方法对于数据要求高、局限大且模型移植性很差。随之而来的是基于传统机器学习的关系抽取,在对关系抽取工作的效率以及模型性能要求越来越高的形势下,2006 年Mnih 等人[5]提出了与机器学习不同的深度学习概念。与此同时,Word2Vec、Glove 等[6-7]词向量技术在迁移学习的推动下也开始在关系抽取方面取得较佳的效果。后续的注意力机制[8]也帮助模型在实际任务中能有更好的表现。2018 年Peters 等人[9]为了能更好地解决多义词问题提出了ELMO 模型。同年Radford 等人[10]提出了自回归的GPT 模型,采用预训练和微调方式解决动态语义问题,一定程度上缓解了关系抽取过程中存在的实体重叠等问题。与此同时Google也提出了BERT[11]预训练模型,进一步在下游任务中提升了模型效果。2019 年CMU(Carnegie Mellon University)和Google Brain 联合推出了BERT 的改进版XLNet[12]模型。该模型提出了一种广义自回归预训练方法,利用双流注意力机制和Transformer-XL[13]克服BERT 存在的局限性。实验结果表明,XLNet 模型又进一步提升了在20 个NLP 任务中的表现。2020 年Zhong 等人[14]提出端到端的流水线方法,采用2 个独立编码器分别用于实体识别和关系抽取任务上学习上下文表示,进一步刷新了当前任务的最佳表现。2021 年复旦大学Xie 等人[15]采用远程监督的方法,对数据集的特征进行分析,使用先抽取关系再抽取实体的方式进行关系抽取研究。2022 年Shang 等人[16]提出单模块和单步解码的实体关系联合抽取方法,模型选择直接识别三元组,从而更好地捕获三元组之间的依赖联系。随着在GPT、BERT 和XLNet 等预训练模型在关系抽取领域的应用越来越多,这为后续在公共数据集上的基于预训练模型的关系抽取发展提供了更多的可能性。

1 经典预训练模型

预训练模型是迁移学习在NLP 领域的一个成功应用,它首先被应用在图像领域。模型在预训练过程中,使用海量的数据集进行训练从而学习到泛化性很强的语义知识,再针对不同的下游任务进行模型参数微调,进而达到快速收敛的目的。在关系抽取任务中,预训练模型前期通过在大量自然语言文本上构建的语言模型进行半监督训练,从而学习文本句子间更深层次的关系,而后根据具体的关系抽取任务设计合适的网络模型拼接到预训练模型网络中再进行微调工作,从而得出最终结果。本章主要对ELMO、GPT、BERT、XLNet和XLM这5种预训练模型进行介绍。

1.1 ELMO模型

现有的静态预训练技术无法区分多义词的不同语义,直到ELMO 的提出才有了有效的解决方案。ELMO 的本质思想是通过使用针对语言模型训练好的BiLSTM(Bi-directional Long Short-Term Memory)[17]来构建数据的文本表示。

ELMO 模型在NLP 领域的使用主要分为2 个阶段。第一个阶段选择BiLSTM 作为特征抽取器如图1所示。训练时,BiLSTM 通过前k-1 个序列t计算出第k个序列出现的概率p,如式(1)所示:

图1 ELMO模型结构

同理,后向的计算与前向类似,通过后N-k个序列计算第k个序列出现的概率p,如式(2)所示:

于是,BiLSTM训练过程中的目标就是最大化式(3)。

其中,θ→LSTM表示前向LSTM 网络参数,反向的LSTM 网络参数θ→LSTM同理;θx表示映射层的共享参数,θs表示上下文矩阵的参数。ELMO 模型是用所有层输出值的线性组合来表示词向量的值,所以每L层的BiLSTM都涵盖了2L+1层表示,如式(4)所示:

其中,xkLM等于hLMk,j表示的是token 编码的结果,LM 表示的是前向和后向语言模型的向量。在下游任务中会把Rk压缩成一个向量如式(5)所示。

其中,staskj是softmax 标准化权重,γtask是缩放系数,允许任务模型缩放整个ELMO 向量。其次针对具体的下游任务,ELMO 将预训练好的词向量添加到具体的任务训练中。而且,ELMO 模型考虑到英文数据的特点,在Jozefowicz 等人[18]提出的方法基础上,在模型结构中加入了CNN[19]结构。卷积神经网络的加入可以在一定程度上建立包含更全面的词表,而且能更好地提取到相关的形态信息。但是ELMO 与后期提出的GPT 和BERT 对比,主要的问题在于特征抽取器没有选择性能更强的Transformer[20],这就导致其双向拼接融合特征能力偏弱。

1.2 GPT模型

OpenAI 针对ELMO 的不足之处提出了GPT 模型,其综合了ULMFiT[21]的多阶段迁移方法和模型微调,在NLP领域的任务中取得比ELMO更佳的效果。

GPT 主要使用了生成式方法来训练语言模型[22]。其特征抽取器选择了Transformer,因为在逐字翻译的过程中屏蔽了后续的语词序列,而且在处理长距离依赖性方面也比LSTM 有着更好的表现。GPT的模型结构使用了单向的Transformer的解码器,结构如图2 所示,并且在训练时只保留了一个多头注意力机制。其中,Trm 模块是使用Transformer 模型的特征抽取器,E和T分别表示输入和输出(BERT 模型下同)。对于模型的输入处理,只需要在首尾添加各自标记;而输入的序列不止一个序列时,先用分隔符“$”分隔后再进行上述操作。基于这种输入层和输出层的通用化设计,加上Transformer 的强大表征能力,为GPT 模型在NLP 领域任务中的良好表现奠定了坚实的基础。

图2 GPT模型结构

GPT 训练过程分为2 个部分:无监督预训练语言模型和有监督的下游任务微调。无监督训练语言模型时需要最大化如式(6)所示的似然函数。

其中,k是上下文窗口大小,Θ是神经网络参数。实验中,使用多层的Transformer 编码器作为语言模型,利用多头注意力机制来处理文本信息以及位置信息的前馈神经网络,输出词的概率分布如式(7)所示。

其中,h0表示GPT 的输入,Wp是单词的位置向量,We是单词的向量。得到h0之后,传入GPT的Transformer解码器中得到hl,通过softmax 函数预测出下一个单词的概率。经过无监督预训练之后,GPT根据单词序列预测类标y,如式(8)所示。

其中,m表示输入序列的个数,Wy表示预测输出时的参数,y为输出的分类标签。并且需要最大化式(9)所示的函数值,L2是精调任务的损失。

GPT微调过程中也需要考虑预训练的损失函数,所以最终需要优化的函数如式(10)所示,其中L3是无监督训练阶段的目标函数,L1是预训练任务损失,λ是辅助函数的权重。

1.3 BERT模型

GPT 模型虽然在很多任务上已经达到理想的效果,但其本质上仍然是一种单向语言模型,对于语义信息的建模能力有限,且在关系抽取领域的应用也不够普及。因此,GPT模型逐渐被使用双向语言模型的BERT模型所取代。

BERT 的特征抽取器选择了特征抽取能力更强的Transformer 子结构,模型结构如图3 所示。其包含2 个 任 务:Masked-LM 和Next Sentence Prediction。所谓的Masked-LM 就是指在模型训练的时候在模型的输入序列中遮掉一些单词,进而利用上下文信息来训练模型预测出遮掉的单词。进行掩码操作时,只选择10%被替换为其他单词作为噪音以此来增强模型的鲁棒性。因此,Masked-LM 的主要作用是捕获到词语的信息让模型的预训练不再是单向语言模型的效果。与此同时,BERT 的另一个任务就可以捕获到句子的语义信息,从而提升模型对句子的处理能力。这让当时BERT 在NLP 领域的11 个基本任务中取得了最先进的性能。但其也存在不足之处:掩码标记在实际预测中并不会出现,而且训练时使用了过多的掩码,也导致影响了模型的性能。尽管如此BERT 的强大功能以及其极强的泛化性,为NLP领域的许多任务包括关系抽取的研究提供了一个新的基准模型。

图3 BERT模型结构

1.4 XLNet模型

BERT 已经在NLP 任务中取得不错的成绩,但是过度依赖于使用掩码去改变输入,忽略了掩码位置之间的依赖性,导致预训练与微调之间存在差异,进而影响了BERT 的性能。所以XLNet 提出一种广义自回归预训练方法,通过最大化输入序列的因式,分解所有排列的似然函数的期望来学习双向上下文,克服了BERT 的局限性。XLNet 作为BERT 的升级版,主要在以下3 个方面进行了优化:1)采用AR(Auto Regressive)模型代替AE(Auto Encoding)模型,提出了排列语言模型;2)为提升模型对目标位置的敏感引入了双流注意力;3)Transformer-XL代替了Transformer。

排列语言模型综合了AR 模型与以AE 模型为代表的BERT 的优点。具体来说,模型预测某个单词时,对于长度为T的序列X,有T!种不同顺序去执行一个有效的自回归因式分解。这样所有排列都存在可能性,就可以获得所需要的上下文信息。此外,为了模型参数能在因式分解顺序中共享,从而学习了位置信息。XLNet用ZT表示输入序列的所有排列集合,xzt属于ZT集合中的第t个元素,最终目标函数如式(11)所示。

排列语言模型改变了单词顺序就无法根据上下文预测具体位置的单词,所以XLNet使用了双流注意力机制。其主要目的是加入查询流注意力,使用查询流注意力来代替BERT的掩码标记,只保留该位置的信息,从而预测单词内容。而为了解决超长序列的依赖问题,XLNet在预训练中引入Transformer-XL的分段循环机制,即在预测下一个单词内容时缓存了上一个单词的内容,使模型提取特征信息时不再受长距离的约束。如将一个长序列S分成2个片段,即S1:T和ST+1:2T,将它们分别重新排列。首先对于片段S1:T利用内容流注意力机制可以缓存表示,然后对于下一个片段X则可以用缓存表示的注意力更新为式(12)所示,其中[*,*]表示将2个序列沿维度相连,Q、K、V分别代表了注意力机制中的query、key和value向量,θ为网络参数。

1.5 XLM模型

前面所提到的预训练模型都属于单语义模型,它们对于处理多种语言的融合问题还是存在不小的难题。Facebook AI 团队于2019 年提出跨语言预训练模型(Cross-lingual Language Model)XLM,其克服了信息不互通的难题,将不同语言放在一起采用新的训练目标进行训练,从而让模型能够掌握更多的跨语言信息。其包含了2 种学习跨语言模型的方法:一种是只依赖单语数据的无监督学习方法;另一种是利用平行数据和新的跨语言模型目标的有监督学习方法。

XLM 跨语言模型设计了一种共享子词的词汇,即该模型对所有语言使相同的共享词汇,这有助于为所有语言的令牌建立通用的嵌入空间。该词汇使用字节对编码进行构建,从随机多项式分布采样的句子中进行字节对编码学习。其共享的内容包括了相同的字母、符号、专有名词等。为了保证语料的平衡,句子的采样概率如公式(13)所示:

其中N表示语种数,ni表示句子数量,α=0.5。使用式(13)概率函数进行抽样可以提高训练语料较少的语言出现的频率,同时也可以避免小语种在字节对编码的过程中被切分成单个字符的情况。在对XLM 模型进行训练时,提出了3 种预训练任务,包括:因果语言模型(即通过前面的序列预测了当前词出现的概率)、掩码语言模型和翻译语言模型。2021 年Jiang 等人[23]提出XLM-K 跨语种预训练模型,将训练前的语言模型与跨多种语言的更具体的知识相关联,在LAMA 数据集的关系抽取任务中取得较好成绩,这对于关系抽取任务来说也是新的突破。

1.6 预训练模型对比

本文对近年来出现的主流预训练模型根据建模方式、特征抽取器和模型特点进行整理,如表1所示。

表1 预训练语言模型

在预训练模型被提出之前,关系抽取任务的解决思路就是在神经网络中通过Word2Vec的低维稠密矩阵去表征字词的语义关系。而后ELMO 模型利用语言模型进行预训练之后提取对应单词的字词表征以及句子的语义特征,作为新特征补充到具体的关系抽取任务中。GPT 模型在特征抽取器方面使用了功能更强大的Transformer结构,其能够捕捉更长的记忆信息,使用单向的语言模型,相较于传统的神经网络结构更易于并行化。BERT则在ELMO和GPT的基础上综合其各自优点,从而大幅提升了其在NLP领域的性能表现。其在针对具体的关系抽取任务训练时,使用掩码语言模型MLM(Masked Language Model)学习大量的语言本身知识,从而应用到关系抽取任务中。清华大学提出的ENRIE[24]引入了词与短语和百度公司提出的ENRIE1.0[25]着重改进了掩码策略,在进行关系抽取任务时引入了外部知识到预训练的过程中,从而学习到更多的特征信息。在此基础上,MTDNN[26]以及ENRIE2.0[27]也在预训练过程中引入了多任务学习来提高关系抽取的训练效果。BERT-WWM[28]相比于BERT 则通过改进掩码策略——对词进行掩码。RoBERTa[29]使用动态掩码策略相比于BERT 少了预测下一句的任务,同时用更多的数据对模型进行训练进而提升模型效果。Span-BERT[30]相较于RoBERTa提出了一种分词级别的预训练方法,选择对邻接分词进行掩码,在关系抽取任务中效果也有更好的表现。ALBERT[32]、TINYBERT[33]以及DistilBERT[34]等通过结构设计以及蒸馏来实现模型轻量化,使关系抽取任务更容易实现。基于BERT 的NEZHA[35]模型则利用相对位置编码策略进行模型训练。KnowBERT-W+W[36]通过将知识图谱的三元组信息、软位置编码以及可见矩阵引入到预训练模型中,从而学习到特殊领域的语义知识,进一步提升关系抽取的效果。

2 数据集及评测方法

2.1 数据集

近年来,涌现了越来越多的大规模用作关系抽取实验评估的数据集,这也进一步推动了深度学习在关系抽取领域的发展。正是有了这些大规模的数据才使得关系抽取预训练模型的训练成为可能。本文将关系抽取常用的数据集内容以及获取方式进行整理,如表2所示。

表2 关系抽取数据集汇总

2.2 评测方法

目前关系抽取主要是针对特定领域的研究,对于开放领域的关系抽取还没有较多深入的研究,因此缺少公认的评测标准。所以本文只针对特定领域的关系抽取评价指标进行介绍。针对关系抽取的结果,一般由准确率(Precision)、召回率(Recall)和F 值(FMeasure)这3项指标进行评价。其中,准确率是从结果查准的角度进行评测,与召回率是一对互相影响的度量,F值是综合前面两者对关系抽取结果进行评测,公式如下:

其中,β是调节准确率和召回率在F值计算结果中的占比的参数,在关系抽取领域一般情况下默认准确率与召回率的重要程度是一样的,所以β的值一般设为1,即用F1值表示F值,其计算公式可表示为式(17):

随着预训练模型在关系抽取领域的迅速发展,数据也越来越具有多样性,传统的F1值并不能很好地对多分类任务进行评侧。因此,出现了Micro 规则计算F值来评测多分类任务。TP 表示被模型预测为正类的正样本,TN表示被模型预测为负类的负样本,FP表示被模型预测为正类的负样本,FN 表示被模型预测为负类的正样本,其计算公式分别如下:

3 预训练模型在关系抽取任务中的性能分析

前期进行关系抽取的方法主要是依附于人工制定的规则,其局限性大,导致总体性能不佳。而后出现的基于机器学习的抽取方法则是通过统计语言模型的流水线方式。虽然效果有所提升,但是早期的词向量技术与模型网络结构的不成熟,限制了模型的表达能力以及训练效果。预训练技术在NLP 领域的成功应用让模型在处理任务时能够更好地提取到数据信息,从而带动了自然语言处理的发展,同时也推动了预训练模型在关系抽取的发展。

表3将当下关系抽取数据集中表现前列的预训练模型得分进行了整合,其中数据集挑选了相关论文使用频率高的ACE2005、SemEval-2010 Task 8、NYT、WebNLG、TACRED 和DocRED。其中ACE2005 选用了中文的数据集,而其他均是英文数据。通过对比可以看出预训练模型在中文数据集上的性能远低于其他数据集上的表现。这是由于从英文数据迁移到中文的时候,模型对于处理中文不够成熟以及中文与英文的语法结构、句意表达等不同所造成的。以下对各个数据集上主流的预训练模型表现进行分析介绍。

表3 预训练模型在各数据集上的表现

在ACE2005 数据集上,Table-Sequence[37]模型针对实体和关系的提取设计了2 种不同的编码器:序列编码器和表格编码器,它们分别捕获各自任务的相关信息,并利用BERT 注意力权重中携带的词与词的交互信息,相比于使用一个编码器的模型有了更好的提取效果。DYDIE++[38]相比于DYDIE[39]模型在关系抽取任务上创建了多句BERT 编码的span 表达,从而捕捉到相邻句子上下文的内部信息,这对于模型本身提升效果不大,但是模型性能超过了只使用BERT 的情况。总体来看,预训练模型在中文领域的关系抽取结果没有超过70%,存在较大的发展空间。

在SemEval-2010 Task 8 数据集上,基于BERT 的QA(Question Answer)[40]模型将训练集转换为QA 形式,将关系抽取问题视为一个类似于跨度预测问题的问答形式。而REDN[41]模型则使用矩阵而非一维向量来表示实体之间的关系。其设计了一种新的损失函数,使用到更多的信息来预测实体之间的关系。Skeleton-AwareBERT[42]模型通过对上下文表示施加约束来利用句中关键信息,并将句法指示符加入到上下文表示中,从而提高关系抽取的性能。模型KnowBert-W+W 的抽取性能已经高达89.1%,而在TACRED 数据集上评测值却只有71.5%,两者相差达到了17.6 个百分点。造成这一差距的主要原因是:TACRED 数据集是每年TAC-KBP 比赛语料库,其中新闻专线和网络文本数据内容复杂,包含了更多的关系类别,以及“no_relation”类别的数据占比更大,进而影响了模型在其的性能表现。

在发展成熟的NYT与WebNLG数据集上,HBT[43]模型为解决实体重叠的三元组问题,提出了新的级联二元标记框架,将关系建模为将主题映射到句子中的对象函数,从而更有效地地处理实体重叠问题。CGT[44]模型则是将三元组提取任务作为序列生成任务进行处理,使用共享的Transformer 模块,支持编码器-解码器的生成式三元组来对比多任务学习。不管是对模型结构还是数据标注方式的改进,模型在这2个数据集上的效果已经稳定在了88%左右。

DocRED 是主流的文档级别数据集,从表3 中DocRED 数据集的性能表现可以看出,预训练模型处理文档级别的数据比句子级别的数据更困难。主要的原因在于:1)文档级关系抽取作用的对象是整个文档,大量的信息分布在不同的句子里;2)整个文档中可能存在多个信息指向同一个实体;3)部分关系需要经过多重信息的推理才能得到。目前基于文档级关系抽取的方法主要分为2 类:基于序列和基于文档图的方法。基于序列的方法主要是直接使用神经网络学习文档中实体表征来进行分类。其方法效果虽然不及基于文档图的方法,但是相对简单,便于实际落地应用。而基于文档图的方法则通过对图传播的方法学习实体与关系的联系,能够取得更好的效果。如表3 所示,居前列的文档级关系抽取模型性能均基于文档图的方法所实现,其包括:ATLOP-RoBERTa[45]模型提出适应性二值化选取和邻近内容池化来解决多标签和多实体问题。针对多句子信息处理,GAINBERT[46]首先构建一个异构提及级别图来对文档中不同提及之间的复杂交互进行建模,在此基础上,提出一种新的路径推理机制来判断实体之间的关系,从而比起以往的技术有了显著的提升效果。

4 研究挑战与未来趋势

4.1 研究挑战

近年来,基于预训练模型的关系抽取技术日渐成熟,在很多领域的抽取已经达到了比较理想的效果,极大地推动了关系抽取的研究进展。但是依然需要研究人员投入大量的时间与精力进行不断的探索,因此也面临着一些挑战与困难。

1)资源消耗巨大。

随着预训练模型在关系抽取领域的应用越来越广泛,可通过深度学习的预训练从而学习到深层次的信息特征,但随之而来的是预训练规模越来越大,消耗的计算资源也越来越庞大。

以最具代表性的BERT 的base 版本为例,通常是用大规模的数据量和大规模计算量来处理关系抽取任务。表4 给出了主要的基准预训练模型的资源使用情况,除去早期的ELMO 模型外,后续的预训练模型包括GPT、XLNet 等训练数据量都以亿计数以及计算资源使用量都远远超过关系抽取领域的一般模型。庞大的数据量以及模型对计算设备提出了更高的要求,使得一般的科研人员无法训练一个完整的大规模预训练模型,如何降低高资源消耗的计算成本是面临的主要挑战之一。

表4 主要预训练模型资源使用情况对比

2)关系类型OOV问题。

关系类型OOV(Out of Vocabulary)问题是长期困扰关系抽取的一个问题,尽管预训练模型的提出一定程度缓解了困扰,但还是没有很好地解决这个问题。在关系抽取任务中,对于在训练集中没有给出的关系类型,模型无法正确地识别出实体之间的正确关系类型。对于此类问题,SemEval-2010 Task 8 引入Other 类对没有给出的关系类型进行描述,但这也只是为了提高模型的判断能力采取的一个措施,并没有真正地判断出Other 类的关系。因为模型对于Other类的关系本身难以定义,需要人工进行解释与判断,所以OOV 问题也是基于预训练模型的关系抽取亟待解决的挑战之一。

3)关系重叠。

数据中不同实体之间可能存在多种关系,这种现象称为关系重叠。在预训练模型广泛应用到关系抽取之前,主要采用参数共享的方法来处理关系重叠问题,但是往往存在严重曝光偏差问题。在预训练模型普及之后,解码方式使用片段分类和指针网络以及序列标注入手来处理此问题。Wang 等人[70]提出了一种新的实体关系联合抽取标注方案,即将抽取标注框架统一为字符对链接问题。其可在一个模型中实现真正意义上的单阶段联合抽取,解决了曝光偏差问题,同时可以解决关系重叠以及多关系实体嵌套问题,在NYT 和Web-NLG 这2 个数据集上都取得很好的效果。但是这也并不能彻底解决关系重叠问题,所以解决各种关系重叠类型的实体关系抽取和提高抽取性能是目前基于预训练模型的关系抽取研究难点。

4.2 未来趋势

预训练模型作为在自然语言处理的一个通用框架式模型,在关系抽取领域已经取得了较大的成功,但是依然需要更多的研究者进行不懈的努力探索。针对现有的基于预训练模型的关系抽取研究工作的基础上,后续研究的趋势主要在以下4个方面:

1)模型轻量化。

目前在关系抽取领域主流的预训练模型都需要在大量数据训练的基础上才得以构建成功,这往往需要消耗大量的计算资源。为了降低预训练成本,针对这些预训练模型进行网络蒸馏、参数共享以及嵌入式因式分解等改进,如百度飞桨NLP 团队提出的ERNIE-tiny 模型。ERNIE-tiny 就是ERNIE 模型的缩小版,使用更简单的浅层模型,将12 层的ERNIE Base 模型精简为3 层,而且为了尽量提升模型的效果使用了模型蒸馏,从而保证模型的特征提取能力。这比原来的ERNIE 模型大幅降低了模型参数,在效果没有下降很多的前提下又提升了训练速度。模型轻量化之后与原模型的效果保持在一个理想的水平。那么未来是否在计算能力有限的设备下也能进行预训练工作?除此之外,后续所提出的更多轻量化模型架构也非常值得关注。

2)优化预训练目标。

优化预训练目标是当前针对预训练语言模型在NLP 任务中最直接有效的改进方法。在关系抽取领域预训练目标决定了模型训练的方式和学习的目标,也直接影响了模型在文本中可以学习到哪些特征以及语义信息。预训练目标的优化也在一定程度上缓解了关系重叠与曝光偏差的问题。除了对预训练目标进行优化,也有研究人员从另一个方向进行优化:结合多任务学习的方式,对预训练目标进行研究。如微软提出的MTDNN 模型结合预训练与多任务学习的方式对预训练模型进行微调,在一定规模的数据集上就能有比较好的表现。所以利用“预训练+微调”的训练模式,在数据量一般的数据集的基础上,对预训练目标进行优化,这将是预训练模型在关系抽取领域进一步发展的趋势。

3)开放领域的关系抽取。

目前针对于开放领域的关系抽取还处在起步阶段,现阶段的研究主要集中在指定领域,这也是导致模型在其他领域上的泛化性较差的原因之一。虽然有相关人员针对实体关系抽取的开放领域提出了一些模型,但是相比于指定领域的效果还是差了很多。如何在开放领域使用预训练模型进行训练,提高判断的准确率以及模型的泛化性,这些都激励着人们花费更多的时间与精力去研究开放领域的关系抽取任务。

4)引入外部知识。

预训练模型的快速发展让其在NLP 的任务中有了一定的地位。这些模型先在开放领域的语料库进行预训练学习到基本的语言表示,然后在关系抽取下游任务中进行微调得到特定领域的知识。这也导致在训练过程的数据知识与微调知识存在差异的问题,因此训练好的模型在别的领域会表现出泛化能力不足的问题。针对此问题可以引入外部知识进行微调,如引入专家知识、知识图谱等方法帮助模型获取到更多的特定领域相关的知识。清华大学利用大规模的文本语料库与知识库来训练得到一个增强的语言表示模型,ERNIE 1.0 模型通过海量数据的字词、实体以及实体关系学习到语义知识。后续提出的ERNIE 2.0 模型通过新增的实体预测、关系判断等任务在预训练过程中学习到更多的语法、句法等多个信息,极大地增强了模型的语义表达能力。因此,采用预训练模型进行关系抽取任务的时候引入外部知识可以在一定程度上提高模型的理解能力。

5 结束语

本文主要概述了面向关系抽取领域的预训练技术及其发展历史,并根据预训练模型、数据集以及评价方法等方面对基于预训练模型的关系抽取进行介绍。随之出现的ELMO、GPT、BERT 和XLNet 等动态预训练技术和基于BERT 的改进模型在关系抽取领域都表现亮眼,并在关系抽取领域常用的数据集中对比了各个预训练模型的性能表现。尽管近年来关系抽取领域获得了蓬勃的发展,但是由于数据以及模型复杂等问题,目前的预训练技术发展还存在很大的挑战。如何更方便、更有效地训练出高性能的关系抽取模型仍然是研究人员需要长期奋斗的目标。

猜你喜欢

领域语言模型
重要模型『一线三等角』
重尾非线性自回归模型自加权M-估计的渐近分布
语言是刀
领域·对峙
让语言描写摇曳多姿
累积动态分析下的同声传译语言压缩
3D打印中的模型分割与打包
FLUKA几何模型到CAD几何模型转换方法初步研究
我有我语言
新常态下推动多层次多领域依法治理初探