APP下载

基于槽位语义增强提示学习的篇章级事件抽取方法

2023-09-18李鸿鹏杨雅婷

计算机工程 2023年9期
关键词:论元模板模型

李鸿鹏,马 博,杨雅婷,王 磊,王 震,李 晓

(1.中国科学院新疆理化技术研究所,乌鲁木齐 830011;2.中国科学院大学,北京 100049;3.新疆民族语音语言信息处理实验室,乌鲁木齐 830011)

0 概述

事件抽取的目标是对非结构化文本中的重要事件信息以结构化形式进行识别提取[1]。在事件抽取中,最能代表事件发生以及事件类型的词称为触发词,围绕着触发词的相关人物、时间、地点等实体称为事件论元,事件论元在事件中扮演的角色称为论元角色[2]。篇章级事件抽取任务要求从篇章层面对分布在不同句子内的事件要素同时进行抽取。早期的事件抽取方法的抽取范围局限于单个句子,其假定目标事件位于单句内,通过图对问题进行简化,与现实情况不符,且早期研究将事件抽取任务看作实体分类任务,多采用管道式实体识别与事件论元分类方式进行实现,在模型训练过程中需要大规模标注数据,该类方法在低资源领域表现不佳,抽取过程中容易产生累积误差问题[3]。

随着预训练语言模型的出现,基于提示学习的序列生成式方法在篇章级事件抽取任务中得到应用。通过对预训练语言模型添加不同的提示(Prompt),能够在模型参数不变的情况下对包含不同事件类型的篇章文本实现事件要素的判别与分类。提示学习方法基于预训练语言模型的自然语言理解能力,通过注意力机制计算篇章文本的全局特征,从而实现篇章级文本的端到端表征学习,相比传统方法具有更高的泛化能力与训练效率。然而,现有的提示学习方法多数基于自然语言描述与事件论元槽位构造提示模板,模型对提示模板中的槽位进行答案生成与填空,在槽位值预测过程中存在论元角色分类错误的问题,无法对预训练模型的预测答案空间起到很好的约束作用。

针对上述问题,本文提出一种基于槽位语义增强提示学习的篇章级事件抽取方法。在提示学习方法的基础上对传统事件抽取任务进行重构,将传统事件抽取范式的事件论元角色作为语义信息融入提示模板槽位中,对提示模板形成槽位语义提示,对模型的生成答案空间进行约束,从而提高篇章级事件抽取的论元角色分类准确率。本文模型属于端到端的编码解码器模型,利用序列生成式预训练语言模型对输入篇章添加对应的提示模板,对篇章文本进行编码表示。模型根据输入篇章及提示模板对论元槽位生成对应的填空预测,实现事件论元抽取。在中英文篇章级事件抽取公开数据集上进行实验,在不同训练数据规模下验证模型的自适应能力,同时在篇章级事件抽取任务中应用知识迁移机制验证模型的迁移学习能力。

1 相关工作

1.1 篇章级事件抽取

篇章级事件抽取需要同时考虑句子与篇章的文本特征,涉及更多的事件类型和论元角色,是事件抽取领域的难点问题。如图1 所示,与触发词“约谈”相关的事件论元同时存在于句子S1 与S2 中,且论元角色“约谈机构”和“公司名称”在篇章中存在多个对应论元。

图1 篇章级事件抽取示例Fig.1 Example of document-level event extraction

JI 等[4]较早将论元时态信息作为篇章级特征应用到事件 抽取中。YANG 等[5]将卷积 神经网 络(Convolutional Neural Network,CNN)与双向长短时记忆(Bidirectional Long Short-Term Memory,Bi-LSTM)网络相结合,利用CNN 进行触发词识别,使用Bi-LSTM完成句子的论元抽取,通过上下句论元补齐方式实现篇章级事件抽取。陈斌等[6]提出一种基于长短时记忆(Long Short-Term Memory,LSTM)网络的触发词抽取方法,利用上下文信息提高抽取准确率。

近年来,具有更强表征学习能力的Transformer以及大规模预训练语言模型得到研究与应用[7]。ZHENG 等[8]利 用Transformer 进行篇 章实体 抽取和事件类型判别,基于有向无环图对事件进行建模,通过图路径拓展方式实现中文篇章级事件抽取。仲伟峰等[9]提出一个基于联合标注和全局推理的篇章级事件抽取模型,该模型结合注意力机制与多层感知机实现篇章级事件抽取。

在中文篇章级事件抽取公开数据集方面:百度提出了中文金融领域的篇章级事件抽取数据集Duee-fin;YANG 等[5]提出一个中文金融篇章级事件抽取数据集,ZHENG 等[8]在此基础上利用远程监督扩充得到数据规模较大的中文事件抽取数据集。在英文篇章级事件抽取公开数据集方面:EBNER 等[10]提出一个新闻领域篇章级事件抽取数据集RAMS;LI 等[11]提出一个新闻篇章级事件抽取数据集WikiEvent,并利用生成式预训练语言模型实现了英文篇章级事件抽取。

1.2 提示学习

以GPT-3 为代表的序列生成式预训练语言模型在各项自然语言处理(Natural Language Processing,NLP)任务中具有优秀的阅读理解能力,通过对下游任务添加提示,能够以问答或填空形式进行回答[12]。受到此类工作的启发,将传统下游任务重构为语言生成任务的研究开始出现,以解决目标领域的低资源问题。

LEVY 等[13]提出一个基于机器问答(Question Answering,QA)的关系抽取模型,实现了英文的关系判别与抽取。PETRONI 等[14]通过将关系抽取任务修改为填空式三元组补齐问题,在不修改预训练语言模型的情形下得到了比知识库更好的关系抽取效果。SHIN等[15]将提示学习应用于关系抽取任务,基于梯度搜索得到优质提示模板,提升了模型的关系分类能力。LI等[16]将提示学习方法应用于命名实体识别任务,通过机器阅读理解形式实现命名实体识别。

在事件抽取领域,DU 等[17]利用问答提示形式提出一个基于BERT 的问答式事件抽取模型,在英文数据集上实现了句子级事件抽取。李珂等[18]提出一个基于RoBERTa 的实体抽取模型,以解决新闻文本的时间线挖掘问题。LIU 等[19]在QA 问答形式的基础上对篇章级事件抽取任务设计多轮问答和问答模板生成方法,实现了英文的篇章级事件抽取。

传统QA 方法的不足之处在于只能单次对单个目标论元进行抽取,当事件论元数量较多时,会产生效率下降与累积误差的问题。LI 等[11]将事件抽取任务转化为基于提示模板的条件生成式任务,但是其未充分考虑模型对模板槽位答案空间的准确约束,提示模板的数量和形式有限,也缺乏在中英文低资源领域和跨领域知识迁移上的应用。

2 模型结构

对篇章级事件抽取任务进行如下定义:设篇章文档D包含事件论元集合E,事件类型对应事件触发词trge和论元角色集Re。对于论元角色集中的论元角色r∊Re,事件抽取需要在文档D中识别出属于论元角色r的事件论元α∊E,抽取出论元角色与事件论元的关系对(r,α)。

以图1 文本“河北日报7 月19 日消息。近日,石家庄市文明办会同该市市场监管局召集美团、饿了么两大网络订餐平台运营商进行了行政约谈会议。”为例,传统事件抽取方法通过预定义的抽取范式,输出抽取结果为:(披露日期:7 月19 日)(约谈时间:近日)(约谈机构:石家庄市文明办,市场监管局)(公司名称:美团,饿了么)。

本文将传统事件抽取任务的输入部分重构为篇章文本与提示模板的组合,如图2 中的编号2 模块所示,以[s]与[sep]分别作为起始标识符与分隔标识符。

图2 事件抽取模型结构Fig.2 The structure of event extraction model

给定篇章D,模型通过提示模板知识库B对输入篇章匹配对应的提示模板tin∊B,其中,tin是一种对事件的精简自然语言描述,模板构成如式(1)所示:

其中:wi表示组成自然语言描述的单词;argj表示论元角色集Re中第j个事件论元在提示模板中的槽位;n代表模板单词长度。模型目标在于给定篇章和提示模板(D,tin),对tin的论元槽位arg 进行预测,输出填空后的生成模板tout,如式(2)所示:

其中:αj代表模型对槽位argj所填充的预测论元。若存在预测结果,则αj∊D;若不存在预测结果,则模型对槽位不进行填充,αj=argj。

以图1 文本为例,通过与提示模板“日期[arg]的报告称[arg]在[arg]约谈了[arg]”进行拼接,模型根据篇章内容输出槽位arg 的预测填空。新任务目标如式(3)所示:

其中:(D,tin)代表模型输入的篇章与提示模板;w∊E代表篇章D的对应事件论元。模型的目标转化为预测提示模板槽位的对应正确论元,最大化事件论元集合E的条件概率。

文献[12]阐明经过提示学习重构下游任务,能够提高预训练语言模型下游任务的一致性,更好地挖掘模型的潜在模式与先验知识,从而获得更优的少样本性能表现。

2.1 模板槽位语义增强层

传统提示模板方法由自然语言描述与论元槽位组合构成,槽位使用相同的编码值参与模型训练,在模型填空预测中无法起到足够的类型提示作用。文献[15]在关系抽取任务中验证了对模板添加提示的有效性。如式(4)所示,通过在提示模板槽位[M]前添加触发向量[T],构造新的模板,可以使得模型在关系抽取中获得更高的准确率。

本文将传统事件抽取范式中的论元角色作为外部知识,与提示模板槽位标签argi以及论元角色向量rrolei进行拼接,经过词嵌入层进行编码表示,构成增强后的槽位表示向量,将其输入模型编码层,如图3所示。模型解码层采用单向自回归式文本生成方法,对论元槽位进行类型约束,从而有效提高预测准确率。

图3 模板槽位语义增强过程Fig.3 Template slot semantic enhancement process

为实现提示模板槽位语义增强,本文以事件触发词作为关键值构建提示模板知识库。基于本文实验数据集的194 类事件类型构造提示模板库,基于216 类论元角色构建事件论元角色库,匹配流程如图4 所示。

图4 提示模板知识库Fig.4 Knowledge base of prompt template

以图1 文本为例,通过事件触发词“约谈”,知识库以键值匹配的方式,从事件论元角色库内匹配与“约谈”事件相关的论元角色“披露日期”“约谈时间”“约谈机构”“公司名称”作为论元角色语义信息,输入到模板槽位语义增强模块;从提示模板库匹配预定义提示模板“[arg]的报告称[arg]在[arg]约谈了[arg]”,输入到模板槽位语义增强模块。

2.2 双向词嵌入编码层

给定篇章D={w1,w2,…,wn}及对应的提示模板tin,其中,wi∊ℝd表示篇 章词语。将D与tin进行拼接,作为重构后的输入提供给模型。编码层结构如图5 所示,经过词嵌入层对(D,tin)进行嵌入表示。模型编码层与解码层共享词嵌入层的参数。

图5 模型编码层结构Fig.5 Model encoding layer structure

编码层通过多头自注意力机制计算得到编码向量,学习篇章与提示模板的表征关系[7]。如式(5)~式(7)所示,构造Q、K、V作为注意力权重矩阵,将多组编码器的注意力头进行拼接与线性变换,得到的输出作为(D,tin)编码后的向量表示。通过编码层输出词编码表示向量Ei与最末隐含向量提供给自回归解码层。

2.3 自回归解码层

解码层接收来自双向编码层的词编码向量和隐含向量,输入与输出间通过右移进行自回归式序列生成,生成填空后的提示模板tout。每层解码器接收前一个生成向量Ei-1以及编码层隐含向量作为输入,利用跨注意力机制进行计算,获得文本全局特征表示,输出预测词向量[20]。模型通过式(8)进行自回归式序列生成:

其中:c代表输入文本;xi代表对模板第i位词的生成预测。

为防止模型在预测过程中生成不属于篇章内的预测词,设计模型生成答案约束机制,如式(9)所示。若预测词w∊ℝd在篇章词表Vc∊ℝd×|D|内,输出解码层向量与预测词嵌入向量的点积,经过Softmax函数得到生成概率;若预测词不在篇章词表内,输出概率为0,从而将解码层的生成结果约束在篇章范围内,约束模型的生成答案空间,提升预测的准确率。

2.4 论元生成与槽位映射

在模型的事件论元生成阶段,对于代表特定论元角色的槽位argi,若篇章中存在复数事件论元与其对应,则在英文中使用“and”、在中文中使用“和”来对论元进行合并。在生成预测环节,使用top-k采样法进行预测采样,输出填空后的提示模板tout[21]。对预测结果为空的论元槽位进行槽位还原,输出“arg”表示空值,模型根据式(10)进行论元槽位填空生成:

模型的训练使用最大似然估计作为损失函数,如式(11)所示,遍历篇章D中的所有事件,对给定篇章文本ci条件下的生成序列xi,计算其预测值与真实标签的最大似然估计值。

在论元槽位映射层中,依据各个槽位在提示模板中对应的角色,对槽位预测值进行论元类型分类与论元抽取,得到结构化事件信息,如图2 模块1 中的模板槽位结果映射层所示。

2.5 跨领域预训练与知识迁移

知识迁移指模型在任务形式相似的源任务上进行学习,以获取有效的领域知识,再将其迁移到目标任务上进行训练[22]。LIU 等[12]验证了提示学习方法在知识迁移上具有较高的自适应性以及较小的迁移成本。本文在中文数据集上进行跨领域知识迁移实验,由如下2 个部分组成:

1)跨领域预训练。在对目标任务进行训练前,使用领域相似任务T对模型进行跨任务预训练,训练目标如式(12)所示:

其中:T代表预 训练任 务;代表任 务中的训练样本表示给 定输入条件下预测 结果的最大似然估计。训练过程中针对整体损失Lcross进行学习。

2)目标任务训练。对获得领域知识的模型进行目标任务训练,训练目标如式(13)所示:

其中:D为目标任务输入篇章;e代表D中的单个事件;(r,α)代表事件e中的事件论元与论元角色对。

通过提示学习的任务重构,本文方法保持了预训练语言模型上下游任务的一致性,对目标损失值Lin进行学习,能够利用模型预训练阶段的领域知识提高目标领域内的收敛效果与自适应能力。

3 实验验证

本文在英文篇章级事件抽取数据集WikiEvent与RAMS 上进行实验,并选择RAMS 数据集验证模型在100%、50%与25%数据规模下的性能表现。在中文事件抽取任务上,使用包含大规模数据量的中文篇章级事件抽取数据集ChFinAnn 进行跨领域预训练,该数据集包含5 种金融主题的事件类型和35 种论元角色,共有约3 万条篇章[8]。当模型收敛后,在百度金融篇章级数据集Duee-fin 上进行目标任务训练,并与基线模型的结果进行比较。在消融实验环节,分别去除模型的提示模板槽位语义增强机制、将提示模板更换为传统事件抽取范式,对比模型性能变化。在跨领域知识迁移实验中,分析模型在不同数据规模下的性能表现。

3.1 实验设置

3.1.1 数据集

WikiEvent 来源于英文维基百科新闻篇章,事件类型的定义依据语言数据协会的KAIROS 事件抽取范式,包含31 种事件类型与59 种论元角色。RAMS数据集的事件类型定义依据语言数据协会的AIDA 范式,包含150 种事件类型与65 种论元角色。Duee-fin来源于金融财经领域的新闻篇章,包含13 种金融事件类型和92 种论元角色。数据集的详细信息如表1所示。

表1 实验数据集信息Table 1 Experimental datasets information

3.1.2 超参数设置

实验环境为Ubuntu 18.04,GPU Tesla V100×4,采用Python3.7,PyTorch1.6.0。训练批次大小为8,学习率为0.000 5,迭代次数为10 次,使用Adam 作为优化器,优化器权值衰减为0.000 1。

3.1.3 评价指标

使用精确率(P)、召回率(R)与F1作为评价指标。在论元识别(Arg Identify)环节,模型抽取出正确事件论元视为正例,反之视为负例;在论元分类(Arg Classify)环节,模型对论元角色进行正确分类视为正例,反之视为负例,以论元分类指标作为最终评估指标。由于WikiEvent 数据集在标注过程中遵循头实体(Head Entity)标注法,并且额外标注了事件论元的指代关系,因此分别使用HeadF1与CorefF1进行评估。

3.1.4 对比模型

本文在英文篇章级事件抽取实验中,使用WikiEvent 与RAMS 数据集上的Sota 模型作为对比基线模型,包括:

1)BERT_QA,基于预训练模型机器阅读理解机制实现的英文事件抽取模型[17]。

2)BERT-CRF,基于BERT 和条件随机场实现的序列标注式事件抽取模型[23]。

3)DocMRC,在BERT_QA 基础上实现问答模板生成的英文篇章级事件抽取模型[19]。

4)BartGen,基于手工设计提示学习模板的生成式英文篇章级事件抽取模型[11]。

在中文篇章级事件抽取实验中,使用Duee-fin数据集上的Sota 模型作为对比基线,包括:

1)Doc2EDAG,基于Transformer 篇章实体标注与图路径拓展的篇章级中文事件抽取模型[8]。

2)GIT,利用图神经网络对实体进行编码的中文事件抽取模型[24]。

3)PTPCG,基于伪触发词完全修剪图的中文篇章级事件抽取模型[25]。

3.2 实验结果分析

3.2.1 英文事件抽取实验

在WikiEvent 数据集上进行实验,结果如表2 所示,其中,Arg Identify 评估模型对论元的识别能力,Arg Classify 评估模型对识别论元进行正确分类的能力,最优数据加粗标注。从表2 可以看出:传统事件抽取方法在低资源数据上无法获得理想的性能表现,在2 个指标上表现均较差,论元识别指标F1均小于60%,论元分类指标F1均小于50%;基线BartGen采用传统提示学习方法,本文方法引入了槽位语义增强机制,有效提高了论元分类准确率,在论元分类指标F1上提高2.6 个百分点,在论元识别指标F1上提高2.2 个百分点,表明本文方法能够提高模型的论元抽取准确率。

表2 WikiEvent 数据集上的实验结果 Table 2 Experimental results on the WikiEvent dataset

在RAMS 数据集上进行不同数据规模的实验。RAMS 数据集包含150 种事件类型与65 类论元角色,对模型的泛化性能具有较高要求。从表3 可以看出:传统方法在面对多分类任务与低资源场景时,表现出较低的F1与较多的性能折损;基线DocMRC与BartGen 在训练数据规模从100%降低至25%后,F1分别下降4.0 与6.0 个百分点;由于采用了更优的提示学习方法,本文模型相较基线模型在精确率等指标上均得到提高,获得了49.8%的F1,并在低资源场景下保持了3.9 个百分点的性能损失率,表现出更好的泛化能力。

表3 RAMS 数据集上的实验结果 Table 3 Experimental results on the RAMS dataset %

3.2.2 知识迁移实验

利用ChFinAnn 数据集作为跨领域预训练数据进行模型预训练。为得到更大的训练数据规模,提高模型的自然语言理解能力,在训练集中引入不同类型的随机噪声,提高模型在下游任务中的泛化能力。本文在训练过程中以同等概率随机对数据集的输入篇章做如下处理:

1)对篇章字符进行15%掩码操作。

2)对篇章字符进行15%删除操作。

3)替换篇章中15%的字符位置。

4)保持不变。

通过20 轮迭代使模型达到收敛。在目标任务Duee-fin 数据集上进行下游训练,选择迁移后的模型参数作为初始化参数并迭代收敛。从表4 可以看出,本文模型对比传统基线模型在召回率与F1上取得了较大提升。传统数据驱动型模型在面对复数事件论元时性能表现不佳,取得了较低的召回率。本文模型通过跨领域预训练与知识迁移并引入随机噪声,获得了更高的鲁棒性与较好的自适应能力,相较于次优基线模型在召回率上取得了6.7 个百分点的提升,在F1上取得了2.9 个百分点的提升,验证了跨领域知识迁移机制在事件抽取中的有效性。

表4 Duee-fin 数据集上的实验结果 Table 4 Experimental results on the Duee-fin dataset %

利用领域相近的大规模语料训练模型在复杂文本上的机器阅读理解能力,在不同的数据规模下,验证模型相较未经知识迁移时能否获得更好的性能表现。在Duee-fin 数据集不同训练数据规模下进行模型迁移前后的性能对比,结果如图6 所示。从图6 可以看出,经过知识迁移的模型只需10%的训练数据便能达到60%以上的F1,在低资源情况下具有更好的性能表现。

图6 不同数据规模下的知识迁移效果Fig.6 Knowledge transfer effects under different data scales

3.2.3 消融实验

本文在Duee-fin 数据集上进行如下消融实验:

1)去除提示模板的槽位语义增强机制,将其命名为PlainTemp。

2)将自然语言描述的提示模板更改为非自然语言描述的传统抽取范式,将其命名为SchemaTemp。

3)不进行跨领域知识迁移的预训练,将其命名为NonTransfer。

从表5 可以看出:消融项PlainTemp 去除提示模板知识库以及槽位语义增强机制,槽位预测答案空间增大,导致F1出现1.8 个百分点的下降;消融项SchemaTemp 使用结构化语言作为提示模板,由于模型预训练阶段无法理解非自然语言描述的结构语义,因此降低了上下游任务的一致性,导致F1下降5.3 个百分点;NonTransfer 消融项去除知识迁移机制后模型也表现出一定的性能下降,在大规模样本上F1降低了0.8 个百分点。此外,图6 结果表明,知识迁移机制在低资源情形下也能得到较好的性能提升。

表5 消融实验结果 Table 5 Results of ablation experiment %

3.3 错误分析

以RAMS 测试集篇章为例,对比本文模型与基线模型DocMRC、BartGen 在同一例子上的预测结果。表6 所示为篇章原文和各模型的事件抽取结果,其中,括号内“T”代表抽取结果正确,“F”代表抽取结果错误,原文下划线片段对应事件论元正确答案。篇章包含的事件类型为“poison/attack”,论元角色包括“attacker”“target”“instrument”“place”。原文为:

表6 案例分析结果 Table 6 Case analysis results

Read more:The stealthy,nefarious way an ex-KGB officer was murdered in London.Full report:Russian President Vladimir Putin implicated in fatal poisoning of former KGB operative.Russian tycoon found dead in Britain after falling out with Putin.The ancient art of poisoning.

从表6 可知:本文模型能够正确识别篇章中的事件论元,并根据论元槽位分类到正确的论元角色;BartGen 的模板设计并未考虑槽位语义增强机制,导致预测槽位时无法抽取准确的论元角色“place”;DocMRC 使用问答形式对每个论元角色设计问题,模型输出答案,但是同样出现了答案错误的情况,对“target”角色的论元抽取出了多余结果,对“attacker”论元角色无法抽取答案,输出了空值。由此表明,在篇章级事件抽取中,本文模型相比传统模型具有更好的抽取效率和准确率。

4 结束语

本文提出一种基于槽位语义增强提示学习的篇章级事件抽取方法。将基于提示学习的提示模板填空生成机制应用到篇章级事件抽取任务中,并将传统事件抽取范式以外部知识形式融入提示模板构造中。通过对传统事件抽取任务进行重构,更好地利用预训练模型的自然语言理解能力,在一定程度上缓解不同任务间范式不统一、难以迁移的问题。实验结果表明,该方法可以在低资源场景下取得较好的性能表现,能以较低的成本进行知识迁移,具有较好的泛化能力。下一步将探索更好的提示模板形式和知识迁移方式,提高模型在零样本和跨领域方面的性能表现。

猜你喜欢

论元模板模型
一半模型
铝模板在高层建筑施工中的应用
铝模板在高层建筑施工中的应用
重要模型『一线三等角』
重尾非线性自回归模型自加权M-估计的渐近分布
成分重量和粤方言双及物结构的论元语序
基于论元结构和题元指派对汉语处置义“把”字句的句法语义分析
3D打印中的模型分割与打包
铝模板在高层建筑施工中的应用
城市综改 可推广的模板较少