基于跨证据文本实体关系构建的事实核查研究

2024-05-09贺彦程朱聪慧

中文信息学报 2024年3期

贺彦程,徐冰,朱聪慧

(哈尔滨工业大学计算机学院,黑龙江哈尔滨 150001)

0 引言

随着社交网络的发展,人们越来越喜欢在网络平台上浏览相关资讯并发表自己的观点。但是社交网络的隐匿性和杂乱性使大量的虚假信息得以迅速传播。对于网络上存在的大量文本信息,人工判定其虚假性耗时耗力,因此近几年越来越多的研究者开始关注虚假信息的自动化检测,该研究对网络舆情的监控有重要意义。

自动化虚假信息检测是指利用用户行为、外部知识等特征信息对网络上发布的文本进行虚假性检测。其中根据分析对象和分析方法的不同可分为事实核查[1-2]、虚假新闻检测[3-4]和谣言检测[5]等。事实核查通常是先收集相应的证据文本,通过证据文本进行核查验证[2],其需要先从大规模文本语料库中抽取相关的证据,并通过推理对给定的声明作出真假性判断[3]。Thorne[6]首次提出事实核查领域的大型数据集FEVER和相应的评测任务,该任务旨在根据从维基百科检索到的证据语句,将人工构建的声明自动分类为“证实”“驳斥”或“证据不足”。

目前大多数研究都将该任务分为三个阶段处理:证据检索、证据筛选和虚假性判别。首先,根据相应的声明在维基百科等知识库里检索与之相关的证据文档;其次,对证据文档进行语句级别的筛选;最后,结合筛选后的语句推理得到其虚假性判别结果。如图1中的数据所示,下方是根据声明中的关键信息检索得到的相关证据,由第一条证据文本可知《随爱沉沦》是一部浪漫喜剧电影,验证了声明中的“comedy film”,又由第三条或第四条证据文本可知,这部电影在2003年公映,从而可知该声明的正确性。

图1 事实核查数据样例

虚假性判别通常被视为自然语言蕴含推理任务[2,7],其需要判断提取到的证据句和声明在语义上是否存在推理矛盾关系。该阶段是目前事实核查任务的主要瓶颈所在[6], 也是本文研究的重点。目前该阶段的研究主要存在以下两个难点:一是需要捕捉证据文本与声明之间的细粒度语义关联;二是需要结合跨语句特征信息做综合推理。目前有相关研究提出引入多头注意力机制(Multi-head Attention)[8]来捕捉证据文本包含的细粒度语义信息[9-11],但这类方法都极易受文本中的噪声信息影响。同如图1中的示例,经验证,此类模型会受第二条证据文本中的其他时间干扰。同时直接采用多头注意力机制不易捕捉长距离的语义联系。随后图神经网络又受到很多研究者关注[12-16],因为其可以建模数据间复杂的语义关系,更有效地捕捉远距离的语义关联,但它们大多直接采用整句的语义表示作为图节点[13-14,16],通过全连接的方式连接各个节点[14,16]。这类方法都未能在多个证据中捕获丰富的语义关联信息,也未能更深层次地挖掘多个证据句之间的关系。

针对当前事实核查任务依然存在的问题,本文从更深一步挖掘声明和证据文本之间的关联性的角度出发,提出了基于跨证据文本实体关系的图卷积网络模型,旨在提供对任务实际情境更有效的先验信息,更大程度地发挥图神经网络的优势。我们对数据的分析发现,各文本中的实体关系对虚假性判别结果有重要影响,大部分虚假性声明是由于存在某个实体对象与证据文本不对应或是实体关系错误等问题,例如时间节点错误、人名错误等。因此我们认为虚假性判别任务的核心在于实体本身和实体之间的关系,同时其判别大多是围绕具体的实体对象展开。这与普通的自然蕴含推理任务不同,虚假信息往往存在一个具体的载体,例如“你今天心情不错”并不传达客观有效信息,不存在真假之分;而对于“刘翔是一名田径运动员”之类的表述就存在对其中包含的客观实体相关信息的真假性判别。同时,目前主流的证据检索方式是依据声明中的实体检索相关文档,因此证据句与声明之间的关联同样建立在实体之上。研究发现,与推理过程契合的图节点设立方式和连接方式才能更大程度地发挥图神经网络的有效性,使得图模型性能有实质的提升。

所以针对该任务特性,本文提出了基于跨证据文本实体关系的图卷积神经网络模型(Cross-EvidenceEntityRelation ReasoningModel,CERM)。不同于以往大多数研究中图节点只依赖于单一类型的语义单元(如语句、词语),我们引入了实体和语句两种不同粒度的语义单元作为图节点,语句向量作为外层粗粒度语义信息表示,实体向量作为内层细粒度语义信息表示,模型在不同粒度语义单元的交互中产生不同含义的语义交互。在具体实现上,首先基于证据内的实体关系链接建模该条证据内部语义,基于不同证据文本的相同实体链接获取同一实体对象的属性信息。经验证,这样可以更准确地收集与该实体相关的信息,同时在一定程度上减少噪声信息的干扰。模型再进一步通过多层图卷积网络计算学习细粒度的多维度语义向量,然后在此基础上通过图注意力机制提取与特定声明相关的证据表征,最终结合声明文本进行虚假性判别。在公开数据集FEVER上的实验结果表明,本文提出的模型与基线模型相比性能提升明显,证实本文所提方法的有效性。

综上,本文在采用图神经网络的基础上,在图的节点、图的连接方式和图计算上均提出了更深层次的改进。本文的主要贡献如下:

(1) 提出一种基于跨证据文本实体关系的图卷积神经网络模型,该模型利用跨证据句的实体关系来聚集同一对象的关键信息,同时过滤噪声,提高虚假性判别的准确率。

(2) 在证据筛选阶段,采用交互式相似度模型[35],同时在训练阶段构建难易负样本,采用启发式证据句检索算法,提高证据句召回率,减少关键证据信息的遗漏。

1 相关研究

事实核查是一项具有挑战性的研究任务,需要根据多条证据文本中的信息推理出声明的虚假性。Thorne等人[1]构建了目前最大的事实核查数据集FEVER并发起评测竞赛引起大批学者关注。

现有的事实核查研究通常沿用FEVER的官方基线[1],分为三个阶段处理:证据检索、证据筛选和虚假性判别。对于前两个阶段,大多数研究沿用Hanselowski等人[17]提出的方法,用成分分析工具提取声明中包含的实体,再利用实体链接检索相关文档,然后训练增强的序列推断模型(Enhanced Sequential Inference Model, ESIM)[18],计算语句间的语义相似度,从而筛选相关证据文本。考虑到实体的歧义性,Nie等人[19]引入知识图谱检索更多相关文档。Bert[20]、Robert[21]等大规模预训练模型的出现,使得文本理解能力大大提升,所以Liu等人[16]引入Bert预训练模型计算语句间的相似度,提升证据筛选阶段的准确率。另外,Wan等人[22]提出了一种基于强化学习的精确证据检索方法,通过强化学习增强语义学习的泛化能力和鲁棒性,但是这些方法都是计算语句级别的相似度,很容易引入大量噪声或遗漏一些重要的隐式证据信息。

第三阶段即虚假性判别,是本文研究的重点,也是该任务目前主要的瓶颈所在。其需要模型学习丰富的细粒度语义特征,同时能够捕捉跨语句的深度语义关联。为了达到这一目的,Nie等人[19]和Tymoshenko等人[11]采用多头注意力机制来捕捉声明与证据文本之间的关联性。但是它们难以学习到不同粒度的语义结构信息,所以Kruengkrai等人[10]在此基础上设计了不同层次的句间与句内注意力机制来解析声明与证据文本之间的语义信息,Yi[23]和Dun[24]等人引入知识图谱扩展模型的理解能力。另外也有引入辅助任务加强模型泛化性的相关研究,如包含立场判定或情感分类的多任务学习机制[25]。

此外,图神经网络在该任务上也有较好的性能表现[26-27],其可以建模数据间的复杂关系,且能更好地捕捉远距离的语义关联,通过对邻居节点信息的聚集和传播来学习语义特征,比序列模型有更强大的推理能力。事实核查任务往往需要结合多个证据文本推理得到声明的真假性,需要远距离的语义交互以及强大的推理能力。Zhou等人[14]首次将图神经网络引入事实核查领域,将声明与每个证据文本句作为图的节点,同时节点之间采用全连接,通过多层图注意力层融合语义信息。但是考虑个别证据语句包含的信息可能与当前判定声明无关,Liu等人[16]提出核图注意力模型,通过节点核计算获取每个证据节点的重要性,通过边缘核计算获取融合语义特征的证据节点表征。Zhong等人[15]又进一步探究了图网络中的语义结构单元的影响,提出用更细粒度的短句作为图节点表示,以获得更细粒度的语义交互。而Park等人[12]结合了上述研究方法,提出结合语义层面的图推理、语句级别的选择性图推理以及序列推理三种机制进行推理判断。这些方法都使模型的推理能力获得一定程度的提升,但是它们都局限于单一节点,而且也并没有进一步分析挖掘声明与证据文本之间的潜在关联。

本文从提供对声明虚假性判别更有效的先验知识出发,更深一步挖掘声明和证据文本之间的潜在关联,构建更直接有效的图神经网络模型。

2 基于跨证据文本实体关系的虚假性判别

本节将主要介绍本文提出的基于跨证据文本实体关系的图卷积神经网络模型。该模型核心思想是通过证据句整体语义向量与其包含的实体语义向量相连建模证据句内部语义信息,通过不同证据句之间的相同实体链接建模证据句外部语义信息。以实体作为信息聚集的中心,以实体之间的关系作为信息传播的基础,使模型能准确收集到与声明中包含的实体相关的属性信息,同时在一定程度上减少噪声信息的干扰,然后利用图注意力机制提取与当前判别声明相关的语义特征,最终获得虚假性判别结果。模型整体结构如图2所示。

图2 CERM模型结构图

我们从图的节点设立、图的节点连接和图的计算等三个方面进行了改进。本节将着重介绍如何利用上述关键思想搭建图神经网络并讲解初始化边的方法,同时说明实现信息聚集和传播的计算方式。

2.1 图的构建方法

首先对每个证据文本用AllenNLP命名实体识别工具标注出其包含的实体,数据集中每个证据句会有相应的文档标题,我们会默认将其加入到该句实体集中,然后依次将每个证据文本句送入预训练模型,提取[CLS]对应的隐藏向量Si∈R1×d作为该证据文本的表示节点, 其中d为预训练模型隐藏层向量维度,同时提取实体处的隐藏向量{hi,hi+1,…,hj},求平均值作为该实体的表示Ei∈R1xd,然后执行以下步骤:

(1) 将提取出的所有证据句节点Si和其包含的所有实体节点Ei作为图初始节点;

(2) 每个证据句节点Si指向其包含的实体节点Ei;

(3) 同一个语句包含的实体节点之间双向连接(同一语句的实体之间存在语义关联);

(4) 不同语句的相同实体节点相互连接(捕捉跨语句的语义联系)。

构建示例如图3所示,证据文本与实体之间单向连接,即证据文本的信息只流向其包含的实体节点,相同实体节点之间双向连接,即不同证据文本的相同实体之间相互交换信息。至此可以得到一个异构图G,图中有两个类型的节点{S,E},分别是证据节点S和实体节点E,所有节点向量的维度相同。

图3 图网络搭建示例

2.2 图的多层卷积计算

搭建相应的异构图后,需要通过多层图卷积操作汇集每个邻居节点的重要信息。通过前面步骤可以得到异构图G=(V,E),V表示各个节点,包括证据节点Si∈R1×d和实体节点Ei∈R1×d。首先对邻接矩阵进行拉普拉斯归一化,如式(1)所示。

A∈Rn×n为图的邻接矩阵,其中Aij表示节点i与节点j之间的权重。D表示度矩阵,其中Dij=∑jAij。

然后通过L层卷积层操作聚集邻居节点的信息,同时传播自身信息,以此更新每个节点的表示,如式(2)所示。

其中,H(l)是第L层节点的表示,σ表示激活函数。W是可学习的注意力权重矩阵。受文献[13]Wang等人提出的用PMI初始化边权重的启发,本文设置了实体相关度I,用两个实体在候选证据句中的共现频率来表征两个不同实体之间的相关度,计算公式如式(3)～(6)所示。

Ns是候选语句个数,Nei是包含实体ei的语句个数,N(ei,ej)是同时包含实体ei和实体ej的语句数。所以P(ei)是实体i在所有证据文本中出现的频率,P(ei,ej)是实体i与实体j之间的共现频率。因此I可以反映两个实体之间的关联程度,共现频率越高,边权重越大。另外,证据节点与其包含的实体节点之间的权重统一设为1。通过多层卷积计算后得到各证据句实体节点集合He={He1,He2,He3,…,Hek}。

2.3 图注意力机制

在经过多层图卷积操作后可得到最终的图节点语义表征,再通过图注意力机制提取特定于当前声明的证据表示。首先将声明文本经过预训练模型,提取[CLS]对应的隐藏向量Hc作为声明的语义向量,然后计算每个实体节点与声明的权重。

其中,“||”表示拼接操作,W0∈RH×2,W1∈R1×H,qj表示第j个实体节点对声明的重要性。接着对权重进行归一化处理,然后计算各节点的权重和,作为与当前声明相关的综合证据表示。

最后将声明与证据表示拼接送入分类线性层得到各类别置信度,如式(10)所示。

其中,W2∈RC×2H,b∈RC×1,C为标签类别个数。

3 证据检索和证据筛选

本节将简要描述证据检索和证据筛选阶段所采用的方法。在证据检索阶段,目前较为常见的方法有基于增强的序列推断模型和BERT类的预训练模型的相似度计算,但这些方法难以学习到声明与证据文本之间的深层语义关联,同时极易遗漏一些与声明隐式相关的证据句。因此本文在相关性模型训练阶段使用了不同的正负样本构建策略,在提取阶段采用了启发式的证据句提取算法,保证该阶段具有较高的召回率,进一步提升虚假性判别阶段的准确率。

3.1 证据检索

证据检索阶段我们主要参照Hanselowski等人[17]的工作。首先通过标题匹配来进行初步筛选,再逐个遍历语料库文章,若包含声明中的成分短语,则进入候选集。然后进行第二阶段的匹配筛选,逐个计算声明与候选证据文本的TF-IDF相似值。最后选取Top-K相似的文档进入证据筛选阶段。

3.2 基于交互式相似度模型的证据筛选方法

通过证据检索获取的证据文档往往篇幅较长,包含大量与声明无关的噪声信息。同时按句切分会分割连续语义,遗漏重要的上下文信息。如图4中的证据示例,证据(2)是验证声明的重要线索,但该句与声明无显式联系。为了捕获更深层次的结构信息,我们采用交互式相似度模型[28]学习两段文本之间的语义关联。同时为了防止遗漏重要的隐式证据信息,本文采用启发式的证据提取算法,对重要证据线索的上下文进行二次低阈值搜索。

图4 检索过程中存在的隐式证据句示例

在交互式相似度模型训练阶段,我们从难易样本两个角度构建负样本,一是从全局文档库中随机采样,确保模型学到更均匀的向量空间;二是采样正确证据句所在文档的其他证据句,这些语句往往与声明中的某实体相关,但不能为其真假性提供证据,该类样本的加入能让模型学到更深层次的语义特征。正样本则来自数据集中给定的正确证据句。然后将声明、证据句所在文档标题以及证据句在输入处拼接:[CLS]+Claim+[SEP]+Title+Evidence+[SEP],送入预训练模型BERT,提取[CLS]向量h[CLS]作为当前输入的语义表示,然后通过激活函数得到候选证据的相似度分数,如式(11)所示。

然后通过启发式提取算法得到最终的证据集合。该算法的核心思想是计算声明与所有候选证据句的相似度后,对相似度较高的证据句的上下文进行二次低阈值搜索。若相似度高于低阈值则加入证据结果集中,以此避免遗漏重要的隐式证据信息。将最终生成的证据句集合作为虚假性判别的证据文本,具体流程如算法1所示。

算法1 证据句提取算法过程输入:Input=(C, D1, D2,…, Dn), Di表示证据检索后得到的第i个文档,C表示声明语句。输出:Output=(S1,…, Sk), Si表示检索得到的第i条证据句。1 初始化高阈值θ1和低阈值θ2。证据文档按句切分,然后将声明与每个证据语句拼接得到L=[l1,l2,…,ln], li=[CLS]+[claim]+[SEP]+[title]+[sentence]+[SEP],Model:Bert预训练模型, N:证据语句总数量。2 for i=1; i

4 实验

我们在公开数据集FEVER上进行实验,该数据集共包含185 455条声明和5 416 537篇维基百科文档,表1展示了数据集具体情况。虚假性类别有三类,分别是证实(SUPPORTED)、驳斥(REFUTED)和证据不足(NOT ENOUGH INFO)。

表1 FEVER数据集分布

为了更有效地评估事实验证模型的性能,主要采用两个评测指标,一是标签的准确率(Label Accuracy,LA),即预测正确的标签占比;另一个评价指标是FEVER Score(F.S),它同时考虑了标签的准确性和证据文本是否筛选正确。

4.1 实验设置

我们分别基于预训练模型BERT和RoBERTa进行实验,文本最大长度设为100,Batch Size均设为64,采用Adam优化器,学习率统一初始化为2e-5,同时使用余弦学习率衰减器。考虑训练过程中会出现过拟合,将Dropout均设为0.2。语句筛选阶段中的θ1设为0.9,θ2设为0.7。每一组实验结果均为设置三个不同随机种子结果的平均值,所有实验均在NVIDIA 3090上完成。

4.2 实验结果和分析

我们对比了七个基线模型,包括评测的Top方案[17]和后续相关的研究[14-16,29]。

(1) FEVER 1评测任务中的前三名模型: Athene[17]是将证据文本向量和声明拼接后通过自注意力机制获得最终向量;UCL MRG[9]是预测每个证据-声明对的标签,再综合计算最终标签;UNC NLP[19]是用同一语义匹配模型连接三个阶段的任务,同时考虑了界面的浏览频率等外部信息,在评测任务中取得了最好的结果。

(2) 基于预训练模型的方法:BERT-Concat模型是将声明与获得的所有证据文本拼接送入Bert模型;BERT-Pair模型是单独将每个证据文本与声明拼接送入BERT模型,然后使用自注意力机制提取得到最终的隐藏向量。

(3) 其他图神经网络模型:GEAR[14]模型将各证据语句作为节点,建立全连接图,使用图注意力机制汇聚各证据句信息;KGAT[16]模型提出核图注意力机制,边核注意力机制传播证据信息,顶点核注意力机制计算各证据节点的重要性;DREAM[15]模型使用SRL解析语句,并以得到的各短语作为节点构建图神经网络;LOREN[29]模型基于逻辑规则组合得到各声明真假性。

我们分别实验了不同预训练模型和证据检索方法下各模型的效果,表2展示了本文提出的模型与其他基线模型的对比结果。

表2 各模型在FEVER数据集上的实验结果 (单位: %)

续表

可以看到,本文提出的模型CERM在不同预训练模型基础上LA和F.S值相比基线模型均提升2%左右。除以逻辑规则为基础的LOREN模型,以图神经网络为基础的GEAR、KGAT、 DREAM和CERM模型要明显高于基于预训练模型的微调方案和其他序列模型,证明了图神经网络模型在该任务上的有效性,它具有更强的推理能力。其次,在使用相同的证据筛选方法下,本文提出的CERM模型相比其他模型在各项指标上均有较为明显的提升。可见本文依据实体关系进行图建模可以达到更好的判别效果。最后,在使用本文的证据筛选方法下,虚假性判定结果的准确性得到进一步提升,最终结果优于所有对比模型。

4.2.1 消融实验

本文从图的构建和图的计算方式等多个方面进行了优化,为了更全面地评估模型各部分对实验结果的影响,我们进行了一系列的消融实验。

(1) 图节点单元的影响

为了验证本文提出的基于跨证据文本实体关系的图网络构建方法的有效性,我们将三种以不同特征粒度作为图网络节点的方法进行对比,实验结果如表3所示。Sentence是以每个证据句作为节点的全连接图[14],Phrase是将语句中包含的短语作为节点的全连接图[15]。本文则是采用以实体节点为中心,证据句节点辅之的构建方式。图卷积计算与注意力机制计算各模型皆相同。

表3 不同图节点设立方式的实验结果 (单位: %)

从表中可以看到,结合实体和语句粒度构建图网络的效果最好且性能提升显著,可见以实体关系为桥梁连接证据为模型提供了更充分的先验知识,增强了模型的推理能力。

(2) 图节点连接方式的影响

本文基于证据之间的实体共现关系连接各个实体节点,以提供更有效的先验知识,让相同实体对象的信息聚集,减少不同实体对象信息的干扰。为了验证该结论,我们设计了相应的对比实验,实验结果如表4所示。其中,fully connected是将证据集合所有的实体对象进行全连接,entity connected是将相同证据的实体和不同证据的相同实体相连,各边权重均为1。可以看到,基于实体关系连接的图网络性能更好。

表4 不同节点连接方式下的实验结果 (单位: %)

另外,我们设立了关于边权重的消融实验,分别实验了权重均设为1和用实体之间的共现频率初始化两种方式。实验结果如表5所示。

表5 不同边初始化方式下的实验结果 (单位: %)

从表5可以看出,使用实体之间的共现频率初始化边权重的效果略好,在LA和Fever Score两个指标上均有所提升,可以证实以实体之间的共现频率初始化边权重能够增强图网络的学习能力。

4.2.2 样例分析

我们从实验结果中选取了部分预测正确的样例进行分析,如表6所示。(a)样例中,由第一条证据可知David Beckham与Victoria是夫妻关系,由第二条证据可知Brooklyn是David Beckham的儿子,综合这两条信息可知声明是正确的,但KGAT模型预测为“驳斥”(虚假声明),GEAR模型预测为“证据不足”,可见本文模型更好地捕捉到了实体之间的关联性。再如(b)样例,由第一条证据可知声明是虚假的,但是GEAR和KGAT模型均将其预测为“证实”, 推测由于二者均是直接将证据进行单词级别的融合,从而使第二条证据对模型产生了误导。而本文提出的CERM模型在学习过程中不同实体的信息会有不同的流向,能更好地学习到证据文本中各个实体所包含的信息,同时减少其他实体信息的干扰,从而避免了此类错误。

表6 CERM预测正确的例子

5 结论

本文提出了基于跨证据文本实体关系的图卷积网络模型用于事实核查任务,旨在基于证据文本之间的多重实体关系构建信息交互网络,提供对事实核查任务更有效的先验知识,提升模型的推理能力。通过实验发现,本文的方法能有效地捕捉到实体的相关属性信息和实体间的语义关系,在事实核查任务上效果提升明显。通过对现实数据分析发现,事实核查任务需要模型具有大量的先验知识,可见在模型中引入外部知识可以显著提升模型预测效果。同时随着社交媒体的发展,网络上传播的大多数数据包括图文等多种形态,结合多模态数据综合分析将会是未来的研究方向之一。