融入句法结构和摘要信息的文本蕴含识别模型

2023-10-21钟茂生罗贤增王明文

计算机技术与发展 2023年10期

钟茂生,孙磊,罗贤增,王明文

(江西师范大学计算机信息工程学院,江西南昌 330200)

0 引言

文本蕴含(Recognizing Textual Entailment,RTE)定义为一对文本之间的有向推理关系,其中前提句记作P(Premise),假设句记作H(Hypothetical)。如果人们依据自己的常识认为H的语义能够由P的语义推理得出的话,那么称P蕴含H,记作P→H[1]。文本蕴含识别任务的目的是判断这两个文本之间的语义关系:蕴含(Entailment)、矛盾(Contradiction)、中立(Neutral)。从另一个角度来看,这是融合语义关系的三分类问题,具体示例如表1所示。

表1 数据示例

近些年来,随着深度学习的快速发展,以及大规模数据集的发布,越来越多的研究者开始将深度神经网络应用于文本蕴含关系识别任务中[2-4],并在一些数据集上取得了巨大的提升。在深度学习的方法中,许多研究者都采用长短期记忆网络(Long Short-Term Memory,LSTM)对句子进行建模,分别得到两个句子的句向量表征,再通过互注意力机制学习两个文本之间的交互信息,最后通过分类器判定两个句子之间的语义关系[5-7],当前的大多数研究也都是基于句向量表征和互注意力机制的方法。虽然这些方法相比之前的传统方法有着巨大的提升,但是仍面临一些问题需要解决:

(1)互注意力机制的方法只能捕获局部交互信息。仅考虑局部交互信息,易弱化句子的整体信息。

(2)未考虑句子的句法信息。大多数方法都注重句子之间的信息交互,忽略了句子的句法结构信息。

针对上述问题,该文提出了融合句法结构和摘要信息的文本蕴含识别模型,并将文本蕴含识别的思想应用于公务员试题中,主要贡献如下:

(1)在句子交互基础之上,兼顾句子的全局信息。将互注意力机制和自注意力机制相结合,从局部交互信息和全局信息出发,推测句子之间的语义关系。

(2)融入句子的句法信息。捕捉句法结构这一重要特征,并融入句子表示。

(3)将该模型应用于公务员试题答题中。首先,从公务员试题的选择题中整理出符合语义关系的语句对,构建出八千余组数据;然后,将该模型迁移至这些数据上进行实验,尝试利用文本蕴含识别的思想。

1 相关工作

2015年,Bowman等人[8]发布了大规模的文本蕴含识别数据集SNLI,SNLI数据集一共包含570k个文本对,其中训练集550k,验证集10k,测试集10k,一共包含蕴含(Entailment)、矛盾(Contradiction)和中立(Neutral)三种语义关系标签。

随着大规模语料库的出现,越来越多的研究者开始将深度学习应用于文本蕴含识别研究领域。Chen等人[9]将LSTM和Attention机制相结合,在SNLI数据集上达到了88.6%的准确度,并且,时至今日该研究仍被应用于文本匹配、问答任务等多个领域。Kim等人[10]引入了DenseNet的思想,利用LSTM搭建5层RNN网络,同时将上一层的参数拼接到下一层,然后使用AutoEnconder进行降维,在公共数据集上达到了当时的最优性能。Sainz等人[11]将事件抽取和文本蕴含任务相结合,使得模型在文本蕴含识别任务上的性能得到一定程度的提升。Bauer等人[12]将外部知识融入文本蕴含识别任务中,实验结果表明,在跨领域数据集中引入外部知识,能够显著提高模型性能。

近些年来,也有部分研究者开始关注中文文本蕴含识别领域的研究。2018年,CCL2018发布了包含11万条数据的中文数据集CNLI。2020年,Hu等人[13]构建了第一个非翻译的、使用原生汉语的大型中文文本蕴含数据集(OCNLI),OCNLI数据集包含5万余训练数据,3千条验证数据及3千条测试数据,数据来源于政府公报、新闻、文学、电视谈话节目等多个领域。

谭咏梅等人[14]将句子的字符特征、句法特征、语义特征等提取出来,使用贝叶斯逻辑回归模型进行蕴含识别得到初步结果,然后使用规则集合进行过滤,得到最终的蕴含结果,但是传统的机器学习方法需要人工筛选大量特征,所以又提出了基于神经网络的方法[15],该方法使用CNN与LSTM分别对句子进行建模,自动提取相关特征,然后使用全连接层进行分类。于东等人[16]将文本蕴含识别的三分类扩展为七分类的蕴含类型识别和蕴含语块边界类型识别,在ESIM[8]和BERT[17]模型上分别达到了69.19%和62.09%的准确率。王伟等人[18]认为现有推理模型的训练时间较久,提出了轻量级的文本蕴含模型,在保持识别准确率的同时,相对于其他主流文本蕴含模型,推理速度提升了一倍。

目前,大多数方法都是采用互注意力机制实现句子之间的交互,这种方法弱化了句子的全局信息,并且没有考虑句子的句法结构信息。鉴于上述情况,该文提出融合句法结构和摘要信息的文本蕴含识别模型,该模型能够抽取出文本的主要信息,并在编码过程中融入句子的句法信息,在实现句子之间局部信息交互的基础之上,获取句子全局信息,从而更准确地识别两个句子的语义关系。最后,将该模型应用于公务员试题答题中,尝试解决实际问题。

2 模型架构

本节描述了融入句法结构和摘要信息的文本蕴含识别模型,如图1所示。

图1 模型图

该模型共分为4部分:

(1)摘要抽取层。该层仅应用于公务员试题中,主要是利用TextRank[19]算法,抽取出前提句的主要信息,以解决公务员试题题目冗长、答案简短导致的句子长度不对称问题。

(2)编码层。这一部分主要是将前提句和假设句输入到ONLSTM[20]网络中,得到融合句法结构和上下文信息的特征表示。

(3)交互层。该层主要是利用互注意力机制和自注意力机制,分别捕获句间的交互信息和句子的全局信息。

(4)池化和分类层。利用池化操作,将交互信息和全局信息转化为固定维度的特征表示,然后将其输入到全连接层中,得到最终的分类结果。

2.1 摘要抽取层

在公务员试题中,前提句(题目)实际上是一段长文本,如果对前提句这样的长文本进行建模,部分与答案无关的句子信息反而会成为建模过程中的噪声,导致主要信息被掩埋,从而影响最终的结果。因此,引入TextRank算法,既能从题目中抽取出主要信息,也能最大程度避免信息的损失。

TextRank算法是将一段文本构建为一个加权图,文本中的句子视为网络中的节点,根据节点权重的大小对句子进行排序,从而生成文本的摘要。计算每个句子的权重,首先需要计算句子Si和Sj之间的相似度,如果Si和Sj相似,则认为句子之间存在一条无向有权边,相似度的计算是由句间的内容重叠率得出,TextRank算法计算相似度的公式如公式(1)所示:

(1)

上述相似度计算方法,依赖于两个句子包含相同词语的个数,两个句子包含相同词语的个数越多,则相似度越高,这种计算方法仅考虑了词语的共现,没有考虑句子本身的句意。因此,将句子转化为向量化表示,通过余弦相似度计算两个句子之间的相似度。首先对前提句进行分词,然后使用Word2Vec[20-21]获取每个词语的词向量,再对这些词向量加和求平均,以此得到每个句子的句向量S,最后计算每个句子之间的余弦相似度,以此作为句子相似度的衡量标准:

Similarity(Si,Sj)=cos(Si,Sj)

(2)

得到句子相似度之后,以句子作为节点,句间相似度作为边,利用权重公式得出每个句子的权重,权重计算公式如下:

(3)

其中,WS(Vi)是节点Vi的权重;d为阻尼系数,一般取0.85,表示某一节点跳转到另一节点的概率;wij是两个句子之间的相似度Similarity(Si,Sj);In(Vi)表示指向节点Vi的节点集合;Out(Vi)是节点Vi指向的节点集合。

利用TextRank算法,抽取出权重排名前2的句子作为前提句,关于句子抽取数量对实验结果的影响,该文也会在实验环节进行实验分析。

表2中展示的是原始的公务员试题,其中,前提句表示试题的题目,假设句是试题的答案,在标签列中,“蕴含”是正确答案的语句对,“矛盾”是错误答案的语句对,并且,两条数据的前提句均相同。

表2 试题示例(抽取前)

在接下来的表3中,展示了对试题题目进行摘要抽取后的试题示例。

表3 试题示例(抽取后)

2.2 编码层

该部分主要作用是将前提句和假设句分别进行建模,并在建模过程中,融入句子的句法信息。

句法是指短语和句子的结构方式,表现为词语在句子中的排列方式及其相互关系。在处理句子信息时,句法信息是一条极其重要的规则化信息,一些完全相同的词语根据不同的排列形式进行组合,可能得到语义完全不同的句子,如:“我站在他身后”和“他站在我身后”,就是词语完全相同,但是语义相反的一对句子。Shen等人[20]提出了ONLSTM(Ordered Neurons LSTM),它能够在逻辑上将不同的神经元划分到不同的层级中,从而将句子的层级结构融入到LSTM中,使得模型具有更强大的表示能力。

(4)

[x1,x1+x2,…,x1+x2+…+xn]

(5)

[x1+x2+…+xn,…,xn+xn-1,xn]

(6)

图2 ONLSTM结构

2.3 交互层

判断文本蕴含关系的大部分方法都是利用互注意力机制捕获句子之间的交互信息,将交互信息作为句子分类的重要标准,但是这种方法并没有充分考虑句子的全局信息。因此,该文在利用互注意力实现句子交互的同时,使用自注意力机制获取句子的全局信息,以此兼顾句间的交互信息和句子本身的全局信息。

2.3.1 自注意力

在对句子建模时,句子中的一个词语往往不是独立的,它的语义和上下文息息相关,所以,在处理单个词语的同时,也要重点关注它的上下文信息,以及和它本身关联性较高的词语,而自注意力机制能够将句子内部的每个词语相互匹配,并将更多的注意力聚焦在重点信息上,从而更有效地捕获句子的全局信息。

Up=softmax(Ws1tanh(Ws2P))

(7)

Uh=softmax(Ws1tanh (Ws2H))

(8)

在上述公式中,使用两层前向神经网络计算self-Attention矩阵U,其中P和H是经过ONLSTM得到的向量表征,Ws1和Ws2是需要学习的参数。

Ps=UpPT

(9)

Hs=UhHT

(10)

其中,Ps和Hs是经过self-Attention矩阵加权后得到的向量,表示句子中每个词语之间的依赖关系。

(11)

(12)

公式(11)(12)的主要作用对信息进行增强,其中减法运算能够突出两个序列信息之间的差异程度,⊙表示点乘运算,能够突出两个序列信息之间的相同程度。

2.3.2 互注意力

互注意力机制的关注对象是两个不同的序列,根据序列中词语的权重,重点关注权重高的部分,降低对权重较低部分的关注度。在文本蕴含识别这一任务中,互注意力机制能够捕获前提句和假设句之间不同词语的依赖关系。

该部分的主要工作是在对句子建模后,利用互注意力机制获取句子间的交互信息,然后,使用和公式(11)(12)相同的方法对交互信息进行增强。

eij=PTH

(13)

公式(13)是计算前提句和假设句中词语之间相关性矩阵eij。

(14)

(15)

再将eij按照两个维度进行归一化,分别和P、H进行计算,得到交互后的向量表示Pc和Hc。

(16)

(17)

公式(16)(17)和2.3.1小节的方法相同,用以突出两个向量之间的差异程度和对齐程度。

2.4 池化和分类层

此模块的主要作用是将自注意力模块和互注意力模块的输出融合,以此作为判断语义关系的依据。

(18)

(19)

其中,公式(18)(19)是将互注意力和自注意力模块的输出向量分别进行最大池化和平均池化,以此将信息压缩成固定维度的向量。

(20)

上述公式表示分别将互注意力模块与自注意力模块的池化向量进行拼接。

y=F(O)

(21)

F为两层全连接层,使用tanh激活函数,通过softmax函数预测最终的语义蕴含结果。

在上述整个模型中,将交叉熵损失函数(Cross Entropy)定义为损失函数,公式如下:

(22)

其中,N表示样本个数,yi表示语义关系标签(0,1),Pi表示每种语义关系标签的概率。

3 实验设计与结果分析

3.1 数据集

首先在SNLI和CNLI数据集上验证模型的有效性,然后将模型和文本蕴含识别的思想迁移至公务员试题中进行实验。接下来,将具体介绍公务员试题收集和处理过程。

在公务员试题中,包含主旨概括、意图判断和细节理解等多种题型,该文经过多次筛选,最终选取了主旨概括和意图判断类型试题,这是因为这两种类型试题的答案大多都是对题目本身的概括或总结,是一种自然的语义蕴含语句对。满足语义蕴含条件的同时,还需要满足语义矛盾的语句对,因此,在将这些试题爬取后,又对这些试题进行了再次筛选,从5 127条试题中筛选出4 199条试题,在这一轮的筛选中,将这些答案和题目组成语义矛盾的语句对。最终,从公务员试题中构建了8 398组数据的语义蕴含和语义矛盾的语句对,并将其命名为:CSEQ(Civil Service Examination Questions),具体细节如表4所示。

表4 3种数据集规模

在CSEQ数据集中,仅有“Entailment”和“Contradiction”标签,这是由于,CSEQ来源于该文收集和整理的公务员试题,其受限于试题本身仅有正确和错误答案的限制,因而并未设置“Neutral”标签。

3.2 参数设置

模型的损失函数为交叉熵损失函数,使用反向传播算法更新模型参数,BatchSize设置为32,为防止模型过拟合,采用Dropout策略,Dropout Rate设置为0.5,学习率设置为0.000 05。模型在SNLI数据集上的实验,使用预训练好的300维Glove词向量[22],在中文数据集上的实验,使用预训练好的300维的Word2Vec词向量[20]。

3.3 评价指标

准确率是文本蕴含识别任务的通用评价指标,即所有样例中被预测正确的比例,具体计算公式如公式(23)所示:

(23)

其中,TP表示将正类预测为正类数,TN表示将负类预测为负类数,FP表示将负类预测为正类数,FN表示将正类预测为负类数。

3.4 实验结果与分析

选取了多个实验对比模型,以此分析文中模型的性能。

在基于SNLI数据集(英文)的实验中,对比了多个基准模型:

①BiMPM[23]:使用BiLSTM在两个方向上对前提句P和假设句H进行匹配,最后使用全连接层进行分类。

②ESIM[8]:利用BiLSTM对前提句和假设句进行编码,利用互注意力机制交互,再通过另一个BiLSTM将信息融合。

③KIM[24]:采用BiLSTM+Atten的方法,同时将WordNet作为外部知识引入,以此提升词向量的质量。

④DMAN[25]:利用强化学习来整合不同样本的标注意见不统一的情况,从而提升模型的稳定性。

⑤EFL[26]:该模型利用二分类数据预训练roBERTalarge模型,然后将其应用于文本蕴含识别任务中,取得了当前最好的性能。实验结果如表5所示。

表5 实验结果(SNLI)

从表5可以看出:(1)与模型BiMPM相比,文中模型具有一定的优势,这是因为BiMPM注重捕捉两个句子之间的交互特征,忽略了句子的全局信息,而文中模型在捕捉交互特征的同时,也捕获了句子的全局信息;(2)与模型ESIM、KIM和DMAN对比,文中模型表现更佳,这是因为这三种模型虽然分别采用了信息融合、引入外部知识和强化学习的方法,但是忽略了句子本身的句法信息,然而,在语义理解这一类型的任务中,句法信息是更加重要的特征;(3)模型EFL的性能更佳,这是因为该方法使用二分类数据预训练roBERTaLarge模型,其主要优势源于二分类预训练语料库,而文中模型专注于文本蕴含识别这一任务。

在基于CNLI数据集(中文)展开的实验中,由于KIM引入WordNet作为外部知识、DMAN建立在标签意见不统一的基础之上以及EFL使用大规模的英文语料库预训练roBERTaLarge模型,所以该文并未对以上三种模型进行复现,而是额外增添了中文领域的文本蕴含识别模型作为基准模型:

①混合注意力模型[27]:利用混合注意力获取词语和句子级别的语义信息,根据融合后的语义信息获取最终的分类结果;

②SRL-Attention[28]:将语义角色和自注意力机制融合,以此提升模型性能。CNLI数据集上的实验结果如表6所示。

表6 实验结果(CNLI)

从表6可以看出,BiMPM和ESIM在中文数据上的表现稍逊一筹,这可能由于这两种模型在SNLI数据集的基础之上进行实验,由于SNLI数据集庞大且存在中英文语义鸿沟的问题,所有这两种模型的表现并不理想,SRL-Attention模型由于并未公布测试集准确率,因此以“-”代替。

从表7可以看出,文中模型在性能上优于对比的多个基准模型,这是因为前两种模型都是将句子之间的交互信息作为主要判别标准,与此相比,文中模型能够在捕捉句子交互特征的同时,利用自注意力机制捕捉句子的全局信息;相对于“混合注意力模型”,文中模型表现更佳,这可能由于文中模型融入了句子的句法结构。

表7 实验结果(CSEQ)

3.5 消融实验

在多个数据集上进行了消融实验,以研究各模块对模型性能的影响。实验结果如表8、表9所示。

表8 消融实验

表9 消融实验(CSEQ)

综合表8、表9的实验结果,可以看出:

(1)Ours-TextRank:使用词向量代替词语的共现程度,能够抽取出更加准确的语句,从而使准确率提升了0.7百分点;

(2)Ours-自注意力:移除自注意力机制之后,SNLI数据集上的准确率下降了2.7百分点,CNLI和CSEQ数据集上分别下降了1.9百分点和1.4百分点,说明句子的全局信息能够为语义关系的推测,提供更多的理论依据;

(3)Ours-ONLSTM:去除ONLSTM后,使用普通的LSTM对句子进行建模,模型的性能分别下降了1.4、1.5和1.9百分点,这说明在句子级别的任务中,句子的句法结构是一个重要的特征;

(4)Ours-摘要抽取:如果不利用文本摘要的方法处理前提句,这一任务则从句子—句子级别转换为段落—句子级别的任务,这背离文本蕴含识别任务的初衷,且公务员试题中,题目内有大量和答案无关的句子,这会带来大量的噪音以及前提句和假设句长度不对称的问题,因此,在去除前提句处理模块后,模型的性能下降了4.6百分点。

为了探究摘要抽取的句子数量对模型的影响,针对不同句子数量分别进行了实验,实验结果如表10所示。