APP下载

融合语义和句法依存分析的图卷积新闻文本分类

2023-10-24陆欣荣徐广辉黄雪阳任丽博

中文信息学报 2023年7期
关键词:句法语义卷积

孙 红,陆欣荣,徐广辉,2,黄雪阳,任丽博

(1. 上海理工大学 光电与计算机工程学院,上海 200093;2. 上海第四人民医院 脊柱外科,上海 200434)

0 引言

文本分类是自然语言处理的基础工作,也是其研究领域的热点之一。文本分类在信息检索、舆论分析、主题分类、垃圾邮件筛选和意见挖掘等应用领域发挥着重要作用。传统的文本分类模型主要基于机器学习算法,如支持向量机SVM[1]、朴素贝叶斯[2]等。这些算法相对成熟,但它们也有局限性,如向量高维性、数据稀疏性。随着计算机运算能力的不断提升,基于深度学习的文本分类方法优势逐渐体现,其通过神经网络相关模型自动进行特征提取,这样既能减少人工定义的复杂劳动,又能够挖掘出人工无法定义的深层特征。其中典型的深度学习模型有卷积神经网络CNN[3]、递归神经网络RNN[4]、胶囊网络[5]、长短时记忆网络LSTM[6]、门控递归单元GRU[7]。但基于机器学习和传统深度学习的文本分类通常将文本转化为词向量矩阵,这个过程就存在文本语义特征的流失,而图卷积网络以图的形式表示文本,可以单词为节点、以单词间的语义关系为边,这样的构图方式可以有效地保留文本的语义特征。此外,图卷积文本分类还可以提取传统深度模型无法提取的全局特征[8],例如,全局词共现信息、全局句法结构信息,以及其他对分类效果有帮助的词之间的关联性信息。尽管基于图卷积神经网络[9]的文本分类逐渐成为基于图的文本分类的一个不错选择,但目前的GCN仍存在一些不容忽视的问题。

首先,当图卷积网络模型构建文本图时,它们大多使用单词的共现关系和文档与单词之间的包含关系,导致输入文本图的关系太过单一,无法很好地保留中文文本复杂的语义特征,并且单词同现关系的度量通常使用逐点互信息(PMI)来计算两个单词节点之间的权重。然而,PMI的计算取决于语料库,如果某些单词在语料库中出现的概率很低,则该方法可能会使PMI的计算结果很小,这就可能出现相关性本来很高的两个单词因为在语料库中出现的频率低而导致PMI 值很低,这样PMI值就会错误地反映单词间的关系导致图卷积文本分类效果变差。

此外,基于词语共现关系和语义依存分析合成的图卷积受词语间物理位置距离的影响较大,不能同时捕获句子中词语的短距离和长距离依赖关系。例如,文本图是由词语同现关系和语义关系的语料库构建的,如图1所示。这里的“这场话剧可以用一个词来描述: 精彩。”是语料库中的一个句子。“话剧”为中心词,内圈代表一级邻居节点信息的聚合,外圈代表两级邻居节点的信息的聚合。其中,“精彩”用于修饰句子中的“话剧”,从语义理解的角度,“精彩”一词是对于“话剧”的高度肯定,影响整个句子的语义表达。然而,图1中的“话剧”和“精彩”两个词节点没有直接关系。图卷积网络仅聚合直接相邻节点信息,因此一层GCN只能捕获句子中词语的短距离相关性。虽然通过增加GCN层的数量,可以解决“话剧”和“精彩”等词之间的长期依赖关系,但文本分类任务的多层图卷积网络具有较高的空间复杂性,同时,增加网络层的数量也会使局部特征收敛到相似的值。

图1 共现与语义文本图

最后由于图卷积构图时单词节点的非连续性,其缺少捕获单词序列特征的能力,导致文本上下文语义信息的丢失,造成图卷积网络不能根据上下文信息来区分多义词的问题,例如,“她喜欢吃苹果。”“苹果是一家伟大的公司。”中词语“苹果”的语义明显不同,在这种情况下,如果不加以区分,可能会影响对文本的理解,从而影响分类效果。

针对上述问题,本文将依存关系分析融入图卷积再组合深度学习模型,提出一种文本分类模型SEB-GCN。本文在4个新闻数据集上的实验表明,SEB-GCN可有效改进当前基于GCN文本分类的缺点,并获得更好的结果。本文主要贡献如下:

(1) 将语义和句法依存关系集成到GCN中,增强词语间本身固有的联系,帮助GCN捕获句子中词语的长距离依赖关系,在提供句法关系的同时可以减少GCN层的数量。

(2) 将ERNIE预训练的词向量与GCN提取的特征向量拼接,即将ERNIE的上下文信息与GCN全局信息相结合,解决了GCN不能区分多义词的问题。

(3) 结合图形特征和序列特征,使用带有注意力机制的残差双层BiGRU提取输入特征,分别捕获词语和句子层面的特征信息,从而获得更全面的文本特征。

1 相关工作

传统的文本分类方法主要基于特征工程,例如,词袋模型和N-grams等。后来,有研究[10-11]将文本转换为图形,并对图形进行特征工程。然而,这些方法无法自动学习节点的嵌入表示,传统的算法缺乏挖掘文本内部特征的能力,而深度学习模型在学习文本特征时,能够发掘出比较隐晦的特征信息,更适合做文本分类任务。在深度学习模型方面,Kim使用CNN进行文本分类。Tang等人[12]提出了一种门控递归神经网络进行文本分类。Yang等人[13]提出使用分层注意力网络对文档进行建模和分类。Wang等人[14]将注意力机制引入LSTM以增强关键词的权重来提升分类效果。Dong等人[15]结合了BERT[16]和自注意力机制,提升了预训练模型分类的效果。其中还有BERT的变型ELMo[17]、ERNIE[18]等模型结合注意力机制进行文本分类。大多数基于注意力的深度神经网络主要关注局部连续词序列,这些词序列虽能提供局部上下文信息,但捕获全局特征的能力却不够。

现在,许多研究试图将GCN与其他模型相结合。Zhenbo 等人[22]将GCN和BERT训练的词向量输入到BiLSTM分类模型中,结合了各个模块的优势。Lu等人[23]将词汇图嵌入模块与BERT集成,并在许多公共数据集中取得了良好的结果。

本文通过向GCN引入句法依存关系,使GCN可以更有效地捕获句子中词语的长距离依赖关系。引入语义依存关系增强词语之间本身固有的联系。同时,GCN获得的全局词汇信息与预训练ERNIE获得的上下文信息相结合,解决GCN不能区分多义词的问题。考虑到文本具有词语—句子—文档的分层结构,为了获得更全面的文本特征,使用双层BiGRU提取特征,以分别捕获词语、句子的特征信息。将注意机制嵌入双重BiGRU中,提升关键词的权重,让关键词的特征集合代表整句话的特征。为了防止堆叠多层网络模型会出现神经网络退化的问题,引入残差连接ResNet。

2 模型概述

在深入研究了基于图神经网络的文本分类之后,本文提出了SEB-GCN文本分类模型。SEB-GCN的整个过程可以分为以下步骤: 文本图构建、图卷积网络、特征提取和最终分类。SEB-GCN的整体架构如图2所示。我们通过在词语节点之间建立边来构造三个文本图,分别为词语共现图、句法依存图、语义依存图。然后将ERNIE预训练好的词向量用作图卷积网络所需的输入向量,并将三个文本图分别用作图卷积网络所需要的输入。接下来,将图卷积网络训练好的词语向量再与ERNIE的特征向量融合,并输入到第一层BiGRU模型,以提取单个句子内词语之间的语义依赖信息。为了进一步区分词语的重要性,我们将注意力机制添加到BiGRU的第一层,通过分配不同的词语权重来区分词语的重要程度。BiGRU第一层的输出与词语权重进行加权求和后形成当前句子的整体表示,然后将获得的句子特征输入到BiGRU的第二层,以提取文本内句子之间的语义依赖信息。最后,学习到的句子特征经过残差运算防止过拟合后再Softmax获得文本的最终类别。

图2 SEB-GCN结构图

2.1 文本图构建

构建文本图把每个单词当作节点,把单词之间的连线当作边,其是单词之间的某种关系,本文利用单词共现的关系、语义依存关系和句法依存关系来确定单词节点之间的边,以此构建了三张文本图。

2.1.1 文本共现图

图3 文本共现图

2.1.2 句法依存图

句法依存分析是按照依存关系对句子中的词语进行分析,其分析结果往往作为一种先验知识来辅助模型更好地理解文本语义。本文使用哈尔滨工业大学提供的LTP句法依存分析标注集BH-DEP对文本中的句子进行句法依存分析,构成句法依存图。以“张三把钱丢了!”为例,这句话的句法分析图如图4所示。具体的句法依赖关系对应表如表1所示。由图4可以看出,句法依存主要关注句子中词之间的句法关系,不受词语间物理位置的影响。通过引入句法分析关系,可以同时捕获短距离依赖关系和长距离依赖关系,还能提供句法约束。

表1 句法依存分析表

图4 句法依存分析图

2.1.3 语义依存图

由于中文十分复杂,在句法不严格的情况下也能大概表达出语义,导致光靠句法依存分析辅助文本分类精度始终不高。而语义依存分析是分析句子中各个词之间的语义联系并将其以语义结构图的形式表现出来。以“张三把钱丢了!”和“钱被张三丢了”为例,这两句话的语义分析如图5所示。从图中可以看出语义依存分析可以不受句法结构的影响,透过句法结构直接获取深层语义。本文使用哈尔滨工业大学提供的LTP语义依存分析标注集BH-SDP对文本中的句子进行语义依存分析,构成语义依存图。由于语义关系复杂,所以仅给出图中出现的语义依赖关系解释,具体如表2所示。

表2 语义依存分析表

图5 语义依存分析图

2.2 TextGCN模型

图6为图卷积文本分类TextGCN的简化模型图,其中输入层X1与X2代表单词节点,X3代表文本节点,X1与X2之间的连线代表单词与单词之间的共现关系,单词节点之间的权重由逐点互信息PMI值的正负确定,PMI值的计算如式(1)~式(3)所示。X1与X3之间的连线代表文档与单词之间的包含关系。若文档包含某个单词,则构建一条连边,其节点间的权重由TF-IDF确定。由此完成图的构建,该图邻接矩阵中相应位置Aij的计算如式(4)所示,最后Y1、Y2代表文本最终分类结果。

图6 图卷积文本分类简化模型图

其中,#W表示滑动窗口的总数,#W(i)表示包含单词i的滑动窗口数,#W(i,j)表示同时包含单词i与单词j的滑动窗口数。式(4)中,当i,j为单词且PMI值为正时,Aij的计算方式为PMI(i,j);当i表示文档、j表示单词时,Aij的计算方式为TF-IDFij;当i=j,即矩阵对角线上的值都为1,其余情况Aij都为0。

本文使用三个图卷积神经网络来分别学习三个文本图,依据三个文本图的单词连接关系进行邻域聚合操作,从而得到文本单词的嵌入表示,计算如式(5)~式(7)所示。

其中,L1(j+1)表示文本共现图的嵌入矩阵,L2(j+1)表示句法依存图的嵌入矩阵,L3(j+1)表示语义依存图的嵌入矩阵,A为图结构数据的归一化邻接矩阵,ρ表示激活函数,W表示模型中卷积层的权重矩阵,L(j)则表示第j层的特征向量。

2.3 ERNIE模型

ERNIE是百度在BERT基础的改进模型,适合进行中文的信息处理。使用原始BERT模型做文本分类时,BERT会随机掩码15%的单个字,不会考虑词语间的联系,导致很多词语被分开,不易推出被掩盖掉的文字;而ERNIE的掩码机制会考虑文字之间的关系,会以词来进行掩码,这样更容易推理出被掩盖的文字。BERT和ERNIE的掩码机制对比如图7所示。以“我早饭喜欢吃包子和油条”为例,BERT和ERNIE 的掩码机制不同,BERT可能随机把“喜”和“油”这两个字掩码掉,不会考虑词语间的语义联系,使得被掩盖的字比较难推出,而ERNIE会考虑前后文本的联系,把“包子”这个词语掩码掉。因此相比于BERT,ERNIE更适合中文的文本分类。

图7 BERT与ERNIE掩码机制对比

2.4 残差双层BiGRU模型

残差双层BiGRU模型的具体结构如图8所示。该模块包括输入层、词语级特征提取层、注意力层和句子级特征提取层。由于词语被表示为节点,节点的邻域信息通过邻接矩阵聚合,忽略了文本的顺序结构,导致文本的上下文语义信息丢失。因此,我们将GCN获得的全局词汇信息与预训练ERNIE获得的上下文信息相结合。为了更深入地挖掘语义,序列模型GRU可以用于融合两部分信息,但它只能捕获从前到后或从后到前的单个方向上的特征。人类阅读文本的模式是,当遇到不明语义的词语时,利用前文和后文共同推断词语的含义。因此,加入能够捕捉前后方向的BiGRU模型。考虑到文本具有层次结构,从文本到句子再到单词。因此,我们使用两层BiGRU分别学习词语特征和句子特征。由于特征词语对文本具有不同的重要性,并且BiGRU的输出向量不区分词语的重要性,因此我们在两个BiGRU之间添加了注意力机制, BiGRU第一层的输出与词语权重ai加权求和得到句子特征。同时,为了防止多模型叠加引起神经网络发生退化而影响分类结果,我们加入残差运算后再进行Softmax分类。

图8 残差双层BiGRU结构图

其中注意力机制Attention的本质是为了给不同的特征赋予权值,文本分类任务中权重越大的词越关键,将注意力放在关键词的分类上可以提高分类效果。其计算过程如下:

首先计算注意力权重ai如式(8)所示。

其中,Wi为权重矩阵;ht为第一个BiGRU网络层的输出;bi为偏置向量。

然后对权重ai进行Softmax函数计算,得到权重向量pi如式(9)所示。

最后输出向量ht与权重向量pi相乘再累加得到Attention,如式(10)所示。

3 实验及结果分析

本文中所有实验都是基于Pytorch框架,使用的GPU型号是RTX 3090Ti,表3为模型参数设置。

表3 模型参数

3.1 实验数据集和评价指标

3.1.1 实验数据集

本文使用4个新闻主题数据集进行文本分类实验,数据集详情如表4所示。

表4 数据集详情

今日头条数据集: 今日头条应用中抽取约38万条新闻数据,包括民生、文化、娱乐、体育、财经、房产、汽车、教育、科技、军事、旅游、国际、证券、农业、电竞共15个类别。

搜狐新闻数据集: 对搜狐新闻数据集进行数据清洗,保留新闻主题。数据集共包含娱乐、财经、房地产、旅游、科技、体育、健康、教育、汽车、新闻、文化、女人共 12 个类别。

THUCNews-L(TL)数据集[24]: 从新浪新闻的74万个新闻文档中抽取了20万条新闻数据,包含经济、房产、股票、教育、科学、社会、时政、体育、游戏和娱乐这10个类别,训练集为8 000条数据,测试集为1 000条数据,验证集为1 000条数据。

THUCNews-S(TS)数据集: 在 THUCNews-L 基础上清洗数据中得到的小型数据集,共包含财经、股票、科技、社会、时政、娱乐6个类别,每个类别数据1万条。

3.1.2 评价指标

本文分别采用准确率(Accuracy)、精确率(Precision)、召回率(Recall) 和F1值作为对模型分类性能的评价指标。其中TP(True Positive)为正确的正例;FN(False Negative)为错误的反例;FP(False Positive)为错误的正例;TN(True Negative)为正确的反例。

准确率为所有预测中预测正确的比例,其计算如式(11)所示。

精确率为正确预测为正的占全部预测为正的比例,其计算如式(12)所示。

召回率为正确预测为正的占全部实际为正的比例,其计算如式(13)所示。

F1值是精确率和召回率的调和平均,为了平衡准确率和召回率的影响,较为全面地评价分类效果,其计算如式(14)所示。

3.2 实验结果与分析

3.2.1 对比实验

为了验证本文所提出的SEB-GCN模型的性能,让其与其他模型进行对比实验。对比模型包括BiGRU、ERNIE和TextGCN模型,以及改进的GCN模型: GCN-ERNIE[25]、TensorGCN[26]。实验数据集为全部4个新闻数据集。

为了更加直观地对各模型的性能进行分析,采用折线图的形式对各模型的F1值的实验结果进行展示,从图9可以看出,SEB-GCN模型在4个数据集上的F1值均高于其他对比模型。具体看表5中的数据,观察F1值,SEB-GCN在比BiGRU、ERNIE、GCN、ERNIE-GCN、TensorGCN模型平均分别提高4.77%、 4.4%、 4.8%、3.4%、3%。表明该模型中的句法依存关系、语义依存关系、ERNIE模型、BiGRU模型、注意力机制和残差网络的引入确实解决了GCN的缺点,使本文的模型与其他模型相比具有更好的分类性能。

表5 多模型分类对比实验结果表 (单位: %)

图9 各模型分类效果图

3.2.2 消融实验

为了研究引入语义文本图与句法文本图对于文本分类的作用,对融合文本图后的图卷积模型进行了消融实验,具体实验结果如表6所示。

表6 文本图消融实验结果表 (单位: %)

其中GCN为基础的图卷积文本分类模型,YGCN为引入了语义依存分析的GCN,JGCN为引入了句法依存分析的GCN,SGCN为语义与句法依存分析都引入的GCN。整理表中的数据后,对比4个数据集上分类效果,YGCN比GCN平均提高0.78%的F1值,JGCN比GCN平均提高1.14%的F1值,SGCN比YGCN平均提高1.1%的F1值,SGCN比JGCN平均提高0.83%的F1值。由此可以看出语义与句法依存关系都对图卷积文本分类效果有明显提升。句法依存关系对于分类效果提升较大,说明本文引入句法依存分析来同时捕获短距离依赖关系和长距离依赖关系的方法是正确的。只是引入语义依存对于长句子的分类效果并不佳,在新闻数据集中常有长句子出现分类错误的情况,而句法依存分析可以无视词语间的物理距离,帮助GCN完成长句子的文本分类。在实验中发现,例如“的确,这就是人生的常态,即便拼尽全力,也未必能得偿所愿,希望内马尔不要气馁,未来是属于你的。”这个长句子在文本分类时,在未引入句法依存分析之前常被分类到生活类别中,而引入句法依存分析的JGCN通过句法信息,提前知道 “内马尔”这个关键词为主语,因此正确分类到体育类别。

为了进一步研究SEB-GCN各种组件的作用,本文对构建的模型进行了消融实验。具体实验结果如表7所示,其中SEGCN为在SGCN基础上再引入ERNIE预训练词向量的GCN文本分类模型,最后为加上所有模块的SEB-GCN。由表中的数据可以看出,引入语义句法依存和引入双层残差BiGRU,这两个模块对于分类结果提升较大,在4个数据集上,SGCN比GCN平均提升1.88%,SEB-GCN比SEGCN平均提升 1.94%,说明对于中文的新闻数据集,语义和句法信息的辅助可以更好地完成分类任务。而双层残差BiGRU更是从单词到句子两个层面进行特征提取,既弥补了GCN不善于捕获序列信息的不足,又使得特征向量更加全面地表达出文本的语义信息,以此提升分类效果。

表7 消融实验结果表 (单位: %)

3.2.3 分类收敛时间对比实验

为了进一步验证本文提出的SEB-GCN模型,应用于大规模新闻主题文本分类任务的有效性,后续实验主要在于测试SEB-GCN模型的分类收敛时长,使用今日头条与TL这两个大数据量的数据集进行实验,实验模型选择GCN、ERNIE-GCN、TensorGCN 和本文提出的SEB-GCN模型,实验结果如图10和图11所示。从图中可明显看出,SEB-GCN的F1值最高且收敛速度最快,具体分类数据如表8所示。

表8 分类收敛耗时表

图11 TL分类收敛时间图

从表8中的实验数据可以发现,在大数据量分类任务的测试下,SEB-GCN模型分类收敛耗时比其他对比模型都要短。对比基础的GCN模型,SEB-GCN在今日头条数据集上的F1值比其提高了3.94%,收敛耗时比其缩短了7min 07s,表明SEB-GCN的分类性能超过GCN。特别是SEB-GCN面对TL这种20万数据的文本分类任务,在10min内就能达到收敛的F1值,说明本文对GCN、ERNIE、BiGRU进行多模型融合的有效性以及带有注意力机制的双层残差BiGRU模块,对于模型实现快速收敛有极大的帮助。

4 总结

本文提出了一种新的图神经网络分类模型SEB-GCN,该模型引入句法依赖关系来捕获上下文依赖,引入语义依存分析增强词语之间的联系,以弥补图卷积网络对文本自身信息挖掘的不足。同时,使用两层BiGRU模型组合ERNIE模型获得的上下文信息和GCN获得的全局信息,解决GCN不能区分多义词与不能捕获序列特征的缺点。然后在两个BiGRU中添加注意力机制,关注关键词特征来代表整个句子的特征,以此实现从单词到句子的特征提取。此外,引入残差连接,防止多模型堆叠引起过拟合的问题,并让模型学习残差信息,以便更好地获得新的特征,提高文本分类的效果。我们对4个新闻数据集进行了实验,与其他模型相比,SEB-GCN的分类精确度优于其他模型,并且分类收敛速度也明显快于其他模型,证明其非常适合进行大数据量新闻主题文本分类的任务。

猜你喜欢

句法语义卷积
句法与句意(外一篇)
基于3D-Winograd的快速卷积算法设计及FPGA实现
述谓结构与英语句法配置
语言与语义
从滤波器理解卷积
句法二题
基于傅里叶域卷积表示的目标跟踪算法
诗词联句句法梳理
“上”与“下”语义的不对称性及其认知阐释
认知范畴模糊与语义模糊