用于方面级情感分析的情感增强双图卷积网络
2024-01-11张文轩殷雁君
张文轩,殷雁君,智 敏
内蒙古师范大学 计算机科学技术学院,呼和浩特 010022
随着社交网络和电子商务的快速发展,情感分析(sentiment analysis,SA)已经成为自然语言处理领域(natural language processing,NLP)的一个热门研究课题[1]。方面级情感分析(aspect based sentiment analysis,ABSA)是一项面向实体级的细粒度情感分析任务,旨在确定句子中给定方面的情感极性,即积极、消极或中性。与传统的情感分析任务不同,ABSA 任务能够为给定句子中可能涉及的多个方面分别进行情感极性预测。以句子“The food is so good and so popular that waiting can really be a nightmare.”为例,句中包含“food”和“waiting”两个方面项。ABSA任务要求模型能够根据“food”和“waiting”对应的意见项“good”和“nightmare”分别预测出积极与消极的情感极性。而传统的情感分析仅能够对整个文档或句子预测一个整体的情感极性,显然不适合处理这类包含多种不同情感的文本。因此,ABSA以其能够准确地识别用户对某个具体方面的态度而在市场调研、舆情监测等领域具有宝贵的应用价值[2]。
ABSA 任务的关键在于从上下文中捕捉和建立方面项与其对应的意见项之间的依赖关系。基于句子的不同部分对方面发挥不同作用的思路,过去的ABSA 研究广泛采用注意力机制(attention mechanism)[3]对句中词语间的语义关联进行建模[4-5]。但由于文本的复杂性,单纯的注意力机制往往不能准确捕获方面及其上下文词之间的依赖关系。
考虑到方面项与其对应意见项之间的语法结构关系能够为情感极性预测提供帮助,基于依存树构建图神经网络(graph neural network,GNN)的方法已经成为近年来ABSA 研究的重要方向[5]。这类方法利用依存解析工具将句子的语法结构转化为图结构,并在此基础上利用图卷积网络(graph convolution network,GCN)[6]、图注意力网络(graph attention networks,GAT)[7]等方法进行表示学习,使得方面项与距离较远的意见项能够进行更加高效、准确的信息交互。然而,基于依存树的图神经网络在ABSA任务中依然存在以下问题:一是大多数现有的基于图神经网络的方法在图的构建过程中只考虑词语间的语法依赖关系,而忽略了情感知识在建模特定方面与上下文间情感依赖关系中的作用[8]。二是这类模型性能高度依赖于依存解析结果的准确性,尤其是处理复杂或语法知识不敏感的样本[9-10]。
针对现有方法缺少情感知识辅助的缺陷,本文利用情感知识构建情感增强的语法图卷积(affection enhanced syntax based GCN,AesGCN),从多功能情感知识库SenticNet 中引入情感知识参与图的构造,以帮助模型提取上下文与特定方面之间的情感依赖关系。针对现有方法对依存树解析准确性依赖程度较高的问题,基于自注意力机制构建基于注意力的图卷积(attention based GCN,AttGCN),并设计了3种正则化器对注意力机制的学习进行指导,以便准确地捕获方面及其对应意见项之间的依赖关系,其中本文提出的一种语法正则化器能够帮助模型自发地学习与基于语法知识构建的邻接矩阵具有相似结构的注意力权重。将AesGCN 与AttGCN 以并联方式相结合,提出了一种用于方面级情感分析的情感增强双图卷积网络(affection enhanced dual graph convolution network,AEDGCN)。在3 个公开数据集上的一系列实验表明,与现有的ABSA 方法相比,本文提出的AEDGCN实现了较为先进的性能。
1 相关研究
与传统的句子级或文档级情感分析任务不同,方面级情感分析是一种面向实体的细粒度情感分析任务。早期的ABSA 方法主要基于情感词典和机器学习[11-12],这类方法主要依靠手工提取特征,虽然在特定领域有良好表现,但需要耗费大量人工成本并且无法对方面项及其上下文之间的依赖关系进行建模。
近年来,由于注意力机制在上下文语义建模中的良好表现,大量工作尝试将基于注意力的神经网络模型应用于ABSA任务,其主要目的在于利用注意力机制捕捉和建立方面项及其上下文之间的联系[4]。例如,Wang 等[13]提出的ATAE-LSTM(attention-based LSTM with aspect embedding)将方面词向量和上下文词向量组合作为长短期记忆网络(long short-term memory,LSTM)的输入,利用注意力机制为上下文赋予不同的权重以提取有利于ABSA 任务的语义特征。而IAN(interactive attention network)[14]、MGAN(multi-grained attention network)[15]和AOA(attentionover-attention neural network)[16]则基于交互注意力机制为上下文分配权重,以实现方面项与上下文间的情感关系建模。尽管上述方法已经在ABSA 任务中取得了良好的性能,但由于缺乏对语法知识的利用,当句子成分较为复杂或句中存在多个方面时,将难以对方面项的情感极性做出准确判断。
考虑到语法知识在ABSA任务中的重要性,基于依存树建立GNN 的方法逐渐成为ABSA 领域的研究热点。依存语法分析通过对句子中词与词之间的语法关系进行抽取和筛选构建依存树,能够有效缩短方面项和意见项之间的距离[17],在一定程度规避语法无关上下文带来的噪声信息。例如,Zhang 等[18]基于依存树建立无向图,利用GCN 学习包含语法知识的上下文表示,在当时实现了最先进的ABSA 性能。Huang 等[19]提出的目标依赖的图注意力网络(targetdependent graph attention network,TD-GAT)则基于依存树构建图注意力网络进行表示学习,并采用LSTM 单元结构逐层更新节点。Wang 等[20]则引入依赖关系类型信息,并以目标方面为根节点对依存树进行修剪,构建关系图注意力网络(relational graph attention network,R-GAT),大幅提升了性能。然而,这类方法具有词语节点严格按照图结构进行信息交互的特点,导致模型性能高度依赖依存树解析质量。特别是当句子结构较为复杂或对语法不敏感导致依存树解析质量较差时,模型将难以维持原有性能。
考虑到这一缺陷,最近的研究尝试将依存图与基于有监督学习的图结构以并行的方式相结合,实现二者的优势互补,在提升ABSA性能的同时有效减轻模型对依存树的依赖程度。例如,Xu 等[21]提出的注意力增强的图卷积网络(attention-enhanced graph convolutional network,AEGCN)基于多头自注意力和GCN 构建双通道模型,并通过通道间的交互注意力机制使得两种特征相互增强。类似的,Chen 等[22]利用归纳生成的潜在图和依存图进行表示学习,并通过门控机制进行特征融合。Li 等[10]提出的双图卷积网络(dual graph convolutional network,DualGCN)则构造了基于语法的图卷积网络SynGCN 和基于语义的图卷积网络SemGCN 以分别提取语法和语义特征,并利用双仿射模块(BiAffine module)使得两种特征产生交互,实现了先进的ABSA性能。
ABSA 的另一个研究热点是如何引入外部情感知识,即利用外部情感知识对模型或输入特征进行增强以帮助模型更好地理解不同情感强度的词语对ABSA 任务的贡献度。Ma 等[23]基于SenticNet将情感知识纳入LSTM模型,以提取方面级和句子级情感特征。Liang 等[8]则利用SenticNet的情感知识为依存图赋予边权重,提出了基于SenticNet 的图卷积模型(SenticNet-based graph convolutional network,Sentic-GCN),能够更为准确地关注方面相关的情感词。Zhong 等[24]则利用知识图谱嵌入(knowledge graph embedding,KGE)技术对WordNet中的知识建模为分布式表示,以增强模型的输入特征。
基于SenticNet 取得的显著性能,本文利用SenticNet 对语法图进行增强,构造基于情感增强的语法图卷积AesGCN,提取具有一定情感知识的语法特征。同时,利用自注意力机制捕捉词语间语义关联,构建基于注意力的图卷积AttGCN,并设计了三种正则化器对注意力学习进行指导,以提取经过语法信息指导的语义特征。基于AesGCN 和AttGCN构建双图卷积架构,并利用BiAffine 模块实现两种特征间的相互增强,帮助模型准确、高效地提取符合语法及语义依赖关系的特征,以实现先进的ABSA性能。
2 情感增强双图卷积模型
本章将详细介绍本文提出的用于方面级情感分析的情感增强双图卷积网络AEDGCN,其流程如图1所示。
图1 AEDGCN整体流程Fig.1 Overall process of AEDGCN
模型由预处理、双向LSTM(bi-directional long short-term memory,BiLSTM)编码层、自注意力模块、双图卷积模块和分类层等结构组成。模型以句子方面对(s,a) 为输入,其包含一个长度为n的句子s={w1,w2,…,wτ+1,…,wτ+m,…,wn},以及从该句第τ+1 个词开始的长度为m的方面a={wτ+1,wτ+2,…,wτ+m}。首先通过预处理为句子s生成邻接矩阵G、情感增强语法图Aaes以及位置、词性(part of speech,POS)向量,并将句子s经嵌入得到的词向量序列输入Bi-LSTM 进行编码,编码后的隐藏向量与位置、词性向量进行拼接送入自注意力模块计算注意力权重矩阵,同时设计了三种正则化器对注意力权重矩阵进行约束。
将情感增强语法图与注意力权重矩阵作为图结构,构建包含基于情感增强的语法图卷积AesGCN和基于注意力的图卷积AttGCN 的并行通道双图卷积(DualGCN)模块,分别对Bi-LSTM 层得到的隐藏向量进行图卷积操作。将双图卷积模块输出的方面节点表示进行聚合,得到用于分类的方面情感向量。最后将方面情感向量送入分类层得到情感预测结果。
2.1 预处理
2.1.1 依存解析
预处理的第一步是对输入句子s进行依存解析(dependency parsing),构建包含句中词语间的语法依赖关系的邻接矩阵G∈Rn×n。具体来说,对于邻接矩阵G中的任意元素gij,若词wi和词wj在依存树中存在语法关系,则令gij=gji=1,否则令gij=gji=0。同时为G中所有节点添加自连接,即gii=1。此外,参考Sun 等[25]的研究,根据句中词语同方面项间的相对位置关系及依存解析结果为每个词语分配位置标签和词性标签,并基于位置标签和词性标签对句子进行嵌入表示,生成可学习的位置向量,其中dpt和dps分别表示位置向量和词性向量的维度。
2.1.2 情感增强
考虑到大多数现有的基于依存树的ABSA 研究对情感知识的忽视,本文参考Liang 等[8]的研究,将包含200 000 个概念的SenticNet 6[26]作为情感知识来源对语法图,即邻接矩阵G进行增强。SenticNet 是一个公开的意见挖掘和情感分析资源,提供了一组语义、情感、极性关联的自然语言概念。SenticNet 中的每个概念都对应一个情感值,其中强积极概念的情感值接近1,强消极概念的情感值则接近-1。Xing 等[27]通过领域适应任务的实验证明,SenticNet 包含的知识涵盖多个领域,并且在增强情感表征学习方面相比其他情感词典具有显著优势。
对于句子s中任意两个词语wi、wj,其情感权重Sij定义为:
其中,SenticNet(wi) ∈[-1,1]表示词wi在SenticNet 中的情感得分,且SenticNet(wi)=0 表示wi为中性词或wi在SenticNet中不存在。
此外,设置方面指示权重Tij用于强调方面项及其上下文间的情感依赖关系:
将Sij、Tij与基于依存树的邻接矩阵G相结合,构建未归一化的情感增强语法图aes∈Rn×n,对于aes中的情感增强元素,其形式化定义为:
最后利用softmax 函数对aes进行归一化,生成情感增强语法图Aaes∈Rn×n:
2.2 嵌入与Bi-LSTM编码层
对于句子方面对(s,a),利用嵌入矩阵E∈R|V|×de获取句子s的词向量表示X={x1,x2,…,xn},其中|V|是词表大小,de是词向量维度。将X与位置向量Xpost和词性向量XPOS进行拼接,得到输入特征
将X′送入Bi-LSTM层进行编码以获得包含上下文信息的隐藏状态向量H={h1,h2,…,hn},其中是Bi-LSTM 在时间步i处的隐藏向量,dhid为隐藏状态向量维度。
2.3 自注意力模块
自注意力模块通过自注意力机制获取具有可学习权重的注意力权重矩阵A∈Rn×n用于后续的图表示学习。相较于边权重固定的邻接矩阵G,自注意力机制可以根据词语间的语义相关性动态地分配边权重,有助于模型适应对语法不敏感的文本。
输入特征H′经过线性映射分别生成查询向量和键向量,并用于计算注意力权重矩阵A,其中dk是查询向量和键向量的维度,形式上:
2.3.1 语法正则化
如前文所述,由于文本的复杂性,单纯的注意力机制难以准确捕获词语间的依赖关系。因此,本文提出语法正则化器RS,以帮助模型自发地学习与基于语法知识构建的邻接矩阵具有相似结构的注意力权重,而不是直接基于图结构进行表示学习。
在基于GAT[7]的模型中,为使得图结构中的每个节点只与其各自的邻居节点产生信息交互,使用图结构对自注意力机制生成的注意力权重矩阵进行过滤操作。以An中元素为例,基于邻接矩阵G的过滤机制maskG(∙)定义如下:
其中,inf 表示无穷大。利用maskG(∙)对An进行过滤,经归一化得到基于图G的注意力权重矩阵AG∈Rn×n:
语法正则化器RS的形式化定义如下:
其中,||∙||2表示L2 范数。直观上,RS通过计算A和AG间的L2 范数,能够鼓励句中词语在表示学习过程中更多关注与自身在语法上具有直接关联的词语,反之则给予惩罚,以避免注意力机制引入过多语法上无关的噪声信息。本文不直接将AG作为注意力权重的理由是,在依存树解析性能不稳定的情况下直接使用AG会导致模型丢弃任务相关信息而引入噪声的情况。此外,现有的方面级情感分类任务的训练样本集较小,使用AG也将导致语料库中大量词语无法参与到表示学习中,对模型鲁棒性造成不利影响。
2.3.2 差异正则化
情感增强语法图Aaes利用先验的外部工具或知识定义边权重,然而在具体的评论文本中,词语间的依赖关系可能与先验知识存在偏差,尤其是在一些复杂的或不规范的文本中。为充分发挥先验知识与注意力机制各自的优势,并减轻模型对于先验知识的依赖性,本文参考Li等[10]的研究在两种图结构之间定义了一个差异正则化器RD,以鼓励注意力机制捕捉到与先验知识不同的有助于ABSA 任务的依赖关系。形式上:
值得注意的是,差异正则化器只对A具有约束作用。
2.3.3 正交正则化
直观上,句子中每个词语出现的位置及发挥的作用都不尽相同,其各自的依赖关系也应当指向句中不同的词语。因此,本文参考Li等[10]的研究添加了一个正交正则化器RO以帮助不同词语的注意力权重分布之间能够显示出区分性,其定义为:
其中,I∈Rn×n是一个单位阵。RO的本质在于通过促进AAT中每个非对角元素趋于最小化,以保证矩阵A趋于正交。
2.4 双图卷积模块
双图卷积模块将句子的隐藏状态向量H分别输入到AesGCN、AttGCN 两个通道中,并利用一个双仿射模块实现通道间信息交互。通过堆叠L个DualGCN 模块进行充分的节点表示学习。对最后一层AesGCN 及AttGCN 输出的方面节点表示进行聚合与拼接,形成最终的方面情感表示。
2.4.1 基于情感增强的语法图卷积
AesGCN 将情感增强语法图Aaes作为邻接矩阵进行GCN 操作,以学习给定方面的情感依赖。参考Kipf 和Welling[6]的研究,AesGCN 各层的形式化定义如下:
2.4.2 基于注意力的图卷积
AttGCN 将自注意力模块得到的注意力权重矩阵A作为邻接矩阵进行图卷积操作,其优势在于:一是能够动态地捕捉词语间的语义关联,相比基于语法的依存图更为灵活;二是可以适应对语法知识不敏感的在线评论。AttGCN各层的形式化定义如下:
2.4.3 双仿射模块
为保证AesGCN 和AttGCN 之间能进行有效的信息交流,本文参考Tang 等[9]和Li 等[10]的研究,采用双仿射变换作为通道间的信息沟通桥梁,形式上:
2.4.4 方面聚合
对AesGCN和AttGCN的最终层输出
2.5 分类层
将方面情感表示r送入一个线性层,并利用softmax函数生成关于方面项情感极性的预测分布:
2.6 模型训练
模型利用交叉熵损失对情感分类任务进行监督:
其中,λ、μ和η是调节损失平衡性的超参数,ε是正则化系数,θ是模型参数集合。
3 实验与分析
本文在3 个公开数据集上对提出的AEDGCN 模型进行了一系列实验,以验证其在性能上的先进性和可解释性。
3.1 数据集
本文在3 个公开数据集上进行实验,包括SemEval-2014 任务[28]的餐厅评论数据集Rest14 和笔记本电脑评论数据集Lap14,以及由Dong等[29]整理的Twitter 推文数据集。数据集中的每条样本均是由真实的评论语句、评论中出现的方面词和其对应的情感类别组成,并且标签只包含积极、中性和消极。本文参考Sun 等[25]的处理方法对数据集进行预处理,处理后的各数据集统计数据如表1所示。
表1 各数据集统计数据Table 1 Statistics of datasets
3.2 实验设置
本文使用Nvidia Tesla T4 GPU进行模型训练,选择CUDA 10.1 和cudnn 7.0 作为GPU 加速库,并利用pytorch 1.9.0框架实现模型代码。
使用Stanford 解析器(https://stanfordnlp.github.io/CoreNLP/)获取数据集中所有评论文本的依存语法关系。使用Pennington 等[30]提供的300 维GloVe 词向量作为本文模型和全部对比模型的初始化词嵌入,位置向量维度dpt设置为30,词性向量维度dps设置为30,BiLSTM输出的隐藏状态维度dhid设置为50,查询向量和键向量的维度dk设置为50,GCN 层数设置为2 层且所有GCN 层的输出维度dout均设置为50。本文对BiLSTM 编码层的输入应用丢弃率为0.7 的dropout操作,对每个GCN层的输入应用丢弃率为0.5的dropout 操作,对自注意力模块和双仿射注意力模块中的注意力权重矩阵应用丢弃率为0.1 的dropout操作。设置语法正则化系数λ=0.5,差异正则化系数μ=0.5,正交正则化系数η=0.1,参数正则化系数ε=1× 10-4。模型训练采用学习率为0.002 的Adam优化器,设置batch 大小为32,在每个数据集上进行50轮训练。
3.3 对比模型
为了全面评估和分析本文提出的AEDGCN 在ABSA 任务中的性能,本文选取了一系列基于不同方法类型的代表性模型与AEDGCN 进行比较,其简要描述如下:
(1)ATAE-LSTM[13]:利用LSTM 对句子进行建模,基于上下文与方面项的相关性对上下文进行加权聚合。
(2)MemNet[31]:将上下文句子视为外部记忆,在上下文的词向量表示上应用多跳注意力机制,并将最后一跳的输出作为方面的最终表示。
(3)IAN[14]:使用两个LSTM 分别对方面和上下文进行编码,并利用交互注意力机制对方面和上下文间的关系进行建模。
(4)TNet[32]:将Bi-LSTM 编码后的句子特征表示经过连续的面向方面的上下文编码和注意力机制进行特征融合与提取,并使用CNN 提取最终的特征表示。
(5)ASGCN(aspect-specific graph convolutional networks)[18]:使用Bi-LSTM 获取句子的特征表示,通过基于依存树的GCN 学习特定于方面的上下文表示,并利用注意力机制聚合上下文表示用于分类。
(6)CDT(convolution over dependency tree)[25]:使用Bi-LSTM 获取句子的特征表示,并通过基于依存树的GCN学习方面表示。
(7)BiGCN(bi-level interactive graph convolution network)[33]:基于依存树和词共现关系构建语法图和词汇图,归纳区分不同类型的语法依赖关系和词共现关系,设计了双层次交互式图卷积网络以充分学习节点表示。
(8)SenticGCN[8]:基于依存树和SenticNet知识库构建情感增强的依存图,并将其应用于ASGCN 的模型架构进行表示学习。
(9)TD-GAT[19]:提出基于依存树的图注意力网络,并采用LSTM单元逐层更新节点表示。
(10)R-GAT[20]:通过对依存树进行重塑和剪枝定义了一种面向方面的依存树结构,并基于此利用词特征和依存关系特征构建关系图注意力网络进行表示学习。
(11)kumaGCN[22]:利用HardKuma 分布对句子的语义信息进行采样,归纳生成方面特定的潜在图结构,并引入门控机制将潜在图与依存树相结合。
(12)DGEDT(dependency graph enhanced dualtransformer)[9]:一种双通道Transformer 结构,分别基于多头自注意力和依存树上的GCN学习句子的平面表示和图表示,并利用BiAffine进行通道间信息交互。
(13)DualGCN[10]:通过构建基于依存解析概率矩阵的SynGCN 和注意力机制的SemGCN 双通道结构集成语法知识和语义信息,并利用双仿射模块进行通道间信息交互。此外,在SemGCN 中利用正交正则化和差异正则化帮助模型更为准确地捕获不同于语法结构的语义关联。
(14)DM-GCN(dynamic and multi-channel graph convolutional networks)[34]:分别基于依存树和多头自注意力机制构建句法图与语义图,并通过句法图卷积(Syntax GCN)和语义图卷积(Semantic GCN)分别提取相应信息,同时利用一个带有参数共享策略的公共图卷积模块Common GCN 获取两个空间的共享信息。最后将3 个通道提取的信息进行融合并用于分类任务。
3.4 实验结果
本节在全部3 个数据集上比较了AEDGCN 和对比模型的ABSA性能,其中各对比模型的实验结果分别来自其原论文。实验结果如表2所示,其中字体加粗的表示当前指标中的最优结果,加下划线的表示次优结果,加“*”号的则表示该数据集上的目前最先进结果。此外,“Att”表示基于注意力的模型,“Syn+GCN”表示基于依存树的GCN 模型,“Syn+Att”表示依存树与注意力相结合的模型。
表2 实验结果Table 2 Experimental results 单位:%
如表2 所示,本文提出的AEDGCN 在Rest14 上的准确率和F1 值分别取得了最优和次优结果,在Twitter 数据集上的准确率和F1 值都取得了次优结果,在Lap14 数据集上的准确率也取得了次优结果,实现了较为先进的情感分类性能,证明了本文模型在ABSA任务中的有效性。相较于其他对比模型,本文的AEDGCN 与取得目前最先进性能的DM-GCN都在对语法知识不敏感的Twitter 数据集上具有显著的性能优势,这是由于二者均利用语法与语义信息构建多通道架构,能够充分发挥语法知识和注意力机制各自的优势,一定程度减轻了模型对于依存树解析质量的依赖性,增强了模型的鲁棒性。
观察包含情感知识的SenticGCN 和AEDGCN,二者都显示出较为优异的性能,证明引入情感知识对于ABSA 任务具有积极作用。而AEDGCN 的性能更优于SenticGCN,证明了本文所采用的将图结构与注意力相结合的双图卷积架构的有效性。关于AEDGCN 在Lap14 数据集上表现稍逊,本文认为可能的原因是Lap14 数据集中存在大量包含数字及专业术语的评论,与情感知识的联系较弱。
从表2 还可以看出,ASGCN、CDT 等“Syn+GCN”模型在大多数数据集上的性能都明显优于ATAE-LSTM、MemNet等“Att”模型,说明相较于注意力机制,依存树对词语间语法依赖关系的建模能够更为准确地捕捉方面项与其对应意见项之间的联系。而观察R-GAT、DGEDT、DualGCN 等“Syn+Att”模型,其性能明显优于ASGCN、CDT 等“Syn+GCN”的GCN模型。这说明相较于边权值固定且缺乏区分性的GCN 方法,将图结构与注意力相结合的表示学习方法更有利于ABSA任务。
此外,本文将AEDGCN 与表2 中性能较为先进的CDT、SenticGCN、DualGCN、DM-GCN等模型的参数规模进行了比较,以验证本文模型的高效性,其结果如表3 所示。可以观察到,本文提出的AEDGCN的参数规模较小,与CDT、DualGCN 相近,且明显小于SenticGCN、DGEDT、DM-GCN。同时由表2可知,AEDGCN 在大部分数据集上的ABSA 性能普遍优于CDT、SenticGCN、DGEDT 等对比模型,并达到了与DualGCN、DM-GCN 所实现的目前最先进性能较为接近的结果,即AEDGCN 能够利用较少的参数实现先进的ABSA性能,具有一定的参数高效性。
表3 模型参数量比较Table 3 Comparison of model parameters
3.5 消融实验
为进一步验证AEDGCN 中各模块的有效性,本文基于3.2 节中的参数设置,设计了7 组对比模型,包括:
(1)AesGCN:去除自注意力模块、双图卷积模块中的AttGCN 通道及双仿射模块,仅使用AesGCN 通道进行表示学习。
(2)AttGCN:去除双图卷积模块的AesGCN 通道及通道间的双仿射模块,仅使用AttGCN 通道进行表示学习,仍然使用3种正则化器对自注意力机制进行监督。
(3)AEDGCN-w/o-BiAffine:去除双图卷积模块中两通道间的双仿射模块。
(4)AEDGCN-w/o-RS:去除语法正则化器RS,即不使用语法图G对注意力权重矩阵A进行约束。
(5)AEDGCN-w/o-RD:去除差异正则化器RD,即不使用情感增强语法图Aaes对注意力权重矩阵A进行差异化约束。
(6)AEDGCN-w/o-RO:去除正交正则化器RO,即不对注意力权重矩阵A做正交化要求。
(7)AEDGCN-w/o-sentic:不使用SenticNet 中的情感知识对语法图进行增强,而仅使用邻接矩阵G作为AesGCN通道的输入图结构。此外,为避免节点度的差异对表示学习产生不利影响,对G进行归一化得到∈Rn×n并用于后续的GCN 操作。中元素的形式化定义为:
其中,gij表示邻接矩阵G中的元素。
使用以上对比模型在全部3 个数据集上进行消融实验,结果如表4所示。
表4 消融实验结果Table 4 Experimental results of ablation study 单位:%
观察AesGCN 和AttGCN 的表现可知,AesGCN和AttGCN 在3 个数据集上的性能相较于AEDGCN均出现不同程度的衰退,这表明仅基于先验知识的情感增强语法图和仅基于自主学习的注意力机制对词语间依赖关系进行建模都不足以应对ABSA 任务的复杂情况,需要将二者结合才能够充分发挥各自的优势。此外,AttGCN 在Rest14 数据集上性能与AesGCN 相近,在Lap14 与Twitter 数据集上性能普遍优于AesGCN,且在Twitter 数据集上差距最为明显,这说明在AEDGCN 中,具有正则化监督的自注意力机制对ABSA任务的贡献更大,尤其是处理对语法知识不敏感的样本时。
观察AEDGCN-w/o-BiAffine 的表现可知,去除BiAffine模块会导致模型性能大幅下降,同时AEDGCNw/o-BiAffine 的性能也与AesGCN、AttGCN 相近,这表明直接以双通道的形式将先验的情感知识与注意力机制进行简单的结合依然不足以实现准确的依赖关系建模,需要利用通道间的信息交互实现二者的优势互补。
从表4还可以观察到,AEDGCN-w/o-RS、AEDGCNw/o-RD和AEDGCN-w/o-RO的性能相比AEDGCN 在3 个数据集上的准确率均出现了超过1个百分点的显著下降,说明本文使用的3 种正则化器都能够帮助注意力机制更为准确地捕捉语义相关性。其中AEDGCN-w/o-RS的下降幅度略大于AEDGCN-w/o-RD和AEDGCN-w/o-RO,证明了本文提出的语法正则化器能够有效利用依存树中包含的语法知识为模型的依赖关系建模提供帮助。值得注意的是,同AEDGCN-w/o-RS、AEDGCN-w/o-RD和AEDGCN-w/o-RO相比,AEDGCN 并没有参数上的增加,表明本文使用的3 种正则化器能够在不引入额外参数的情况下提高模型的表示学习能力,具有一定的高效性。
此外,通过对比AEDGCN-w/o-sentic和AEDGCN之间的性能差异,能够证明情感增强图卷积的有效性,即利用SenticNet 包含的情感知识对依存树进行增强可以在很大程度上促进情感倾向较为明显的词语在表示学习过程中获得更多关注。
总体上,完整的AEDGCN 模型实现了最佳的情感分类性能,有力证明了AEDGCN 中各模块的有效性。
3.6 双图卷积模块层数的影响
为探究DualGCN 模块层数L对AEDGCN 模型性能的影响,本文在Lap14和Twitter数据集上评估了在L取值为1~6 时模型的准确率,实验结果如图2 所示。从图2中不难看出,当堆叠2~3个DualGCN 模块时,模型性能最好。一方面,当仅使用1 层DualGCN模块时,每个节点只能与其一阶邻域产生信息交互;另一方面,当层数过多时,基于图结构的多次信息交互将导致过平滑现象,即图节点表示间缺乏区分性,同时参数的增加也会导致模型训练难度增大以及泛化能力降低。
图2 DualGCN模块层数L的影响Fig.2 Effect of DualGCN module layer number L
3.7 案例研究
3.7.1 双图卷积模块的有效性
本文基于AesGCN、AttGCN 和AEDGCN 模型对Rest14 数据集中的2 个案例进行分析以更加直观地说明本文采用的双图卷积结构的有效性。结果如表5 所示,其中P、N 和O 分别代表积极、消极和中性情感。图3、图4展示了例句(a)、(b)的依存树。图5~图7分别显示了在处理例句(a)时,AesGCN中的情感增强语法图以及AttGCN 和AEDGCN 中的注意力权重矩阵的可视化结果。图8~图10则分别展示了在处理例句(b)时AesGCN 中的情感增强语法图以及AttGCN和AEDGCN中的注意力权重矩阵的可视化结果。
表5 AesGCN、AttGCN及AEDGCN的预测结果Table 5 Prediction results of AesGCN,AttGCN and AEDGCN
图3 例句(a)依存树Fig.3 Dependency tree of example sentence(a)
图4 例句(b)依存树Fig.4 Dependency tree of example sentence(b)
图5 AesGCN中例句(a)的情感增强语法图Fig.5 Affection-enhanced-syntax graph of example sentence(a)in AesGCN
由表5 可知,AEDGCN 和AttGCN 都准确识别出方面词“ambiance”的情感极性为积极,而AesGCN 误判为消极。观察图3 和图5,本文认为可能的原因是“ambiance”与其对应意见词间的语法距离过远。具体来说,方面词“ambiance”与意见词“fine”“loud”的语法距离分别为1 和2,与意见词“nice”“romantic”的语法距离则分别为3 和4,因此在使用2 层的GCN 操作时,“nice”“romantic”无法与方面词产生信息交互,导致模型根据具有强消极情感的“loud”得出错误的预测结果。而由图6、图7 可知,AttGCN 和AEDGCN中的注意力机制能够从全局的角度为方面词捕捉对情感分类有利的语义关联,因而给予了“fine”较多的关注,有效弥补了语法图存在的缺陷。
图6 AttGCN中例句(a)的注意力权重矩阵Fig.6 Attention weight matrix of example sentence(a)in AttGCN
图7 AEDGCN中例句(a)的注意力权重矩阵Fig.7 Attention weight matrix of example sentence(a)in AEDGCN
由表5可知,AEDGCN和AesGCN都准确识别出方面词“table”的情感极性为中性,而AttGCN 误判为消极。观察图4、图8,方面“table”和“hostess”的语法相关项几乎不存在重叠,说明语法知识能够有效区分句中不同方面对应的语法依赖关系。而从图9 可以看出,AttGCN 中的注意力权重较为分散,且大部分词语都给予“hostess”的意见词“greeted”较多的关注,导致模型预测错误。此外由图10 可知,相较于AesGCN,AEDGCN 中的注意力权重分布更为集中,且有效减少了来自“greeted”的干扰,原因在于通道间信息交互使得AEDGCN中的注意力机制能够得到语法知识的指导。
图8 AesGCN中例句(b)的情感增强语法图Fig.8 Affection-enhanced-syntax graph of example sentence(b)in AesGCN
图9 AttGCN中例句(b)的注意力权重矩阵Fig.9 Attention weight matrix of example sentence(b)in AttGCN
图10 AEDGCN中例句(b)的注意力权重矩阵Fig.10 Attention weight matrix of example sentence(b)in AEDGCN
总体上,得益于双图卷积结构,本文提出的AEDGCN 能够充分结合注意力机制与依存树二者的优势,实现了较为先进、稳定的ABSA性能。
3.7.2 情感知识的有效性
本文基于AEDGCN-w/o-sentic 和AEDGCN 模型对Rest14 数据集中的案例进行分析,以更好地理解情感知识在ABSA 任务中的重要性,结果如表6 所示。例句(c)的依存树如图11 所示。图12、图13 分别展示了在处理例句(c)时AEDGCN-w/o-sentic 中语法图和AEDGCN中情感增强语法图的可视化结果。
表6 AEDGCN-w/o-sentic及AEDGCN的预测结果Table 6 Prediction results of AEDGCN-w/o-sentic and AEDGCN
图11 例句(c)依存树Fig.11 Dependency tree of example sentence(c)
图12 AEDGCN-w/o-sentic中例句(c)的语法图Fig.12 Syntax graph of example sentence(c)in AEDGCN-w/o-sentic
图13 AEDGCN中例句(c)的情感增强语法图Fig.13 Affection-enhanced-syntax graph of example sentence(c)in AEDGCN
由表6 可知,AEDGCN 能够准确识别出方面词“pasta”的情感极性为积极,而AEDGCN-w/o-sentic误判为消极。由图11可知,例句(c)中存在大量与“pasta”具有直接或间接语法关联的词语。然而通过观察图12 展示的语法图中“pasta”与“perfectly”各自所在行,方面词“pasta”为其众多相关词赋予了相同的边权重,意见词“perfectly”则为方面词“pasta”与无关词“.”赋予了相同的边权重,这类现象会导致模型难以辨别ABSA 任务所需的意见词。观察图13 展示的情感增强语法图中“pasta”与“perfectly”各自所在行,二者间的边权重相较于其他无关词得到了强调,有利于模型得出正确的预测结果。由此可见,情感知识可以帮助模型更好地关注对情感极性预测任务帮助较大的词语。
4 结束语
本文提出了一种用于方面级情感分析的情感增强双图卷积模型AEDGCN。为了强调情感知识在ABSA任务中的作用,模型利用SenticNet包含的情感知识对依存树生成的图结构进行增强以获取情感增强语法图。模型基于情感增强的语法图与自注意力机制分别构建AesGCN 和AttGCN,以帮助模型更为准确、高效地捕捉词语间的语法及语义依赖关系,同时减轻了模型对依存树解析质量的依赖程度。在三个公开数据集上的一系列实验证明了模型在性能上的先进性和组成成分的可解释性。未来的工作将继续探索新的情感知识引入方式以更加真实地反映方面项及其对于意见项间情感联系,以及如何更加准确、高效地对语义关系进行建模。