APP下载

用于方面级情感分析的图指导的差异化注意力网络

2023-10-24张文轩殷雁君

中文信息学报 2023年7期
关键词:集上注意力语法

张文轩,殷雁君

(内蒙古师范大学 计算机科学技术学院,内蒙古 呼和浩特 010022)

0 引言

随着社交网络和电子商务的发展,情感分析已经成为自然语言处理(Natural Language Processing, NLP)的一个热门研究课题[1]。方面级情感分析(Aspect-Level Sentiment Analysis, ALSA)是一项面向实体的细粒度情感分析任务,旨在确定句子中方面项的情感极性,即积极、消极或中性。以语句“Great food but the service was dreadful !”为例,其对于给定的两个方面项“food”和“service”的情感极性分别为积极和消极。ALSA可以准确地识别用户对某个具体方面的态度,而不是简单地为一个句子指定情感极性,因而在市场调研、舆情监测等领域具有宝贵的应用价值。

为帮助神经网络模型聚焦于方面项,过去的研究通常采用注意力机制(Attention Mechanism)[2]对句子中词语间的语义关联进行建模。但由于文本的复杂性,单纯的注意力机制往往不能准确捕获方面和上下文词之间的依赖关系。同时,基于注意力机制生成的权重通常分布较为密集,因此不可避免会引入噪声信息[3-4]。

近年来,图卷积网络(Graph Convolution Network, GCN)[5]在依存树上的应用在ALSA领域引起了广泛关注。这类模型根据句子的句法结构建立依存树,并利用GCN操作在基于依存树生成的图结构上进行表示学习,使得方面项与距离较远的意见项能够更加高效、准确地进行信息交互。然而,此类方法利用依存树构建的邻接矩阵中仅采用“1”或“0”两种情况,表示两个节点间是否存在通路,这种简单、固定的边权重无法为方面项与相应的意见项提供相较于其他词语更多的关注度。以句子“I think the meatball parm is good”为例,其依存树及邻接矩阵如图1所示,方面项“meatball parm”和意见项“good”具有和“the”等无关词相同的边权重,这显然会为ALSA任务带来干扰。

为克服注意力机制和GCN各自的缺陷,最近的研究尝试在依存树生成的图结构上应用注意力机制[6-8]或建立基于图结构和注意力机制的双通道模型[9-11],帮助模型有针对性地提取对ALSA任务有益的信息。然而,以上方法存在模型性能高度依赖依存树解析质量的缺陷,当句子结构较为复杂或对语法不敏感导致依存树解析质量较差时,模型将难以维持原有性能[12]。

为解决以上问题,本文提出一种图指导的差异化注意力网络(Graph-Guided Differentiated Attention Network, GGDAN)用于ALSA任务。针对当前结合注意力机制与图结构的模型高度依赖依存树解析质量的问题,提出一种图指导机制,利用依存树生成的图结构指导注意力权重矩阵的生成,在帮助模型更为准确、高效地捕捉词语间依赖关系的同时,降低了模型对依存树的依赖程度。针对注意力权重分布密集的问题,提出一种注意力差异化,帮助模型学习更加离散化的注意力权重,能够在一定程度上减少噪声引入。在3个公开数据集上的多方面实验证明了本文模型的先进性和可解释性。

1 相关研究

与传统的句子级或文档级的情感分析任务不同,方面级情感分析是一种面向实体的细粒度情感分析任务。早期的ALSA方法主要基于情感词典和机器学习[13],这类方法主要依靠手工提取特征,虽然在特定领域有良好表现,但需要耗费大量人工成本,并且无法对方面项及其上下文之间的依赖关系进行建模。

神经网络模型不依靠人工定义特征,能够进行端到端的表示学习。近年来,由于注意力机制在上下文语义建模中的良好表现,大量工作尝试将基于注意力的神经网络模型应用于ALSA任务,其主要目的在于利用注意力机制捕捉和建立方面项及其意见项之间的联系。Wang等[14]提出的ATAE-LSTM将方面词向量和上下文词向量组合作为LSTM的输入,利用注意力机制为上下文赋予不同的权重以提取有利于ALSA任务的语义特征。IAN[15]、MGAN[16]和AOA[17]则分别对方面项和上下文进行建模,并利用二者间的交互注意力机制为上下文分配权重。尽管上述方法已经在ALSA任务中取得了良好的性能,但由于缺乏对语法知识的利用,当句子成分较为复杂或句中存在多个方面时,将难以对方面项的情感极性做出准确判断。同时,注意力机制存在权重分布过于密集的现象,导致模型不可避免地受到不相关词语的干扰。

考虑到语法知识在ALSA任务中的重要性,基于依存树建立的GCN模型逐渐成为ALSA领域的研究热点。依存句法分析通过对句子中词与词之间的语法关系进行抽取和筛选以构建依存树,能够有效缩短方面项和观点词之间的距离[18]。以句子“The falafel was over cooked and dried but the chicken was fine”为例,其依存树如图2所示,其中方面项“chicken”和意见项“fine”之间存在直接相连路径,表示二者具有语法关联,而方面项“falafel”和“fine”间则不存在直接相连的路径。因此,依存树在一定程度上能够规避无关上下文信息对ALSA任务的影响。文献[19]根据依存树建立无向图,利用GCN学习包含语法知识的上下文表示,在ALSA任务中达到了当时最先进的水准。文献[20]则分别利用依存树和词共现关系构建基于语法图和词汇图的双通道GCN模型,学习同时包含语法和语义关系的特征表示。然而,GCN模型边权重固定的特点导致其信息交互过程缺乏区分性,为表示学习带来困难。

最近的研究者采用将依存树与注意力机制相结合的方法解决这一问题,研究思路主要包括:

(1) 直接在图结构上应用注意力机制以学习具有动态权重的图。例如,Huang等[6]提出的TD-GAT基于依存树构建图注意力网络,并采用LSTM单元结构对节点进行更新。Wang等[7]引入依赖关系类型信息,并以目标方面为根节点对依存树进行修剪,构建关系图注意力网络(Relational Graph Attention Network, R-GAT)。

(2) 基于图结构和注意力机制建立双通道模型以进行不同层面的表示学习。例如,Xu等[9]提出的AEGCN采用多头自注意力和GCN双通道的方式分别提取特征,并通过通道间的交互注意力机制使得注意力机制和GCN相互增强。Tang等[11]提出的依存树增强的双Transformer模型(Dependency Graph Enhanced Dual-Transformer, DGEDT)则分别基于多头自注意力和GCN建立双通道Transformer模型,并引入一个交互双仿射模块以方便通道间的信息交流。此外,Hou等[21]提出基于选择性注意力的图卷积网络(Selective Attention based Graph Convolutional Networks, SA-GCN),通过对注意力机制生成的权重值应用Top-k操作,丢弃权重较低的词语,以去除不相关词语对ALSA任务的影响。然而,这些方法的模型性能高度取决于依存树的解析质量的缺陷,鲁棒性较差。

基于以上思考,本文提出图指导的差异化注意力网络GGDAN。模型以注意力机制为基础,通过图指导机制利用依存树包含的语法知识对其进行增强,以有效结合二者优势。针对注意力权重分布过于密集的问题,模型引入注意力差异化操作,帮助模型学习更具差异性的注意力权重,减少噪声信息引入。在3个公开数据集上进行广泛实验,显示本文提出的GGDAN网络实现了较为先进和稳定的性能。

2 图指导的差异化注意力网络

本节将详细介绍本文提出的用于方面级情感分析的图指导的差异化注意力网络GGDAN,其流程如图3所示。

图3 GGDAN整体流程

模型由Bi-LSTM编码层、自注意力模块、图卷积层、特征交互模块和分类层等结构组成。模型以句子方面对(s,a)为输入,其包含一个长度为n的句子s={w1,w2,…,wτ+1,…,wτ+m,…,wn},以及从该句第τ+1个词开始的长度为m的方面a={wτ+1,wτ+2,…,wτ+m}。利用Bi-LSTM对句子s经嵌入得到的词向量序列表示进行编码,并将编码后的隐藏向量与预处理步骤得到的位置向量和词性(Part of speech, POS)向量进行拼接,输入自注意力模块中计算注意力权重矩阵,同时利用依存树生成的图结构对注意力权重矩阵进行指导。随后将注意力权重矩阵作为具有边权重的图结构,对Bi-LSTM层得到的隐藏向量进行图卷积操作。利用特征交互模块对图卷积得到的特征进行聚合,生成用于预测的情感向量。最后将情感向量送入分类器得到情感预测结果。

2.1 预处理

预处理旨在对输入句子s进行依存分析(Dependency Parsing),并根据依存树建立邻接矩阵G∈Rn×n。具体来说,对于图G中的任意元素gij,若词wi和词wj在依存树中存在语法关系,则令gij=gji=1,否则令gij=gji=0。同时为G中所有节点添加自连接,即gii=1。此外, 参考Sun等[22]

的研究,根据句中词语同方面项间的相对位置关系及依存解析结果为每个词语分配位置标签和词性标签,并基于位置标签和词性标签对句子进行嵌入表示,生成可学习的位置向量Xpost∈Rn×dpt和词性向量XPOS∈Rn×dps,其中,dpt和dps分别表示位置向量和词性向量的维度。

2.2 Bi-LSTM编码层

对于句子方面对(s,a),利用嵌入矩阵E∈R|V|×de获取句子s的词向量表示X={x1,x2,…,xn},其中|V|是词表大小,de是词向量维度。将X送入Bi-LSTM进行编码以获得包含上下文信息的隐藏状态向量H={h1,h2,…,hn},其中,hi∈R2dhid是Bi-LSTM在时间步i处的隐藏向量,dhid是隐藏状态向量维度。Bi-LSTM编码层的形式化定义如式(1)~式(3)所示。

其中,LSTMforward和LSTMbackward分别表示前向和后向LSTM编码操作,[;]表示拼接操作。

2.3 自注意力模块

自注意力模块以包含语法知识的邻接矩阵G为辅助监督,基于自注意力机制生成差异化注意力矩阵A∈Rn×n作为加权图。具体来说,首先将经过BiLSTM编码得到的隐藏向量H∈Rn×dhid与位置向量Xpost、词性向量XPOS进行拼接作为输入特征H′∈Rn×(dhid+dpt+dps),形式上如式(4)所示。

H′=[H;Xpost;XPOS]

(4)

输入特征H′经过线性映射分别生成查询向量Q∈Rn×dk和键向量K∈Rn×dk,并用于计算注意力权重矩阵A,其中,dk是查询向量和键向量的维度。具体定义如式(5)~式(8)所示。

其中,WQ∈R2dhid×dk和WK∈R2dhid×dk是可学习的权重矩阵,bQ∈Rdk和bK∈Rdk是可学习的偏置,An∈Rn×n表示未经归一化注意力权重矩阵。

2.3.1 图指导机制

为充分发挥注意力机制与语法知识各自的优势并减轻模型对依存树的依赖程度,本文提出了图指导机制,帮助模型自发地学习接近于图结构的注意力权重,而不是直接基于图结构进行表示学习。

(9)

其中,inf表示无穷大。

利用maskG(·)对An进行过滤得到基于图G的注意力权重矩阵AG∈Rn×n,如式(10)所示。

AG=Softmax(maskG(An))

(10)

为防止单纯的自注意力机制引入过多语法上无关的噪声信息,本文设计了对比损失Lcon,利用AG对A进行监督,如式(11)所示。

(11)

直观上,对比损失Lcon通过计算A和AG间的均方误差,使得A和AG相互接近,以实现利用图G包含的语法知识指导注意力权重的目的,其本质在于鼓励句中词语更多关注与自身在语法上直接关联的词语,反之则给予惩罚。

2.3.2 注意力差异化操作

如前文所述,过于密集的注意力权重分布可能引入大量无关的上下文信息,为表示学习带来负面影响。文献[3-4]表明,更稀疏的注意力权重能使得每个节点关注的信息更具针对性,以减少不相干节点的干扰。因此,为使得A中注意力权重值趋于稀疏,即权重分布趋于离散,本文提出了注意力差异化操作。

(12)

差异化损失Ldiff的本质在于最大化注意力权重矩阵的方差,促进A中权重分布的离散程度增大,这使得每个词语更容易为与其高度相关的上下文提供较高的权重,从而减少无关节点的干扰。

2.4 图卷积层

与以往基于依存树的GCN模型[19-20, 22]不同,本文模型的图卷积层将自注意力模块生成的注意力权重矩阵A作为图结构并用于节点的表示学习,其优势在于: 一是注意力权重矩阵作为全连通图能够有效缩短依存树结构中多跳相关节点间的路径距离,二是可以减轻模型对依存树的依赖程度。

参考Kipf和Welling等[5]的研究,本文GCN层的形式化定义如式(13)所示。

Hl=σ(AHl-1Wl+bl)

(13)

其中,Hl∈Rn×dg表示第l个GCN层的输出,且H0=H,Wl和bl∈Rdg分别表示第l个GCN层中可学习的权重和偏置,且除W1∈R2dhid×dg外,对任意l>1都有Wl∈Rdg×dg,dg为图卷积层的输出维度,σ表示ReLU激活函数。通过堆叠L个GCN层使得节点间的信息充分交互。

2.5 特征交互模块

特征交互模块利用低层特征和高层特征之间的交互注意力机制对方面项和其上下文间的依赖关系进行建模,生成用于情感分类的方面和上下文表示。

首先,通过平均池化操作对隐藏状态向量H中的方面向量进行聚合,并通过一个线性层将其映射到与图卷积层的输出HL∈Rn×dg相同维度的向量空间,以捕获低层方面特征h′a∈Rdg,如式(14)、式(15)所示。

其中,Wa∈R2dhid×dg为可学习的权重。

其中,h′Ta表示h′a的转置。

考虑句子“It takes a long time to boot up”和“The battery life is long”,尽管两个句子具有相同的意见词“long”,但方面项“boot up”和“battery life”的情感极性完全相反。这表明对于不同的方面项,情感极性的判断准则也不尽相同,因此在判断方面项情感极性的过程中有必要将方面自身信息纳入考虑[24]。基于以上考虑,本文通过平均池化操作对HL中的方面向量进行聚合,生成高层方面特征ra∈Rdg,如式(19)所示。

(19)

最后,将高层上下文特征rc和高层方面特征ra进行拼接以获得用于分类的情感向量r∈R2dg,如式(20)所示。

r=[rc;ra]

(20)

2.6 分类器

将特征交互模块得到的情感向量r送入一个线性层,并利用Softmax函数生成关于方面项情感极性的概率分布,如式(21)所示。

(21)

其中,Wp∈R2dg×c和bp∈Rc分别表示可学习的权重和偏置,c为情感极性类别数。

2.7 模型训练

模型利用交叉熵损失对情感分类任务进行监督,如式(22)所示。

(22)

本文模型的最终损失如式(23)所示。

L=Lsc+λLcon+μLdiff+ε‖θ‖2

(23)

其中,λ和μ是调节损失平衡性的超参数,ε是正则化系数,θ是本文模型所有参数的集合。

3 实验

本文在3个公开数据集上对提出的GGDAN模型进行了一系列实验,以验证其在性能上的先进性和可解释性。

3.1 数据集

本文在3个公开数据集上进行实验,包括SemEval-2014任务[25]的餐厅评论数据集Rest14和笔记本电脑评论数据集Lap14,以及由Dong等[26]整理的Twitter推文数据集。数据集中的每条样本均由真实的评论语句、评论中出现的方面词和其对应的情感类别组成,并且标签只包含积极、消极和中性。数据集的统计数据如表1所示。

表1 各数据集统计数据

3.2 实验设置

本文使用Stanford解析器(1)https://stanfordnlp.github.io/ CoreNLP/获取所有文本数据的依存句法关系。使用Pennington等[27]提供的300维GloVe词向量作为本文模型和全部对比模型的初始化词嵌入,位置向量维度设置为30,词性向量维度设置为30,BiLSTM输出的隐藏状态维度设置为50,查询向量和键向量的维度设置为50,GCN层数设置为2且所有GCN层的输出维度均设置为50。本文对BiLSTM编码层的输入应用丢弃率为0.6的Dropout操作,对每个GCN层的输入应用丢弃率为0.5的Dropout操作,对自注意力模块生成的注意力权重矩阵A应用丢弃率为0.2的Dropout操作。设置对比损失系数λ=0.5,差异化损失系数μ=0.1,正则化系数ε=10-5。模型训练采用学习率为0.001的Adam优化器,设置Batch大小为32,在每个数据集上进行50轮训练。

实验结果取随机初始化5次运行的最好结果的平均值,并采用分类准确率和Macro-F1值作为评价指标。

3.3 对比模型

为了全面评估和分析本文提出的GGDAN模型在ALSA任务上的性能,本文选取了一系列基于不同方法类型的代表性模型与GGDAN进行比较,包括:

ATAE-LSTM[14]: 利用LSTM对句子进行建模,基于上下文与方面项的相关性对上下文进行加权聚合。

MemNet[28]: 将上下文句子视为外部记忆,在上下文的词向量表示上应用多跳注意力机制,并将最后一跳的输出作为方面的最终表示。

IAN[15]: 使用两个LSTM分别对方面和上下文进行编码,并利用交互注意力机制对方面和上下文间的关系进行建模。

TNet[29]: 将Bi-LSTM编码后的句子特征表示经过连续的面向方面的上下文编码和注意力机制进行特征融合与提取,并使用CNN提取最终的特征表示。

ASGCN[19]: 使用Bi-LSTM获取句子的特征表示,通过基于依存树的GCN学习特定于方面的上下文表示,并利用注意力机制聚合上下文表示用于分类。

CDT[22]: 使用Bi-LSTM获取句子的特征表示,并通过基于依存树的GCN学习包含情感极性的方面表示。

BiGCN[20]: 基于依存树和词共现关系构建句法图和词汇图,归纳区分不同类型的语法依赖关系和词共现关系,设计了双层次交互式图卷积网络以充分学习节点表示。

TD-GAT[6]: 提出基于依存树的图注意力网络,并采用LSTM单元逐层更新节点表示。

AEGCN[9]: 以双通道的形式分别利用多头注意力和引入注意力机制的基于依赖树的GCN对文本表示进行编码,并利用通道间的交互注意力进一步增强表示。

kumaGCN[10]: 利用HardKuma分布对句子的语义信息进行采样,归纳生成方面特定的潜在图结构,并引入门控机制将潜在图与依存树相结合。

DGEDT[11]: 提出了一种双通道Transformer结构,分别基于多头自注意力和依存树上的GCN学习句子的平面表示和图表示,并利用交互双仿射变换进行通道间信息交互。

3.4 实验结果

本节在全部3个数据集上比较了GGDAN和对比模型的ALSA任务性能,其中各对比模型的实验结果分别来自原文献。实验结果如表2所示,其中字体加粗的表示当前指标中的最优结果,加下划线的表示次优结果。

表2 实验结果 (单位: %)

如表2所示,ASGCN、CDT等基于依存树的GCN模型在大多数数据集上的性能都明显优于ATAE-LSTM、MemNet等基于注意力机制的模型,说明相较于注意力机制,语法知识的引入能帮助模型更为准确地提取与方面项相关的上下文信息。同时,除DGEDT外,TD-GAT、AEGCN等将注意力机制与语法知识相结合的模型并未表现出明显优于基于依存树的GCN模型的性能,尤其是在大多数数据集上都没能达到与CDT相近的水平,说明当前研究中依然缺乏将注意力机制与语法知识有效结合的方法。

从表2还可以看出,本文提出的GGDAN在3个数据集上都实现了较为优秀的分类性能,证明了本文模型在ALSA任务中的有效性。GGDAN在Rest14数据集上的准确率和F1值分别取得了次优和最优结果,在Lap14数据集上的准确率和F1值均取得了最优结果,在Twitter数据集上则取得了准确率的最优结果。

同时可以观察到,大多数结合语法知识的模型在Rest14、Lap14数据集上性能优于基于注意力机制的模型,而在Twitter数据集上的性能则逊于基于注意力机制的TNet模型。这种现象的可能原因是Twitter数据集对语法知识不敏感,依存树解析质量相对较差,因此注意力机制对于文本间依赖关系建模的作用更大。本文提出的图指导机制通过帮助GGDAN模型自发地学习接近于图结构的注意力权重,对依存树的依赖较小,因此相比其他结合语法知识的模型,能够在Twitter数据集上保持较为先进的情感分类性能,与TNet模型的性能相仿。

3.5 消融实验

为进一步验证GGDAN中各模块的有效性,本文设计了7组对比模型,包括:

(1)Ours-GCN: 移除GGDAN模型中的自注意力模块,直接利用基于依存树生成的图G进行图卷积操作。

(2)Ours-GAT: 去除自注意力模块中的对比损失和差异化损失,将经过图结构过滤的注意力权重矩阵AG作为自注意力模块的输出,并应用于后续的GCN层。

(3)Ours-w/o-con&diff: 去除自注意力模块中的对比损失Lcon和差异化损失Ldiff,即不使用图指导机制和注意力差异化操作。

(4)Ours-w/o-con: 只去除对比损失Lcon,即不使用图G对注意力权重矩阵A进行指导。

(5)Ours-w/o-diff: 只去除差异化损失Ldiff,即不对注意力权重矩阵A做离散化要求。

(6)Ours-w/o-rc: 去除了特征交互模块中对高层方面特征的聚合步骤,只使用高层上下文特征rc进行分类。

(7)Ours-w/o-ra: 去除了特征交互模块中的交互注意力机制,只使用高层方面特征ra进行分类。

运用以上对比模型在全部3个数据集上进行消融实验,实验结果如表3所示。

表3 消融实验结果 (单位: %)

由表3可知,相比使用图指导机制的Ours-w/o-diff和完整的GGDAN模型,Ours-GCN、Ours-GAT、Ours-w/o-con&diff和Ours-w/o-con等不使用图指导机制的对比模型在Rest14和Lap14数据集上均表现出不同程度的性能下降,证明本文提出的图指导机制在ALSA任务中的有效性,即图指导机制能够有效地对方面项及其上下文间的依赖关系进行捕获与建模。Twitter数据集上的最佳准确率由Ours-w/o-con和Ours-w/o-con&diff取得,这可能是由于Twitter数据集对语法不敏感,图指导机制可能相比单纯的注意力机制为表示学习带来一定干扰。值得注意的是,完整的GGDAN模型在Twitter数据集上依然取得了准确率和F1值的次优结果,并明显优于Ours-GCN、Ours-GAT等严格依赖于依存树的模型,表明本文提出的图指导机制能够通过减轻模型对依存树依赖程度,帮助模型在语料对语法不敏感的情况下保持较为鲁棒的性能。

此外,观察完全基于自注意力机制的Ours-w/o-con&diff,其表现依然明显优于具有图结构的Ours-GCN和Ours-GAT,甚至在Twitter上取得了最高准确率。这说明相较于语法知识,自注意力机制为本文模型性能带来的增益更大,尤其是在语料对语法不敏感的情况下。

从表3可以看出,在全部3个数据集上,完整的GGDAN模型的表现均明显优于Ours-w/o-diff,Ours-w/o-con的表现,也都略微优于Ours-w/o-con&diff。以上现象表明,通过学习分布更为离散的注意力权重,本文提出的注意力差异化操作能够有效减少无关信息对ALSA任务的影响。

最后,对比Ours-w/o-rc、Ours-w/o-ra和GGDAN模型的性能可知,特征交互模块包含的高低层特征间的交互注意力以及将方面和上下文信息相结合的方法对ALSA任务是有益的。

总体上,完整的GGDAN模型实现了最佳的情感分类性能,证明了GGDAN中各模块的有效性。值得注意的是,GGDAN模型相比Ours-GAT、Ours-w/o-con&diff、Ours-w/o-con和Ours-w/o-diff等对比模型并没有参数上的增加,表明本文提出的图指导机制和注意力差异化操作能够在不引入额外参数的情况下提高模型的表示学习能力,具有一定的高效性。

3.6 参数研究

3.6.1 对比损失系数λ的影响

为探究对比损失系数λ对模型性能的影响,固定差异化损失系数μ=0.1,并设置不同的λ取值作为对比模型进行实验,结果如表4所示,其中λ=0.0的情况等价于3.5节的Ours-w/o-con。

表4 对比损失系数λ的影响 (单位: %)

如表4所示,当λ=0.0时,模型完全去除了图指导机制,其性能在Rest14和Lap14数据集上都明显弱于其他几组对比模型,再次证明本文提出的图指导机制的有效性。对于Rest14和Lap14数据集,当λ=0.5时模型取得最佳性能,这表明本文的参数设置具有一定合理性。在Twitter数据集上,模型在λ=0.0时取得最佳性能,这可能是由于Twitter数据集对语法不敏感,依存树解析质量相对较差,单纯的注意力机制更有利于捕捉文本间的依赖关系。

3.6.2 差异化损失系数μ的影响

为探究差异化损失系数μ对模型性能的影响,固定对比损失系数λ=0.5,并设置不同的μ值作为对比模型,结果如表5所示,其中μ=0.0的情况等价于3.5节的Ours-w/o-diff。

如表5所示,当μ=0.0时,模型在3个数据集上的分类性能均不同程度弱于μ取0.05或0.1时的性能,证明本文提出的注意力差异化操作的有效性。当μ=0.1时,本文模型在3个数据集上均取得了最佳性能,说明本文的参数设置具有一定合理性。此外,当μ>0.1时,随着μ值的增大,模型性能迅速衰减。本文认为这种现象的可能原因: 一是差异化损失过大导致模型难以专注于分类任务,二是过于稀疏的注意力权重矩阵可能导致重要信息的丢失。

4 总结

本文提出了一种用于ALSA任务的图指导的差异化注意力网络GGDAN。模型通过图指导机制将注意力机制和语法知识相结合,利用依存树生成的图结构指导注意力权重矩阵的生成,在帮助模型更为准确、高效地捕捉词语间依赖关系的同时,减轻了模型对依存树解析质量的依赖程度。同时,提出了一种注意力差异化操作,通过帮助模型学习分布更加离散的注意力权重,在一定程度上减少了噪声信息对任务的干扰。在3个公开数据集上的一系列实验证明,本文模型在性能上的先进性和模型成分的可解释性。

未来工作中,我们将从以下方向对本文研究进行扩展: 一是本文模型的自注意力模块需要使用依存分析生成的词性知识,对解析性能仍然具有较强的依赖性,应当继续寻找更加准确、高效地对语义关系和语法关系进行建模的方法。二是探讨本文模型在其他情感分析任务中的有效性,如方面三元组抽取[30]等。

猜你喜欢

集上注意力语法
让注意力“飞”回来
Cookie-Cutter集上的Gibbs测度
链完备偏序集上广义向量均衡问题解映射的保序性
跟踪导练(二)4
Book 5 Unit 1~Unit 3语法巩固练习
复扇形指标集上的分布混沌
“扬眼”APP:让注意力“变现”
A Beautiful Way Of Looking At Things
几道导数题引发的解题思考