APP下载

一种基于CDT 的双路图注意力机制方面情感分析模型*

2023-08-02张誉耀周从华

计算机与数字工程 2023年4期
关键词:句法注意力卷积

张誉耀 周从华

(江苏大学计算机科学与通信工程学院 镇江 212013)

1 引言

近几年来,线上服务行业迅猛发展,电子商务、餐馆点评等功能的线上网站规模正在呈指数级别的增长,得益于智能手机及各种应用APP 的普及,用户可以随时对自己刚买的商品或刚用完餐的餐厅在线写下自己的评论。这些评论文本中包含了大量的信息,诸如用户的情感、商品的特征等,充分挖掘与利用这些信息可以更好地使服务供应商做出合适的决策,也能为其他用户推荐合适的服务。受客观需求的影响,在文本情感分析领域有大量的研究者将目光投向基于方面的情感分析研究ABSA(aspect-based sentiment analysis)。若评 论 为“I liked the food here and the atmosphere is great”,可以看出文本中有两个方面词:“food”和“atmosphere”,并且在这两个方面上都表现为积极的情感。而ABSA的一个主要研究方向就是基于方面词进行情感分析。

近年来有大量研究者利用深度学习来处理ABSA 问题,Wang 等[1]利用基于注意力的长短期记忆力网络(AT-LSTM)模型解决了一个文本中不同方面的情感分类。Ma 等[2]提出了一种交互式注意网络(IAN)来分别学习目标方面词和上下文的表征然后进行情感分类。随着图神经网络的流行,越来越多的研究者开始使用基于图神经网络(GNNs)的模型来进行ABSA 研究。Yao 等[3]和Huang 等[4]验证了使用图卷积神经网络(GCN)和图神经网络(GNN)可以很好地完成文本分类的任务。为了解决传统的分类模型会错误的将一段文本中语法上互不相关的单词识别为对方面词有影响的线索,Zhang 等[5]提出在句子语法依存树上建立GCN,利用句法信息和单词依存信息来进行ABSA 分类。Sun 等[6]利用双向长短期记忆力网络(BiLSTM)学习句子的特征表示之后再使用GCN 增强句法依存图特征嵌入的学习,组合成为一个句法依存树上的卷积模型(CDT)来进行ABSA分类。

图1 “I do like eating fish”的句法依存树

尽管上述模型解决了各方面的问题,但是还有一定的不足之处。在评论句子中,对方面词情感影响较大的只会是特定的几个词,CDT模型使用GCN学习句法依存树时只能获取句子中所有单词的结构化特征,但是无法区分出中心单词的周边单词对它情感的贡献大小,这会导致分类的精确度不足。针对CDT存在的上述不足,本文在模型中引入图注意力机制,提出一种基于CDT的双路图注意力机制文本情感分析模型LA-CDT,图上的消息传递过程中分为图卷积和图注意力两种图网络更新方式,图注意力机制为节点学习关注权重,从而在图卷积过程中可以为更重要的单词节点分配更大的权重;而图卷积拉普拉斯矩阵则能保留下句法图上单词节点之间的结构化连接关系。改进后的模型在三个公共数据集上进行了实验,与六个现有的ABSA 模型进行了结果比较,证明了改进后的模型有效性,并且具备更好的可解释性。

2 相关工作

2.1 CDT

针对以往的方面情感分析(ABSA)模型都是集中在利用神经网络的表达能力来进行ABSA 任务,忽略了诸如依存树等重要的信息的不足,Sun 等[6]提出了一种在依存树的基础上进行神经网络卷积操作的方面级情感分析方法(convolution over a dependency tree)。句法依存树可以缩小方面词和观点词之间的距离,使得依赖信息可以有效的保存在长句子中。CDT 模型首先对语料库建立了句法依存树,然后利用一个双向长短期记忆网络(Bi-LSTM)[7]学习单词节点的嵌入向量,之后使用图卷积神经网络(GCN)通过沿着依存树的语法路径对依赖关系进行建模增强嵌入,在得到所有节点在K+1层的特征表征后,将所有方面词的第K+1层的特征表征通过一个平均池化操作的到最终的方面表示,然后通过Softmax 分类函数得到最终的文本情感分类,如图2所示。

图2 CDT模型

2.2 图卷积神经网络

为了解决传统的深度学习神经网络在面对非结构化数据无法计算的问题,Thomas N.Kipf等[8]在卷积神经网络的基础上提出了图卷积神经网络(GCN)。GCN 实际上跟卷积神经网络CNN 的作用一样,就是一个特征提取器,只不过它的对象是图数据。GCN 精妙地设计了一种从图数据中提取特征的方法,从而让我们可以使用这些特征去对图数据进行节点分类(node classification)、图分类(graph classification)、边预测(link prediction),还可以顺便得到图的嵌入表示(graph embedding),可见用途之广泛。因此现阶段研究者们将GCN 运用到各个领域的研究中。GCN 中使用拉普拉斯矩阵(Laplacian matrix)作为图的矩阵表示,拉普拉斯矩阵L中的元素表示如式(1)所示,其中diag(vi)表示节点vi的度。

2.3 图注意力网络

GCN 的出现使得图深度学习邻域的研究有了长足的进步,但是GCN 也有自身固有的不足之处:一是这个模型对于同阶的邻域上分配给不同的邻居的权重是完全相同的,也就是无法允许为邻居中的不同节点指定不同的权重,这一点限制了模型对于空间信息的相关性的捕捉能力;二是GCN 聚合周边节点特征的方式和图的结构紧密相关,这局限了训练所得模型在其他图结构上的泛化能力。为此,Petar Veličković等[9]提出了GAT模型,它通过注意力机制,实现了对不同邻居权重的自适应分配,从而大大提高了图神经网络模型的表达能力。之后Kiran K. Thekumparampil 等[10]提出了和GAT 类似思路的模型AGNN,但它的节点更新采用了线性更新的方式,去除了所有的中间完全连接层,使用图注意力机制取代了传播层,从而大幅降低了计算量。

3 改进的CDT模型

在CDT 模型中,GCN 有效地利用句法的依赖路径在图的边上经行节点间转换和传播信息,并通过聚合传播的信息来更新节点嵌入,但在这种操作中,GCN 相邻节点对中心节点的贡献是确定的,而我们都知道一段评论文本中对方面情感表达贡献最突出的是特定的几个词,所以需要在图卷积过程中给这几个词分配更大的权重。为了让模型能够自动学习边上不同的权重,我们在图卷积神经网络GCN中引入了注意力机制,但为了在消息传播过程中保留图的结构特征,我们将依然保留GCN 的拉普拉斯矩阵运算,最终会联合图注意力机制和拉普拉斯卷积运算进行双路聚合来执行图上每一层的计算。

3.1 模型整体架构

本文提出了基于句法依存树图注意力卷积的方面级情感分析模型LA-CDT(laplacian attention convolution over a dependency tree),建立文本句法依存树后,使用句子依存树作为输入,使用Bi-LSTM 对句子依存树的节点嵌入经行学习特征并建模,它能够很好地获取方面词及其语境在词层面上的隐藏状态,之后采用双路图注意力机制提取文本图中对情感分析重要的单词特征,经过k+1 层图注意力卷积后得到了所有节点的最终状态,对所有的方面词特征进行平均池化操作,可以得到最终的方面词表达特征,最终通过一个Softmax 分类器进行情感分类。本章将介绍LA-CDT 模型情感分析的流程,流程图如图3 所示。

图3 LA-CDT模型

在Bi-LSTM中,我们将评论文本中由n个单词w组成的句子s的嵌入作为输入,Bi-LSTM 通过句法依赖链路上的关系,将单词上下文关系集成到单词嵌入中。 给定一个单词对(a,s),其 中a={a1,a2,…,al} 是句子s={w1,w2,…wn} 的 一 个方面词子序列,其中l≤n。句子s对应的单词嵌入为x={x1,x2,…,xn} 。前向LSTM 学习到了x的前向隐藏层表示,这样就能捕捉到前向的上下文信息,同样后向LSTM学习到了x的后向隐藏层表示。最终,就可以将x的前向和后向隐藏层表示合并为高阶表示,这其中包含了a的方面表达子序列,这样我们就得到了文本词和方面词的上下文嵌入表示,便于带入之后的图注意力层。

3.2 融合邻居节点信息的双路注意力机制

句法依存树可以被看作为一个拥有n个节点的图G,图中的节点就是单词,节点之间的边就是单词之间的依存路径,图G 中的节点输入由上一小节中的双LSTM 建模的向量表示,向量化之后方便GAT对图直接操作。

任意句子s的依存关系图G 可以表示成一个n×n大小的邻接矩阵A,邻接矩阵中元素Aij代表在图G 中节点i和节点j之间是否有边连接,有边连接时Aij=1,反之Aij=0。CDT 模型中,作者使用了GCN 利用依赖路径来转换和传播路径上的信息,用来更新节点的嵌入。但是我们都知道,一个句子中表达强烈情感的词是有限的,而GCN 对节点的嵌入更新使用静态(不随层变化)和非自适应(不考虑节点状态)传播,这种传播不能捕获哪个邻居与分类目标节点更相关,在真实数据中,并非所有边都能体现类型或强度的关系。我们需要注意机制使我们能够学习一个动态和适应性的邻域局部总结,以实现更准确的预测,同时为了体现图神经网络的结构性,还是需要执行GCN 的拉普拉斯矩阵卷积。为此我们提出了改进之后图网络层LAGNN,内部结构如图4所示。

图4 LAGNN网络层

其中Hl代表图上所有节点第l层向量的表示,T代表节点之间的注意力矩阵,L是句法依存图的拉普拉斯矩阵,Wl为第l层上的可训练参数矩阵。节点之间注意力系数通过以下方式计算:

其中||代表向量的拼接操作,w是一个共享线性参数的权重矩阵,是用来参数化的权重向量。节点i和j之间的注意力权重Tij为

根据我们设计的路径,LAGNN 分为两部分:H'l和H''l。H'l汇集能体现图结构信息的矩阵L传播的信息,H''l汇集注意力矩阵T传播的信息,H'l和H''l的计算方式为

而传统的GCN 卷积操作只用到了拉普拉斯矩阵L。最终双路汇集的消息表示为

其中γ为0~1 之间的超参数。LAGNN 的节点更新方式为

3.3 模型训练

方面词在k+1 层的向量表示为ℎk+1a,将它输入Softmax分类器σ中可以得到在不同情感极性上的概率分布。通过反向传播对模型进行首尾相连的训练,目标是最小化交叉熵函数:

其中(a),s是方面词-句子对,D是方面词-句子对的总数,C是情感分类的类别数量,yc( (a,s))是实际的(a),s分 类 值,要 么 是0 要 么 是1,假 如yc((a,s))=1 ,代 表(a,s)实际的情感就是c。yc( (a,s))是模型对于(a,s)的预测值,θ1是BiLSTM的可训练值,γ为式(6)中的超参数。

4 实验

4.1 实验数据集

为了验证LA-CDT 模型的性能,本文选取了三个公共数据集对模型性能进行验证:1)SemEval 2014[11],其中包含了餐厅评价(Rest14)和笔记本电脑评价(Laptop14);2)Twitter 公开数据集[12]。在SemEval 数据集中包含了四种情感分类:“积极的”(Positive)、“消极的”(Negative)、“中性的”(Neutral)、“又积极又消极的”(Conflict)。我们依照文献[6]的做法,将“又积极又消极的”这部分数据去除,C即为3,数据集统计如表1所示。

表1 数据集统计

4.2 评价指标

本文使用准确率ACC以及精确率和召回率的调和均值F1作为实验评价指标来评估模型的有效性,准确率和F1越高代表模型分类效果越好。ACC的表达式为

F1的值需要通过精确率和召回率计算获得,精确率的表达式为

召回率的表达式为

从而可以得到F1值的计算方法:

4.3 实验结果分析

本文设置对比实验如下:

1)模型对比:选取现有的几个方面词情感分析模型,在同一数据集上比较模型分类准确性,并将LA-CDT 与原始模型CDT 进行对比,验证引入注意力机制后模型性能有提升;

2)内部对比:分析超参数γ取不同值时的模型分类精确度效果,并确定γ的最优取值;

为了模型比较的公平性,对参数进行多次调优,最终确定实验所用最优参数组合如下:单词嵌入采用GloVe[13]中的300 维的预训练向量作为Embedding层的输入向量,词性嵌入维度30,单词相对于方面词在句中的位置嵌入维度30,Bi-LSTM嵌入维度50,所有语句使用斯坦福解析器[14]解析,GCN和GAT都选用两层的深度。实验结果比较如下:

从表2 可以看出,在三个基准数据集上,LA-CDT 在Rest14 和Twitter 数据集上都取得了最好的效果,在Laptop14 上ACC 值优于其他所有模型,F1值仅比基线最优值低0.16%。实验数据证明了LA-CDT 的有效性,验证了引入图注意力机制后,LA-CDT比CDT效果更好。

接下来讨论超参数γ的不同取值对模型性能的影响,依然将LA-CDT 模型在Rest14、Laptop14和Twitter 这三个数据集上执行,将γ的取值从0.1开始每间隔0.1增长直至1,运行结果对比如图5所示。

图5 γ 取不同值LA-CDT在三个数据集上准确率的比较

从 图5 可 以 看 出,改 变γ值 后,LA-CDT 在Rest14 上较为平稳,γ取0.2 时效果最优,而在Laptop14 数据集上γ取0.5 时效果最好。但在Twitter数据集上γ取0.9 时效果最好,且γ在0.8~1.0 的区间内准确率是要高于其他取值范围的,这说明Twitter 数据集中的短文本有较多是不符合语法规范的,使用语法树对其建模文本结构不稳定,比较适合较大的γ值。

5 结语

本文针对现有的基于方面词的文本情感分析模型存在的若干不足提出了一种引入注意力机制的改进型CDT 模型LA-CDT。模型引入了注意力机制改变了图卷积过程,在保留图卷积中对图结构的获取的同时,能在卷积过程中将边上的权重依据节点周围其他节点的重要性的区别分配不同的值。该网络模型在三个基准测试集上和一系列最先进的模型的对比实验证明,在引入图注意力之后模型的准确度得到了提升。而因为注意力机制表达了某些特定词对方面词的重要性程度,模型也获得了更好的解释性。

猜你喜欢

句法注意力卷积
让注意力“飞”回来
句法与句意(外一篇)
基于3D-Winograd的快速卷积算法设计及FPGA实现
述谓结构与英语句法配置
从滤波器理解卷积
句法二题
基于傅里叶域卷积表示的目标跟踪算法
诗词联句句法梳理
“扬眼”APP:让注意力“变现”
A Beautiful Way Of Looking At Things