一种基于语义增强和指导路由机制的 方面级情感三元组抽取方法
2023-04-29周雨婷代金鞘刘嘉勇贾鹏廖珊
周雨婷 代金鞘 刘嘉勇 贾鹏 廖珊
摘要:目前,细粒度情感分析已在观点挖掘、文本过滤等域获得广泛应用,通过细粒度情感分析,能完成更精准的文本理解和结果判断. 其中,包含方面、观点和情感极性的情感三元组抽取任务是一个具有代表性的细粒度情感分析任务,且大多数相关研究是基于管道模型和端到端模型开展的. 然而,一方面,管道模型本质为两阶段模型,存在错误传播的问题;另一方面,端到端模型也无法充分利用句子中各组成之间的联系,存在高层次语义关系捕获能力欠缺的问题.为解决以上问题,本文对句法和语义知识进行特征补充,提出一个基于语义增强和指导路由机制的情感三元组抽取方法(ASTE-SEGRM). 首先,基于键值对网络学习源文本的句法特征和词性特征. 区别于以往的建模方式,本文所提方法动态捕捉不同句法及词性类型的重要程度,并赋予不同的权重,以实现语义增强;其次,受启发于迭代路由机制,引入指导路由机制构建神经网络,使用先验知识指导情感三元组的抽取;最后,在四个基准数据集上的实验结果证明,本文所提方法优于数个基线模型.
关键词:情感细粒度分析; 三元组抽取; 语义增强; 键值对网络; 指导路由机制
中图分类号: TP309 文献标识码:A DOI:10.19907/j.0490-6756.2023.052003
收稿日期: 2022-08-22
基金项目: 四川省重点研发项目(2021YFG0156)
作者简介: 周雨婷(1998-), 女, 硕士研究生, 研究方向为自然语言处理. E-mail:1446244389@qq.com
通讯作者: 刘嘉勇. E-mail: ljy@scu.edu.cn
An aspect sentiment triplet extraction method based on semantic enhancement and guided routing mechanism
ZHOU Yu-Ting, DAI Jin-Qiao, LIU Jia-Yong, JIA Peng, LIAO Shan
(School of Cyber Science and Engingeering, Sichuan University, Chengdu 610065, China)
Fine-grained sentiment analysis is widely used in fields such as opinion mining and text filtering to achieve more accurate text understanding and result determination. The Aspect Sentiment Triplet Extraction (ASTE) task is a representative fine-grained sentiment analysis task, and most of the related research is based on either the pipeline model or end-to-end model. However, the pipeline model suffers from error propagation as a two-stage model, and the end-to-end model does not make full use of the connections between the constituents in a sentence and lacks the ability to capture high-level semantic relations. To address the these issues, this paper features complementary syntactic and semantic knowledge and proposes a sentiment triplet extraction method based on semantic enhancement and guided routing mechanisms (ASTE-SEGRM). Firstly, the syntactic features and lexical features of the source text are learned based on Key-Value Pair Neural Network (KVMN). Secondly, inspired by iterative routing mechanism, a guided routing mechanism is introduced to build a neural network that uses a priori knowledge to guide the extraction of sentiment triplets. Finally, experimental results on four benchmark datasets demonstrate that the proposed approach outperforms several baseline models.
ASTE; Triplets extraction; Semantic enhancement; KVMN; Guided routing mechanism
1 引 言
方面情感三元組抽取(Aspect Sentiment Triplet Extraction,ASTE)任务于2020年初次提出 [1] ,是近年来细粒度意见挖掘中的一项新兴任务. 该任务旨在从句子中识别方面以及相应的意见表达和情感,通过“what,how,why”的组合,提取方面,观点和情感极性的三元组,进一步解读情感分析任务. 作为多原子任务,ASTE任务同时包含了对方面和观点的抽取以及方面和观点之间的关系判定,以及对应关系的情感分析. 通过分析句意可知,观点词及其描述的方面词,以及由此得到的情感关系是高度相关的,以图1中句子为例,可以分析得出,对于“menu”和“pumpkin juice”两个主语的情感倾向是相反的. ASTE任务能够提取出(menu, limited, neg)和(pumpkin juice, excellent, pos)两对情感互斥的三元组,从而更加完整地分析句子的多层含义,但传统情感分析任务却很难达到此类细粒度判断.
目前ASTE任务的主流解决方案主要有管道模型 [1,2] 和端到端模型 [3-5] ,管道模型采用分阶段的思想,使用相同的标注策略统一标注 [1] ,或者分别进行方面词和观点词的抽取 [2] ,最终配对获取三元组. 但分阶段的管道模型存在错误传播的问题,因此,后续研究引入端到端的思想加以解决.
端到端模型设置统一的拓展标签策略,同时完成词分类和情感分类,进而更好地利用三元组内各元素之间的关系 [3,4] . 由于短语在一定程度上更加能够表达方面词和观点词,仍以图1中的句子为例,“pumpkin juice”的短语明显较单一的“pumpkin”或“juice”能更完整地界定目标方面词以及表达句子含义. 因此,为了更好地提高短语抽取能力,后续研究提出了基于跨度的端到端模型 [5] . 但已有的端到端模型依旧偏向于依赖于单个词与单个词之间的相互作用,对于短语边界界定以及三元组各元素间关系的研究仍待继续.
本文受到方面级情感分析任务(Aspect-based Sentiment Analysis, ABSA)启发,提出的方法将分别从文本的多元语义关系和空间位置关系进行特征补充. 首先,在文献[6]中,作者使用键值对网络(Key-Value pair Neural Network, KVMN)对句法特征进行编码,有效改善了ABSA任务的模型效果. 这证明相较于以往用图结构 [7,8] 对特征进行建模的方式,KVMN能够更有效地区分不同依赖关系的重要程度. 同样的,词性标签特征作为主要的语言特征之一,在诸如实体识别领域中已被证实能够有效提高识别术语边界的能力 [9-11] . 由于不同的词性在三元组抽取时具有不同的重要程度,类似名词组合更偏向作为方面词;而形容词、副词等则更偏向作为观点词,用以提供情感倾向判定依据. 因此,本文设置基于键值对网络的语义增强模块,分别对文本的句法特征和词性特征进行编码,权衡不同类型特征的重要程度,动态为下游任务进行特征补充,从而提高情感三元组中各元素之间关系的利用能力,改善短语的界定效果.其次,目前ASTE任务的解决方案中多是通过LSTM对文本进行编码,这种方式对文本的空间关系的利用并不充分. 相对于传统神经网络,胶囊网络的迭代路由机制则有效保持了空间特征的表征能力 [12] ,在不减少原始输入的情况下,更好地模拟人脑对不同特征进行识别和学习,从而在多特征的情况下,更优地处理上下文语义同其他特征之间的关系. 在文献[13]中,作者改善传统迭代路由机制,提出指导路由机制,用以定向地引导分类任务,并达到了较好的实验效果. 本文同样借助指导路由机制进行方法构建,使用先验领域知识,通过类似特征补充的方式,引导并修正路由进程,以更好地捕捉局部与整体之间的空间关系,进而提高目标词的识别能力以及情感三元组的抽取效果. 因此,基于目前的ASTE解决方案多是基于文本的词向量本身,对高层次语义关系的捕捉和利用并不充分;且在三元组抽取上性能欠佳的问题,并避免管道模型导致的错误传播问题.本文使用一种基于语义增强和指导路由机制的方面情感三元组抽取方法,记为ASTE-SEGRM.
本文的主要贡献可以归纳如下:(1) 本文首次提出使用动态赋予词性和句法特征的权重解决ASTE问题;(2) 本文提出ASTE-SEGRM方法,用以学习文本的多层特征和上下文关系;(3) 实验结果表明,在SemEval的四个基础数据集上,该方法的计算效果明显优于现有的基线方法.
2 相关工作
2.1 管道模型
ASTE任务最初的解决方法是两阶段的管道模型. Peng等人 [1] 使用了一种两阶段框架,将任务转换为两个序列标注任务,第一阶段改进了E2E-ABSA [14] 模型,确定方面词、观点词和对应情感极性;第二阶段对方面词和观点词进行配对.为了进一步发掘情感三元组中各元素之间的关系,Zhang等人 [2] 提出使用多任务学习框架,结合ATE(Aspect Term Extraction)、OTE(Opinion Term Extraction)和情感依存三个子任务,设定规则实现三元组抽取.
2.2 端到端模型
端到端模型是为了解决管道模型的错误传播问题而提出的. 在Xu等人 [3] 提出的JET模型中,作者设计了位置感知方案,通过拓展BIOES标签进行更广泛的含义表达,实现了端到端的任务抽取,也改善了以往管道模型的错误传播问题.同样的,Wu等人 [4] 受方面观点对抽取(Aspect Opinion Pair Extraction, AOPE)任务启发,拓展网格标签方案GTS,发掘词与词之间的相互作用并进行情感预测. 为了进一步提高三元组之间关系的应用,Xu等人 [5] 提出在ATE和OTE任务监督下,识别句子中基于跨度的情感三元组,结果表明,基于跨度的做法改进了短语的识别能力,并且作者设定的双通道剪枝策略也提高了模型的计算效率.
2.3 胶囊网络
同传统神经网络不同,胶囊网络的输入和输出都是一个向量,并且用胶囊代替标量神经元,每一个胶囊由一个向量组成,向量的长度作为目标存在的概率估计,用向量的方式表示实体的属性.
胶囊网络由Sabour等 [12] 于2017年首次提出用于解决卷积神经网络中对物体空间关系识别能力弱的问题,后逐渐引入到自然语言处理领域,借助胶囊网络实现文本分类 [15,16] 以及命名实体识别任务 [17] . 在方面情感分析领域中,胶囊网络也有类似应用 [13] ,作者构建了一个简单的胶囊网络解决基于方面的情感分析问题. 胶囊网络能够有效编码空间位置关系,并且由其中的迭代路由机制能够影响路由进程. 但由于迭代过程是自定向的,原始的迭代路由机制训练效率并不高. 因此,本文提出使用指导路由机制,补充情感先验知识,定向指导路由进程,改善特征编码效率,从而达到较好的情感分类效果.
3 基于语义增强和指导路由机制的情感三元组抽取方法
针对管道模型存在的错误传播问题,以及短语三元组抽取困难问题,本节构建基于KVMN键值对网络的语义特征增强层,动态补充文本的词性特征和句法特征,并借助先验知识构建指导路由,组合成为基于语义增强和指导路由机制的方面情感三元组抽取方法ASTE-SEGRM,整体结构如图2所示. 本节将从该方法的三个模块出发,分别对数据准备模块、方面词及观点词抽取模块和三元组抽取模块进行介绍.
3.1 ASTE-SEGRM框架
本节首先对ASTE任务进行定义.设 X={ x 1 , x 2 ,…, x n } 表示 n 个句子,设 S={ s 1,1 , s 1,2 ,…, s i,j ,…, s n,n } 是 X 中所有可能的枚举跨度短语的集合,其中 i 和 j 表示一个跨度短语在句中的开始和结束位置. 并且限制跨度短语的长度为 0≤j-i≤L , L 为句子长度. 为契合ASTE任务需求,本文将每个情感三元组定义为(方面、观点、情感极性),其中有效的情感极性分类为{积极,消极,中立}.
其次,如图2所示,为更加明确阐述ASTE-SEGRM架构,本节将方法分为数据准备模块、方面词及观点词抽取模块和三元组抽取模块. 数据准备模块将融入词性特征和句法特征,并使用KVMN键值对网络进行编码,进行语义层的特征补充. 在获取了以上两方面的特征后,将其与经过LSTM网络编码的文本向量进行拼接,并枚举所有可能的短语组合. 在方面词及观点词抽取模块和三元组抽取模块,使用指导路由机制,分别构建不同的指导路由,利用先验知识引导ASTE-SEGRM进行方面词和观点词的分类,并最终完成情感三元组的抽取.
3.2 数据准备模块
3.2.1 文本编码 首先使用LSTM学习上下文知识,本文从GloVe模型 [18] 嵌入中获得单词表示 [ x 1 , x 2 ,…, x n ] ,再通过双向LSTM的编码得到每个单词的表示 h i =[ h i : h i ] , h i 和 h i 分别为LSTM网络的前向传播和反向传播的隐藏层表示.
为了充分考虑句子中的可能短语表达,本文使用滑动窗口的思想,以枚举的方式获取句子中所有可能的跨度短语,并将其表示为
s i,j =[ h i ; h j ; f width (i,j)]
(1)
其中, i 和 j 分别为跨度短语的起始位置和结束位置; f width (i,j) 作为可训练参数参与计算,表示跨度短语的长度.
3.2.2 基于键值对网络的语义增强模块 语义增强模块将两种外部特征进行融合,为了区分不同重要程度的词性标签以及句法依赖关系,本文使用键值对网络分别对词性特征和句法特征进行编码,共同学习上下文语义,模块结构如图3.
首先,本实验借助StanfordcoreNLP工具生成训练数据的句法依存关系,并借助两个大小均为 [seq_len,seq_len] 的键值对矩阵 K( k 1,1 ,..., k i,j ) 、 V( v 1,1 ,..., v i,j ) ,分别对词之间的依赖关系和具体的依赖类型进行存储. 在获取 K 、 V 矩阵后,结合经过LSTM编码的GloVe词向量 h i 进行计算,根据 K 矩阵,即句子中存在的依赖,对矩阵 V 中不同的依赖关系分配权重:
p i,j = exp ( h i · e k i,j ) ∑ q j=1 exp ( h i · e k i,j ) (2)
dep i,j =∑ q j=1 p i,j e v i,j (3)
每个 v i,j 对应一个 p i,j ,并且在得到不同依赖关系的权重后,使用新的依赖权重更新 V 矩阵,并计算句子中每个单词添加了句法特征的表达即 dep i,j .
接着,使用相同的方式对词性标签进行建模,以此增强诸如名词、形容词和否定词等的权重. 使用式(2)和式(4),并经过编码得到不同词性标签在句中的特征表示 pos i,j .
pos i,j =∑ q j=1 p i,j e v i,j (4)
最后,将经过键值对网络编码的句法特征和词性特征进行拼接,输出成最终经过语义增强的文本表达.
3.3 观点词和方面词抽取
3.3.1 跨度短语表达 在通过在3.2.1节获取诸如 [ h i ; h j ; f width (i,j)] 跨度短语表达后,基于每个跨度短语,会经过线性变化(linear transformer)和归一化(squash activation)独立生成一个跨度短语胶囊 p i :
p i = squash ( W p s i,j + b p )
(5)
其中, W p 和 b p 是可学习参数,squash计算公式如下.
squash (s)= s 2 1+ s 2 s s (6)
3 .3.2 方面和观点指导路由 在获取初始跨度短语 s i,j 表达后,为了降低计算的复杂性,并提高计算效率,不仅需要对跨度短语胶囊进行数量裁剪以减少无关跨度短语胶囊的噪音,同时引入指导路由机制帮助方面词和观点词的分类.
首先通过LDA模型 [19] ,根据式(7)和式(8)抽样得到主题和词的分布矩阵 φ ,以及文本和主题分布矩阵 θ :
φ k,t = n t k + β t ∑ v t=1 n t k + β t (7)
θ m,k = n k m + α k ∑ k k=1 n k m + α k (8)
其中, φ k,t 表示主题 k 中词 t 的概率; θ m,k 表示文本 m 中主题 k 的概率. 将LDA的输出结果和补充的专家知识组合,作为先验知识构成指导胶囊. 再利用指导路由机制,通过计算跨度短语胶囊与指导胶囊的相似性引导路由进程,并将相似性的计算结果作为指导路由的权重 w t i,j .
z t i = squash ( G t i ) (9)
w t i,j = exp ( p i W r z t j ) ∑ n k=1 exp ( p i W r z t k ) (10)
其中 G t ∈ R C×d 作为先验矩阵; C 为分类类别{Target,Opinion,Invalid}; d 为维度,通过squash函数可以得到指导胶囊 Z t =[ z t 1 ,..., z t C ] ,并借助 Z t 计算指导路由的权重 w t i,j .
3.3.3 方面候选词和观点候选词抽取 最终的分类标准可由式(11)和 式(12)计算得出,其中 s 是可学习参数,可以将连接权重缩放到一个合适的水平.
v target =P m= Target|squash (s∑ n i=1 w t i,j p i ) (11)
v opinion =P m= Opinion|squash (s∑ n i=1 w t i,j p i ) (12)
为了使方面候选词和观点候选词更充分地匹配,对于句长为 n 的文本,本实验设定超参数阈值 z ,将句长 n 和 z 的乘积作为跨度短语胶囊的数量裁剪标准. 并将经过数量裁剪的跨度短语分为方面候选词 P t ={ p t 1 , p t 2 ,..., p t k } 和观点候选词 P o ={ p o 1 , p o 2 ,..., p o m } .
3.4 三元组判定 p
3.4.1 候选词组合 同3.3中跨度短语胶囊构建方式相似,在获取了方面候选词 P t ={..., p t a,b ,...} 和观点候选词 P o ={..., p o c,d ,...} 后,首先对候选方面词和候选观点词进行两两组合,生成词对表达:
g p t a,b , p o c,d =[ p t a,b ; p o c,d ; f dis (a,b,c,d)] (13)
在进行候选词组合的词对表达时,融入距离特征即 f dis (a,b,c,d) ,且 f dis 为过程可学习参数.
获取了词对表达后,经过线性变化和归一化独立生成词对胶囊 tp i . 其中 W p 和 b p 是过程学习参数:
tp i = squash ( W p g p t a,b , p o c,d + b p ) (14)
3.4.2 情感指导路由 同样的,在这一步ASTE-SEGRM也引入指导路由机制,并利用先前构造的情感先验知识构造情感指导胶囊. G s ∈ R C×d 为情感先验矩阵, sc∈C= {Positive,Negative,Neutral,Invalid},其中,Invalid表示词对中的方面候选词和观点候选词并不存在合理的情感关系, d 为维度,通过squash函数可以得到情感指导胶囊 Z s =[ z s 1 ,..., z s c ] ,并借助 Z s 计算情感指导路由的权重 w s i,j .
z s i = squash ( G s i ) (15)
w s i,j = exp ( tp i W r z s j ) ∑ n k=1 exp ( tp i W r z s j ) (16)
3.4.3 情感三元组抽取 基于情感指导路由,最终可以得到词对胶囊 tp i 的分类结果如下.
v tp i =P sc| squash (s∑ n i=1 w s i,j tp i ) (17)
其中, s 是可学习参数,用于调整 w s i,j 范围.
4 实验结果与分析
4.1 数据集
本文方法基于Peng等人 [1] 发布的4个ASTE数据集进行了评估,其中包括餐厅领域的三个数据集和笔记本电脑领域的一个数据集. 4个基准数据集来自于SemEval挑战 [20-22] ,而意见术语来自于Fan等 [23] . 表1显示了详细的统计数据.表1中,#S、#+、#0、#-和#T分别表示句子数、积极三元组、中立三元组、消极三元组和三元组总数.
4.2 基线模型
当前解决ASTE任务的方案多是基于管道模型,也有少部分通过端到端模型实现,本文将和近两年提出的部分具有代表性的方法进行比较.
(1) Peng-unified-R+PD [1] :Peng等人提出使用两阶段模型,第一阶段模型利用了各个方面和观点之间的相互信息,使用BIEOS模式中的统一标记模式和观点位置特征联合提取方面情感. 在第二阶段,生成所有的候选情感三元组,并应用MLP 分类器(PD)来确定候选三元组是否有效.
(2) Li-unifified-R+PD [1] :Peng等人还提出另一种管道模型方法. 在第一阶段,对文献[24]中的模型进行修改,同时提取方面词、观点词以及对应情感极性; 在第二阶段,应用MLP分类器(PD)来获得所有有效的情感三元组.
(3) Peng-unifified-R+IOG [4] :该方法首先应用了Peng-unified-R [1] 方法提取方面词和对应的情感极性,接着使用IOG [23] 模型生成最终的有效三元组. 其中,IOG对来自一个给定的数据库中的信息进行编码,以提取其观点词.
(4) IMN+IOG [4] :首先使用IMN [25] 抽取方面词和对应情感极性,再使用IOG [23] 生成情感三元组的方法解决ASTE问题.
(5) GTS [4] :Wu等人设计了一种网格标记模式,以端到端方式完成三元组的抽取. 模型采用了一种推理策略来利用不同意见因素之间的相互指示.
(6) JET [3] :JET模型将ASTE任务建模为一个结构化的预测问题,采用位置感知标记方案,以捕获三元组中各元素之间的相互作用.
(7) Span-ASTE [5] :Span-ASTE模型实现的是一个融合ATE和OTE任务监督的端到端模型,并通过剪枝策略降低计算复杂度.
4.3 实验设置
本实验使用300维的GloVe预训练模型获得词向量表示,同时设置双层LSTM,其隐藏层维度均为300维,键值对网络的输出维度均为300维. 同时GloVe模型参与ASTE-SEGRM中两个先验知识矩阵的构造. ASTE-SEGRM学习率设置为3e-5,并使用Adam [26] 作为优化器. 根据对原始4个数据集的统计,在表示跨度短语时,有约75%的短语是二元词组,最长的短语跨度为5个字符,因此为更全面覆盖可能短语,本实验设置最长连续表达长度为5,超参数阈值 z 设置为0.5. 本实验在验证集达到最佳 F 1值时运行测试集,并进行性能评估.
4.4 评估指标
本文将展示基于精度( P )、召回率( R )和 F 1分数的实验结果,计算公式如式(18)~式(20)所示. 当且仅当方面词、观点词以及相应情绪都判断正确,才认为三元组正确. 最终的 F 1分数衡量的是(方面,观点,情感极性)的表现.
P= TP TP+FP (18)
R= TP TP+FN (19)
F1= TP+TN TP+FT+TN+FN (20)
4.5 对比实验结果与分析
表2为情感三元组抽取的主要结果,本文比较了ASTE-SEGRM与现有基线模型在SemEval [20-22] 的四个数据集上的准确率( P )、召回率( R )和 F 1值. 表2中,最佳结果加粗表示,其中带有“*”标注的,表示ASTE-SEGRM的性能明显优于现有基线模型,带有“-”标注的,表示原代码不包含在数据集16res上运行所需的资源.
为和其他基线模型保持一致,ASTE-SEGRM也采用BiLSTM进行编码. 最终结果以 F 1值为主要比对标准,ASTE-SEGRM分别较现有基线的最佳结果提高了1.20%,0.14%,2.11%和0.45%.
实验结果表明,ASTE-SEGRM在准确率和召回率上都要超过其他现有方法. 这一结果表明,本文提出基于端到端的ASTE-SEGRM可以有效地利用方面词和观点词之间的交互关系,并降低了管道模型存在的错误传播问题. 同时通过基于键值对网络的语义增强以及领域先验知识的指导路由机制,能够提升ASTE-SEGRM对三元组的判定及抽取能力.
4.6 消融实验结果与分析
为了证明不同组件的有效性,本实验分别设置了POS、DEP和加入指导路由机制的基线模型三个模块变量,进行了如表3中的消融实验. 通过表中实验结果可知,当去除语义增强模块,仅以指导路由机制构建的基线模型相较于对比的部分基线模型,已经表现出较好的实验效果,在SemEval的餐厅领域的三个数据集上相较于最优管道基线模型,分别有0.06%,0.90%和2.47%的提升.
POS和DEP分别表示在基线实验上融入词性特征和句法特征. 从表3实验结果可知,在基线实验上分别加入词性特征和句法特征都能提升抽取性能,但通过整体实验结果对比,句法特征对抽取能力的改善更优.
最终组合所有组件,按照实验设置进行ASTE-SEGRM参数设置,得到完整方法的实验结果.
4.7 定性分析
为了更直观地对不同模型之间的差异进行分析,本实验使用 同一组例句分别对管道模型IMN+ IOG、端到端模型GTS以及本文提出的ASTE-SEGRM进行实验结果对照. 如表4中所示,第一列为例句,第二列是目标三元组,其他列分别为管道模型IMN+IOG、端到端模型GTS以及本文提出方法ASTE-SEGRM的输出结果.本实验分别从餐厅和电脑两个领域数据集中各选取出一个例句作为展示,在例句一中,管道模型IMN+IOG对于句子逻辑理解不到位,并不能很好地识别到“eggplant pizza”和“pastas”是并列关系,虽然能正确判断情感极性,但对短语的界定效果不佳. 同样在例句二中,IMN+IOG依旧在短语的边界界定和不同语境中多义词的理解上欠佳. 端到端模型GTS相较于管道模型而言,在句子分析上有了提升,能够较好地识别句子中的句法关系以及对应情感关系判断,但对短语的识别性能并不稳定. 相对于IMN+IOG和GTS,ASTE-SEGRM在语义理解以及短语判定的效果上都有了提升,能够更准确地抽取目标情感三元组.
5 结 论
本文提出了一个融合多层语义特征以及指导路由机制的端到端方法ASTE-SEGRM用以改善情感三元组的抽取效果. 同以往研究不同,ASTE-SEGRM首先通过键值对网络,动态捕捉词之间的多层语义关系,从而提高部分特征类型的正向权重,以更好地理解并应用文本之间的信息. 同时,拟合键值对网络的输出结果和BiLSTM构建的上下文语义,在先验知识构成的指导路由机制的作用下,提高对目标短语的识别效果和情感关系判别能力. 本文提出的ASTE-SEGRM在现有公开数据集上实现了较为先进的性能,实验结果表明,ASTE-SEGRM能够更好地捕获词之间的联系,从而提高对文本情感细粒度的分析效果.
虽然本文使用键值对网络分别能够对词性特征和句法特征进行动态编码,进而区分不同类型特征的重要程度,但是随着中间层计算变复杂,运行效率也受到影响. 此外,本文研究基于英文数据集,由于使用的GloVe预训练模型中是以单个词为单位存储词向量,因此在使用先验知识构建指导路由时,只纳入了单个词的向量,而没有考虑如何将短语表示也作为先验知识参与构建指导路由.
参考文献:
[1] Peng H, Xu L, Bing L, et al . Knowing what, how and why: a near complete solution for aspect-based sentiment analysis[EB/OL]. [2022-06-11]. https://arxiv.org/pdf/1911.01616.pdf.
[2] Zhang C, Li Q, Song D, et al . A multi-task learning framework for opinion triplet extraction[EB/OL]. [2022-06-12]. https://arxiv.53yu.com/pdf/2010.01512.pdf.
[3] Xu L, Li H, Lu W, et al . Position-aware tagging for aspect sentiment triplet extraction[EB/OL]. [2022-06-12]. https://arxiv.53yu.com/pdf/2010.02609.pdf.
[4] Wu Z, Ying C, Zhao F, et al . Grid tagging scheme for aspect-oriented fine-grained opinion extraction[EB/OL]. [2022-06-12]. https://arxiv.53yu.com/pdf/2010.04640.pdf.
[5] Xu L, Chia Y K, Bing L. Learning span-level interactions for aspect sentiment triplet extraction[EB/OL]. [2022-06-12]. https://arxiv.53yu.com/pdf/2107.12214.pdf.
[6] Tian Y, Chen G, Song Y. Enhancing aspect-level sentiment analysis with word dependencies[EB/OL]. [2022-06-12]. https://www.atailab.cn/seminar2021Spring/pdf/EACL_2021_Enhancing%20Aspect-level%20Sentiment%20Analysis%20with %20Word%20Dependencies.pdf.
[7] Wu L, Zhang M. Deep graph-based character-level chinese dependency parsing [J]. IEEE-ACM T Audio Spe, 2021, 29: 1329.
[8] Ding Y, Shao Y, Che W, et al . Dependency graph based chinese semantic parsing [M]//Chinese Computational Linguistics and Natural Language Processing Based on Naturally Annotated Big Data. Heidelberg: Springer, Cham, 2014: 58.
[9] Nie Y, Tian Y, Song Y, et al . Improving named entity recognition with attentive ensemble of syntactic information [EB/OL]. [2022-06-21]. https://arxiv.org/pdf/2010.15466.pdf.
[10] Sun K, Zhang R, Mensah S, et al . Aspect-level sentiment analysis via convolution over dependency tree [C]// Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). Hong Kong, China: [s.n.], 2019.
[11] Huang B, Carley K M. Syntax-aware aspect level sentiment classification with graph attention networks[EB/OL]. [2022-07-15]. https://arxiv.53yu.com/pdf/1909.02606.pdf.
[12] Sabour S, Frosst N, Hinton G E. Dynamic routing between capsules[EB/OL]. [2022-07-15]. https://arxiv.org/pdf/1710.09829.pdf.
[13] Jiang Q, Chen L, Xu R, et al . A challenge dataset and effective models for aspect-based sentiment analysis [C]// Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). Hong Kong, China: [s.n.], 2019.
[14] Li X, Bing L, Zhang W, et al . Exploiting BERT for end-to-end aspect-based sentiment analysis [EB/OL]. [2022-07-21]. https://arxiv.53yu.com/pdf/1910.00883.pdf.
[15] Zhao W, Ye J, Yang M, et al . Investigating capsule networks with dynamic routing for text classification[EB/OL]. [2022-07-21]. https://arxiv.53yu.com/pdf/1804.00538.pdf.
[16] Geng R, Li B, Li Y, et al . Induction networks for few-shot text classification[EB/OL]. [2022-07-21]. https://arxiv.53yu.com/pdf/1902.10482.pdf.
[17] Akj A, Pt B, Sg C, et al . Entity-aware capsule network for multi-class classification of big data: a deep learning approach-ScienceDirect [J]. Future Gener Comp Sy, 2021, 117: 1.
[18] Pennington J, Socher R, Manning C D. Glove: Global vectors for word representation [C]//Conference on Empirical Methods in Natural Language Processing. Citeseer: [s.n.], 2014.
[19] Blei D M, Ng A, Jordan M I . Latent dirichlet allocation [J].J Mach Learn Res, 2003, 3: 993.
[20] Pontiki M, Galanis D, Pavlopoulos J, et al . SemEval-2014 task 4: aspect based sentiment analysis [J]. Sem Eval, 2014, 2014: 27.
[21] Pontiki M, Galanis D, Papageorgiou H, et al . Semeval-2015 task 12: aspect based sentiment analysis [J]. Sem Eval, 2015, 2015: 486.
[22] Pontiki M, Galanis D, Papageorgiou H, et al . Semeval-2016 task 5: aspect based sentiment analysis[C]// ProWorkshop on Semantic Evaluation (SemEval-2016) of the Association for Computational Linguistics. [S.l.: s.n.], 2016: 19.
[23] Fan Z, Wu Z, Dai X Y, et al . Target-oriented opinion words extraction with target-fused neural sequence labeling [C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. [S.l:s.n.], 2019: 2509.
[24] Li X, Bing L, Li P, et al . A unified model for opinion target extraction and target sentiment prediction[EB/OL]. [2022-08-29]. https://arxiv.org/pdf/1811.05082.pdf.
[25] He R, Lee W S, Ng H T, et al . An interactive multi-task learning network for end-to-end aspect-based sentiment analysis[EB/OL]. [2022-08-09]. https://arxiv.org/pdf/1906.06906.pdf.
[26] Kingma D, Ba J. Adam: a method for stochastic optimization [EB/OL]. [2022-08-09]. https://arxiv.53yu.com/pdf/1412.6980.pdf%5D.