APP下载

多通道双向循环神经网络的方面情感分析

2020-08-31陈战伟

智能计算机与应用 2020年4期
关键词:极性向量单词

宋 婷, 陈战伟

(1 太原科技大学 计算机科学与技术学院, 太原030024; 2 中国移动通信集团山西有限公司, 太原030001)

0 引 言

情感分析是自然语言处理的任务之一,如何从社交网络众多文本信息中判断用户的情感倾向,分析人们对产品、服务、事件、主题及其属性等实体对象所持的意见、情感、评价、看法和态度等主观感受,是情感分析的主要研究工作。 方面级情感分析,是针对同一实体不同方面属性挖掘更深层次的情感表达。 其中包括两个子任务,首先是方面词的提取,它可以是一个单词,也可以是一个短语;接着是针对各个方面分析其情感极性。 例如句子:“Good food but dreadful service at that restaurant”。 其中语句评论的对象是餐厅,句中分别描述了两个方面:food 和service,相对应的情感极性分别是积极和消极。

早期,文本分类问题采用传统的机器学习算法,其训练集需要经过大量人工标注的过程,从而在训练集上进行特征提取,构建文本分类模型,因此它基于复杂的人工规则和特征工程[1]。 近年来,深度学习被广泛应用于自然语言处理中,它的最大优点是能自动学习大量数据中的潜在特征。 深度神经网络模型在机器翻译、文本分类等任务中显现出较好的效果,同时结合注意力机制,在训练过程中高度关注特定目标的特征信息,针对不同目标调整参数[2-4]。在情感分析领域,当下使用最多的模型是卷积神经网络和循环神经网络[5-6],卷积神经网络没有时序性,提取的是文本局部特征,而循环神经网络有时序性。 当前的决策除了和当前的输入相关外,还和上一决策相关,可以捕捉到网络的时序性,从而可以捕捉文本的上下文语义信息。

文本的一个句子中若存在多个特定方面目标,则句子情感可能存在多样性,同一个用户评论中也可能存在两个以上的情感极性,而现有文献没有考虑句子中单词和方面的情感极性信息。 情感极性信息对判断句子情感有着重要作用,这一点和特征工程算法有相似之处。 单词和方面词之间的位置信息可帮助判断单词对方面词的影响力大小,方面、词性信息对情感极性都有不同程度的影响。 基于上述问题,本文提出一种基于多通道模式和改进双向循环神经网络的方面级情感分析模型,主要贡献如下:

(1)提出一种多通道-双向-ALSTM 模式进行特定方面级情感分析。 模型利用不同通道对现有文本任务中围绕方面抽取的丰富情感资源建模。

(2)分别抽取单词词性、单词情感极性和相对方面词的位置信息,从不同角度学习挖掘更多的隐藏信息。 同时嵌入了方面信息,并融入相应方面情感极性。 融合后,经过线性转换与通道特征结合,从而实现深层次的方面情感特征学习。

(3)在传统LSTM 网络的基础上添加了预定义的方面目标属性。 设计扩大的内部记忆链获取情感特征,利用内部记忆链上动态记忆单元控制情感信息的远距离依赖。

(4)在SemEval 2014 的两个数据集和Twitter 数据集上进行对比实验,验证了该方法中不同特征对模型准确率提升程度不同。 特征的加入使情感分类准确率均得到了有效提升。 对传统LSTM 的改进提高了分类准确率,加快了训练的收敛速度。

1 相关工作

早期的神经网络模型采用递归神经网络(RNN)结构[7],句法结构信息的使用虽然提高了情感分类准确率,但句法分析的准确率对结果影响较大,尤其对非书面表达时效果欠佳。 Socher 等[8]提出的递归神经张量网络(RNTN),用分布式向量表示短语;Kalchb-renner 等[9]提出了一种动态卷积神经网络(dynamic convolutional neutral network,简称DCNN),用于句子级的 语 义 建 模。 文 献[10]利 用 长 短 期 记 忆 网 络(LSTM)抽取文本中的情感特征。 LSTM 是RNN 的变体,较好的解决了长距离依赖问题。 双向长短期记忆网络(bi-LSTM)[11]和具有注意力机制的双向循环神经网络模型都有较好的性能表现[12]。 Wang 等[13]提出AE-LSTM 神经网络和ATAE-LSTM 神经网络模型,后者比前者增强了方面嵌入的效果,两者都是通过LSTM 建模,对上下文建模后结合文本隐藏状态和方面信息生成注意力向量,最终得到方面的情感分类。 Tang 等[14]提出基于方面的TD -LSTM 模型和TC-LSTM 模型,两者皆利用方面的上下文语义信息作为输入一部分进行情感分类。 Ruder 等[15]提出层次化的Bi-LSTM 模型,将单词向量作为句子级Bi-LSTM 的输入。 Ma 等[16]基于注意力机制同时获取方面信息和上下文语义信息的重要部分,是一种交互式的网络模型。 Tang 等[17]提出基于端到端存储网络的方面级情感分析,利用外部存储器通过注意力机制获取方面上下文语义的权重信息。

近期的方面级情感分析大部分围绕RNN 网络的设计与注意力机制的结合,及分类器设计等方面工作的研究,以求提升模型性能。

2 多通道双向LSTM 网络

本文提出的多通道方面级情感双向循环神经网络基本模型如图1 所示。

图1 多通道双向GRU 网络模型Fig.1 Multi-channel bidirectional GRU network model

该模型由4 部分组成:

(1)获取信息层。 基于文本语言知识,围绕文本方面词抽取一系列情感特征信息。 其中包括词性信息、情感极性、词语相对方面词的位置信息,从而充分的获取句子情感。

(2)多通道输入层。 融合方面词向量和方面极性信息,将形成的方面特征信息和三个通道特征向量融合,得到最终的通道特征信息,待进入网络获取上下文信息。

(3)改进的多通道LSTM 网络层。 该部分对传统的LSTM 网络进行了改进,在LSTM 网络的基础上添加了预定义的方面属性类别;设计了一种内部记忆链获取情感特征;利用动态记忆单元控制情感信息的远距离依赖。

(4)情感输出层,输出最终的情感分类结果。

2.1 获取情感信息

研究表明,忽略文本方面信息是导致情感分类失败的原因之一,充分证明了方面信息的重要性。因此,本文将基于文本语言知识,围绕文本方面词获取一系列情感特征信息。 包括:词性信息、情感极性、单词相对方面词的位置信息。 通过与文本词向量融合分三个通道作为Asp 模型输入。

(1)词向量

文本句子中隐含着情感分类所需的语义信息,通过将文本向量化获取句子的特征信息。 利用工具Glove 将词语向量化,设维度设为300。 给定句子s,n 表示句子长度,句中wi表示句子s 的第i 个单词;给定方面其中包含m 个单词。 得到s 的词嵌入矩阵为Ws=[wv1,wv2,...,wvn],wv ∈Rd1、特定方面目标的词嵌入矩阵WAsp=[wa1,wa2,...,wam],wa ∈Rd2,其中,d1,d2分别是句子和方面的词向量维度。

(2)词性

单词词性暗含用户对方面的主观意识和情感极性。 本文通过工具POS Tagger 对单词进行词性标注,将得到的单词词性进行one hot 编码。 句子的词性设为:,wpos∈Rd3。 标签级包含36 种词性,p 为词性长度,d3为向量的维度。若对应单词无词性标注,则将向量设置为0。

(3)位置信息

句子单词相对方面词的位置信息,在一定程度上反映了单词对情感分类的影响力大小。 单词相对于方面词的位置信息计算如式(1)所示。

其中,pi表示句子s 在第i 个位置上相应单词的位置信 息, len(s) 为 句 子 的 长 度, pasp(1 ≤pasp≤len(s)) 表示方面词在句中的顺序排位。 上式将句子以方面词为中心,划分左右两部分。 右边以方面词为起始,依次扫描,以1 为步长递增;左边依次以1 为步长递减。 情感词对方面词的权重影响大小和相对距离成反比。 由此得到句子的位置信息表示:,其中l 表示位置信息的长度,d4表示词向量的维度。

(4)情感极性

不同词性的单词情感分数不同,在不同语境下单词的情感分数也不同。 利用工具SentiWordNet 在已获取单词词性的基础上计算单词的情感极性。 将单词在不同语境下的情感分数取均值,情感极性用一个二维数组表示,两个元素分别代表积极分数和消极分数,分别用正值和负值表示。 根据已知词性,将相应情感分数置于数组对应位置上。 句子情感极性和方面情感极性分别表示为:词向量维度分别是d5,d6。

2.2 多通道输入层

在2.1 节基础上形成三个通道作为网络模型的输入。 以句子词向量为主体,分别和词性特征向量、位置特征向量、情感极性特征向量,通过拼接操作形成三个输入通道,如式(2)-(4)所示。

由此得到三个通道的待输入特征信息。 其中,d1+d3,d1+d4,d1+d5分别为三组特征向量的维度。

将方面词向量和方面极性融合、方面信息和已得到的三个待输入通道特征依次融合,得到最终的三个通道特征信息,进入改进的双向LSTM 网络。

aspss1 表示方面词和方面极性融合的计算结果。 假设方面词包含单词数最多为M,则aspss1 的维度为M∗(d2+d6),为了与待输入的通道特征结合,通过一次线性转换得到方面信息aspss, 如式(5)所示:

其中,Waspss是1∗M 维的权重参数。

2.3 改进的多通道双向LSTM 网络

基于方面目标词的细粒度情感分析,需要模型能够精确地识别方面相关的情感特征,从而进行情感分类。 本节在LSTM 网络的基础上进行了改进,在对网络模型扩展的同时更有利于获取方面相关的情感特征。 网络模型中添加了预定义的方面属性类别,通过形成的内部记忆链获取方面属性情感特征,利用动态记忆单元控制情感信息的远距离依赖,内部记忆链通过注意力机制获取情感分类。 改进后的模型网络结构如图2 所示。其中::表示文本中的词向量;: 表示第j个预定义的方面属性;:表示当前输入的方面属性j 的上一时刻隐层状态;:表示方面属性j 在内部记忆链中上一时刻的隐层状态;: 表示方面属性j 的门控单元;分别表示当前时刻网络和内部记忆链的隐层状态。 每一个方面属性类别都对应一个内部状态链,其中扩展的内部记忆链上的动态记忆模块是一个GRU 单元,用来控制长距离依赖的情感信息,每输入一个,计算当前方面属性j 的临时隐层状态,从而通过门控单元和内部记忆链更新。 计算公式如式(6)-(9)所示:

图2 改进的双向LSTM 网络Fig.2 Improved two-way LSTM network

其中:X、Y、U、V 是待训练参数,∅和σ 是非线性的激活函数,☉代表元素相乘。 临时隐层状态由方面属性、上一时刻的内部记忆状态和当前输入的信息线性变换组成。 门控单元由式(8)中第一部分的内容信息和第二部分的位置信息决定。 当输入的向量和方面词向量相符,并含有方面相关情感特征时,门控单元的计算则对方面属性的上一步隐层状态提供更丰富深层的信息量。 门控单元计算式子中第三部分为远距离依赖信息,若当前进入的词向量与方面属性存在远距离状态,则门控单元的计算给当前的隐层状态提供更多的更新信息。 由此可见,内部状态链上的记忆模块实现了方面相关信息长距离依赖的情感信息控制功能。 最终得到的网络当前隐层状态由式(9)中上一步的隐层状态和代表更新信息量的合并求得。 当前的隐层状态值通过遗忘过期信息将取值缩至单元距离间,以此丢掉网络中已过期信息。

本文采用双向网络学习特征的上下文信息,沿着前后两个方向进行建模,最终得到双向循环网络。其表示如式(10)所示:

2.4 情感分类层

通过改进的Bi-ALSTM 网络,得到三个隐藏层输出,经过归一化处理分别得到三个不同的情感特征,然后进入Merge 层。 通过⊕操作得到情感分类层的输入向量x,放到情感分类器,从而得到情感极性结果如式(11)所示:

其中,wp,bp分别表示权重参数和偏置参数,本文在模型训练过程中使用交叉熵作为损失函数,如式(12)所示:

其中,D、C 分别为训练数据大小和类别数,y、p分别为实际类别和预测类别。

3 实 验

3.1 数据集

本文提出的基于多通道模式的双向LSTM 方面情感分析模型(MCBL),在三个数据集上进行验证。实验采用SemEval 2014 Task4 的Laptop、Restaurant数据集。 其中包含四种情感类别:积极的、消极的、中立的、冲突的,最后一种类别数据所占比例较低,实验中只保留前三种。 第三个数据集来自文献[19]的Twitter 数据集,三个数据集数据统计结果如表1 所示。

表1 数据集信息Tab.1 Data set information

3.2 评价指标和参数设置

实验过程中采用准确率作为评价指标,向量初始化采用Glove 词向量。 词向量维度为300,词性、级性、位置信息特征维度为100。 采用均匀分布U(- 0.1,0.1) 对未登陆词初始化,偏置初始化为0。训练采用Adam[20]优化器更新模型参数,参数设置如表2 所示。

表2 参数设置Tab.2 Parameter settings

3.3 模型对比

为了验证本文模型的性能,将其与以下模型进行对比:

(1)LSTM:采用长短期记忆网络对文本进行方面级的情感分析[11]。

(2)GNN:采用门限神经网络获取文本上下门和方面信息,将两者融合生成句子表示[21]。

(3)TD-LSTM:通过两个LSTM 对左、右两个方向分别获取文本上下文信息,获得情感分类结果[14]。

(4)〛ATAE-LSTM:将方面信息拼接到句子向量上,通过注意力机制获取词向量权重,得到分类结果[13]

(5)MemNet:通过文本词向量构造外部记忆,利用注意力机制的方面情感分析,每一层计算关于方面的注意力表达作为下一层的输入重新计算[17]。

本文模型(MCBL)同以上模型比较后的准确率值如表3 所示。

表3 不同模型的方面级情感分类准确率Tab.3 Accuracy rate of aspect-level sentiment classification of different models %

由表3 可见:二分类的实验结果优于三分类,当分类考虑中性情感,模型分类准确率降低。 本文在三个数据集上分别对三分类和二分类两种情况进行实验。

通过分析得到基于LSTM 的模型实验效果优于只采用LSTM 的网络模型;嵌入方面信息的TDLSTM 优于基础模型LSTM;ATAE-LSTM 考虑了注意力机制,在分类准确率上比TD-LSTM 有所提高,考虑了方面和注意力机制的MemNet 模型优于以上模型,由此可得方面和注意力机制对模型效果提升有一定影响。

本文提出的MCBL 模型基于多通道模式嵌入不同的特征信息,通过改进的双向LSTM 网络获取上下文,在三个数据集上的实验结果和对比模型相比均有1-3 个百分点的提升,验证了该方法的有效性。

3.4 不同通道特征组合性能

通过不同通道特征的组合验证,不同特征信息对模型准确率的提升效果如表4 所示。

其中,SA 表示融入方面信息的模型,所有对比通道模型均在已融入方面信息的基础上添加其它信息特征;SAP 表示在融入方面信息的基础上嵌入词性信息;SAL 表示在融入方面信息的基础上嵌入位置信息;SAS 表示在融入方面信息的基础上嵌入极性信息。

表4 特征信息组合性能准确率Tab.4 Performance accuracy rate of combination of characteristic information %

表4 中融入通道特征后的模型分类准确率,优于表3 中只融入方面信息的模型,嵌入多通道特征信息的模型分类准确率均比单通道特征模型有不同程度的提升。 不同通道特征的结合对模型准确率的影响大小不同,对比表4,可得词性特征、位置特征相比单词极性对模型效果的影响力较大,嵌入三种特征信息的模型效果最好。

3.5 改进的LSTM 网络性能对比

为了验证基于LSTM 改进的循环网络在方面嵌入和内部记忆链的扩展情况下,情感特征的获取是否稳定,模型性能是否提高。 通过若干次迭代过程计算平均损失值,对比模型[14],如图3 所示。 横坐标代表实验中训练的迭代次数,纵坐标代表平均损失值,实线代表本文模型,虚线代表对比模型。 可以看出随着迭代次数的增加模型的平均损失值逐渐减小。 分析得出本文改进后的网络模型在实验训练过程中收敛的速度更快,性能更优。

图3 改进模型与对比模型收敛速度Fig.3 Convergence speed of the improved model and the comparison model

4 结束语

本文基于多通道模式嵌入不同特征信息,分析现有语言知识提取情感资源,形成不同特征通道。 融入方面情感极性,经过线性转换与通道特征结合,设计扩大的动态记忆链改进LSTM,实现深层次的方面情感特征学习。 通过数据集上的对比实验,验证了该方法中几种特征的嵌入对模型情感分类准确率均有提升。 通过一些实例分析得出,包含跨领域词汇和网络用语句子的方面情感分析,现模型还不能很好的进行情感识别,这将作为下一步研究的重点。

猜你喜欢

极性向量单词
向量的分解
有机反应极性机理试剂分类的探索
单词连一连
跟踪导练(四)
看图填单词
向量垂直在解析几何中的应用
向量五种“变身” 玩转圆锥曲线
Playing with / i? /
键的极性与分子极性判断的探究
有机物的溶解性规律