APP下载

融合卷积神经网络与双向GRU的文本情感分析胶囊模型

2021-06-10陈豪迈蔡盈盈

中文信息学报 2021年5期
关键词:注意力卷积向量

程 艳,孙 欢,陈豪迈,李 猛,蔡盈盈,蔡 壮

(1. 江西师范大学 计算机信息工程学院,江西 南昌 330022;2. 豫章师范学院 数学与计算机学院,江西 南昌 330103)

0 引言

近年来,互联网已从静态的单向信息载体演变为动态的交互式媒体,越来越多的用户在其中发布新闻或产品评论表达自己的观点。利用情感分析技术对这些海量的交互信息进行分析,可以发现用户的情感、心理轨迹,从而帮助研究机构掌握社会情绪动态[1]。文本情感分析是指对带有情感色彩的主观性文本信息进行分析、处理、归纳总结并判断其情感倾向[2],将这些带有主观情感的想法和观点进行高效快速的分析是当前的热门研究方向。

传统的文本情感分析方法主要包括基于情感词典方法和基于机器学习方法。尽管这些方法在分类准确率方面表现良好,但依旧面临许多困难。基于情感词典方法以情感词典作为判断评论情感极性的主要依据[3],依赖大量的人工干预,例如,构建词典、制定判断规则等,难以应对新单词和未知单词的出现,具有领域依赖性问题[1]。基于机器学习方法由于忽略了句子中单词的顺序,无法区分句子的语义而导致情感分类错误问题[4]。以机器学习方法中较为常见的词袋模型[5](bag of words,BOW)为例,BOW模型将文本表示为单词的集合,但该集合忽略了语句中的语法和单词出现的顺序,结果导致模型无法捕获单词之间及上下文相关信息。

近年来将深度学习技术应用于自然语言处理(natural language processing,NLP)领域已成为行业主流。相比于传统方法,卷积神经网络(convolutional neural network,CNN)和循环神经网络(recurrent neural network, RNN)在情感分类任务中均表现出优越性。针对现有的大量情感信息未被充分利用的问题,越来越多的研究者[6-11]将语言知识和情感信息融入到模型中。陈钊等[6]将词语情感序列特征与卷积神经网络相结合以提高分类准确率,刘龙飞等[7]提出了结合字级别和词级别词向量的卷积神经网络模型。虽然这些神经网络模型取得了较大的成功,然而难以提取到多层次、更全面的文本情感特征,且严重依赖于文本信息和情感资源,需要将语言知识[11](情感词典、否定词、程度副词)整合到模型中,实现预测准确性方面的最佳潜能[12]。随着胶囊[13]的出现,Wang等[12]首次尝试通过胶囊进行情感分析,不需要任何语言知识的加持,且相较于融合情感信息的基线模型,分类精度更高。胶囊是一组具有丰富意义的神经单元[13],作为向量神经元取代了传统神经网络中的标量神经元节点,改变了传统神经网络标量与标量相连的结构,减少了信息的丢失。在图像分类领域,胶囊网络[14]被证明可以有效地通过采用实例化参数的整个向量来理解高级别数据中的空间关系。Kim[15]和Zhao[16]等人已经将胶囊网络应用于文本分类任务,并证实胶囊网络在该领域也具有优势。但胶囊网络不能选择性关注文本中的情感词,且不能编码远距离依赖关系,在识别语义转折的文本时有很大局限性[17]。注意力机制能实现选择性地关注重要信息。Zhao等[18]提出了一种结合注意力机制(attention mechanism)和CNN的ATT-CNN模型,有效地识别出句子中单词的重要程度。Vaswani等人[19]提出的transformer翻译模型中采用的多头注意力机制(multi-head attention mechanism)能让模型从不同空间中获取句子更多层面的信息,提高模型的特征表达能力。本文采用深度学习方法,基于文献[12]的胶囊模型,提出了一种融合卷积神经网络和双向门控循环单元(bidirectional gated recurrent unit,Bi-GRU)的胶囊模型来解决文本情感分析问题。该模型利用多头注意力捕获文本中的情感词,采用不同窗口大小卷积核的卷积神经网络和Bi-GRU进行文本情感特征采集,通过集成的形式将两种模型提取到的局部语义特征和全局语义特征进行融合,针对每个情感类别结合注意力机制构建情感胶囊,根据胶囊属性判断文本情感类别。此外,本文在特征融合阶段引入全局平均池化层[20](global average pooling),将多层次语义信息充分融合在得到文本实例特征表示的同时,避免模型过拟合。

本文主要贡献如下:

(1) 提出了一种融合卷积神经网络和双向GRU网络的胶囊模型应用于文本情感分析任务,该模型针对每个情感类别结合注意力机制构建情感胶囊,使用向量神经元(胶囊)进行文本情感信息的特征表示,增强模型泛化能力,提升模型鲁棒性。与需要融入语言知识、情感信息的模型相比,本文模型更为简洁且分类精度更高。

(2) 该模型集成了卷积神经网络局部特征提取的优势及双向GRU考虑上下文语义的特点,有效地提升了模型的分类性能。

(3) 在模型中引入多头注意力捕获文本中的情感词,编码单词间的依赖关系,提高模型的特征表达能力。

1 相关工作

早期的情感分类任务主要基于人工规则的制定。随着深度学习技术的发展,基于神经网络的方法逐渐成为主流。在此基础上,许多研究人员[6-11]将语言知识应用于情感分类任务中,获得了更好的性能。

情感词典作为一种较为简单的情感分类方法,首先对单词或短语进行情感倾向性注释,然后将每个单词或短语的情感强度汇总,以获取整个文本的情感倾向。然而,情感词典很难获取资源,目前尚无公开的情感词典可用[1],且随着时代的发展,难以应对新词的出现,灵活度不高。传统机器学习方法包括最大熵、决策树、支持向量机(SVM)[21]等。这些方法不需要构建词典,而是在带有标签的数据中自动学习语言知识为情感识别构建特征模板,但特征提取过程不仅存在数据稀疏和维度爆炸问题,而且随着数据量增大,处理海量数据费时费力[22]。然而无论上述中的哪种方法,都需要大量的人工干预,严重依赖于文本的实例表示。

近年来,越来越多的研究人员使用深度神经网络研究情感分类任务。与依赖于大量特征工程的传统机器学习方法相比,卷积神经网络具有一个关键的优势,能够自动执行情感特征生成任务并学习更多一般表示,从而使该方法应用于各种领域时具有较强的泛化能力。Kim[23]首次将CNN应用于文本分类任务中,在每次卷积后连接一个最大池化层提取最能代表句子的特征,输入全连接层后进行情感极性的判定。在此基础上,Zhang等[24]提出了基于字母级别特征的卷积神经网络模型,使用6个卷积层和3个全连接层来处理大规模文本分类数据集,并取得了不错的效果。由于中英文语义分割方式不同,许多现有方法无法直接应用于中文文本分类任务,Xiao等[4]提出了基于卷积控制模块CCB的中文情感分类模型,在酒店评论数据集上的准确率可达92.58%。程艳等[25]考虑到文本的层次化结构对情感倾向性判定的重要性,基于CNN和层次化注意力网络的优点构建深度学习模型C-HAN,并通过实验证明了中文文本中字级别特征分类效果优于词级别。但CNN模型的弊端在于只能挖掘文本局部信息,而RNN引入了记忆单元使网络具有一定的记忆能力,更能考虑文本间的长距离依赖。但在训练过程中会出现训练时间过长、梯度消失和梯度弥散等问题,影响实验效果。长短期记忆网络(long short-term memory,LSTM)在传统RNN的基础上引入门控机制,较好地克服了RNN的弊端。Socher等[26-27]使用树形结构的LSTM网络来改善语义表示,记忆单元能够保存实例之间的联系,从而捕获单词之间的关系。LSTM模型适用于处理情感分析问题,但仍旧是一种时间学习方法,很难并行训练,应用于大规模文本数据集需要耗费大量的时间。Cho等[28]提出了GRU单元,相较于LSTM模型参数更少,训练更为快速,能够捕获全局语义特征。为结合卷积神经网络与循环神经网络各自的优势,Zhang等[29]提出一种多通道CNN-LSTM模型,用于预测Twitter文本情感强度;袁和金等[30]融合注意力机制提出了一种基于多通道卷积与双向GRU网络的情感分析模型,Rehman等[31]提出的Hybrid CNN-LSTM模型在IMDB和Amazon电影评论数据集上达到了最佳的性能。该文结合CNN捕获局部特征与双向GRU提取全局语义特征的优势,更有利于模型对文本中情感特征更多层次、更为全面地获取。

深度学习方法在文本分类任务上取得了较大的成功,同时语言知识也越来越被研究者所重视,他们将语言知识整合到神经网络中以实现模型的最佳性能。常见的语言知识包括情感词典、否定词和程度副词[11]。Qian等[8]通过损失函数将语言学知识引入LSTM模型中,有效地利用了情感词典等情感资源。Teng等[9]针对现有方法使用情感词典时不考虑上下文语义信息,提出了基于上下文敏感词典的方法,该方法使用递归神经网络学习构成句子的情感强度,在Twitter语料分类实验中获得最佳效果。陈珂等[10]将情感分析任务中不同特征信息和卷积神经网络相结合,有效地提高了情感分类的正确率。李卫疆等[11]对情感分析任务中的语言知识和情感资源进行建模,取得了比传统分类器更好的性能。但是语言知识需要人工干预,情感词典具有领域依赖性,因此限制了语言知识融入神经网络模型。2011年,Hinton等[13]提出了胶囊的概念,使用胶囊代替卷积神经网络中的标量神经单元。2018年,Wang等将RNN与胶囊网络相结合用于情感分析,胶囊模型具有较强的情感建模能力,而且不需要任何语言知识就能输出文本情感倾向性[32]。Zhao等[16]首次将胶囊网络应用于文本分类,在多个数据集上分类性能超越了CNN与RNN。总而言之,使用胶囊进行特征表示,能减少信息丢失,保留了更多的文本情感信息。注意力机制通过对模型中不同关注部分赋予不同的权重,并从中抽取出更加重要和关键的信息,从而优化模型并做出更为准确的判断[33]。Lin等[34]提出的自注意力能提取句子中关键信息。贾旭东等[17]提出了一种基于多头注意力的胶囊网络模型,证明了注意力引入胶囊网络的价值和可行性。本文模型不需要融入复杂的语言知识,采用多头注意力捕获文本情感词,编码单词依赖关系,集成CNN与Bi-GRU网络两种模型各自的优点,通过多通道的形式将两个模型分别提取到的局部文本特征和全局语义特征相结合,输入到全局平均池化层融合特征的同时避免过拟合,最后结合注意力机制构建情感胶囊,并根据胶囊属性得到预测结果。

2 模型

融合卷积神经网络和双向GRU的文本情感分析胶囊模型(text sentiment analysis capsule model combining multi-channel convolution and bidirectional GRU,MC-BiGRU-Capsule)的模型框架包括以下四个部分(图1): 注意力层、特征提取、特征融合以及情感胶囊构建。

图1 融合卷积神经网络和双向GRU的文本情感分析胶囊模型结构图

(1)注意力层: 该层由多头注意力机制构成,捕获文本中情感词,编码单词间依赖关系,形成文本特征表示。

(2)特征提取: 将基于多头注意力输出的文本词向量分别输入到CNN和Bi-GRU中,其中CNN分别用512个3×300、4×300、5×300的卷积核、步长为1做卷积运算,随后进行拼接,目的在于抽取单个句子中词语的N-gram特征输入到模型下一层结构中,故仅使用了卷积操作,得到文本的局部特征;而Bi-GRU模型通过正向GRU与反向GRU处理文本序列,提取到全局语义特征。

(3)特征融合: 将提取的局部特征和全局语义特征拼接得到特征向量H作为情感胶囊的输入,采用全局平均池化层对向量H池化得到文本的实例特征表示Vs用于损失函数的计算。

(4)情感胶囊构建: 情感胶囊的数量与情感类别是一致的,例如,两个胶囊分别对应于积极情感与消极情感,每个情感类别也称为胶囊的属性。将上一步中拼接得到的特征向量H输入到情感胶囊中,结合注意力机制计算胶囊激活概率Pi以及重构特征表示rs,i。如果胶囊的激活概率在所有胶囊中最大,则该胶囊被视为激活,否则为非激活。激活状态胶囊所对应的属性,即为输入文本的情感类别作为模型的输出。

2.1 注意力层

注意力机制可以选择性地关注文本重要信息,本文采用多头注意力从多个子空间捕获文本序列的关键信息,如图2所示。

图2 多头注意力模型

对于给定长度为L的文本S={w1,w2,…,wL},其中wi为句子S中的第i个单词,将每个单词映射为一个D维向量,即S∈RL×D。

首先,将词向量矩阵S线性变换并切割为3个维度相同的矩阵Q∈RL×D、K∈RL×D、V∈RL×D,并映射到多个不同的子空间中,如式(1)所示。

(1)

其中,Qi、Ki、Vi为各子空间的查询、键、值矩阵;WQi、WKi、WVi为转换矩阵;h为头数。

然后,并行计算各子空间的注意力值如式(2)所示。

(2)

随后将各子空间的注意力值拼接并线性变换,如式(3)所示。

Multi_head=concat(head1,…,headh)WM

(3)

其中,WM是转换矩阵,Multi_head则为整个句子的注意力值,concat是拼接操作。

最后,将Multi_head与S进行残差连接得到句子矩阵如式(4)所示。

X=residual_Connect(S,Multi_head)

(4)

其中,X∈RL×D即为多头注意力的输出,residual_Connect是残差操作。

2.2 融合CNN与双向GRU的文本特征提取

为了能够提取更全面的文本情感特征,本文融合了卷积神经网络和双向GRU文本特征提取各自的优势,从局部到全局两个层次对文本情感特征进行建模。

2.2.1 基于CNN的文本特征提取

卷积神经网络的启发来源于生物学界对生物视觉机制的研究,其强大的特征学习和特征表示能力被广泛应用于文本分类、情感分类等自然语言处理领域。如图3所示,传统CNN在文本任务中,将句子所构成的词向量作为输入,然后采用多个与词向量维度一致的卷积核进行卷积操作,捕捉到多个连续词之间的特征。

图3 卷积运算原理图

本文模型选择B个卷积滤波器对多头注意力输出矩阵X进行局部特征提取,得到特征矩阵:Ci=[Ci,1,Ci,2,…,Ci,B]∈R(L-k+1)×B,其中,Ci,B=[c1,c2,…,cL-k+1]∈RL-k+1为Ci中第B列向量。该向量中的元素cj由式(5)得到:

cj=f(W·xj:j+k-1+b)

(5)

其中,f为激活函数relu,W∈Rk×D为卷积核,k为窗口宽度,xj:j+k-1∈Rk×D表示k个词向量首尾串接,b是偏置项。

为提取文本中的N-gram局部文本特征,将不同窗口大小卷积核提取到的特征向量进行拼接,形成融合特征序列C=[C1,C2,…,Cn],C∈Rl×B。其中,Cn∈R(L-kn+1)×B是窗口大小为kn的卷积核提取的特征序列。

2.2.2 基于双向GRU的文本特征提取

不同于传统机器学习方法仅仅考虑有限的前缀词汇信息作为语义模型的条件项,循环神经网络(RNN)有能力将语言知识集中的全部前序词汇纳入模型的考虑范围。然而,标准RNN具有梯度消失或爆炸的问题。LSTM网络与GRU网络靠一些“门”的结构让信息有选择地影响模型中每个时刻的状态以克服此问题。GRU作为LSTM的变种,把LSTM中的遗忘门和输入门用更新门代替。有关GRU结构说明如图4所示,相关计算如式(6)~式(9)所示。

图4 GRU单元结构图

在经典的循环神经网络中,状态的传输是从前往后单向的。然而,在某些问题中,当前时刻的输出不仅和之前的状态有关,也和之后的状态相关。例如,预测一句话中缺失的单词不仅需要前文判断,还需要后文的内容,而双向循环神经网络的出现解决了此问题,如图5所示。

图5 双向循环神经网络结构图

双向循环神经网络将两个单向RNN相结合。在每个时刻,同时输入到两个方向相反的RNN中,共同决定输出,使结果更为精确。将双向循环神经网络中的RNN替换为GRU结构,组成了Bi-GRU。

本文模型使用双向GRU网络从多头注意力输出矩阵X学习全局语义信息,该网络在训练过程中同时使用两个GRU沿着文本序列的前向与后向进行情感建模,输出隐藏层Ht。具体计算过程如式(10)~式(12)所示。

2.3 特征融合

卷积神经网络在提取文本局部特征的同时减少了信息丢失,双向GRU网络遍历整个文本序列,提取全局语义特征。本文集成了卷积神经网络与双向GRU网络各自的优势,采用全局平均池化方法融合文本的局部特征和全局语义特征得到文本实例特征表示Vs,增强了模型的特征表达能力。

实验过程中,将卷积神经网络中卷积核数量B与双向GRU网络输出向量维度2d设置为相同数值,采用合并拼接的方式,拼接两个网络生成的特征向量如式(13)所示。

H=concat(C,Ht)

(13)

其中,H∈R(l+L)×2d是拼接后的向量,C=[C1,C2,…,Cn],C∈Rl×B是卷积神经网络的输出向量,Ht=[h1,h2,…,hL],Ht∈RL×2d是双向GRU的输出向量,concat是拼接操作。

采用全局平均池化层对向量H进行均值池化,形成特征点,将这些特征点组成最后的特征向量Vs∈R2d作为文本情感实例特征表示,避免过拟合的同时增强了模型的鲁棒性,计算如式(14)所示。

Vs=globalaveragepooling(H)

(14)

其中,globalaveragepooling是全局平均池化操作。

2.4 情感胶囊构建

单个情感胶囊的结构如图6所示。一个情感胶囊由表示模块、概率模块和重构模块组成。表示模块利用注意力机制构建胶囊特征表示vc,i;概率模块则使用sigmoid激活函数预测胶囊激活概率Pi;重构模块将Pi与vc,i进行矩阵相乘得到胶囊的重构特征表示rs,i。

图6 胶囊结构图

注意力机制早于2014年在机器翻译任务中得到应用[35],表示模块将拼接后的特征向量H结合注意力机制构建胶囊内部情感特征表示。注意力机制能够帮助表示模块在不同文本中判断词语的重要性,例如,“宽敞”在酒店评论数据中会提供正面积极的信息,但是出现在电影评论中的重要性就降低了。注意力机制计算如式(15)~式(17)所示。

其中,H是拼接后的文本特征表示,将H输入至全连接层得到ui,t作为隐含表示;通过计算ui,t和一个随机初始化的上下文向量uw的相似度来决定单词的重要性并使用softmax函数归一化得到句子中单词的注意力权重αi,t;根据权重矩阵,对向量H进行加权求和,得到注意力机制的输出vc,i∈R2d;Ww和uw为权重矩阵,bw为偏置值,均由训练过程中学习得到。注意力机制生成更高级别的深层特征vc,i,获取关键语义情感信息。

概率模块根据语义特征vc,i结合式(18)计算出胶囊的激活概率。

Pi=σ(WP,ivc,i+bp,i)

(18)

其中,Pi为第i个胶囊的激活概率,WP,i与bP,i分别为权重矩阵和偏置矩阵,σ为sigmoid激活函数。

重构模块将语义特征vc,i与概率矩阵Pi相乘得到重新构建的语义特征表示rs,i∈R2d,如式(19)所示。

rs,i=Pivc,i

(19)

胶囊中的三个模块相互补充。每一个胶囊具有属性(情感类别)对应于文本输入,因此,当文本情感与胶囊属性相匹配时,此胶囊的激活概率Pi应该是最大的,且胶囊输出的重构特征rs,i与文本实例特征Vs应最为相似。

除此之外,本文训练的最终目标为:一是最大化与文本情感相匹配胶囊的激活概率,同时最小化重构向量与文本实例向量之间的误差;二是最小化其他胶囊的激活概率,同时最大化向量间的误差。故运用合页损失函数,如式(20)、式(21)所示。

其中,yi为文本相对应的情感类别标签。而最终的损失函数即为式(20)、式(21)两式的和。

L(θ)=J(θ)+U(θ)

(22)

MC-BiGRU-Capsule模型的算法学习过程如下。

3 实验分析

本文在3个英文数据集和1个中文数据集上进行实验,英文数据集包括MR[36](movie review)、IMDB[37]数据集、SST-5(斯坦福情绪树库)数据集,中文数据集为谭松波酒店评论数据集。上述数据集都已广泛应用于情感分类任务,使得实验结果有着较好的评估效果。MR数据集是一个英文电影评论的集合,每一个句子按照情感类别标记为Positive(积极)和Negative(消极),有5 331条积极语句和5 331条消极语句。IMDB数据集包含了50 000条来自于美国电影评论站的数据集,分为正向与负向的情感类别,用于情感倾向性分析。SST-5数据集为MR数据集的扩展,提供了划分的训练集、验证集和测试集,共11 855个句子。数据标签分为五类,分别为,“非常积极”“积极”“中立”“消极”“非常消极”,本文在SST句子级(sentence-level)上进行训练。谭松波酒店评论数据集源于谭松波学者整理的酒店评论数据,经过对原始数据整理后得到正面情感评论数据与负面情感评论数据各3 000条用于本文实验。各个数据集概况如表1所示。

表1 实验数据集统计信息

3.1 实验设置

本文实验基于PyTorch实现,英文数据集使用300维Glove词向量来初始化词嵌入向量,对于词典中不存在的词使用均匀分布U(-ε,ε)进行随机初始化,其中ε设置为0.05;为了预先训练好中文词向量,先运用fastHan[38]工具对文本进行分词,然后使用大规模中文维基百科数据训练skip-gram模型,中文词向量维度设为300维。注意力模块采用8头注意力(h=8),模型训练过程使用Adam优化器,学习率为0.001,采用准确率指标对模型进行评估,模型具体超参数设置如表2所示。

表2 实验超参数设置

3.2 实验对比

将本文融合卷积神经网络和双向门控循环单元的文本情感分析胶囊模型MC-BiGRU-Capsule,与以下方法在四个不同的数据集上进行实验。

本文对比的基线模型分为以下四组: 传统机器学习方法、深度学习方法(CNN模型与RNN模型)、语言知识与模型结合的方法、胶囊方法,介绍如下:

(1)NBSVM[39]: 朴素贝叶斯(native Bayes,NB)和支持向量机(support vector machines,SVM)的变体,常被用作文本分类的基线方法。

(2)CNN: 文献[23]提出的卷积神经网络,通过使用不同大小的滤波器对文本词向量进行卷积操作,随后经过最大池化,连入全连接层进行分类。

(3)Bi-LSTM: 为LSTM网络的变体,结合双向文本信息,提高分类精度。

(4)MC-CNN-LSTM: 文献[29]提出的模型,利用多通道CNN抽取文本的N-gram特征作为LSTM的输入,有效地捕获文本中的关键信息。

(5)LR-LSTM/LR-Bi-LSTM: 文献[8]提出的基于语言规则的LSTM模型,在模型中整合了语言知识。

(6)NCSL: 文献[9]提出的使用循环神经网络学习文本的情感值,该方法基于简单的加权求和模型,但是需要复杂的语言知识。

(7)Multi-Bi-LSTM:文献[11]提出的一种基于多通道双向长短期记忆网络的情感模型,同样需要让模型充分学习句子中情感信息,使模型性能达到最佳。

(8)Capsule-A/Capsule-B: 文献[16]提出的胶囊网络,应用于文本分类任务。

(9)RNN-Capsule: 文献[12]提出的情感分类胶囊模型,相较于本文模型,此模型只采用了RNN捕获文本序列特征。

(10)MC-BiGRU-Capsule: 本文提出的融合卷积神经网络与Bi-GRU网络的文本情感分析胶囊模型。

3.3 实验结果分析

本文在四个公用数据集与上述11个模型进行了实验对比,结果如表3所示。

由表3可知,本文提出的MC-BiGRU-Capsule模型在四个数据集上均取得了比基线模型更好的分类效果。在MR数据集上,模型的分类准确率达到85.3%,在SST-5数据集上,分类准确率达到50.0%,在IMDB数据集上,准确率达到91.5%,中文数据集准确率达到91.8%。在四个数据集上分别比对照实验中最优分类模型准确率提高了1.5%、0.5%、2.2%和1.2%。

表3 本文模型与基线模型在四个公开数据集上的准确率对比实验结果 (单位: %)

首先,对于传统机器学习方法,其余3组方法在MR、IMDB、谭松波酒店评论数据集上都取得了比NBSVM更好的分类效果,这表明神经网络模型相较于传统方法在情感分类任务上有更好的效果。同时,胶囊方法的模型分类性能也远远高于CNN、Bi-LSTM、MC-CNN-LSTM这些普通的深度学习模型,说明在情感分类任务中使用胶囊进行文本情感特征表示,保留了更多的情感信息,提高了模型的分类性能。而且,胶囊方法在与语言知识融合的模型实验对比中也体现了竞争性。

其次,在深度学习方法中,MC-CNN-LSTM在所有数据集中的实验性能均优越于CNN和Bi-LSTM,验证了集成卷积神经网络局部特征提取和Bi-GRU捕获全局文本信息的必要性。在4个公开的中英文数据集上,我们的模型准备率比MC-CNN-LSTM分别提高了5.1%、2.8%、2.8%和1.6%,表明胶囊模型使用向量神经元具有更强的情感建模能力。在MR和SST-5数据上,尽管融入语言知识和情感资源的深度学习方法相比于其他基线模型展现了不错的分类性能,但本文提出的MC-BiGRU-Capsule模型在电影评论MR数据集上准确率比LR-Bi-LSTM、NSCL、Multi-Bi-LSTM模型分别提高了3.2%、2.4%、3.4%,并在多分类数据集上也表现出了更好的分类效果。此外,LR-Bi-LSTM、NSCL模型过度依赖于语言知识,如情感词典和强度正则化器。值得注意的是,构建这样的语言知识需要大量的人工干预。Multi-Bi-LSTM模型对比上述两种模型建模方式更为简洁,但仍是一种基于语言知识和情感资源的深度学习模型,需要耗费大量的人力和时间成本。而本文模型不需要对任何语言知识和情感资源进行建模,使用胶囊对文本情感特征进行建模的方法,取得了比融入语言知识和情感信息的深度学习模型更好的分类效果,说明了本文模型效率更高,同时模型更简单。

最后,在胶囊方法的对比中,RNN-Capsule在MR数据集上的分类准确率高于胶囊网络Capsule-A、Capsule-B(1.5%),却在IMDB数据集分类性能效果稍微差于Capsule-A、Capsule-B(0.4%)。这是由于IMDB数据集为长文本数据集(平均句长294),而MR数据集为短文本数据集(平均句长20)。RNN-Capsule利用循环神经网络进行文本序列提取,根据句子长度对隐藏特征求均值,得到最终的实例特征表示,句子的长度越长,向量的实例化表示越差,不能较好地表示文本的情感类别,影响模型的最终性能,故RNN-Capsule在IMDB数据集上的表现欠佳。胶囊网络Capsule-A、Capsule-B采用动态路由机制取代池化层生成胶囊连入全连接胶囊层进行分类,文本长度对其影响不大。本文提出的模型MC-BiGRU-Capsule在4个数据集上的分类准确率均超越了RNN-Capsule,且在IMDB数据集上的分类性能也高于胶囊网络Capsule-A、Capsule-B,有效地验证了利用多头注意力编码单词间依赖关系及集成卷积神经网络和Bi-GRU特征提取的优越性,克服了RNN-Capsule长文本向量表示不足的局限性,引入全局平均池化层生成文本实例特征在中英文数据集上的高效表现,更是展现了MC-BiGRU-Capsule的鲁棒性和泛化能力。

本文模型引入胶囊的概念,使用向量神经元取代标量神经元,在减少信息丢失的同时,增强了模型情感建模能力,而且以向量为单位的学习不同于一般的神经网络模型。我们在MR数据集上进行了基于向量学习如何影响模型性能的实验,结果如图7所示。通过改变胶囊模型中文本实例向量维度与重构向量维度的大小,得到模型准确率在测试集上的变化。实验结果表明,运用维度更大的向量表示文本情感特征,会使得模型的分类精度更高。因此,当训练对象为向量时,表示文本情感特征能力会增强,并可能表示出文本的各种属性。

图7 准确率随向量维度变化图

为更直观地说明多头注意力能够捕获文本中的情感词、编码单词依赖关系,本文将句子中单词注意力权重分配情况可视化展示,显示文本中的重要情感特征。如表4所示,以IMDB数据集中的正负样本为例,对文本情感特征进行标注,其中颜色较深部分权重较大,而颜色较浅部分权重较小。

表4 注意力权重可视化

动态词向量BERT[40-41]已在多个自然语言处理任务上取得了优越性能。与Glove、Word2Vec等静态词向量相比,BERT能够提取文本的深层次上下文特征,通过双向编码,结合不同语境获取单词语义,克服多义词的消歧问题。本文在IMDB数据集上采用BERT动态词向量进行实验。此外,还将BERT与本文模型MC-BiGRU-Capsule结合,与文献[42]所提出的利用情感词典微调后的BERT预训练模型SentiBERT进行对比。

由于BERT语言模型的庞大性及可复现性差,较多研究者使用预训练好的BERT模型进行微调用于下游任务,然而又受到输入文本长度的限制,大量的模型参数也导致了微调时间过长等问题。如表5所示,本文模型MC-BiGRU-Capsule仅使用GloVe静态词向量进行训练却取得了比BERT模型及ULMFIT[43](基于LSTM的预训练语言模型)更好的分类效果;且在结合了动态词向量后,分类准确率提升了1.2%,相较于SentiBERT模型准确率高出0.8%。在本文模型的基础上引入Bert动态词向量,性能能够进一步提升,也验证了MC-BiGRU-Capsule模型的有效性。

表5 结合动态词向量对比实验结果 (单位: %)

4 总结与展望

本文提出了一种融合卷积神经网络和双向GRU的胶囊模型用于文本情感分类任务。该模型使用多头注意力捕获文本情感词,编码单词依赖关系,解决胶囊网络在文本分类任务中不能选择性关注重要单词的问题。为提取多层次、更全面的文本情感特征,采用CNN进行局部特征采集的同时运用双向GRU网络提取全局语义特征。利用向量神经元(胶囊)取代标量神经元进行文本情感建模,取得了比融合语言知识、情感资源方法更好的分类性能,证明了胶囊模型的特征表达能力。通过在不同数据集上的对比实验,验证了本文模型的效果。

在下一步的工作中,可以考虑情感胶囊内部机制的改进,如注意力机制的优化;同时增强特征融合能力,使向量可以更好地表示情感特征,提升模型的稳定性和高效性。

猜你喜欢

注意力卷积向量
向量的分解
让注意力“飞”回来
基于3D-Winograd的快速卷积算法设计及FPGA实现
聚焦“向量与三角”创新题
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
“扬眼”APP:让注意力“变现”
A Beautiful Way Of Looking At Things
向量垂直在解析几何中的应用
向量五种“变身” 玩转圆锥曲线