基于深度记忆网络的特定目标情感分类研究
2019-02-07张玲刘臣
张玲 刘臣
摘要:特定目标情感分类不仅依赖于上下文信息,还需结合特定目标的特征信息,是一种细粒度的情感分析。针对特定目标情感分类提出了一种基于深度记忆网络的分类模型。该模型以双向LSTM和注意力机制为主干框架,从双向LSTM中抽取出目标的特征表示,将目标特征信息加入句子表示中,并加入多计算层(Hops)结构,用以挖掘句子和目标更深层次的情感特征信息,每个计算层的结构类似,共享参数。最后在SemEval2014和SemEval2016数据集上进行实验,取得了比其它基准模型更好的效果。关键词:特定目标情感分类;双向LSTM网络;注意力机制;多计算层结构
DOI:10.11907/rjdk.191222
中图分类号:TP301 文献标识码:A 文章编号:1672-7800(2019)012-0040-04
0引言
情感分类是情感分析技术的核心,是对具有情感色彩的主观文本进行分析并将文本分为积极、中立和消极3种类型的过程。情感分析研究一般可以分为3个层次:文件、句子和目标。特定目标情感分类是一种细粒度的情感分析,研究句子针对特定目标的情感极性。
特定目标情感分类的一个重要特征表现为:同一个句子针对不同的目标所表达的情感有可能是完全相反的。比如,句子“I came here with my friends last week,the food isgreat,but the service need to be improved。”针对“food”的情感是积极的,而针对“service”的情感却是消极的。由此可见,句子所表达的情感极性与特征目标的特征信息紧密相关。因此在作特定目标情感分类时,如果忽略句子中包含的特定目标信息,就很可能导致出错。
许多学者都对特定目标情感分类进行了研究,使用较多的方法是先利用特征提取工具,比如TF-IDF、n-gram、bag ofwords以及情感词典等,对句子进行特征提取,然后用分类器(如支持向量机等)进行分类。尽管这些方法能够取得不错的分类效果,但所用到的特征提取工程需要耗费大量劳动力,而且分类器的效果很大程度上依赖于人工提取特征的效果。深度神经网络在很多领域都取得了良好效果,包括特定目标情感分类任务。情感分类任务中,使用较多的深度神经网络模型是长短期记忆网络(LSTM)和卷积神经网络(cNN)。LSTM非常适合用于学习时间序列的分类、处理和预测,CNN因局部感知和参数共享而被广泛使用。
特定目标情感分类效果不仅与上下文的文本信息相关,还依赖于特定目标的特征信息,因此在作特定目标情感分类时有两个需要特别注意的问题。
(1)如何合理表示包含多个词的目标。为了完成特定目标情感分类,首先要高效地表示目标,特别是当目标包含多个词时。比较常用的方法是取这几个词词向量的平均值作为目标特征表示。但是这种表示方法会导致目标的特征信息被遗漏,甚至会因为平均值向量指向其它向量空间而导致分类错误。
(2)如何充分利用目标的特征信息。特定目标情感分类的目的是分析出句子针对某一目标的情感极性,而不是整个句子的情感极性。因此需要充分利用目标特征信息挖掘出对特定目标有情感倾向的上下文信息。
本文针对上述两个问题,提出一个基于深度双向LSTM的情感分类模型。该模型在两个公开的数据集上都取得了较优效果。
1相关工作
1.1基于CNN的特定目标情感分类
Gu等在2017年提出了一个两级级联CNN(c-CNN模型共同完成目标映射任务和情感分类任务。在第l级,他们使用多层卷积网络检测输入句子是否属于预先定义的目标类别;在第2级,他们使用单一卷积网络对属于预先定义的目标类别句子的情感极性进行分类。这种C-CNN模型虽然取得了良好效果,但当一个句子包含两个目标,并且两个目标的情感极性相反时,C-CNN模型就无法处理了。梁斌等于2018年提出一种基于CNN的分类模型,用CNN提取句子特征信息,引入多种注意力机制抓取目标特征信息。该模型效果良好,但容易出现过拟合现象。
1.2基于RNN的特定情感分类
循环神经网(RNN)非常适合从经验中学习时间序列的分类、处理和预测。但是,标准RNN在消失梯度或爆炸梯度问题上存在不足。因此前人在作目标情感分类时,更多使用的是长期短期记忆(LSTM)和门控循环单位(GRU)。Soufian等先将词向量、情感向量和词性标签向量的拼接向量传人一个双向GRU以提取、表示目标,再使用一个类似结构,不同的是在连接向量上添加了一个距离嵌入向量,预测句子对目标的情感极性。结果表明,从情感词典(senticnet)获得的情感相关特征有助于提升该模型的性能;陈思远等首先使用CNN提取句子完整信息,然后对句子进行区域划分,将CNN提取的句子特征信息和目标特征信息传人区域LSTM,通过注意力机制调整句子特征信息和目标特征信息对分离的影响力;孟威等先用BiLSTM处理单词信息,然后用CNN从BiLSTM处理结果中提取特征信息,并引入CRT机制将CNN和LSTM的优势加以整合。
1.3基于注意力机制的特定目标情感分类
注意力机制最先在图像处理领域取得了卓越成效,其在序列建模中也很有效,因为它可以模擬组件之间的依赖关系,而不管它们之间的距离如何。在情感分类相关研究中,注意力机制大部分都是与深度神经网络结合起来使用。Wang等于2016年提出了一个基于注意力机制的LSTM模型,他们将句子的词向量传送给LSTM,然后将LSTM的输出与目标词向量结合计算出合适的注意力权重,最后得到包含目标特征信息的句子表示进行情感预测;Tan等于2016年提出的模型中舍弃了循环神经网络,提出了一种基于注意力机制的多计算层(Hop)结构模型。每个计算层的结构类似,包含一个注意力模块和一个线性转换模块,每一层的输出作为下一层的输入,将最后一个计算层的输出作为句子表示,然后作出情感预测。实验证明,多计算层结构在任务中是起作用的。
1.4基于左中右结构的特定目标情感分类
为了更好地模拟出目标和上下文的依赖关系,一些学者将句子切分成3部分:目标、目标左边的上下文和目标右边的上下文。Tang等提出了TD-LSTM模型和TC-LSTM模型,他们用一个正向传递的LSTM处理目标左边的上下文和目标,用一个反向传递的LSTM处理目标右边的上下文和目标,然后对两个LSTM最后一个隐藏单元的输出进行拼接,从而得到句子的特征表示,作出情感分类;Liu等提出了一个BILSTM-ATT-G模型,他们将词向量传给一个双向LSTM,然后分别用注意力机制处理目标左右两边的上下文,最后加人门控机制控制决定使用句子的哪部分信息,该模型的创新点在于门控思想的创新使用;Zheng等在2018年提出,分别用3个双向LSTM处理目标以及左右上下文3个部分,将3个部分的最后输出拼接起来,作为句子特征表示,从而进行情感分类。
这些模型虽然取得了良好效果,但仍有很大的改善空间。搭建一个能够充分利用目标特征信息的模型,更好地完成特定目标情感分类值得研究。
2模型提出
2.1模型概述
本文使用一个基于注意力机制的双向LSTM作为模型的基本框架。双向LSTM将正向传递与反向传递相结合,能够学习到上下文的完整信息。注意力机制能够帮助模型合理分配注意力,在编译句子信息时更加高效。此外,本文还引入情感词典(senticNet),通过Senticnet常识可以暗示目标和情感的语义联系。为了将句子的情感分类与目标特征信息相结合,本文将目标从双向LSTM中提取出来,在句子表示中重新加入目标特征信息。
为了挖掘句子和目标更深层次的信息,本文引人多计算层结构(Hops)。每个计算层的结构类似,包含一个注意力模块和一个线性转换模块,每一层的输出作为下一层的输人。最终模型如图2所示。
3实验验证
3.1实验数据
将本文提出的模型在两个基准数据集上进行评估。本文采用SemEval2014和SemEval2016的Restaurant评论数据集,以及SemEval2014的Laptop评论数据集。原始数据集里的情感分类有4项,分别是积极、中立、消极和对立。本文剔除情感为对立的数据,因为此类数据较少,会导致不同类型数据分布不均匀,增加培训难度。分别取90%和10%的数据作为训练集和验证集,数据分布状况如表1所示。
3.2参数与指标
实验中的参数设定如表2所示。词向量的维度为300维,隐藏层的LSTM单元为256个,句子的最大长度为190,不足的在句子左边补零,64个句子为一个批次。
3.3对比实验
将本文提出的模型与以下几个模型在上述两个数据集上进行实验。为了方便说明,将本文提出的模型命名为ASAM-BiLSTM模型。①BiLSTM,本文提出模型的最简化,没有额外加入目标特征信息和多计算层(Hops)结构;②Ba-sicmodel,本文提出模型的简化,考虑了额外的目标特征信息,但是没有加入多计算层(Hops)结构;③ATAE-LSTM,Wang等提出的模型;④Deep memory network,Tang等提出的模型;⑤Variants,在本文提出模型的基础上,改变Hops数,从1到8。
3.4实验结果
实验结果如表3所示。
3.5结果分析
如表3所示,本文提出的ASAM-BiLSTM模型较ATAE-LSTM模型和Deep memory network具有更好的效果。具有5个计算层的ASAM-BiLSTM模型在Restaurant数据集上的最高准确率为80.8%。
3.5.1目标特征信息的必要性
从实验结果可以看出,Basic Model在两个数据集上的表现均优于BiLSTM,这一结果并不意外。特定目标情感分类效果不仅与上下文的文本信息相关,还依赖于目标的特征信息。BiLSTM在信情感分类时仅仅考虑了上下文,而没有考虑特定目标的特征信息,因此模型的准确率不高,而加入特定目标的特征信息的Basic Model在两个数据集上的表现都得到了提高。在作特定目标情感分类时,充分考虑到特定目标的特征信息很有必要。
3.5.2多计算层结构(Hops)的必要性
实验结果显示,具有不同Hops数的ASAM-BiLSTM模型具有不同的分类效果,这说明多计算层结构确实对模型效果有一定影响。在Restaurant数据集上,具有5个计算层的ASAM-BiLSTM模型的准确率为80.8%,比没有多计算层结构的Basic Model高出6.6%,模型效果明显提高。
但是该研究并不确定多计算层结构在所有分类任务中都有效果,因为从实验结果看,ASAM-BiLSTM在Laptop数据集上,并没有Basic Model的效果好。原因可能在于Laptop数据集太小,多计算层结构无法发挥作用,因为越复杂的模型需要的训練数据越多。但在本文实验中,多计算层结构在Restaurant数据集上确实是有效的。
4结语
本文充分考虑如何合理表示包含多个词的目标和如何充分利用目标的特征信息后,提出了一个基于深度双向LSTM的情感分类模型。实验中并没有直接用双向LSTM最后隐层单元的输出作为句子特征表示,而是引人注意力机制,取所有单元的加权平均进行句子表示,这样可以尽可能地保留句子的完整信息。特定目标特征信息的加入和多计算层(Hops)结构都能使模型取得良好效果。实验结果表明,本文提出的模型在两个数据集上效果良好。下一步将继续改进模型,尝试输出句子的情感极性和情感所指向的特定目标。