APP下载

基于ERNIE2.0-BiLSTM-Attention的隐式情感分析方法

2021-12-08黄山成韩东红乔百友王国仁

小型微型计算机系统 2021年12期
关键词:语义神经网络注意力

黄山成,韩东红,乔百友,吴 刚,王国仁

1(东北大学 计算机科学与工程学院,沈阳 110819) 2(北京理工大学 计算机学院,北京 100081) E-mail:handonghong@cse.neu.edu.cn

1 引 言

文本情感分析又被称之为意见挖掘,是指通过计算机技术对文本的主客观性、观点、情绪、极性的挖掘和分析,对文本的情感倾向做出分类判断[1],涉及包括自然语言处理、计算语言学、机器学习等多个领域.文本的语言表达层面依据是否出现显式情感词,将情感分析分为显式情感分析和隐式情感分析.其中隐式情感分析被定义为“不含有显式情感词,但表达了主观情感的语言片段(句子,从句或短语)”[2].人们对客观事物的认知、体验各不相同,由此所触发的情感丰富而抽象,情感表达上也往往比较委婉含蓄,如采用某种修辞手法或客观陈述而不含情感词的方式进行情感表达.隐式情感根据表达方式的不同可分为事实型和修辞型,其中修辞型又可细分为比喻型、反问型和反讽型.研究表明,多种社交网络平台产生的文本中隐式本中隐式情感表达约占15%-20%.下面以新浪微博中的博文为例分析其隐式情感类型,如表1所示.

表1 隐式情感文本示例Table 1 Examples of implicit sentiment text

微博E1和E2均不包含情感词,仅陈述客观事实但也蕴含了某种情感.这种无显式情感词的客观陈述句就是事实型隐式情感句.微博E3则通过比喻的修辞手法表达消极情绪.可以看出,此类情感因缺少显式情感词作为情感线索,表达含蓄内敛,隐晦难懂,因此隐式情感分析也已然成为自然语言处理中的核心难题之一.

显式情感分析作为自然语言处理领域的基础性研究,技术已相对成熟,而隐式情感分析则刚刚起步,研究成果鲜有问世.相比于显式情感研究,隐式情感分析面临以下挑战[3]:1)情感表达没有显式情感词,使得基于情感词典的方法一再失效,而且隐式情感句用词相对客观中立,致使基于词袋模型的文本表示无法进行有效区分;2)由于表达方式的委婉含蓄,使得文本语义表示和理解更加困难;3)隐式情感往往与情感持有者的个人主观认知有密切关系,缺乏统一界定标准.

研究表明,隐式情感特征与句中情感实体、上下文语境之间存在着重要联系,并且外部知识的使用也是分析隐式情感的重要手段.首先,情感实体本身可能体现隐式情感,如E1中实体“新型冠状病毒”自身体现消极情感;而E2中的“百年老店”则暗含一种积极的情感.其次,隐式情感句特别是修辞型情感句往往需要借助外部知识进行分析,例如一些句子中含有“红豆”、“月亮”、“柳树”等象征性词汇,借助外部知识可知其分别带有“相思”、“思念”、“送别”等含义,由此可见,外部知识可辅助隐式情感分类.此外,上下文情感信息同样有助于进行隐式情感分类[3].如对E1进行情感分类,由于该句属于事实型陈述且无显式情感词,易被预测为中性情感.若该句的上下文中有“我很担忧”这种显式情感句,则可以辅助该句的情感极性判别.

综上所述,本文围绕社交网络文本的隐式情感分析,以预训练语言模型ERNIE2.0为基础捕捉隐式情感句词义、语义及语法特征[4],并融合BiLSTM(Bi-directional Long Short-Term Memory)和Attention注意力机制对社交网络文本进行隐式情感分析研究,最后提出一种基于ERNIE2.0-BiLSTM-Attention(EBA)的隐式情感分析模型.本文的主要贡献点如下:

1)因预训练语言模型ERNIE2.0具有实体识别功能且经过外部知识训练,本文利用其进行文本表示并捕获底层语义、语法信息[4];

2)针对如何捕捉隐式文本上下文信息的问题,利用BiLSTM神经网络对文本进行编码,再融合注意力机制进行情感权重计算;

3)最后在SMP2019“拓尔思杯”中文隐式情感分析评测数据集进行实验,本文所提出模型(EBA)和最新方法相比,性能均有明显提高.

2 相关工作

虽然隐式情感分析是自然语言处理领域的核心子任务之一,面向中文的相关研究刚刚兴起.本节将围绕文本隐式情感分析及表示学习方法,介绍国内外研究动态.

情感分类研究方法大致可以分基于情感知识的方法和基于机器学习的方法两种.机器学习中的深度学习方法因其结构灵活、易于特征融合等特点在情感分析领域中取得了广泛的应用.卷积神经网络(Convolutional Neural Networks)和循环神经网络(Recurrent NeuralNetworks),在文本表示方面取得了很好的效果;长短期记忆模型LSTM[5]被引入到 RNN模型中,旨在解决其处理过长的文本序列时容易出现梯度消失或爆炸问题;GRU模型[6]是对LSTM 进行简化的神经网络,仅使用更新门和重置门两种门控单元以减少模型复杂度.利用LSTM或者GRU对句子进行建模存在一个问题:无法编码从后到前的信息,于是在此基础上提出的的BiLSTM可以更好的捕捉双向的语义依赖,具有更强的表示能力.

以往关于隐式情感分析的研究主要针对隐喻识别[3],Lakoff[7]将其定义为隐喻表达的源域与目标域在认知、常识等方面的冲突映射.Mason等人[8]依据目标动词在不同领域所表达含义不同,建立源域到目标领域的映射关系,提出能够实现自动识别特定领域间“源域—目标域”映射的CorMet模型.Shutova等人[9]研究隐喻概念的分布并提出隐喻模式识别算法,在多语言文本的隐喻句上具有较好识别性能.Zhang等人[10]研究发现使用一些领域名词以及名词短语能够隐晦表达情感,一般而言,包含它们的句子表达了某种隐式情感倾向.Greene等人[11]分析隐式情感句的语法结构,进行语言驱动的特征和隐式情感关联性分析,并利用相似度计算提升文本情感分类的效果.隐式情感的识别通常还需要引入其他的特征和知识以便于情感分析,Balahur等人[12]使用常识知识库,从同为隐式情感句的上下文中准确推断句子的情感.

近几年隐式情感分析在国内取得新的进展,学者开始利用深度学习方法进行隐式情感研究.廖健[3]采用多层语义融合的表示学习方法对事实型情感分析进行语言建模,即分析事实型隐式情感句特征,并将情感目标、上下文显式情感语义信息融入到构建的卷积神经网络中,充分利用上下文语义特征和情感目标两大重要特征进行隐式情感分类中.潘东行等人[13]分析隐式情感句中重要的上下文语境特征,提出一种融合上下文特征的中文隐式情感分类模型.赵容梅等人[14]提出一种CNN-BiLSTM-Attention的中文隐式情感分析方法.EnguangZuo[15]提出一种上下文特定异构图卷积网络(CsHGCN),利用图卷积神经网络构建上下文表示框架.JiyaoWei等人[16]分析情感极性特征差异提出一种基于多极正交注意力的BiLSTM隐式情感分析方法,该方法同时使用了BERT预训练语言模型.

近几年多项自然语言处理任务均利用预训练语言模型使得性能得到提升.其中ERNIE2.0[4]是一种知识增强的语义表示模型,用海量数据和相关先验知识持续构建无监督预训练任务,并通过多任务学习增量地更新模型,从而帮助模型高效地学习词汇、句法和语义表征.

由此可知,隐式情感句缺少显式情感词作为情感线索,隐式情感识别亟需新的特征与表示方法,另一方面,隐式情感通常与情感实体、外部知识、上下文情感信息等密切相关.基于此,本文预训练部分采用ERNIE 2.0语言模型,充分利用其外部知识和实体信息;并且采用融合BiLSTM+Attention的混合神经网络以捕捉上下文显式情感信息,旨在提高隐式情感分类效果.

3 隐式情感分析EBA模型

3.1 问题定义

隐式情感分类任务即对不带显式情感词的隐式情感句进行情感识别,本文将其视为3分类问题,并做如下定义:模型的输入为隐式情感句S={W1,W2,…,WT},其中T代表句子中包含的词数,Wt表示第t个词.输出为对应的情感标签yt,yt∈L,L={0,1,2}.其中0,1,2分别代表中性、积极、消极情感标签.

3.2 模型结构

ERNIE2.0-BiLSTM-Attention(EBA)为本文所提出的隐式情感分析方法,即采取利用海量外部知识训练的模型ERINE2.0并融合BiLSTM+Attention混合神经网络,以提取高效隐式情感特征,旨在提高隐式情感分析模型的性能.EBA模型包括输入层、预训练语言模型层、BiLSTM层、注意力机制层、全连接层和输出层.模型结构图如图1所示.

图1 EBA模型结构图Fig.1 Structure diagram of EBA model

3.2.1 输入层

在输入层中,句子中的每个词Wt通过独热编码的表示法表示为一个索引嵌入,表示为et∈Rd,将索引嵌入et传输到预训练层,其中d表示语料库词汇集大小.

3.2.2 预训练语言模型层

ERNIE 2.0用海量数据和相关先验知识进行预训练时,能够不断地引入大量的预训练任务,以提升模型在词汇、句法和语义上的表征能力,本文利用该模型的外部知识进行隐式情感分析.另外,与BERT[17]相同的是ERNIE 2.0也需要隐蔽一些词汇,而且ERNIE 2.0还隐蔽实体词汇,因此训练后具有实体识别功能.

ERNIE 2.0模型采用一个多层Transformer[18]作为编码器.Transformer通过自注意力机制捕获每个词向量在文本序列中的上下文信息,并生成上下文语境表征嵌入.对于给定的序列,其起始位置是预定义的分隔符[CLS];对于输入为多段的任务,不同段之间用预定义的[SEP]分隔.

本文在预训练层使用ERNIE2.0模型,编码更多的语义信息、词汇信息、语法信息,得到包括[CLS]标记的特征向量E∈Rde.其中de表示词向量维度.再将E输入全连接层后得到该层输出xt,并将其作为BiLSTM层的输入,计算公式如公式(1)所示:

xt=Wa·E+ba

(1)

式中,Wa∈Rde×da,da为偏置向量ba的维度.

3.2.3 BiLSTM层

BiLSTM模型中基本的LSTM单元由3个门和保存每个神经元状态的传送带组成,通过门控机制控制信息传输的路径.BiLSTM由两个基本LSTM组成,可以有效捕捉上下文信息用于隐式情感分析.每个LSTM单元的状态计算公式表示为公式(2)-公式(7):

ft=σ(Wf·[ht-1,xt]+bf)

(2)

it=σ(Wi·[ht-1,xt]+bi)

(3)

(4)

(5)

ot=σ(Wo·[ht-1,xt]+bo)

(6)

ht=ot·tanhct

(7)

其中ft,it和ot分别表示遗忘门,输入门和输出门;ct是内部信息状态;ht为时间t的输出;Wf,Wi,Wo∈Rdh×dk权重矩阵,bf,bi,bc,bo∈Rdh为偏置;dh为LSTM隐藏层中的单元数;xt∈Rda表示来自预训练层的单词嵌入;dk=da+dh,σ是sigmoid函数;·和⊙分别表示矩阵乘法和元素乘法.

(8)

V={v1,…,vt,…,vT}

(9)

3.2.4 注意力机制层

注意力机制通过注意力描述目标输出与原输入数据之间的依赖关系,即文本句子中的词与输出结果之间的相关性,使用注意力机制可以捕获重要文本情感信息.注意力机制层会为各个输入分配合适的权重进行加权输出,该层输入为V.R为权重分配后注意力机制层的输出,则其公式如公式(10)-式(12)所示:

M=tanh(Wm·V+bm)

(10)

α=softmax(WT·M)

(11)

R=V·αT

(12)

其中Wm作为注意力机制层的权重矩阵,bm为偏置向量,WT为随机初始化的参数矩阵,α为输入分配的权重.

3.2.5 全连接层

在全连接层,将极性相关的融合分布式特征表示映射到实例标签空间,起分类器的作用.将注意力机制层的输出R输入到全连接层,输出为Y,计算公式如公式(13)所示:

Y=tanh(Ws·R+bs)

(13)

其中Ws表示全连接层权重矩阵,bs是偏置向量.

3.2.6 输出层

在输出层,采用softmax函数进行归一化,并将全连接层的输出Y转换为每个情感极性类别的近似概率值y,计算如公式(14)所示:

y=softmax(A·Y+b)

(14)

其中,A表示输出层参数矩阵,b为偏置向量.

4 实验和分析

4.1 数据集

本文所采用的数据集为SMP2019“拓尔思杯”中文隐式情感分析评测数据集,该数据集由山西大学提供.数据主要来源于社交网络媒体,包括微博、旅游网站、产品论坛,主要领域/主题包括但不限于:春晚、雾霾、乐视、国考、旅游、端午节等.

数据集分为训练集和测试集,情感标签分为积极、消极和中性3种,数据标注详情如表2所示.

表2 实验数据统计Table 2 Statistics of experimental data

由表2可知,隐式情感表达中情感倾向更多的是中性情感,占比47.3%,积极情感和消极情感分别占25.9%和26.8%的比例.积极性情感数据集数量占比最少,可知微博用户进行积极性情感表达时更侧重于显示表达,另一方面也能推断出利用深度学习方法识别积极性隐式情感更有难度.

4.2 参数设置

将整个训练样本分成若干个Batch,Batch Size为每个batch中训练样本的数量;LSTM hidden_size1和LSTM hidden_size2分别为BiLSTM两层LSTM的隐藏层维度;Epoch是一个完整数据集通过神经网络正向传播一次并进行反向传播一次的过程.实验参数设置如表3所示.

表3 参数设置Table 3 Parameter settings

4.3 评价方法

实验采用准确率P、召回率R以及F1 值共 3个指标评价模型的性能,其计算如公式(15)-公式(17)所示:

(15)

(16)

(17)

4.4 实验结果

本文将隐式情感分类视为三分类问题,情感倾向类别分别为积极、消极和中性3种.

实验中,将本文提出的EB(ERNIE2.0+BiLSTM)和EBA(ERNIE2.0+BiLSTM+Attention)模型方法,分别与2020年发表的两篇关于隐式情感分析的论文进行性能对比,这两种方法均使用到神经网络和注意力机制.BiLSTM with Multi-Polarity Orthogonal Attention[17]在论文中的实验评价指标只有F1值.实验结果如表4所示.

从表4可知,积极类别的隐式情感相较于其它2类情感识别起来更加困难.本文提出的EB模型和EBA模型均能较好地识别积极性隐式情感,其中EB模型在积极类别的隐式情感识别中取得最优效果;EBA模型方法能够提升中性和消极隐式情感识别的准确率,并取得最佳整体性能.其中BiLSTM with Multi-Polarity Orthogonal Attention方法使用到了BERT+BiLSTM+Attentin,与之对比能说明在隐式情感分析上,ERNIE2.0比BERT效果要好.总之本文提出的隐式情感分类模型在各项评价指标上均取得显著提升.

表4 不同隐式情感分析模型的性能对比Table 4 Performance comparison of different implicit affective analysis models

为了更加直观地体现模型整体性能,本文做了一些基础性分类模型实验以及消融实验,评价指标为平均准确率、平均召回率和平均F1值,实验结果如表5所示.由表5可知,本文所提出的EB模型和 EBA模型方法在整体分类效果上优于其他方法.其中EB模型和EBA模型均在P上取得最优值,EB在R上取得最优值,EBA在F1值上取得最优值.

表5 各模型整体效果Table 5 Overall effect of each model

本文进行的众多基础性分类模型实验表明,单纯使用深度神经网络进行训练时,GRU网络效果最佳,这是因为GRU拥有长期记忆能力并较之于LSTM,其减少一个门函数并且参数更少.根据LSTM与LSTM+Attention、BiLSTM与BiLSTM+Attention两组对比实验可知,在使用神经网络时,对显示情感分类效果具有显著提升的Attention注意力机制在隐式情感分类效果上反而有所降低.加上具备实体识别功能的ERNIE2.0后,各分类模型性能均显著提高.这进一步表明,利用大量外部知识进行预训练的ERNIE2.0具有强大文本表示性能.本文还使用BERT进行微调实验,实验效果同样显著,说明了预训练模型对隐式情感具有很好的识别能力.EBA与BERT相比,实验效果有明显提升,充分体现出本文语言模型结合神经网络的优势.根据表5和表4还能发现,EBA模型较EB模型使用了Attention,虽在整体分类效果上并未产生明显效果,但却提高了中性、消极情感识别准确率.

5 结束语

围绕社交网络文本的隐式情感分析任务,针对句中缺少显式情感词的问题,本文考虑情感实体信息、外部知识和上下文语境,提出了一种基于ERNIE2.0+BiLSTM+Attention(EBA)的隐式情感分析方法.首先,本文采用带有丰富外部知识的ERNIE2.0预训练模型进行文本表示,以准确捕捉隐式情感句词性特征、语义特征及语法特征;其次将其文本表示输入到BiLSTM+Attention混合网络中,更好抽取上下文语义信息,旨在提高情感预测性能.最后在隐式情感分析公开数据集上的实验结果表明,在各项评价指标上,本文所提出的EB和EBA模型都优于已有的基础模型.与2020年最新的实验结果进行对比,本文提出的模型性能更好.尽管本文的工作提升了分类模型的预测效果,但在情感实体信息的利用方面仍然具备一定的局限性.所以,接下来的工作将利用知识图谱进行实体增强语义信息,着重研究实体对隐式情感的深层次影响,以达到更好的分类效果.

猜你喜欢

语义神经网络注意力
真实场景水下语义分割方法及数据集
基于神经网络的船舶电力系统故障诊断方法
让注意力“飞”回来
MIV-PSO-BP神经网络用户热负荷预测
基于改进Hopfield神经网络的对地攻击型无人机自主能力评价
三次样条和二次删除相辅助的WASD神经网络与日本人口预测
A Beautiful Way Of Looking At Things
“吃+NP”的语义生成机制研究
汉语依凭介词的语义范畴
阅读理解两则