基于关键特征的影评细粒度情感分析

2022-06-23张尚乾刘知一

现代电影技术 2022年6期

张尚乾刘知一

(中国电影科学技术研究所(中央宣传部电影技术质量检测所),北京 100086)

1 引言

随着社交媒体平台的兴起以及广泛使用,针对社交网络文本数据的自然语言处理 (NLP)已成为当前研究热点。在电影方面,越来越多的人在电影论坛或影视网站上发表自己的评价及观点,这些评价及观点蕴含着对影片、演职人员、电影产业、电影市场的情绪、认知、态度、情感及行为倾向。一般来说,网络口碑对消费者的观影选择具有显著影响,口碑评价越高,其票房收入越高。因此,对电影评价的情感分析,有助于了解观众的情感倾向,及时获取观众的观点和态度,对于电影舆情控制、刺激潜在消费者观影等都有非常重要的意义。

本文对中文影评进行了本体特征和情感特征分析,并在此基础上实现了影评文本级和特征级的情感分析。

2 情感分析研究现状

文本情感分析又称意见挖掘,简单而言,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。文本级情感分析目的是判断文本层面的整体情感倾向,但评论文本的整体情感倾向可能与评价文本中的本体特征的情感倾向有差异。特征级情感分类是细粒度情感分类任务,该任务的目标是对于给定的短文本中出现的本体特征,推测出相应本体特征对应的情感极性,如正面、中立和负面。

情感分析方法主要包括基于词典的方法、基于机器学习分类的方法、基于深度学习的方法。基于词典的方法是以规则为主的方法,主要是构建情感资源,形成词典之后,根据情感词典采用不同算法对文本的情感词的权值进行计算,实现对文本情感的分析,该类方法只考虑了情感词对文本情感倾向性的影响,未考虑上下文相关的语义信息。基于机器学习的方法主要是使用统计学方法提取文本中蕴含的相关语言特征,将文本用特征向量表示之后,采用传统机器学习的方法对文本进行分类,Pang等使用电影评论作为基础数据,分别采用了机器学习方法中的朴素贝叶斯(NB)、最大熵(ME)和支持向量机(SVM)三种分类器实现了对影评数据的二分类,但是该类方法受情感特征提取方法的准确性影响较大,从而直接影响最终的分类结果。基于深度学习的方法,一般采用词向量表示的方法,对句子和篇章进行向量化表示,深度学习网络可有效学习文本的深层语义信息,但对于本体特征和情感特征关注不够。常用于情感分析的深度学习模型有:循环神经网络(Recurrent Neural Networks,RNN)、长短期记忆(Long Short-Term Memory,LSTM)网络、门控循环单元 (Gated Recurrent Unit,GRU)网络等。

由于深度学习具有优秀的自编码能力并能很好地建立从底层信号到高层语义的映射关系,所以本文选用深度学习模型做情感分类模型。但情感分析具有领域依赖性,纵使深度学习模型有较好的表现,但不同的模型在不同领域的情感分类任务仍有区别,电影属于体验性产品,与普通商品不同,因此需要对影评进行本体特征和情感特征分析。本文在文本级影评情感分析实验时选用LSTM 模型作为基础模型,在基础模型上融合影评本体特征和情感特征,提高了文本级影评情感分类的准确率;在特征级影评情感分析中,依据影评本体特征和情感特征对关键特征句进行细粒度情感分析实验,选用三个深度学习模型做情感分类,细粒度情感分析准确率可达91.4%。

3 基于关键特征的影评情感分析方法

3.1 影评关键特征分析

电影评价相对于商品评价更带有主观性和不确定性,观影属于虚拟性体验消费,对电影的观感更多是从故事、演技、特效等本体特征上表达观点的,而这些评论中本体特征并不像实体商品属性明确。在商品评论中,情感词多为形容词,现有的研究也多基于形容词、名词等情感词进行情感分析。在电影评论中,情感词的词性更为丰富,除了形容词,还有动词、名词及口语化词汇,电影评论中情感词有词性丰富、表达不规范等特性。因此,在文本级和特征级的影评情感分析都需要着重关注本体特征和情感特征。

在影评中包含多个对电影关键本体特征的评价,比如“节奏恰到好处”,这句话中“节奏”作为本体特征词,对应的情感特征词为“恰到好处”,那么“节奏”和“恰到好处”是一对本体-情感特征对,本体和情感特征所在的短句称为关键特征短句,从情感词中可以看出该短句的情感属于积极情感。关键特征句即能够代表原长句的主要观点的短句,是原长句的关键部分。经分析,关键特征句可分为以下几类:

类别一:句子表达对单一显式影评本体的情感倾向。即句子中含有单一的显式影评本体,且含有对应的倾向性(褒义或贬义)的上下文无关情感词。例如“影调舒服”,此观点句包含单一评价对象“影调”和对应的褒义情感倾向词“舒服”,则此句的情感倾向性为正面;“剧情弱智”,此观点句包含单一影评本体“剧情”和对应的贬义情感倾向词“弱智”,则此句的情感倾向性为负面。

类别二:句子表达对多个显式影评本体的情感倾向。即句子中含有多个显式影评本体,且含有对应的倾向性 (褒义或贬义)的上下文无关情感词。例如“音乐和画面都好”,这句话包含两个评价对象“音乐”和“画面”,且情感倾向均为褒义,“好”,此句的情感倾向性为正面。

类别三:句子表达对某个隐式影评本体的情感倾向。句子中没有明显的影评本体,但表达了明显的情感倾向。“我实在是忍受不了”,这句未提及明确的评价对象,但包含“忍受不了”这一明显贬义的情感短语,则此句的情感倾向性为负面。

经以上分析,发现每篇语料的特征句可能有多个,每个特征句也可能包含多个本体特征。关键特征句是文本级情感分析的重要组成部分,也是细粒度情感分析的基础,以下两小节分别对影评本体特征和情感特征做分析。

3.2 影评本体特征分析

电影评价对象数目繁多且构成形式复杂,但无论是名词词组或者名词性从句中都会包含影评特有的本体特征词。

本文基于从豆瓣网爬取的近期用户影评评论,约0.9GB 文档数据,采用词频-逆文档 (TF-IDF)和主题模型LDA 筛选出文档中重要的电影本体词语,经去重筛选影评本体特征词,举例如表1所示。通过对影评本体特征分析,发现用户发表观点主要集中在以下四个方面,根据关注度排行由大到小依次为剧情、演员、后期以及整体。影评本体特征分布图如图1所示。

表1 影评本体特征词

图1 本体特征分布图

除去本体特征,影评中常提到演职人员姓名,因此,本文从互联网上爬取了演职人员姓名词条,与人工筛选影评本体特征词合并整理成影评本体特征词集。

3.3 影评情感特征分析

电影评论对上述本体特征评价时,会对本体特征表达情感倾向。影评中的情感词,除去常规正面情感词和负面情感词,也会包含观影常用的情感词以及口语化和网络化词汇。

本文同样采用TF-IDF和主题模型LDA 筛选出豆瓣影评中重要的情感词语,经去重筛选影评情感特征词,举例如表2所示。人工筛选影评情感特征词与常用的正面和负面的情感词 (知网Hownet和清华大学构建中文褒贬义词典)进行整理去重,形成影评情感特征词集。

表2 影评情感特征词

3.4 情感分类方法

3.4.1 基于关键特征的影评文本级情感分类模型

在文本级情感分类中,本文使用LSTM 模型,融合本体和情感特征,构建了影评关键特征融合的LSTM 模型。该模型由词向量构建层、语义关系学习层、情感计算层组成。

3.4.1.1 词向量构建层

在本文的实验中,词向量采用从豆瓣网上爬取的314部电影的用户评论,包括短评和长评,经分词后,利用Word2Vec的Skip-Gram 训练得到,每个词向量为200维,对于未登录词,使用均匀分布随机初始化词向量,经过训练,得到了一个包含149195个词的词向量空间。

3.4.1.2 语义关系学习层

3.4.1.3 情感计算层

情感计算层的主要任务是构建情感分类器,获取短文本影评的语义表示对于每一个情感标签的得分向量,并输出短文本的最终情感标签,即正面或负面。将文本层产生的特征h作为情感分类的特征,利用Soft Max分类器,将文本影评进行文本级情感分类,预测情感类别短文本影评的y＇,其计算方法见式(1)。

本文将y作为已知文本级影评的情感类别,将y＇作为文本级影评的预测情感类别。为了更好地训练模型,衡量y分布和y＇之间分布差异的目标函数采用交叉熵代价函数,如式(2)所示,并采用反向传播机制对模型中的参数进行训练和更新。

其中,D为训练数据集大小,C为类别数,y＇为预测类别,y为实际类别,λ‖θ‖为L2正则项。

3.4.2 基于关键特征的细粒度情感分类模型

在特征级影评情感分析中,对关键特征句的情感倾向性分析,也需要考虑影评特征词、情感特征词和其他词语之间的语义依赖关系,本文采用Bi-GRU 对影评的语义依赖信息进行获取。GRU 模型作为LSTM 模型的一个变体,将LSTM 中的遗忘门、输入门和输出门缩减为重置门和更新门,使GRU 保持了LSTM 的效果同时又使结构更加简单。GRU 与LSTM 网络中的记忆单元非常相似,它可以帮助GRU 学习到长期依赖的信息,并且由于训练参数较LSTM 少,所以训练速度更快。模型输入层使用3.4.1.2小结的Word2Vec词向量作为模型输入,使用Bi-GRU 模型学习影评语义依赖,同样使用Soft Max层作为分类模型的输出,从而得到关键特征句相应的情感倾向。

4 实验及结果分析

4.1 实验语料介绍

本文实验语料来源为豆瓣网近期中国公映电影列表中314 部电影的影评,共26 万余条,覆盖喜剧、悬疑、科幻、推理等多种电影类型。影评按用户评价星级分为1～5星,分别对应五种情感倾向:很差、较差、还行、推荐、力荐。

为更清晰准确地分析文本级影评的情感倾向性,我们将用户评价星级为4～5星的短评定义为正面评价标记情感倾向为+1,将用户评价星级为1～2星的短评定义为负面评价标记情感倾向为-1,舍弃不能明显表达用户情感倾向性的三星评价,最后去噪后整理得到21万余条短评作为基于关键特征的影评文本级情感分析实验语料。

从文本级情感分析实验语料中随机选取语料3755篇,人工筛选语料中的关键观点句,并标注关键观点句的情感倾向,经统计3755篇语料标注的关键特征句个数为9019。将标注所得的关键观点句作为基于关键特征的影评细粒度情感分析实验语料。

4.2 基于关键特征的影评文本级情感分析实验及结果分析

本文实验采用自然语言处理领域中常用的正确率、召回率与F1值对关键特征句的分类结果及整体情感分类的结果进行评价。

4.2.1 影评文本级情感分析实验设置

(1)LSTM。标准的LSTM 模型,可以获取到文本中前后的语义依赖关系。本实验为后续实验的基准模型。

(2)T-LSTM。融合本体特征的LSTM 模型,在获取短文本影评前后语义依赖关系的同时,关注影评本体特征。

(3)E-LSTM。融合情感词特征的LSTM 模型,在获取短文本影评前后语义依赖关系的同时,关注影评情感特征。

(4)ET-LSTM。融合本体特征及情感词特征的LSTM 模型,在获取短文本影评前后语义依赖关系的同时,关注影评情感特征及本体特征。

4.2.2 文本级影评情感分类实验结果分析

影评文本级情感分析实验结果对比如图2所示,通过分析可得出:

图2 影评文本级情感分析实验结果对比

(a)对比实验(2)模型在只引入影评本体特征时,好评及差评的F1 值对比实验 (1)均有提高,本体特征增强有利于影评情感倾向性分析。

(b)对比实验 (3)模型在只引入情感词特征时,好评和差评的正确率较对比实验 (1)均有提升,情感词特征增强有利于情感倾向分析。

(c)在对比过本体特征和情感特征增强对文本级影评情感倾向性分析的影响后,我们为验证本文提出基于关键特征融合的LSTM 模型的有效性,设置了对比实验(4),对比实验(4)的结果表明,在本体特征和情感特征联合增强,融合LSTM 提取的语义特征,在文本级影评情感分类中,对好评和差评的召回率和正确率都有提升,准确率较基准LSTM 模型提高4.6%,证明了实验方法的有效性。

4.3 基于关键特征的影评细粒度情感分析实验及结果分析

4.3.1 影评细粒度情感分析实验设置

(1)RNN。用Word2Vec词向量作为RNN 模型输入,输出用Soft Max层做预测,本实验为后续实验的基准模型。

(2)Bi-LSTM。用Word2Vec词向量作为Bi-LSTM 模型输入,输出用Soft Max层做预测。

(3)Bi-GRU。用Word2Vec 词向量作为Bi-GRU 模型输入,输出用Soft Max层做预测。

4.3.2 影评细粒度情感分析实验结果分析

影评细粒度情感分析实验结果对比如图3所示,通过分析可得出:

图3 影评细粒度情感分析实验结果对比

(a)同样在词向量输入和Soft Max层作为基础模型输出的情况下,RNN 模型的训练效果在测试集上的与Bi-LSTM 和Bi-GRU 模型结果从信息抽取的三个方面都要较差些,原因是后者可以捕捉到前向和后向的双向语义依赖关系。

(b)Bi-GRU 模型比Bi-LSTM 模型对总体观点句的准确率要稍高一些,Bi-GRU 模型的细粒度情感分析准确率可达91.4%,而且Bi-GRU 模型实际训练速度也较快,Bi-GRU 更适合较句长较短的关键特征句的语义学习。

5 结语

本文对中文影评进行了本体特征和情感特征分析,并在此基础上实现了影评文本级和特征级的情感分析。在影评本体特征分析中,发现观影人对电影本体关注度较高的依次是剧情、演员、后期特征。在文本级影评情感分析中,提出基于关键特征的影评情感分析方法,对文本级情感分类的准确率较基准LSTM 模型提高4.6%。在特征级影评情感分析中,依据影评本体特征和情感特征,对关键特征所在短句进行细粒度情感分析,细粒度情感分类结果准确率可达91.4%。本文在情感分析实验中,未区分电影类型。下一步研究,应针对不同电影类型进行深层次情感分析,挖掘观众对不同类型电影的情感偏好