APP下载

大数据条件下国产电影影评的情感分析

2022-06-15包淑华石盈鑫

呼伦贝尔学院学报 2022年2期
关键词:共词李焕英词典

包淑华 石盈鑫

(呼伦贝尔学院 内蒙古 海拉尔 021008)

随着人们生活质量的提高和国内电影市场的迅速发展,去电影院观看电影已成为人们休闲娱乐的活动之一。有关数据显示,2020年国产电影达到了历史最高,占全年电影放映量的84%,对国产电影影评研究的多样性也日以展现。

近年来,自然语言处理技术得到了以计算机科学为代表的自然科学领域到社会科学领域的广泛关注,并且在新闻传播、舆论管理、观点分析等问题中展示了不容忽视的价值。[1]

国外从事情感分析的相关人员开发了很多基于实用方向的情感分析文本分类系统。[2]国内从20世纪90年代起,多位学者开始了对情感分析实用价值的研究,并建立了辅助研究情感分析的自动图书分类系统。例如,东北大学图书馆“图书分类系统”、长春地质学院图书馆“图书分类系统”[3]。

每个人都是信息的缔造者也是使用者,越来越多的企业都尝试从数据中挖掘有价值的信息来解决业务的问题。[4]身处大数据时代,人们如何精确、快速地找到所需信息已经成为当前研究的焦点。[5]本文正是以此为初衷,针对同一时期上映的相似主题的电影影评进行不同角度的情感分析,使观众获得怎样去“多选一”地观看电影的参考依据。为体现所用方法的有效性,文章选取了观众所熟悉的两部国产电影《妈妈再爱我一次》和《你好,李焕英》。邵小青等[6]以Python语言在情感分析中的应用为基础,通过爬取豆瓣影评《你好,李焕英》的评论数据,对电影的情感评价程度进行了可视化展示;不足之处是只适用于单个文本的情感分析。本文在它的基础上改用应用软件Python与ROSTCM6相结合的方法,对影评进行分析。其中,ROSTCM6统计软件用于电影影评的词频统计,它对于较大的影评数据操作方便,统计出来的数据的估计值也更加精确。通过SnowNLP进行影评的情感分析。本文在李伊淑[7]的研究基础上进行了文本的高频词提取,估计出电影所要表达出的情感趋向。这不仅能为媒体、电影市场、社交网站提供口碑及相关服务,[8]也有助于提高情感分析准确率的目的。

1 基础理论知识介绍

1.1 情感分析

情感分析是自然语言处理领域的一个任务,又称倾向性分析、情感挖掘、主观性分析等,它是对带有情感色彩主观性文本进行分析、处理、归纳和推理的过程。[9]

对于短评的情感分析方法可以分为两大类:基于情感词典匹配法和基于Python语句的机器情感分析。基于情感词典匹配的情感分析是指,对影评中的文本内容进行分词和停用词处理,然后用Python(相关)软件结合情感词典匹配情感词语,找出积极和消极词汇。基于Python语句的机器情感分析也叫基于机器学习的情感分析,主要是利用软件筛选文本中有积极情感与消极情感的语句,再用机器学习法对筛选出的语句进行分析。

1.2 中文分词

本文利用Python软件第三方Jieba库进行中文分词。分词模式及函数如表1所示:

表1 分词三种模式

1.3 TF-IDF算法

TF-IDF算法通过TF来反映文本内部特征,[10]可用以评估一词(字)对于一份文本的重要程度。它实际上是TF(词频)与IDF(逆文档频率)的乘积,算法如下

(1)

其中,ω代表计算的词或字,N代表语料库的文档总数,n代表语料库中包含ω的文档数。

这里的特征项为词语或单独的字。

2 影评数据处理

2.1 数据来源

利用第三方爬虫软件“八爪鱼”对所要分析的两部电影《你好,李焕英》和《妈妈再爱我一次》进行电影影评数据的爬取。由于软件的局限性,只爬取了豆瓣电影上的影评数据,每部电影影评220条。

2.2 数据预处理

2.2.1 利用情感词典分词

本文选择知网HowNet情感词典与台湾大学NTUSD简体中文情感词典作为基础情感词典。利用情感词典分词步骤如下:

对这两个情感词典进行整合与去重。将知网HowNet中的正面中文情感词语和正面评价中文词语进行组合,再与台湾大学NTUSD情感词典中的积极词语进行去重合并作为积极情感词典导入Python软件中备用。

将知网HowNet中的负面情感中文词语和负面评价中文词语进行组合,再与台湾大学NTUSD情感词典中的消极词语进行去重合并作为消极情感词典导入Python软件中备用。

将知网HowNet情感词典中的程度中文词语进行分类。如,将程度词“极其”和“最”的意义词语分为第一类;将“很”的意义词语作为第二类;将“较”的意义词语分为第三类;将“稍”的意义的词语分为第四类,并作为程度情感词典导入Python软件中。利用Python软件Jieba库进行分词处理。

2.2.2 去除停用词

将影评分词后的文档进行停用词处理,本文选择了哈尔滨工业大学的停用词作为自定义停用词表,对影评进行了停用词处理。

2.2.3 文本特征抽取

分词进行去停用词后,对两部电影的影评数据进行词频分析,得到“电影”“妈妈”为第一、第二高频词。前10个词语及出现次数情况如表2:

表2 影评高频词

将相关数据(截止2021年7月,豆瓣电影网爬取的数据)代入算式(1),可以得到下列影评TF-IDF值表:

表3 影评TF-IDF值(排序前10的高频词)

表3中的TF-IDF值越大,这说明词语在文本的重要性越强。更加清晰地展现了这些词在影评中的重要程度。

3 影评情感分析

3.1 共词矩阵

共词矩阵用于公共的关键词,它通过关键词出现在不同评论中的次数列出矩阵,以便更加快速地计算分类信息与共词矩阵,以此来描述词组间的亲密度。

本文利用表2与分词后的影评数据相结合得到两部电影的共词矩阵。因得到的共词矩阵数据较为庞大,依据词与词之间存在的相关性较强的进行筛选,列出具有相关性的10个词构成以下共词矩阵。

3.1.1 《你好,李焕英》共词矩阵

根据,“电影、妈妈、贾玲、观众、母亲、女儿、导演、李焕英、穿越、小品”等10个词的顺序构成的共词矩阵如(图1):

图1 《你好,李焕英》共词矩阵

由图1可以看出,词“电影”与“贾玲”之间存在最高的关联。因为,贾玲是本电影的导演且是主演之一。其次,“电影”与“观众”之间存在较高的关联,这说明,一部电影的口碑与观众对于电影的评价密切相关;“电影”与“母亲”“妈妈”等词语之间的亲密度也明确了这部电影的主题。

3.1.2 《妈妈再爱我一次》共词矩阵

根据,“电影、妈妈、电影院、小时候、记得、小学、组织、学校、这部、当年”等10个词的顺序构成的共词矩阵如下:

图2 《妈妈再爱我一次》共词矩阵

由图2可以看出,“电影”和“妈妈”有高度的关联性,也明确了电影的主题。其它与“电影”存在密切关系的词也说明了这部电影的久远。

3.2 语义网络图

语义网络图是指,语义网络中信息被表达为一组结点,结点通过一组带标记的有向直线彼此相连,用于表示结点间的关系。

本文用ROSTCM6软件与情感词典相结合的方法对电影进行情感分析,得出电影评论数据的积极、中性、消极评论,并进行语义网络构建。图3是电影《你好,李焕英》的积极语义网络图:

图3 《你好,李焕英》积极语义网络图

3.3 SnowNLP情感分析

SnowNLP情感分析是基于情感词典来实现,它将所要分析的文本归为两类来进行处理。情感一般为积极、中性和消极,本文在处理过程中只研究了文本的积极与消极情感。在SnowNLP情感分析中,情感分数区间为[0,1],越接近1,表明情感越积极,越接近0,表明情感越消极。

通过Python软件第三方SnowNLP库得到相关影评的情感分数,如表4:

表4 影评的情感分数

根据表4绘制出两部电影的情感分数图,更直观地展示出两部电影趋于积极还是消极的情感。

图4 《你好,李焕英》情感分数图

图5 《妈妈再爱我一次》情感分数图

情感分数图以横坐标0.5作为影评积极评价与消极评价值的分界,情感分数分布在[0,0.5)区间内为消极评价,情感分数分布在(0.5,1]内为积极评价,纵坐标表示评价量。

由图4、图5看出,对于电影《你好,李焕英》的情感分数主要集中于区间(0.5,1],电影《妈妈再爱我一次》的情感分数明显集中在[0.8,1]区间。这体现电影《妈妈再爱我一次》的积极性情感更强。

对表4的数据,利用Python软件第三方库SnowNLP情感分析进行操作,放入代码得到图6、图7。其中,横坐标表示电影所爬取的影评数,纵坐标表示评价值,设置大于0.5为积极情感评价,小于0.5表示消极情感评价,0.5为分界值。图4中的波动图在大于0.5的范围内未见明显集中趋势;图5中的波动图在大于0.5的范围内相对集中在[0.8,1]区间。此结果与“情感分数图”的结论一致。情感分数图与情感波动图在本质上体现的意义是相同的,读者可根据实际需要自行选择。

图6 《你好,李焕英》情感波动图

图7 《妈妈再爱我我一次》情感波动图

结语

本文使用大数据软件与统计软件相结合的方法,寻找文本所需要的不同情感倾向,使其以量化的形式展现了出来。利用TF-IDF统计方法估计文本的重要词,并构建出共词矩阵,解决了因影评数据过多的繁琐性且使用的文本研究方法具体、准确。特别是对同一时期上映的相似主题的电影进行不同角度的情感分析,使观众能按自己的喜好进行多选一观看。本文只对小于四字词语进行了分析,爬取了豆瓣电影中的部分短评,在影评数据爬取上存在量的不足,数据较单一。在后期的研究中可以对研究的领域和角度进行进一步的探究。

猜你喜欢

共词李焕英词典
你好,我的“李焕英”
《你好,李焕英》 观后感
《你好,李焕英》:如果这就是TA想要的呢
你永远是我心中的女神
米兰·昆德拉的A-Z词典(节选)
米沃什词典
词典引发的政治辩论由来已久 精读
基于突变检测与共词分析的深阅读新兴趋势分析
基于Matlab的共词矩阵构造
中国文化在国际社交媒体传播的类型分析——基于共词聚类的研究