基于文本挖掘的影评数据情感分析
——以《我和我的祖国》为例
2022-06-16旷开金廖海琳裴文庆
旷开金,廖海琳,裴文庆
(1.福建江夏学院 金融学院,福建 福州 350108;2.生态与资源统计福建省高校重点实验室,福建 福州 350002;3.福建农林大学 马克思主义学院,福建 福州 350002)
近年来随着网络技术不断发展,公众逐步开始通过网络发表书评、影评、酒店住宿体验或商品使用体验,网络成为人们沟通互动、表达现实情绪的重要渠道。通常而言,用户发表在互联网上的评论具有简短性、精确性、时效性等特点,这些评论往往蕴含丰富的情感信息和潜在商业价值。然而当前互联网信息量呈指数级趋势增长,决策者难以在短时间内获取有价值的信息,如何从海量互联网评论文本中挖掘蕴含的情感信息成为自然语言处理领域研究的重点和难点。
情感分析最早由Picard[1]教授在专著《Affective Computing》中提出,是对文本表达的积极情绪、消极情绪以及不确定的判断,已在各领域得到广泛应用。如Liu 等人[2]提出混合神经网络模型,表明经过训练的混合神经网络可以自动对句子进行分类,文本分类准确率达到94.2%。Ghanem 等人[3]从情感的角度比较了虚假新闻和真实新闻的语言,表明情感在欺骗读者方面起着关键作用,在此基础上提出了LSTM 神经网络模型以检测虚假新闻。随着数据挖掘技术的发展,情感分析已在商业领域、网络舆情、突发事件信息传播特征等领域获得越来越广泛应用。如有学者基于记忆图卷积神经网络(MGCNN)、情感词典对商品评论进行情感分析[4-6],也有学者在网络舆情用户情感分析[7]、突发公共卫生事件误导信息受众情感分析[8]等领域取得了较好的应用。
电影作为文化传播的一种载体,近年来电影文本研究成为热点,而影评作为观众情绪的反映,一定程度上代表观众对电影的认可度,影评成为观众选择影片的重要依据。冯莎[9]基于情感词典方法对电影《乘风破浪》评论数据进行打分以及词云分析,结果表明正面情绪判断效果较好。王妍[10]等基于《流浪地球》微博评论数据,运用词向量与支持向量机组合的方式,统计分析电影热议话题点以及观众对这些话题点的情感倾向,结果表明观众关于《流浪地球》的讨论多数集中于“题材”和“演技。2019 年9 月30 日,主旋律电影《我和我的祖国》 在新中国成立70 周年之际公映,在国内外华人中引起了热烈的爱国反响。关于电影《我和我的祖国》分析报道主要限于主题分析[11],主旋律电影传播[12-13],以及话语表达研究[14],但这类研究忽略观众背后的情绪特征,未能挖掘电影评论情感分析背后的情报价值。为此,利用Python 爬取《我和我的祖国》评论数据,通过R 语言以及ROSTCM 等分析工具对评论数据进行处理及分类,对文本数据进行词云图以及语义网络图分析,构建LDA 模型对评论数据做进一步主题分析,以期通过分析了解观众的特征偏好,为相关部门进一步深入了解市场特点及电影制作提供建议。
一、评论数据分析方法
(一)词云图分析
词云图(word cloud chart)是通过使每个字的大小与其出现频率成正比,显示不同单词在给定文本中的出现频率,然后将所有的字词排在一起,形成云状图案,可以任何格式排列:水平线、垂直列或其他形状[15]。R 中的wordcloud 包提供了绘制词云图的函数:wordcloud()、comparison.cloud()和commonality.cloud()。电影评论可基于R 语言中文分词工具,根据评论文本的出现次数,从而形成“词云图”。
(二)语义网络图分析
语义网络由大量常识概念汇成,可通过构建语义网络,识别评价对象与评论观点之间的关系,挖掘出有价值的信息[6]。语义网络是一种带有标记的有向图,它由节点和弧线或链线组成,节点用于表示实体、概念和情况等,弧线用于表示节点间的关系[16]。语义网络结构可用图1 表示,其中A 和B 各代表一个节点,R 表示A 和B 之间的某种语义联系。
图1 语义网络结构图Fig.1 The diagram of semantic network structure
(三)LDA 模型分析
潜在狄利克雷分配(Latent Dirichlet allocation,LDA),作为基于贝叶斯学习的话题模型,是潜在语义分析,概率潜在语义分析的扩展,在文本数据挖掘、图像处理、生物信息处理等领域被广泛使用。LDA 模型本质是一种概率图模型,它将每篇文档的主题以概率分布的形式给出,从而通过分析文档主题分布,根据主题分布进行主题聚类或文本分类[17]。LDA 的文本生成算法为[18]:
给定单词集合W,文本集合D,话题集合Z,狄利克雷分布的超参数α 和β。
(1)对于话题zk(k=1,2,…,K):生成多项分布参数φk~Dir(β),作为话题的单词分布p(w│zk);
(2)对于文本wm(m=1,2,…,m):生成多项分布参数,φm~Dir(α)作为文本的话题分布;
(3)对于文本wm的单词wmn(m=1,2,…,M;n=1,2,…,Nm):(a)生成话题zmn~Mult(θm),作为单词对应的话题;(b)生成单词wmn~Mult(φzmn)。
LDA 文本生成过程中,假定话题个数K 给定,狄利克雷分布的超参数α 和β 通常也事先给定。在没有其他先验知识的情况下,可以假定向量α 和β 的所有分量均为1。LDA 作为概率图模型可用图2 表示,图中结点表示随机向量,实心结点是观测变量,空心结点是隐变量;有向边表示概率依存关系;矩形表示重复,数字表示重复次数。
图2 LDA 模型结构示意图[18]Fig.2 The diagram of LDA model structure
二、电影评论数据获取
以《我和我的祖国》电影评论数据为主要研究对象,数据来源于猫眼网(www.maoyan.com)以及豆瓣网(www.douban.com)电影信息网站,由于这两大网站评论经常被用户参考,且进行评论打分的用户在互联网中占据较大比例,因此猫眼网以及豆瓣网数据具有一定代表意义。利用Python 中requests 库以及lxml 库对猫眼网以及豆瓣网进行数据爬取,从猫眼网爬取数据主要分为性别、评分以及最为主要的电影评论内容,从豆瓣网爬取的数据主要为评分以及电影评论内容。由于目前豆瓣网开启了全面限制爬虫,因此在对Xpath 进行分析后依然只能爬取514 条评论,在猫眼网共爬取1515 条评论,一共评论数据共计2029 条,部分数据见表1 与表2。
表1 豆瓣网评论数据(部分)Tab.1 The comment data of Douban.com(partial)
表2 猫眼网评论数据(部分)Tab.2 The comment data of Maoyan.com (partial)
三、电影评论数据预处理
由于大多数评论偏口语化,不能真实反映主题,原始数据分析结果与真实情况存在偏差[17]。由表1 与表2 可知,爬取到的评论数据有许多语气词以及停顿词,例如“吧”“啊”“哈”等,另外标点符号也不利于分析评论数据,易使关键词受到影响。因此,第一步通过ROSTCM 文本分析软件对数据进行语气词以及停顿词过滤;由于评论数据会出现重复现象,第二步对《我和我的祖国》评论数据去重处理,获得有价值数据;第三步对去重后的评论数据分词,并将分词结果导入数据库。
四、基于文本挖掘的文本情感分析研究
(一)《我和我的祖国》评论数据基本分析
《我和我的祖国》评论数据基本信息见图3,由图3 可知,猫眼网所爬取1515 条评论中,男性评论人数为415 人,占总体比例的27%,女性评论人数为435人,占总体比例的29%,未知性别占总体比例的44%,已知男女性别比例较为接近。根据豆瓣网以及猫眼网的2029 条评论数据绘制评分信息图,见图4。由图4 可知,评分为很差的人数18 人,占总体比例的0.89%;评分为较差的人数为30人,占总体比例的1.48%;评分为还行的人数183 人,占总体比例的9.02%;评分为推荐的人数446 人,占总体比例的21.98%;评分为力荐的人数1352 人,占总体比例的66.63%,其中推荐与力荐的人数占总体比例的88.61%,大部分观众对电影《我和我的祖国》满意度较高。
图3 评论数据分性别饼图Fig.3 The comment data of gender pie chart
图4 电影评分条形图Fig.4 The bar graph of movie rating
(二)《我和我的祖国》评论数据词云图分析
将预处理后的《我和我的祖国》评论数据保存为CSV 格式,利用R 语言wordcloud2 包实现文本词云图分析,通过词云图关键词可反映观众关注焦点。由图5可知,电影《我和我的祖国》评论数据中关于电影观感最主要的词为“好看“喜欢”“感动”“不错”等积极的词,但同样存在少数“无聊”“后悔”“尴尬”等负面词语。表明从观感上看,《我和我的祖国》依然是受大众所推崇的电影,从剧情上看,“流星”“前夜”“夺冠”“回归”等在评论中出现次数较其他单元多,反映观众对《白昼流星》《前夜》《夺冠》《回归》 四个单元短片反映的故事更关注。
图5 电影评论词云图Fig.5 The cloud illustration of movie review word
(三)《我和我的祖国》情感倾向性分析
通过对评论文本抽取情感词,并使用情感词典对评论数据进行情感倾向评分,部分结果见表3。通过正负情感值对《我和我的祖国》电影评论进行统计,对每条文本进行情感倾向性分析,将情感倾向评分按分类设定为-1 为消极,0 为中性,1 为积极,并进行统计,从而对情感分析做出判断。
表3 情感得分值和评论文本(部分)Tab.3 The sentiment score and comment text (partial)
根据分析结果,电影《我和我的祖国》评论中绝大部分表达好感或态度,整体表现积极且正面的评论,分析结果见表4,由表示4 可知51.40%表现积极情感,负面情感仅占11.43%。
表4 基于情感词典的情感分析结果Tab.4 The sentiment analysis results based on sentiment dictionary
(四)《我和我的祖国》语义网络图构建
词语网络分析可探究现实关系网背后的关系网络,使用ROSTCM 文本分析软件构建并绘制语义网络图,结果见图6。由图6 可知,整体来看,语义网络图关系较为紧凑,较为紧凑的语义网络图又呈现出相对分散的特点。语义网络图分析可知,“白昼”“夺冠”“故事”“北京”处于网络图的中心位置,通常被称为语义网络中的“桥”,全网信息通过这四个评论对象所连通,起到评论对象与评论观点之间连接的作用,体现出《我和我的祖国》评论对象及观点之间紧密关系。处于边缘地带关键词,如“感动”“香港”等,这些节点处于边缘,与其他关键词联系较少,“张一白”“陈凯歌”“牧野”,作为《我和我的祖国》电影单元导演,与其他评论对象并无较强的联系,形成小型网状结构形态。这种相对集中,相对分散的网络结构表明观众对《我和我的祖国》具有核心关注点。语义网络不仅能表现出评论对象之间联系强度,而且能体现评论对象与评论观点之间的关系。由图6 可知,影片单元内容与各位导演之间存在较强关系,反映对于短片形式的多导演模式影片相较于其他影片更易受到关注和对比。如评论对象之间“电影”“祖国”“主旋律”之间存在联系,表明电影通过单元形式,以祖国大历史事件为节点,从细处着手弘扬爱国主旋律;评论对象“故事”“电影”与评论观点“好看”以及“感动”之间具有较强的关系,分析探讨评论对象与评价观点之间的关系,对制片方分析观众情感倾向具有积极指导意义。
图6 评论数据语义网络图Fig.6 The diagram of comment data semantic network
(五)《我和我的祖国》LDA 模型分析
文章LDA 模型通过jieba 库进行分词,利用中文的自然语言处理库snownlp 进行情感分析,建立词典对文本数据进行训练,最后输出主题。电影《我和我的祖国》评价主题见表5 及表6,将训练结果分为正面主题以及负面主题。根据表5 提取的三个正面潜在主题特征词,主题1 中高频词,即好看、祖国、喜欢、导演、陈凯歌等,主要反映了《我和我的祖国》受到观众喜欢,都觉得好看,对祖国有着强烈的情感,以及对导演的关注。主题2 中反映《我和我的祖国》觉得好、电影故事感动的情感倾向。主题3 反映《我和我的祖国》好看以及感动,表达出祖国强大自豪感等。根据表6 提取的三个负面潜在主题特征词,主题1 反映了《我和我的祖国》中《白昼流星》故事的不喜欢,主题2 反映了部分观众觉得《我和我的祖国》“有点”“一般般”“难看”等倾向,主题3 反映了《我和我的祖国》中部分故事“无聊”等情感倾向。
表5 《我和我的祖国》正面评价潜在主题Tab.5 The positively evaluated potential themes of"My People,My Country"
表6 《我和我的祖国》负面评价潜在主题Tab.6 The potential themes of negative reviews of"My People,My Country"
五、结论与建议
(一)结论
在互联网迅速发展的背景下,准确地从评论文本中识别并提取用户情感倾向,对观众、制片方、影院运营等多方面都具有重要参考价值。电影《我和我的祖国》 演绎了7 组普通人与祖国大事件息息相关的经历,文章基于影评数据挖掘影评表达的情感信息,得出以下结论:(1)基于wordcloud2 包对评论数据进行词频分析,表明观众对于《白昼流星》《前夜》《夺冠》《回归》这四个单元的短片有更多的关注,说明观众对不同故事题材关注点存在差别;(2)基于情感词典方法提取情感词,对电影评论情绪分析判断并赋值,结果表明大多数评论都表达积极且正面的情绪,说明电影通过鲜活生动的普通人的奋斗故事,弘扬了积极向上的主旋律;(3)语义网络分析结果表明网络图以故事为中心主要分成了四部分,分别为短片单元、导演、祖国、内容四部分。导演部分、短片单元部分与主体联系比较密切,从观众评论数据中可提取有向关系,如“葛大爷—地气”“中国—故事”等体现出演员特点以及影片主题,“故事—感动”“好看—影片”等体现出影片类型以及影片评价的特点;(4)LDA 模型分析结果表明,观众对《我和我的祖国》表现积极情绪,总体对导演偏正面评价,但对《白昼流星》单元评价存争议,主要体现在故事情节上“不喜欢”“无聊”等。
(二)建议
电影《我和我的祖国》从普通人故事着手,通过新中国发展历史上关键节点故事演绎,以全新视角带领观众感受时代变化,对于增强民族自豪感具有重要意义。爱国题材仍是电影行业中的主旋律,以往爱国题材电影,大部分从宏观角度出发,而电影《我和我的祖国》从细处入手,强调讲述把“小我”融入“大我”,赋予了故事真实感和观众代入感。影评数据情感倾向与电影传播效果密切关联,分析表明影片故事中,对于《白昼流星》单元观众认为故事不贴合实际,因此制片方在故事内容中选择情感表达更为直观故事情节,更注重真实性;另外网络语义分析表现故事“葛大爷—地气”的关系,因此电影应充分挖掘演员特点和角色特点,精准匹配角色,从小处细微处入手,展现人物特征,反映故事表达的内涵。受限于反爬虫限制,笔者收集到的影评数据有限,下一步研究将进一步融合多平台影评数据对模型进行训练,提高情感分类准确率,更全面反映影评折射的情感倾向。