APP下载

基于Python技术的电影《白蛇传·情》豆瓣短评文本挖掘与可视化分析

2024-06-03蓝梓钰

文化创新比较研究 2024年10期
关键词:文本挖掘白蛇传可视化分析

蓝梓钰

摘要:该文采用Python爬虫和数据分析相结合的方法,对电影《白蛇传·情》的豆瓣短评进行文本挖掘和可视化分析。通过词频分析、情感分析等方法,揭示了《白蛇传·情》受到观众广泛好评的主要原因:一是创新的表现形式,将传统戏曲艺术与现代电影手法融合;二是精良的电影制作,在视听效果和人物塑造上给观众留下深刻印象;三是优秀的故事改编,在传统故事的基础上注入新的情感内涵。该文对传统戏曲电影的现代化改编具有一定的启示意义,即传统戏曲应与现代技术融合创新,丰富表现形式;改编者需深度挖掘传统戏曲的文化内涵,以现代视角诠释经典故事。

关键词:《白蛇传·情》;豆瓣短评;可视化分析;Python;文本挖掘;戏曲电影

中图分类号:J952                 文献标识码:A                 文章编号:2096-4110(2024)04(a)-0052-05

Mining and Visualizing Douban Short Comments on the Movie White Snake with Python

LAN Ziyu

(South China University of Technology, Guangzhou Guangdong, 510006, China)

Abstract: This study employs Python crawlers and data analysis to conduct text mining and visualization on the short comments posted on Douban for the movie White Snake. Through methods such as word frequency and sentiment analysis, it reveals the main reasons for the wide acclaim the movie received: first, its innovative presentation that integrates traditional opera art with modern film techniques; second, its exquisite production that leaves a deep impression on the audience in terms of audiovisual effects and character portrayal; third, its excellent adaptation that infuses new emotional connotations into the traditional story. This research offers insights into the modernization of traditional opera films, suggesting that traditional opera should innovatively integrate with modern technology to enrich its presentation, and that adapters need to deeply explore the cultural connotations of traditional opera to interpret classic stories from a contemporary perspective.

Key words: White Snake; Douban short comments; Visual analysis; Python; Text mining; Opera film

中國传统戏曲是中华文化的瑰宝,但近年来戏曲电影的发展面临诸多困境。2021年,由珠江电影集团等出品的粤剧电影《白蛇传·情》打破了传统戏曲电影票房不佳的魔咒,在多个电影节上斩获奖项,并获得国内外观众的广泛好评。该片以中国四大民间传说之一的“白蛇传”为蓝本,以“情”为主线,融合现代思维对传统故事进行了改编,表达了人们对真善、美的向往和追求。

豆瓣是国内最具影响力的电影评论平台之一。截至2021年6月10日,《白蛇传·情》在豆瓣上累计获得24 042条评价,评分高达8.2分,位列2021年度国产电影评分榜首。豆瓣短评数量大、质量高,能够较好地反映大多数观众的观影感受和评价倾向。因此,本文选取《白蛇传·情》的豆瓣短评作为研究对象,运用Python爬虫和数据分析技术,从评分分布、评论数量、关键词频次、情感倾向等多个维度对影片评论进行量化分析,以期揭示该片广受好评的原因,并为我国戏曲电影的现代化改编提供启示。

近年来,国内学者开始利用Python等计算机技术对豆瓣影评数据进行采集和分析[1-4],展示了新技术在影评研究中的应用前景。同时,不少研究基于豆瓣影评文本,从不同角度探讨了观众对影视作品的接受和解读[5-8]。此外,一些学者从传播学视角切入,关注豆瓣等平台上的用户互动行为及其影响[9-12]。除上述主流研究外,还有少数研究从艺术和美学角度讨论了国产戏曲电影的创新表达[13-14]。

综上所述,本文研究拟解决以下两个问题:第一,《白蛇传·情》豆瓣短评的分布特征如何?第二,《白蛇传·情》受到观众欢迎的原因有哪些?对国产戏曲电影的改编有何启示?

1 研究方法

本文采用词频分析法,通过统计关键词在文本中的出現频率,揭示文本的主题和热点,这一方法在传播学、情报学等领域得到广泛应用。本文以豆瓣短评为数据来源,通过数据采集、清洗、词频统计和情感分析等步骤,挖掘影评中蕴含的观众喜好信息和情感倾向。

1.1 数据获取和处理

本文以电影《白蛇传·情》在豆瓣平台上的短评数据为研究对象。通过对影片评论页面的分析,发现每个分页包含20条评论。在此基础上,利用Python爬虫技术,通过模拟浏览器请求和解析HTML页面的方式,实现了短评数据的自动采集。爬虫程序设置了25次翻页,依次采集每条评论的用户名、评论者主页、评分、评论时间、评论内容和点赞数等信息。受豆瓣反爬限制,在登录状态下最多可获取500条短评数据。

为方便数据分析,本文首先对爬取的原始数据进行清洗和预处理。主要步骤包括去除重复数据、统一数据格式。经过处理,得到包含用户名、评分、评论时间、评论内容等字段的结构化数据集。本文共采集到500条短评数据。经过去重等预处理步骤,得到481条有效数据。其中,10条数据有文字评论但缺失评分,考虑到本文以文本分析为主,这部分数据予以保留。

在文本数据处理方面,采用了jieba库对评论内容进行中文分词。同时,构建了停用词表,过滤掉文本中的无意义词汇,如“的”“了”“是”等,以提高关键词提取的准确性。

1.2 分析方法

本文主要采用词频分析和情感分析两种方法。

词频分析基于jieba分词的结果,统计各词汇在评论语料库中的出现频次,从而识别出评论中的高频关键词,揭示观众关注的热点话题。可视化方面,使用pyecharts和wordcloud库,生成词频统计表和词云图,直观呈现高频词分布。

情感分析使用了snownlp库。该库基于朴素贝叶斯算法,对文本的情感倾向进行极性判断(积极/消极)和情感值计算(0—1,越接近1表示情感越积极)。通过对各条评论的情感值进行统计分析,可以定量刻画观众的整体情感倾向。

需要说明的是,由于豆瓣的反爬限制,本文采集到的481条评论数据仅占全部评论(12 030条)的一小部分。但考虑到数据采集的随机性,这些样本在一定程度上仍能反映总体情况,具有研究价值。

2 结果与分析

2.1 基本数据分析

为了对收集的数据进行总体分析,首先导入所需的Python包,读取了CSV格式的数据文件。利用pyecharts库,生成了一个HTML格式的评分分布饼状图(见图1)。

从图1可以看出,在所有评论中,观众对《白蛇传·情》的总体评价较高。约75.75%的用户给出了4—5分的高分评价,而给出1—2分低分评价的用户占比不足8.00%。这表明该电影获得了大多数观众的认可。

接下来,选取了comment_time列的数据,使用pyecharts绘制了评论数量的折线走势图(见图2)。

由图2可知,《白蛇传·情》最早的短评出现在2019年10月18日,当时该片在平遥国际电影节首次露面,引发了一定的评论热度。但在随后的一段时间内,尽管该片在多个电影节上斩获奖项,但豆瓣评论数量并未出现明显波动,仍维持在较低水平。直到2021年5月20日电影正式公映前后,随着影片宣传的展开,评论数量才出现大幅增长。在上映期间,评论数量呈现明显的波动,并在2021年5月31日达到峰值。6月以后,受排片量减少影响,评论数量出现大幅下降。不过,良好的口碑使得评论数量在后期的低位中出现了一定回升。

2.2 词频及词云分析

为深入探究观众对《白蛇传·情》的评价倾向,本文对豆瓣短评文本进行了词频统计和词云可视化分析。首先,利用Python的pandas库读取并清洗了短评文本数据,剔除了非中文字符。然后,使用jieba库对文本进行分词,在此基础上,生成了短评内容的词云图(见图3)。

图3可以直观看出,“电影”“戏曲”“特效”“粤剧”等词汇出现频率较高。这表明,观众在评论中重点关注了该片的艺术形式、制作水平和故事内容等方面。同时,词云中还出现了“第一次看粤剧”“第一次看戏曲电影”等评论语句,反映出该片为许多非粤语区观众提供了接触和了解粤剧艺术的新机会。

为进一步量化分析关键词的分布,对分词后的评论文本进行了词频统计,并提取了出现频率最高的30个词汇(见表1)。结果显示,“电影”一词在481条评论中出现了298次,提及率约为60.00%;“戏曲”出现199次,提及率达41.00%;“粤剧”“戏剧”“白蛇传”“形式”等相关词汇也高频出现。这说明,观众普遍关注该片独特的艺术形式,即以电影的表现手法呈现传统戏曲故事。观众对该片的制作水平也给予了较高评价。“特效”一词以145次的出现频率位列第三,提及率超过了主题词“粤剧”,可见特效制作是该片的一大亮点,约30.00%的观众对此留下了深刻印象。值得注意的是,“美”字在所有评论中出现达161次,表明观众对影片呈现的东方美学风格印象深刻。

此外,影片对原著故事和人物形象的塑造也受到观众的广泛关注。“许仙”“法海”“白蛇”“小青”等主要角色的名字均有较高的提及率。值得一提的是,“水漫金山”作为影片的核心情节和场景,以超过14.00%的提及率跻身高频词前十名,远超一般成语在口语中的出现概率。一方面,得益于影片在故事改编方面的用心;另一方面,归功于特效制作对水漫金山场景的出色呈现。在影片长达6分钟的篇幅中,通过大量特效打造出气势恢宏的水漫金山场面,给观众留下了深刻而持久的视觉印象。

2.3 最高点赞数的十条短评

为进一步探究观众对《白蛇传·情》的评价倾向,本文对豆瓣短评的点赞数进行了统计和排序,筛选出了点赞数最高的10条评论,并对其文本内容进行了情感分析。

这10条高点赞评论的点赞数范围为380—2 625,平均评分为4.5星(满分5星)。其中,9条评论给出了4—5星的高分评价,1条评论为3星中评。运用snownlp库对评论文本进行情感倾向分析,得到的情感值均大于0.5,平均值为0.93,表明这些评论均倾向于表达正面情感。高赞评论的评分分布和情感倾向与整体短评数据的分析结果保持一致,进一步印证了《白蛇传·情》受到多数观众欢迎的结论。

对高点赞评论的文本内容进行词频统计,发现“惊喜”“支持”等正面情感词的出现频率较高。定性分析评论文本也发现了“好看”“惊艳”“鼓励”等正面评价词汇。这些高频词和关键词体现了观众对该片的喜爱和支持态度。

从内容上看,高赞评论涉及影片的多个方面,如艺术形式(“戏曲电影终于脱离舞台的束缚”)、视觉呈现(“每一帧都好美”)、情感体验(“哭成狗”)等。其中也出现了一些富有感染力的评价用语,如“惊艳”“好看”“震撼”等。这些评论以生动、具体的方式表达了观众的观影感受,体现了影片的艺术魅力。

需要指出的是,由于snownlp训练语料主要来自购物评论,对影评文本的情感判断可能存在偏差。此外,高点赞评论的样本量相对较小(n=10),其代表性有待进一步验证。

综上所述,高点赞评论的情感倾向与整体短评数据的分析结果保持一致,均指向观众对《白蛇传·情》这部电影的积极评价。高点赞评论所体现的观众共情,一方面印证了前文词频分析得出的研究结论,另一方面也为解释该片广获好评的原因提供了有益线索。

3 讨论与启示

通过对《白蛇传·情》豆瓣短评的文本挖掘和情感分析,本文发现该片广受观众好评的原因主要有三:

其一,该片在表现形式上的创新。传统戏曲与电影在艺术表现方式上存在较大差异,前者注重写意,后者强调写实。既有的戏曲电影改编往往难以兼顾二者,或过于注重戏曲表演而导致观赏门槛高,或完全写实化而失去了戏曲韵味。而《白蛇传·情》通过采用4K全景声等现代电影技术,在保留戏曲写意空间的同时,又增强了电影的视听冲击力,从而拉近了与当代主流观众的审美距离。

其二,精良的电影制作。受访者对该片的画面质量赞誉有加。影片采用水墨画般的色调,融入宋代工笔画和杭州枯山水等传统美学元素,再辅以精美的CG特效,营造出近似舞台的意境,具电影的视觉张力。尤其是“水漫金山”一幕,以东方式的写意特效再现汹涌波涛,配合气势恢宏的鼓乐,给观众带来震撼的审美体验。此外,演员们纯熟的武戏表演,在呈现戏剧张力的同时,也兼顾了电影的节奏感,获得了观众的高度认可。

其三,精心的故事改编。《白蛇传》是流传甚广的民间故事,其剧本有着丰厚的文化底蕴。《白蛇传·情》对原作进行了情感维度的挖掘,塑造了既符合传统人物形象,又富于人情味的银幕形象。但部分受访者也提出,影片对白素贞爱情观的刻画仍显保守,难以引起当代观众的情感共鸣。

综合以上分析,《白蛇传·情》的成功经验为我国戏曲电影的现代化改编提供了有益启示:传统戏曲要积极融合现代电影技术,在继承经典的同时创新表现形式;要发挥电影的制作优势,在保留戏曲神韵的同时,提升视听体验;要立足传统故事,以现代审美和情感经验重新诠释角色,激发新时代观众的情感共鸣。唯有在传承与创新中求得平衡,戏曲电影才能焕发新的生机与活力。

4 结束语

本文以电影《白蛇传·情》为例,尝试运用计算机技术对豆瓣短评进行文本挖掘和可视化分析,以期从大数据角度揭示该电影获得良好口碑的原因。研究结果表明,《白蛇传·情》在艺术形式、制作、故事改编等方面均有突出表现,由此获得观众青睐。这为今后传统戏曲电影的改编提供了有益启示。

本文仍存在一些不足。首先,样本量较小,代表性有待提高;其次,关键词提取和情感分析等方法较为简单,准确性有待加强。未来可扩大数据规模,优化分析方法,引入更先进的算法,以获得更全面的结果。此外,观众的地域背景可能影响其评价倾向。粤语区观众对粤剧文化有更深的认同,而非粤语区观众可能更看重影片的新奇性。未来研究可以爬取用户地域信息,分析不同地区观众的评价差异,以及地域因素对排片量和评论数的影响。

参考文献

[1] 蔡文乐,周晴晴,刘玉婷,等.基于Python爬虫的豆瓣电影影评数据可视化分析[J].现代信息科技,2021,5(18):86-89,93.

[2] 张荑阳,毛红霞.基于python的豆瓣电影数据采集与分析可视化[J].电子制作,2021(16):47-49.

[3] 高雨菲,毛红霞.基于Python的豆瓣影视短评的数据采集与分析[J].现代信息科技,2020,4(24):10-12,16.

[4] 裴丽丽.基于Python对豆瓣电影数据爬虫的设计与实现[J].电子技术与软件工程,2019(13):176-177.

[5] 魏端端.合拍纪录片《杜甫:中国最伟大的诗人》的中国接受:以豆瓣影评为例[J].对外传播,2021(1):50-52,61.

[6] 陆敏.纪录片艺术性的受众解读初探:基于张以庆纪录片“豆瓣影评”的分析[J].现代传播(中国传媒大学学报),2016,38(6):103-106.

[7] 庞林源,王欢.国产电影票房与网络评分关系探讨:基于票房数据和豆瓣电影评分的分析[J].北京电影学院学报,2020 (12):60-64.

[8] 姜霖,张麒麟.基于评论情感分析的个性化推荐策略研究:以豆瓣影评为例[J].情报理论与实践,2017,40(8):99-104.

[9] 楊艺明.互动仪式视角下青年的抗疫精神阐释:B站《在武汉》弹幕的情感分析[J].传媒评论,2021(3):76-77.

[10]路雪珂.微博谣言多维情绪传播与受众互动行为关系研究[J].新闻知识,2021(1):10-20.

[11]路雪珂.基于文本挖掘方法的微博谣言传播情绪框架研究[J].新闻传播,2020(23):9-10.

[12]全贞花,王小芳.网络口碑传播对用户观影意愿的影响研究:以豆瓣评分为例[J].东南传播,2020(4):55-59.

[13]刘影.戏曲电影《白蛇传·情》:诗意影像、经典重构与青春传承[J].当代戏剧,2021(5):35-38.

[14]邵宣.当代戏曲电影美学的“传承”与“突破”:以粤剧电影《白蛇传·情》为例[J].民族艺林,2021(3):53-60.

猜你喜欢

文本挖掘白蛇传可视化分析
“宣白”CP《天乩之白蛇传说》
京剧《白蛇传》经典性的内在构成
数据挖掘技术在电站设备故障分析中的应用
我国职业教育师资研究热点可视化分析
声波吹灰技术在SCR中的应用研究
基于LDA模型的95598热点业务工单挖掘分析
可视化分析技术在网络舆情研究中的应用
国内外政府信息公开研究的脉络、流派与趋势
从《远程教育》35年载文看远程教育研究趋势
慧眼识璞玉,妙手炼浑金