基于Python的电影信息爬取与数据可视化分析
2021-10-23杨应浩
杨应浩
(重庆师范大学 数学科学学院,重庆 401331)
0 引言
随着大数据与人工智能时代的到来,数据分析的影响及重要性越来越凸显,数据分析日益成为本科生不可或缺的技术与技能,也能更好地培养学生的Python实践操作和解决实际问题的能力。与此同时,紧跟大数据时代步伐,了解大数据背景下数据分析的特点,进一步拓展视野,实现综合素质的提高[1]。
1 环境搭建
1.1 安装Par-Charm软件
Par-Charm是一种Python IDE,带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具,比如调试、语法高亮、Project管理、代码跳转、智能提示、自动完成。它用于数据的爬取十分便利。
1.2 安装Anaconda软件
Anaconda指的是一个开源的Python发行版本,其包含了conda、Python等180多个科学包及其依赖项,提供包管理及环境管理功能,解决了Python多版本并存的安装问题。它非常适合数据可视化分析。
2 数据爬取
爬取数据的步骤过程:第一,进入爱奇艺网站电影界面,获取该网页的URL,通过查看网页源代码找到目标数据位置并分析网页源代码结构;第二,论文使用Python中的requests库进行数据采集;Beautiful-Soup是一个HTML/XML的解析器,来解析URL的文本信息[2];第三,根据需要单独提取出电影的评分、电影的演员、电影年份和电影类型;第四,利用循环进行读取数据并存入数据库。
3 数据预处理
在真实世界里,数据来源各式各样质量良莠不齐,所以原始数据一般是有缺陷的,不完整的,重复的,是极易受侵染的。这样的数据处理起来不仅效率低下而且结果也不尽人意,这种情况下数据的预处理显得尤为重要。一方面,数据预处理把原始数据规范化、条理化,最终整理成结构化数据,极大地节省了处理海量信息的时间;另一方面,数据预处理可以使得挖掘愈发准确并且结果愈发真实有效[3]。
4 数据分析及可视化
4.1 数据分析背景
随着电影行业的不断发展,必将越来越依靠于数据分析的手段来获取收益。对演员和其电影口碑分析可以得出演员的的票房号召力;从票房分析影片类型对于观众的接受度、导演的人气指数等等,都具有很强的经济效益。观众群体的广泛性和个人情感的复杂性都影响着影业的未来发展[4]。
论文从四个角度对电影信息数据进行分析:第一,从评分的占比角度入手分析观众对电影市场的认可程度;第二,从评论人数与评分入手分析观影潮流,第三,从电影年份和评分关系入手分析历年电影口碑分化趋势;第四,从电影类型入手分析时下热门电影素材类型。
4.2 从电影评分角度分析
评分是观众从接受的角度对影片进行的评价和回馈,一方面取决于电影本身的艺术质量,另一方面则取决于观众本身的需求,即影片在多大程度上与观众的期待视域达到融[5]。图1可以看出评分在8-9分的电影占据49.01%,说明观众对于电影市场的认可程度比较高;而9分以上电影仅占比2.12%,表明电影市场高质量电影数量有待提高。而7分以下电影占据9.53%,则说明电影市场质量还有一定的提升空间。
图1 电影评分饼状图
4.3 从评论人数与评分角度分析
评论人数与评分之间呈现正相关关系,相关系数为0.52,属于中等程度相关(相关系数在[-1,1],在统计学意义成立的基础上,相关系数越接近于1,评论人数与票房之间正相关性越大)[6],表现为评价人数越多,评分高可能性越大。图三中评论人数多的电影评分也普遍较高,反映出当下大众的观影潮流。
4.4 从电影年份角度分析
电影行业从1950年后开始兴起,在90年代后迎来了高潮;80年代后电影的评分有质的飞跃。可能在于电影制作的技术的到了提升,具体体现在画质、特性等方面;2000年以后的电影评分逐渐倾向于两极分化的趋势。总体来说电影年份与电影评分呈正相关关系。
4.5 从电影数量及类型分析
观众对于喜剧题材和爱情题材类的电影认可度明显要高于其他类型。而武侠、功夫类题材的电影观众的认可度普遍偏低,说明动作类型电影品质还有很大提升空间,观众口味多元化,并不是很喜欢单纯的动作片,相比之下,奇幻、科幻类题材的电影更受观众追捧。喜剧类影片一直以来都是电影市场的一大支柱,受到了制片商的极大追捧。近年来低成本、高回报的喜剧电影扎堆,其整体质量也不错,未来喜剧电影任然存在很大的发展前景。爱情题材电影虽然受观众认可度相对较高,但比之于喜剧题材电影任然有很大的上升空间,爱情片应该多在多元化和现代化方面下功夫,以更好适应在大众文化的时代背景下高速增长的观影需求。惊悚题材和恐怖题材无论在数量还是质量上都明显低于其他类型的电影,情况堪忧。
5 结语
大数据时代的到来使这个社会中的海量数据变成了巨大的潜在财富,大数据的作用是不可估量的,而且大数据已经渗透到了社会的各个领域。运用网络爬虫爬取海量数据在信息繁荣的大数据时代更加行之有效。Python作为一门脚本语言,它有着简单易学,面向对象,开源和拥有丰富的库等优点。论文阐述了Python语言在数据爬取及可视化分析中的应用。通过对爱奇艺网站电影信息的可视化分析,可以给影片公司一些制片提示,也可以给观影者提供重要的参考信息。因此,数据分析观念无论是概念的本身,还是它对于自身发展都具有很高的价值。