APP下载

基于多元回归分析豆瓣电影评分

2019-07-23周如彪林晓霞王昱华

艺术科技 2019年1期
关键词:多元回归分析

周如彪 林晓霞 王昱华

摘 要:豆瓣作为目前国内最大的电影评论网络社区,其豆瓣TOP250的电影被很多电影从业人员和观众视为楷模与标杆。这些基于观众评分体系诞生的TOP250的影片中是否蕴含着一定的规律和特征呢?运用数据挖掘的方式能从豆瓣电影评分的诸多要素中找到什么规律?本文将以豆瓣TOP250的电影为研究对象,运用多元回归分析等手段,对影响豆瓣电影评分的各个要素进行剥离,观察其影响力同时试图从这250部电影中找到特征与规律,希望能解释和预测今天某些电影的豆瓣评分。

关键词:豆瓣TOP250;数据特征挖掘;多元回归分析

1 文献综述

1.1 豆瓣数据挖掘相关的探讨

目前我国国内有关于豆瓣数据挖掘的文章大致分为两种类型,第一种重在分析豆瓣用户,通过调查问卷的形式,重点研究了豆瓣用户的接受电影营销的效果问题,其可概括为豆瓣评分系统是豆瓣用户对于电影观感较为直接的体现,同时也是观众收集信息的来源。第二种分析则是倾向于具体电影上应用文本与数据分析的工具分析研究,这类分析方法,是找到每条评论的情感得分。

本文出发的角度是将豆瓣TOP250的250部电影的评分作为数据训练集,通过爬虫工具收集了这250部电影的“类型”“故事梗概”“导演”“编剧”“主演”“制片国家地区”“上映时间”“片长”“评价人数”等九大要素并且转化为相应指标,引入了20世纪80年代美国的巴里·李特曼(Barry Litman)的李特曼电影预测模型中多元回归分析的思想,尝试通过多元回归分析找到电影评分和“类型”“故事梗概”“导演”“编剧”“主演”“上映时间”“片长”“评价人数”等指标间的线性关系。

1.2 多元回归的适用性探讨

线性回归模型确实具有广泛的适用性。最早是20世纪80年代美国的巴里·李特曼(Barry Litman)将线性回归分析思想引入电影票房预测分析之中,这是因为从逻辑上可以看出,电影票房确实受到诸多要素的影响,但是这些要素孰重孰轻,难以直观的体现,所以借助回归分析进行相关的系数确定。[1]

线性回归模型其本质上是用一条曲线去拟合一个或多个自变量x与因变量y之间关系的模型,若曲线是一条直线或超平面(成直线时是一元线性回归,成超平面时是多元线性回归)时是线性回归,否则是非线性回归。本文采取线性回归的分析方法是因为它能够帮助我们更好地剥离豆瓣评分各个要素的比重,从而清晰地展现结果。

2 数据收集、清洗与标准化

2.1 数据来源

本文所引用的数据来自豆瓣网站TOP250排名页面(https://movie.douban.com/top250),每部影片的相关数据均来自豆瓣电影主页(https://movie.douban.com/),并且依据豆瓣电影主页的信息,将影响一部电影评分的要素分为“故事梗概”“评价人数”“上映时间”“时长”“类型”“导演”“编剧”“主演”。

2.2 “故事梗概”的赋值

关于故事梗概的评价,最早的先行者就是美国20世纪40年代盖洛普率先展开的针对电影观众的片名测试,之后他引入了概念测试、演员阵容测试。盖洛普早期从事着新闻与媒体方面的商业测试,之后随着大选中他通过政治民意测试正确预测了里根当选总统而声名鹊起,40年代好莱坞的雷电华公司请回了鼎鼎大名的盖洛普为他们制作了电影相关的民意调查和测试。[2]

盖洛普的概念测试用运的是社会学中社会调查的方法,他通过让调查员走访电话等方式调查观众,让观众根据16字以内的故事梗概打分,通过大量的收集观众打分从而得出该故事梗概是否获得观众欢迎。这种方法受到当时电影界人士的认可,也是早期使用数据的方法分析与预测电影票房走势的重要方法。所以这从侧面证明了,无论是当时还是如今都很难从一种相对客观的标准,或者机械的标准去衡量一个故事梗概的得分高低,故事梗概衡量的科学性与“客观”性在于集合了大多数人的观点,同时保证了这个大多数人群,即被调查群体是满足整个社会横截面为呈现。

所以本文所研究的豆瓣评分体系中,考虑到“故事梗概”是一个很重要的指标,但是机械对其量化或者简单的数值化又是非常不合理的。由于故事梗概其独特性,不参与回归分析之中。

2.3 “类型”的数据赋值

本文基于以上两种类型赋值的方法,采用了豆瓣电影系统内部的类型分类方法,并且通过聚类分析讲原本多达十几种的电影类型大大简化,从而得出一个基本的类型分布情况(见表1),再根据分布情况进行赋值。这样即避免了单纯的词频统计中忽略了类型背后含义的缺点,也被避免了同等权重赋值的与现实情况差距过大的情况,同时兼顾了电影类型作为一种人为分类的成因,类型作为一个“词”的词频问题。

2.4 “导演”“编剧”“主演”赋值

本文的数据基于豆瓣电影数据挖掘产生,研究的目的也是建立豆瓣电影评分与诸要素之间的多元线性回归关系,所以关于“导演”“编剧”“主演”的赋值评分系统选取了豆瓣最佳作品平均分这个维度,暂未将商业价值潜力、艺术影响力、社会责任、公众形象等等要素计入。

2.5 “上映时间”“片长”“评价人数”标准化

因为这三个指标已经是数值类型,无须再次赋值,只有需要进行适当取舍即可,对于“上映时间”来讲,維持了其年代的数据类型,同时也是默认了当下的年代赋值大于以前的年代赋值,也就是纯数值角度2018>1978。“片长”的赋值同理,纯数值角度来说片长越长则赋值越大,片长短则赋值小。评价人数也是评价人数越多赋值越高,人数越少赋值越低。

3 多元回归分析

3.1 线性回归方程以及检验

对“评价人数”“上映时间”“时长”“类型”“导演”“编剧”“主演”等指标经过赋值与标准化后为x1、x2、x3、x4、x5、x6、x7,上述变量符合多元线性回归的基本条件,且逻辑上线性关系成立。

通过IBM spss25软件的多元回归分析的相关计算,豆瓣top250电影训练集拟合出的线性方程为:Y=6.237E-007x1-0.005x2+0.001x3+-0.029x4-0.019x5+0.094x6+0.017x7

3.2 公式与系数解释

通过以上的线性公式以及SPSS计算结果可以看过,豆瓣电影评分和豆瓣网站提供的各个信息要素线性拟合程度R2达到0.334,也就说33.4%的豆瓣评分可以被相关要素所解释。VIF值都小于10,说明不存在多重共线性。

在各个要素之中,可以得出评论人数的多少是最无足轻重的,这可以得出豆瓣TOP250电影的高分情况和评论人数多少也没有什么过多关系,这也符合我们的逻辑认知,即在豆瓣电影的评分取决于每个用户的打分,而不是打分用户的多少。

其次,上映时间的系数为-0.005,代表了越接近当下(2018年)的电影在豆瓣评分越低,越是年代久远的电影评分越高,也从侧面说明,如今电影口碑与评分的趋势,仅仅从豆瓣评分的角度去看确实是呈现出一种下降的。

再次,时长的系数为0.001,说明了电影时长越长评分越高,越是高分的电影越是片长更长,似乎比较符合我们平时认为的“佳作偏长”的看法。

类型得分系数为-0.029可以看出,因为在赋值过程中,我们人为地将剧情片设定的赋值较高,给其余类型赋值依次较低,所以结论表明越是倾向于单一的剧情片的电影评分越低,反而摆脱了剧情片的电影则有较高的评分,也就是越丰富的类型种类越可以带来高分评价。

在各个要素之中,理论上应该起到关键因素的是导演水平,其次是演员和编剧的水平,也就是他们在豆瓣受到豆瓣用户的欢迎程度,较大程度上影响了他们的作品在豆瓣上的得分。但是从分析结论来看,“导演得分”“编剧得分”与“演员得分”的相伴概率Sig.为0.506、0与0.655。其中导演得分与演员得分相伴概率Sig.远远大于0.005,但编剧的相伴概率Sig.小于0.005。这个结论说明以导演与演员项指标在整体的线性方程中显著性关系较低,其系数不具有说明性。但编剧的豆瓣评分得分越高者,越能打动影片评分。

4 结论分析

通过本次针对豆瓣top250电影评分的分析可以找到三个规律,其一是时间上越靠近今天的电影,在整体的top250高分榜单上排名越低,说明我们如今的高分电影不仅是越来越少,并且得分也是越来越低,这个现象值得引起我们电影工作者的思考。其二,时间越长的电影越能获得高分,恰恰说明如今想要拍摄一部高分的电影,还是需要保证质量的同时适当的增加片长,不用被快餐化的风气所影响。其三还需要进一步加强影片的类型丰富化,如今电影观众尤其是对于高分电影的需求是类型丰富的电影,单一类型的影片不仅票房不理想,口碑上面也无法满足大众。

参考文献:

[1] 何晓雪,毕圆梦,姜绳.基于网络数据预测电影票房的多元线性回归方程构建[J].新媒体研究,2018 (05):41-48.

[2] 苏·奥默尔,苏纹.测定愿望:盖洛普和好萊坞的观众研究[J].世界电影,1992(04):81-119.

[3] 毛良斌.豆瓣电影宣传营销效果分析——基于豆瓣用户的调查[J].电影评介,2014(11):6-8.

[4] 冯莎.豆瓣电影评论文本的情感分析研究——基于2017年电影《乘风破浪》爬虫数据[J].中国统计,2017(07):30-33.

[5] 刘正山,易婧.“恶评”界定及其存在性检验——基于2014—2016年370部电影的实证分析[J].当代电影,2017(05):4-10.

[6] 陈然.我国商业电影票房影响因素研究[D].云南财经大学,2016:68.

[7] 胡晓红,王红,基于多元线性回归的电影票房预测研究[J].信息技术与信息化,2018(Z1):183-185.

作者简介:周如彪(1993—),男,北京人,研究生,研究方向:电影评价,信息管理。

林晓霞,女,法学博士,北京电影学院管理学院副教授。

王昱华,女,艺术学博士,北京电影学院学工部部长。

猜你喜欢

多元回归分析
多元回归分析在评价中期与晚期肝癌介入治疗预后影响因素中的运用
基于低碳经济视角分析我国能源消费结构对经济发展的影响
废水对淡水鱼产量影响的研究
基于多元回归分析的多模态教学原则