基于随机森林算法的国产电影票房影响因素分析
2019-04-30高尚
高尚
【摘 要】为得出影响我国国产电影票房的主要因素,利用网络爬虫技术,爬取艺恩网站2010-2018年排名在前30的电影数据,共计270部。同时基于随机森林回归算法构建电影票房预测模型。根据模型得出,同档期影片竞争、片花和预告片播放量以及点映票房三个指标是影响国产电影票房的主要因素
【关键词】电影票房;随机森林回归算法;影响因素
一、前言
2019年春节档首周票房高达58.3亿,接近2010年全年总票房。整个春节档期间,电影《流浪地球》狂揽46亿票房,位居中国影史第二位。从08年的43.41亿总票房到18年的近600亿票房,我国电影市场迅速发展。不仅吸引众多互联网企业重金投入,同时极大的促进了我国文化产业的发展。随着国家逐步放开电影投资对民间资本的限制,越来越多的人选择参与到电影投资中,希望从中获利。然而,由于电影产品的独特性,对其进行准确把握进而合理投资是难以做到的。因此,分析电影票房的影响因素,进而降低电影投资中存在的风险,对于参与该项投资的民间资本和相关的投资企业都是有益的。
二、文献综述
由于建国初期社会的封闭性,国内电影行业的发展受到极大限制。直到20世纪初,仍然存在电影种类单一、投资机制不成熟的问题。同时期,国外对于电影行业的预测、影响因素分析做过大量研究,其中,Litman[1]在1989年提出电影票房的预测应从创意、发行、销售三个角度来进行分析,并基于导演、演员档期等10个变量建立了多元回归模型,对电影票房进行预测。Sochay[2]在Litman的基础之上,引入放映周数、市场集中度等变量,使得模型的变量数达到22个。随着机器学习算法的不断发展,众多外国学者也开始尝试将机器学习模型应用于电影票房的预测。其中,Sharda[3]首先尝试基于MLP模型,进行电影票房的分类研究;在这之后,Barman[4]于2012年提出利用BP神经网络算法对电影票房进行预测,但其模型過于简单,仅涉及一个隐藏层,难以准确的学习出数据的高度非线性结构。
国内学者的研究中,陈白鹤[5]等于2005年提出电影票房应取决于电影品牌、特征、专家评级和观众评价以及电影的销售方这四个方面;张玉松[6]则在考虑异方差的基础上,综合考虑导演和演员来量化电影品牌,并基于加权最小二乘法估计,得出电影品牌与票房之间存在正相关关系;在数据分布方面,王铮[7]注意到我国电影票房存在明显的“二八效应”(高偏态性),故采用临界值方法,构建Logit模型进行回归,并得出是否续集、电影评分、上映档期、明星和导演效应对票房有着积极影响,而居民收入无显著影响。在利用机器学习方法对电影票房的研究方面,张慧[8]等提出基于深度学习模型对电影票房进行预测,但其数据样本过小,仅有50部影片,估计的结果说服力不大;张雪[9]等尝试运用卷积神经网络对国内电影票房进行预测,但忽视电影成本、电影评分等重要数据导致所得结果并不理想。
相关研究中,较少涉及使用机器学习算法进行电影票房的影响因素分析。因此,本文选用随机森林回归算法构建国产电影票房的预测模型,同时计算出影响电影票房的主要因素,以便拓宽该领域的相关研究,并为电影投资人提供一定的投资依据。
三、变量选取
数据方面,考虑到电影票房数据存在的严重偏态性,本文选取2010-2018年在国内上映的且排名在当年前30位的国产电影,共计270部,并通过网络爬虫技术获取相应的数据。数据来源于艺恩网站i。除此之外,2010年以来国务院前后制订了一系列的政策来扶持内地电影行业的发展,因此本文的数据选取时间段也充分考虑了数据的时效性。
四、模型构建
(一)随机森林回归模型
由于电影票房数据之间存在高度非线性关系,即某一特定变量难以线性对应票房数值,两者之间的变化往往是非线性相关的,因此采用以往的计量模型进行分析难免会产生偏差。
为更好的挖掘出数据之间的非线性关系,我们选用随机森林回归模型来构建电影票房预测模型,该模型不仅可以用来预测某部电影的具体票房情况,还可根据整体数据情况,给出各个变量对电影票房的重要性大小,分析电影票房的影响因素。除此之外,该模型的分类形式随机森林分类算法在数据的分类领域也被广泛的应用。
随机森林回归模型集成了若干子模型,采用bootstrap重抽样方法选择训练样本,共抽取n次,并赋予每个样本等权重;在子模型的权重赋值上,每个子模型等权重。除此之外,通过随机抽样方法构建模型可有效降低数据的过拟合以及噪声对模型的影响。
(二)结果分析
在训练时,我们采用10次交叉验证的方法,验证模型是否出现过拟合。同时,我们基于R2指标来检验模型的训练效果,并与单个树回归子模型进行对比,验证随机森林回归模型的有效性,具体结果见表2。
可以看出,基于随机森林算法构建的票房预测模型可以较准确的拟合所给数据。除此之外,通过计算删除某个变量前后模型结果的变化,本文得出了影响电影票房的主要因素及其对应的重要性大小,具体见表3。
可以发现,在所选的指标中,同档期影片竞争、片花和预告片播放量以及点映票房是影响我国电影票房的三个主要因素,而是否改编以及是否续集对电影票房的影响较小。因此,为了保证上映影片能够取得高票房,电影的制作和发行方应更加注重影片的前期宣传工作,以便营造良好口碑来赢得观众青睐;同时应尽量避免与多部强势影片同时上映,以免同期票房过多流失。
五、总结
本文通过网络爬虫技术,在艺恩网站上抓取2010-2018年中国国产电影票房排名在前30的相关数据,并基于随机森林算法构建了国产电影票房的预测模型。并得出同档期影片竞争、片花和预告片播放量以及点映票房三个指标是影响国产电影票房的主要因素,而相比之下,电影否改编以及是否续集对票房的影响较小。相关结论既可以为民间投资者提供一定的投资参考,也可为电影的制片人、发行方等提供指导,助力电影票房实现新的突破。
注释:
i http://www.cbooo.cn/year?year=2019
【参考文献】
[1]Barry R. Litman,Linda S. Kohl, Predicting Financial Success of Motion Pictures:The 80s Experience[J]. Journal of Media Economics 1989:51-95.
[2]Sochay S. Predicting the Performance of Motion Pictures[J]. Journal of Media Economics,1994,7(4):1-20.
[3]Ramesh Sharda; DursunDelenShard.Predicting Box-Office Success of Motion Pictures with Neural Networks[J].Expert Systems with Applications,2006,30(2):243-254
[4]Barman; D.;Chowdhury; N.;Singha.To Predict Possible Profit/Loss of a Movie to be Launched Using MLP with Back-PropagationLearning[C].NJ:IEEE Press,2012,15(06):322-325
[5]Byeng-Hee Chang and Eyun-Jung Ki.Devising a Practical Model for Predicting Theatrical Movies Success:Focusing on the Experience Good Property[J]. Journal of Media Economics 2009,18(3):61-97
[6]張玉松; 张鑫 电影票房的影响因素分析[J].经济论坛2009(4)
[7]王铮; 许敏 电影票房的影响因素分析——基于Logit模型的研究[J] 经济问题探索 2013(11)
[8]张慧,王世伟. 基于深度学习对电影票房的预测[J]. 湖北第二师范学院学报,2017(8)
[9]张雪. 基于深度学习卷积神经网络的电影票房预测[D]. 北京 首都经济贸易大学,2017.