基于深度学习对电影票房的预测
2017-10-23王世伟
张 慧,王世伟
(兰州财经大学, 兰州 730030)
基于深度学习对电影票房的预测
张 慧,王世伟
(兰州财经大学, 兰州 730030)
随着生活水平的提升,电影作为一种娱乐消费品,已经成为人们生活之中不可或缺的商品,因此对电影票房的预测有着重要的意义。文章将基于多元回归和深度学习设立模型,把2015和2016两年的票房前25部作为研究对象,随机抽取10部作为预测集,其它40部作为训练集,从而分析得出影响电影票房的相关因素以及预测电影票房的最佳模型。
预测;票房;多元回归;深度学习
随着社会生活水平的提高,电影已经逐渐融入人们的生活之中,成为大众消费娱乐的一种特殊商品。从2012年暑假档开始,中国电影市场进入了一个前所未有的新阶段,根据权威网站报道,中国的电影票房将在2017年末创造全球电影市场的新高点,电影市场的蓬勃发展对中国经济的未来也有巨大的影响。
一部电影的成功与否,主要受其观众的喜爱程度、奖项提名和票房高低的影响。观众口碑的好坏是直接反映这部电影在群众中价值大小的标准,奖项的提名则从专业的角度评价了这部电影的实质内涵,而票房高低则是对电影在经济上是否成功的直接衡量,也是决定该影片收益与知名度的重要指标。纵观电影历史,票房高、口碑好的影片不仅会提升导演和演员的知名度与片酬,而且还会拍摄续集,延续该部电影所带来的经济价值。由于影响电影票房的因素众多,因此,对票房预测的研究具有极其重要的意义。
早在20世纪后期,国外已经有很多优秀学者对电影票房预测模型做了相关研究,最为典型的有:Barry R.Litaman和Linda S.Kohl的票房预测模型;Scott Sochay的票房预测模型和Byeng Hee Chang与Eyun Jung 的预测模型。其中,Barry R.Litaman和Linda S.Koh的票房预测模型把顶级导演、演员、起源地(北美地区)、科幻类型、续集、暑假放映、电影提名、剧情、专业评分和大发行公司作为自变量,电影票房作为因变量,根据回归可知电影票房与电影类型、顶级导演、知名演员的相关性不显著,专业评分对票房具有显著的相关性。Byeng Hee Chang和Eyun Jung在模型中将总票房、首周票房和放映时间作为因变量,预算、观众评级、续集、屏幕数量、演员、剧本、专家评级、暑假放映、复活节放映作为自变量。回归表明剧本与票房是负相关,专家和观众评级、屏幕数量、暑假和复活节上映与票房是正相关,而续集与票房不相关。在互联网快速发展的时代,谷歌利用搜索引擎和社交关键词的搜索量、观众对电影的评价和相关网站的预告片点击量来预测电影票房,这是在大数据时代电影票房预测的一个新方法。
本文的创新之处在于结合中国电影市场的现状,将平均票价,上映天数,场均人次,百度指数,3D或IMAX效果,首周票房和影评作为自变量,票房作为因变量。利用多元线性回归模型和深度学习进行建模预测,最后比较得出一种最优模型。
1 变量描述和模型构建
1.1 模型构建的前提假设
价格理论认为商品的价格由供求关系决定,电影作为一种特殊的商品,具有消费和娱乐的双重属性,影响电影票房的因素也具有一定的特殊性。首先,电影作为国民大众的一种消费品,由价格理论可知电影的票价必然会影响票房的高低。一部电影的上映时间长短,一般是由电影制作公司和发行公司与放映公司签订协议决定,所以上映天数也是一个可得的变量。上映天数的长短和场均人次也是票房高低的重要因素之一。其次,在大数据时代,网络搜索指数已经成为时代热潮,百度指数可直接反应人们对该部影视作品的关注度。电影票房和网络搜索数据息息相关,因此,国内最权威的百度指数成为影响电影票房的一个重要因素。再次,在电影科技如此发达的当代,电影作品是否具有3D或IMAX效果会直接影响观众的观影感受,所以电影是否具有3D或IMAX特效已成为观众选择是否观影的一个因素。最后,由于信息流通的高效性,有些观众具有“羊群效应”,在电影上映几天之后,会根据网络和周围人的评价去决定是否观看此部电影作品。因此,首周票房和影评也成为影响观众是否去观看电影的重要因素之一。所以,在上述各种因素的共同作用下,电影票房的变动整体上是有规律可循的。
本文认为,平均票价,上映天数,场均人次,百度指数,3D或IMAX效果,首周票房和影评与电影票房有一定的相关性,基于大数据时代的特点,利用在网络上搜索的各种数据,可以建立适当的模型对电影票房进行预测。
1.2 变量和数据描述
1.2.1 研究对象
由于每年在中国电影市场会上映几百部电影作品,其中包括一些极具代表性和不具代表性的影视作品,所以本文将选取中国票房网2015年,2016年这两年票房前25名作品作为研究对象,通过对平均票价,上映天数,场均人次,百度指数,3D或IMAX效果,首周票房和影评这些变量的分析,建立模型来预测随机抽取的10部电影票房。
1.2.2 数据描述
(1)平均票价和场次人均。选取中国票房网提供的数据,一般在电影上映之后,就会及时更新其票价和场次人均。
(2)上映天数。根据中国票房网的统计,查到该部电影的上映天数。
(3)百度指数。根据百度官网的统计,选取电影上映前后时间段的平均值。
(4)3D和IMAX特效。数据来源于中国票房网,在数据的分析中作为虚拟变量,具有3D和IMAX特效的电影作品赋值为1,不具有3D和IMAX特效的电影作品赋值为0。
(5)首周票房。数据来源于艺恩网公布的该部电影的首周票房。
(6)影评。数据选取是根据国内最受欢迎的豆瓣网统计的结果,其取值为0-10分。
1.3 电影票房预测模型构建
1.3.1 多元回归模型
多元回归分析预测法,是指通过对两个或两个以上的自变量与一个因变量的数量变化关系,建立预测模型进行预测的方法。表现这一数量关系的数学公式,称为多元线性回归模型。
y=c0+c1x1+c2x2+…+ckxk+ε
其中:c0是常数项,表示当各自变量均为0时y的估计值;c1,c2…ck为样本的偏回归系数,表示其它自变量不变时,每改变一个自变量,y的平均变化量;ε为随机误差项,它表示包含在里面但不能被这些自变量的线性关系所解释的一项。
1.3.2 深度学习模型
本文的深度学习模型将采用卷积神经网络,利用卷积神经网络在图像识别等领域的预测研究,来实现对电影票房的预测。
(1)卷积神经网络概述
卷积网络(convolutional network)(LeCun,1989),也叫做卷积神经网络(convolutional network,CNN)是受生物灵感的多层感知机的变体。是一种专门用来处理具有类似网格结构的数据的神经网络。[3]由“卷积”一词可知该种神经网络用运了数学中的卷积算法,即一种特殊的线性运算。
卷积神经网络区别于一般的神经网络,它的特点一方面为层与层之间的连接并不全是全连接,而是局部连接,它的作用就是大幅度减少参数;另一方面是同层中的有些神经元的权重是共享的,即权值共享。卷积神经网络的特点不仅降低了网络模型的复杂度,还减少了权值的数量。其运算主要通过三种重要的思想来帮助机器学习系统:稀疏交互,参数共享,等变表示。[4]
(2)卷积神经网络的结构
卷积神经网络是为了识别二维形状而特殊设计的一个多层感知器,这种网络结构对平移,比例缩放,倾斜或者其他形势的变形具有高度不变性。这些良好的性能是网络在监督方式下学会的,网络的结构主要有监督方式下学会的,网络的结构主要有稀疏连接和权值共享两个特点,包括如下形势的约束:特征取值;特征映射;子抽样。[5]
(3)卷积神经网络的预测过程:
下采样:即池化,其目的是缩小特征图,池化规模一般为2×2。对神经中枢j的输出θj,需要使用池化函数downsample,池化后的结果为Sj=downsample(θj)
光栅化:经过池化、下采样之后,将特征图的像素依次排成一个向量。对特征图X1,X2,…Xj光栅化后的到向量
ok=[x111,x112,…,x11n,x122,…,x12n,…x1mn,…,x2mn,…,xjmn]T
多层感知器预测。即将经过光栅化后的向量连接到多层感知器。
CNN的参数估计。CNN的参数估计应用backpropagation 的办法,只需要针对卷积神经网络的特点进行一些修正,从高层到底层,逐层分析。
最后的实现。以层为单位,分别实现卷积层、池化层、光栅化层、MIP隐层、softmax层的类,其每一类都使用output和backpropagation这两种方法。
图1 CNN预测过程
本文将采用最新的Matlab2017a中的regression learner模块来实现对电影票房模型的预测。
2 电影票房预测实证分析
2.1 基于多元线性回归模型的电影票房预测
将40部电影作为训练集做多元回归方程,变量的赋值如下:
y:每部电影的票房;x1:电影影评;x2:3D或IMAX效果;x3:首周票房;x4:上映天数;x5:百度指数;x6:平均票价;x7:场次人均。
2.1.1 通过软件Eviews8进行模型的建立,结果如表1:
表1 多元回归结果
由表1可知,常数项的P值较大,因此舍去常数项,模型的方程为:
Y=9029X1+23954X2+0.94X3+466X4+0.12X5-738X6+1275X7
t=(2.55)(1.46)(6.49)(1.60)(5.06)(-0.35)(1.64)
2.1.2 模型的检验:
(1)经济意义检验
模型的回归方程表明,在假定其它变量影响不变的情况下,影评提高一个单位,票房将提高9029万元;在假定其它变量影响不变的情况下,电影是3D或MAX效果的话,票房将会提高23954万元;在假定其它变量影响不变的情况下,首周票房提高一个单位,票房将提高0.94万元;在假定其它变量影响不变的情况下,上映天数提高一个单位,票房将提高466万元;在假定其它变量影响不变的情况下,百度指数提高一个单位,票房将提高0.12万元;在假定其它变量影响不变的情况下,平均票价提高一个单位,票房将降低738万元;在假定其它变量影响不变的情况下,场均人次提高一个单位,票房将提高1275万元。
(2)统计检验
2.1.3 预测
将10部电影的相关变量带入上述回归方程,预测结果和真实值如表2:
表2 多元预测结果
2.2 基于深度学习的电影票房预测:
2.2.1 对数据进行预处理
深度学习第一步是数据预处理,卷积神经网络也一样。本文经过预处理的数据将在卷积层中更容易训练与学习。
2.2.2 样本训练集的确定
正如前面介绍卷积神经网络的算法过程所言,样本训练集的确定十分重要。一方面是因为它的神经元间的连接时非全连接的,另一方面同层中某些神经元之间的连接的权重是共享的。
2.2.3 网络设计
运用Matlab2017a软件实现这一模型设计。根据本文之前的介绍,我们知道该模型的输入层7个神经元,输出层1个神经元。由于卷积神经网络的优越性,中间的运行过程会减少复杂度,共享权重。用软件将训练样本反复训练,直至模型的误差率小于,软件训练结束,需要的卷积神经网络预测模型拟合完成。然后将测试的样本数据输入训练好的卷积神经网络模型中,从而检验卷积神经网络的预测能力。
2.2.4 网络预测
预测结果如表3:
表3 CNN预测结果
由上述的实证分析可知,本文基于平均票价,上映天数,场均人次,百度指数,3D或IMAX效果,首周票房和影评这些变量,采用多元线性回归和深度学习分别对40部电影票房进行了模型拟合以及对10部电影票房成功的进行了预测。
虽然多元线性回归模型和深度学习都有较高的准确率,但是在预测效果方面多元线性回归模型比深度学习的预测误差率大。从总体来看,深度学习的精准度比多元线性回归模型更高。由于电影票房是以万元作单位,因此误差率在[-10%,10%]之间是可接受的。在多元回归模型中,序号6的电影票房预测误差率为14%,这是因为该部电影是由一部游戏拍摄而成,在以前的电影市场中几乎未出现过,所以误差率为14%是有因可循。
3 结论与展望
3.1 结论
本文基于多元回归和深度学习对电影票房的相关变量进行了模型拟合以及对10部电影票房进行了预测,得出了如下结论:
由多元回归模型预测可知,电影特效对电影票房的相关性最大,虽然特效在本文中只是虚拟变量,但也由此可知市场对3D或MAX电影的需求量很大。就近几年电影市场来看,电影公司应该提高制作该种电影的比例。
影评与电影票房的相关性是显著的,所以一部电影的票房高低,最重要的还是电影的本质。电影发行公司与制作公司想要获得高票房,应该从电影的质量出发,好质量的电影才是高票房的关键。由于“羊群效应”,电影公司应该在电影上映初期加大宣传力度,首周票房也是电影票房高低的一个显著性因素。
最后,电影作为一种大众消费品,票价应当适中,让电影真正成为大众消费的娱乐品。
3.2 展望
随着人们生活的网络化,百度指数等搜索数据已经成为预测电影票房的重要因素之一。因此,如果能够获得更多类似于百度指数的这种调查数据,电影的票房预测将会更加精准,模型的拟合度将会更高。同时,随着深度学习在预测方面的功能越来越强大,卷积神经网络也从图像识别等领域转向模型预测,所以只要能够取得相关数据,该种模型还可用于预测医疗健康、房地产开发和农业产品价格等方面。
[1]王锦慧,卜彦芳,李念. 华莱坞电影票房预测模型的实证分析[J]. 新闻大学,2016,(1):9-14+145.
[2]唐鹤隽. 多元回归和神经网络在武汉市房地产预测中的应用比较[D].华中科技大学,2013.
[3]汪济民. 基于卷积神经网络的人脸检测和性别识别研究[D].南京理工大学,2015.
[4]徐东升. 机器学习常用算法(LDA,CNN,LR)原理简述[BE/OL].http://www.mamicode.com/info-detail-1155938.html 2015-12-21 /2017-7-1.
[5]张旭亚. 基于特征提取和机器学习的医学图像分析[D].南京邮电大学,2011.
[6]陈先昌. 基于卷积神经网络的深度学习算法与应用研究[D].浙江工商大学,2014.
[7]李思琴. 基于深度学习的搜索广告点击率预测方法研究[D].哈尔滨工业大学,2015.
[8]DENG ChenWei,HUANG GuangBin,XU Jia,TANG JieXiong. Extreme learning machines: new trends and applications[J]. Science China(Information Sciences),2015,(2):5-20.
[9]Kulkarni R.,Haynes K.,Stough R., et al. Forecasting Housing Prices with Google Econometrics:A Demand Oriented Approach [C].Working Paper,2009.
Movie Box Office Price Prediction Based on Deep Learning
ZHANG Hui, WANG Shi-wei
(Statistics Institute, Lanzhou University of Finance and Economics, Lanzhou 730030, China)
With the improvement of living standards, films, as recreational products, have become an indispensable part of people’s lives, and hence the film box office forecast is of great significance. In this paper, we will set up a model based on multiple regression and deep learning and use the top 25 movies on the box office standings in 2015 and 2016 as the research object, randomly selecting 10 movies as the forecast set and the other 40 movies as the training set to analyze the factors impacting the film box office and work out the best model to predict movie box office.
forecast; box office; multiple regression; deep learning
F224
A
1674-344X(2017)8-0060-05
2017-06-15
张 慧(1991-),女,甘肃天水人,硕士,研究方向为深度学习。王世伟(1991-),男,河南邢台人,硕士,研究方向为文本挖掘和深度学习。