基于微博数据的电影票房预测模型研究
2014-04-29杨威李龙澍
杨威 李龙澍
【摘要】以新浪微博中电影主演和导演的粉丝数、相关微博转发量、评论量等微博数据为基础,利用神经网络建立电影票房的预测模型并利用微博数据进行预测研究。研究表明,本文构建的模型可以在一定程度上用于电影票房的预测,其准确率为90%。
【关键词】微博数据;神经网络;电影票房;预测模型
1.引言
据2011年IDC的《Digital Universe Sduty》报告显示,数据以每年超过50%的速度增长,全球信息总量每过两年就会增长一倍。在众多产生大数据的平台中,Twitter、新浪和腾讯微博等使用简单便捷、信息丰富、传播速度快、更新迅速、影响范围广,新浪微博是中国微博产业的主导力量。
电影作为一种生存期短的商品,对其票房的预测难度较大,当前关于电影票房的研究较少。Kyung Jae Lee和Woojin Chang(1999)用贝叶斯网络研究票房的影响因素,给出了预测模型[1]。Sharda R和Delen D(2006)利用影响电影票房的多个属性,以多层神经网络算法为基础,提出一种电影票房分类模型[2]。Marshall P等(2013)提出使用电影历史数据预测电影上映期间的累计观众数量,使用多元线性回归算法预测第1周的观众人数,再用其预测后几周的观众总数[3]。王铮和许敏(2013)基于Logit 模型的研究电影票房的影响因素发现明星和导演存在显著的票房效应[4]。郑坚和周尚波(2014)利用神经网络算法,提出一种基于反馈神经网络的电影票房预测模[5]。
电影上映前,主创人员会对电影进行微博宣传,对电影有潜在消费欲望的网友会关注这些并评论和转发。对粉丝数多的用户,这是一种便宜、高效、传播范围广且迅速的营销方式。本文在此研究基础上,尝试利用神经网络方法,基于微博数据对电影票房进行预测性研究。
2.相关数据收集和处理
2.1 确定数据指标
本文采用新浪微博的相关数据来对电影票房预测研究,选取电影主创的粉丝数,相关转发量和评论量作为票房预测的指标体系(见图1)。
因此,在对票房进行相关分析时提取以电影名称为关键词的相关主创的微博,统一选取电影主演1、主演2、导演的粉丝数、相关微博评论量、转发量作为研究指标并收集数据。粉丝数、转发量和评论量越大对票房的贡献率越大。
图1 电影票房预测的数据指标
2.2 数据收集
电影的微博营销时间通常集中在上映之前和上映的几周之内。为了使本文的研究结果得到验证,本文选择的2013年上映的45部电影研究,电影名称见表1。
本文的数据收集流程见图2:
(1)搜索电影名称确定其导演和主要演员;
(2)查找主演和导演的个人认证微博中以电影名为关键词对其原创和转发的所有微博,收集其粉丝数量;
(3)收集有关电影所发微博的转发数和评论数。
2.3 数据处理
在收集数据时会遇到几个问题:
(1)有的电影主演没有个人认证微博,其粉丝数和转发数、评论数无法收集;
(2)有的电影主演的微博评论对粉丝关闭,只有互粉者可以评论;
(3)由于个人情感等原因,每部电影的相关转发数和评论数差距较大。
鉴于以上问题,需要对采集到的数据进行预处理。
(1)对于没开通微博的主演和导演,以和其影响力相同的微博账户来代替。
(2)对粉丝评论关闭的主演和导演,采用其发布的其他的微博转发数和评论数来近似替代,并采取转发数和评论数求均值来提高对比性。本文收集的电影的部分微博数据见表2、3。
表1 2013年上映的45部电影
序号 名称 序号 名称 序号 名称 序号 名称
1 西游降魔篇 13 不二神探 25 毒战 37 神奇
2 致青春 14 厨子戏子痞子 26 非常幸运 38 控制
3 私人定制 15 无人区 27 逃出生天 39 在一起
4 狄仁杰 16 扫毒 28 天台爱情 40 白狐
5 中国合伙人 17 盲探 29 激战 41 我爱的是你爱我
6 警察2013 18 101次求婚 30 我想和你好好的 42 越来越好之村晚
7 北京遇上西雅图 19 分手合约 31 等风来 43 意外的恋爱时光
8 小时代1 20 全民目击 32 笑功震武林 44 一场风花雪月的事
9 风暴 21 四大名捕2 33 摩登年代 45 超级经纪人
10 富春山居图 22 一夜惊喜 34 忠烈杨家将
11 小时代2 23 特殊身份 35 百星酒店
12 一代宗师 24 被偷走的那五年 36 宫锁沉香
图2 电影微博数据收集流程
表2 部分电影的微博数据
序号 名称 主1粉丝(万) 主1转发量 主1评论量 主2粉丝(万) 主2转发量
1 西游降魔篇 5334 753 1392 2455 1673
2 致青春 515 4379 4539 4208 9436
3 私人定制 412 1226 2055 1809 287
4 狄仁杰 515 819 558 1484 1867
5 中国合伙人 2118 8276 2817 1476 2772
6 警察2013 2216 4461 4574 3759 3519
7 北京遇上西雅图 516 2740 2833 556 5726
8 小时代1 2994 13201 12724 3335 7790
9 风暴 901 232 246 6687 2772
10 富春山居图 901 232 246 556 5726
表3 电影的微博数据
序号 名称 主2评论量 导演粉丝(万) 导演转发量 导演评论 票房
1 西游降魔篇 1979 1739 7060 5875 124603
2 致青春 7796 5712 2401 2109 71888
3 私人定制 173 1739 7060 5875 71210
4 狄仁杰 908 1 386 254 60036
5 中伙 1812 4 65 49 53857
6 警察2013 14724 4 324 72 53266
7 北京遇上西雅图 1979 6 38 22 51967
8 小时代1 5160 3168 22310 8069 48409
9 风暴 1812 1 400 100 31452
10 富春山居图 1979 1 400 100 30013
3.构建模型
3.1 研究工具
采用Spss Clementine12.0软件的神经网络节点构建模型。
3.2 构建神经网络预测模型
微博收集的相关数据采用神经网络来构建电影票房的相关预测模型,需要确定其输入层、隐藏层和输出层的神经元个数。神经网络模型结构见图3。神经网络模型的输入输出变量名和数据类型见表4。
图3 神经网络模型结构
表4 神经网络模型的输入输出变量名
图4 完整的模型图
4.实证分析
4.1 仿真实验
利用微博平台收集的有关45部电影的微博数据进行仿真实验时,使用45个数据的66%作为训练数据,34%作为测试数据,测试集和训练集是采取随机抽样的方法得到的,这两个部分的数据完全分离,没有重复样本。在实验中,将训练数据作为训练集对模型进行训练,使用测试集对模型进行测试。
将主1粉丝数、主1转发数、主1评论量、主2粉丝数、主2评论量、主2转发量、导演粉丝数、导演转发量、导演评论量的方向设置为输入,将票房设置为输出。将神经网络节点加入到模型中,设置神经网络的隐藏层数和每层的神经元数。在神经网络节点的专家选项中选择两个隐藏层,层1选择6,层2选(下转第16页)(上接第13页)择2。基于神经网络的完整模型见图4。
4.2 结果分析
利用微博数据进行建模之后,得出变量重要性见表5。基于数据的分析,可知导演粉和主2粉对电影票房预测模型有着很高的贡献率。如果某部电影导演的粉丝数、转发量和评论量大大高于其他电影导演,那么导演的指标的贡献率比主演的指标要高。在现实的电影票房中,小时代的导演郭敬明和致青春导演赵薇粉丝数、转发量、评论量都远超其他导演,票房也远比其他电影高。
表5 变量的重要性
变量名 变量重要性 变量名 变量重要性 变量名 变量重要性
主2粉丝数 0.24 导演评论量 0.124 导演转发量 0.041
导演粉丝数 0.183 主2转发量 0.117 主1评论量 0.032
主2评论量 0.181 主1粉丝数 0.058 主1转发量 0.025
经过神经网络模型使用训练集数据建模得到的模型的估计准确性为89.894%,即训练集数据的拟合优度为90%,从模型预测的精准性来看,数据量的增多会提高模型的预测结果。
4.3 模型评估
使用训练集数据建立基于神经网络的电影票房预测模型之后,要使用测试集数据对模型预测性能进行评估。本文使用相同的测试集数据分别对电影票房的线性回归模型和决策树模型进行测试,来比对神经网络的预测准确性。三种模型对测试集数据进行预测的平均相对误差见表6,平均误差见图5。可知运用神经网络预测模型具有良好的预测精确度。
表6 三种模型的平均相对误差 %
方法 平均相对误差
神经网络 82.42
C&RT 94.07
线性回归 104.55
图5 三种模型的误差对比图
5.结束语
本文利用Spss Clementine中的神经网络节点构建了电影票房的预测模型。通过结果分析得出电影票房与主演和导演粉、转和评和电影票房的关系,并给出了具体的预测模型。其精确度为89.894%,平均误差相对较小,具有一定的可信度。
但是,本文建模所用的电影数目为45个,进一步加大数据量可以提高模型的精确度,同时微博数据不局限于电影主创们的微博,还可以通过统计一定时间内以某部电影为关键词所发微博总量等数据来预测电影票房,增加输入神经元个数也能提高模型的准确性。下一步的研究可以将微博作为平台,将微博中关于某部电影的情感分析加入到电影票房的预测中,也可进一步考虑微博转发深度、评论活跃程度,以及相关微博数量随电影上映日期临近的变化趋势等数据,这些都可以被有效的提炼为特征并加入到模型中。
参考文献
[1]Ramya Neelamegham,Pradeep Chintagunta.A Bayesian Model to Forecast New Product Performance in Domestic and International Markets[J].Marketing Science,1999,18(2)115-136.
[2]Sharda R,Delen D.Predicting box-office success of motion pictures with neural networks[J].Expert Systems with Applications,2006,30(2):243-254.
[3]MarshallP,Dockendorff M,Ibanez S.A forecasting system for movie attendance[J].Journal of Business Research,2013,66(13):1800-1806.
[4]王铮,许敏.电影票房的影响因素分析——基于Logit模型的研究[J].经济问题探索,2013,11:96-102.
[5]郑坚,周尚波.基于神经网络的电影票房预测建模[J].计算机应用,2014,03:742-748.