APP下载

基于ARIMA模型的电影票房收入预测

2019-08-27郭苗苗

价值工程 2019年20期
关键词:ARIMA模型预测

郭苗苗

摘要:电影行业是我国文化产业的核心,而电影票房收入影响着电影行业以及我国文化产业的持续发展,因此对电影票房的预测就显得尤为重要。文章以2013年3月至2018年12月全国电影票房收入为数据基础,建立了全国电影票房收入的自回归移动平均(ARIMA)模型,并对2019年1月至2019年10月我国电影票房收入进行了预测。

Abstract: The film industry is the core of China's cultural industry, and the movie box office income affects the film industry and the sustainable development of China's cultural industry. Therefore, the prediction of the box office of the movie is particularly important. Based on the national box office receipts from March 2013 to December 2018, this paper establishes the autoregressive moving average (ARIMA) model of national box office receipts, and the box office receipts of Chinese movies from January 2019 to October 2019. A prediction was made.

關键词:ARIMA模型;电影票房收入;预测

Key words: ARIMA model;movie box office income;forecast

中图分类号:J943                                          文献标识码:A                                  文章编号:1006-4311(2019)20-0258-04

0  引言

随着人民生活水平的不断提高,电影已经成为人们娱乐消费的一种新方式。与此同时作为我国文化产业的重要组成部分,电影行业在良好的政策支持下取得了飞速发展。2010年国务院提出要将文化产业发展为国民经济支柱产业。2017年《中华人民共和国电影产业促进法》的实施标志着我国电影行业立法的突破,也是我国文化体制改革的巨大进步。据统计2018年共上映400多部新电影,全国电影总票房收入超过593亿元。电影行业的快速发展推动了投融资方式的不断拓展,影片预售融资、版权质押、电影版权资产证券化等融资方式不断出现[1]。但电影行业作为高风险的文化行业,其投资的市场风险巨大。我国是全球第3大电影生产国,目前我国电影市场上只有少数电影投资能够盈利,大部分的电影项目难以收回成本[2]。电影票房作为一部电影的经济收入,在一定程度上代表了该电影投资项目是否成功,因此电影票房收入的预测是确保电影发行投资回报、控制发行风险的重要手段,对于电影项目投资决策有着重要的实际意义。同时电影票房还影响着其衍生品产业的发展潜力,是电影产业持续发展的动力源泉;从文化效益来看,电影票房代表着文化传播的社会效益,同时也决定着电影产业的经济效益和文化效益的综合贡献水平[3]。

关于电影票房的研究开始于20世纪80年代,其中巴瑞·李特曼提出的经典的电影票房研究模型奠定了电影票房研究的基本模型和方法[4]。近年来,有学者基于网络搜索引擎的数据研究了其对电影票房的影响。Kulkarni等人研究发现上映之前关于影片的网络搜索存在一定的规律性,并且加入网络搜索这一影响因素可以提高预测精度[5]。王炼建立了基于网络探索的票房预测模型,证明了网络搜索量以及增长趋势都能预测到该影片的首映周票房[6]。大数据技术的发展解决了电影行业相关数据获取方式少,获取难度大和数据量小等问题,因此对电影票房预期的研究也越来越多。王文文选择在大数据条件下使用社会化媒体中的电影资料数据来分析票房收取,结果显示社会媒体的评论数据在电影上映一周后对票房有着正向的影响[7]。李雪研究了网络视频社会化分享对电影票房的影响,结果显示消费者将预告片在社会化媒体上分享的次数越多,票房收入越高[8]。汪旭晖、王军主要对我国电影“高票房低口碑”现象做出了解释,其根本原因在于电影在追求视觉效果的同时忽视了内容的锻造,影片文化内涵的缺失[9]。王锦慧主要对我国电影版权商业价值进行了研究。研究结果表明,在国内电影高速发展阶段,档期的重要性,票房收入开始分散,这有利于我国电影产业的进一步发展[10]。王峥、许敏利用Logit模型验证了明星名导效应在票房上呈现边际递减[11]。戴建华、郑意凡基于2012至2016年上映的电影票房数据研究了电影票房的延续性问题,研究发现电影导演和主演曾经的电影成绩有着延续性,但系列电影的票房收入未表现出延续性[12]。郑坚基于电影票房预测精度不高、缺乏实际应用价值等缺陷提出了基于神经网络的电影票房预测模型[13]。

上述研究大多都研究了影响电影票房收入的因素,并在此基础上对电影票房收入进行了预测。但是由于影响电影票房的因素多种多样,上述预测模型中的诸多影响因素在电影上映之前并不能获取,并且很多影响因素难以量化,电影票房中存在不能用客观因素解释的影响因素,因此该类预测存在着预测精度不高的问题,这不仅会加剧投资者的投资风险,更会对我国电影行业的长期发展造成不利的影响。电影票房收入作为典型的时间序列,其自身包含着大量的信息,并且存在着一定的趋势性和周期性,因此本文选取2013年3月至2018年12月的电影票房收入这一时间序列,建立电影票房收入的ARIMA模型,对电影票房收入进行预测。

1  ARIMA模型及建模步骤

ARIMA模型即自回归移动平均模型,是一种著名的时间序列预测模型,该模型将预测对象的观测值按照时间进行排序形成一个随机序列,该序列随着时间的变化而变化,其可以通过自回归移动平均过程来生成,即该时间序列可以由其自身的过去值或滞后值和随机干扰项来解释。ARIMA模型可以表示为SARIMA(p,d,q)(P,D,Q)s,其中p为自回归系数,q为移动平均系数,P为季节性自回归系数,Q为季节性移动平均阶数,d为非平稳时间序列转换为平稳时间序列时所做的差分阶数,D为季节性差分阶数,s为季节周期[14]。

ARIMA模型的建模步骤主要包括:①平稳性检验和模型识别。首先对所观察的时间序列的平稳性进行检验,若该时间序列为非平稳时间序列,需要根据其序列特点进行平稳化,最终对平稳化后的时间序列根据其自相关图(ACF)和偏自相关图(PACF)识别出模型形式[15]。②参数估计。采用极大似然法对模型进行初步的参数估计,此时样本容量最好在50以上。③诊断与检验。所得参数必须使用t检验来检测其显著性,同时残差项必须通过Q检验,即残差序列必须近似为一个白噪声过程。④模型预测。将模型预测值与观测到的实际值进行比较,检验模型的预测效果。

2  模型构建

首先本文采用2013年3月至2018年12月共70组全国电影票房收入的历史数据作为实验研究的基础,建立全国电影票房收入模型。其次预测2013年3月至2018年12月全国电影票房收入的数据,与2013年3月至2018年12月全国电影票房收入实际值进行比较,检验模型的拟合程度。最终使用此模型对2019年1月至10月票房收入进行预测。

2.1 平稳性检验

将2013年3月至2018年12月的全国电影票房收入绘制时间序列图,如图1所示。可以看出该图具有一定的季节性,全国电影票房收入时间序列不平稳。为了进一步检验平稳性,对该时间序列进行ADF单位根检验,计算结果如表1所示,在1%、5%、10%的显著性水平下,t值均大于单位根检验的临界值,且p值为0.8989,大于显著性水平0.05,因此进一步证明该序列为非平稳时间序列。

2.2 序列平稳化

对原始的全国电影票房收入时间序列进行一次差分和一阶12步季节性差分,所得结果的时序图如图2所示,可以看出该时序图无明显趋势性,并且在零附近上下波动,差分后的全国电影票房收入时间序列具有平稳性。

2.3 模型初选

绘制差分后时间序列的自相关图(ACF)和偏自相关图(PACF),如图3所示。自相关图和偏自相关图均呈现拖尾特征。自相关图中,1、3、4阶显著地不为0,则q取值可为1、3或4。12阶函数值显著不为0,24阶函数值在置信区间内,因此Q取值为1。在偏自相关图中1阶和3阶显著不为0,则p取1或者3。12阶函数值在置信区间内,因此P取0,且d=1,D=1,s=12。基于以上分析,可以得到如下6个备选模型,分别为ARIMA(1,1,1)(0,1,1)12、ARIMA(1,1,3)(0,1,1)12、ARIMA(1,1,4)(0,1,1)12、ARIMA(3,1,1)(0,1,1)12、ARIMA(3,1,3)(0,1,1)12、ARIMA(3,1,4)(0,1,1)12。

2.4 模型确定和参数估计

对备选模型进行参数估计,得到6个备选模型的AIC值和参数估计值,各个模型的AIC值如表2所示,根据赤迟信息量准则,最终选定模型为ARIMA(1,1,1)(0,1,1)12。该模型参数估计结果如表3所示。

2.5 模型检验和预测

对ARIMA(1,1,1)(0,1,1)12的残差进行检验,结果如图4所示,残差序列的自相关函数值均在置信区间内,因此认为模型ARIMA(1,1,1)(0,1,1)12的残差序列为白噪声序列,ARIMA(1,1,1)(0,1,1)12模型通过检验。

基于ARIMA(1,1,1)(0,1,1)12模型,对2013年3月至2018年12月的数据采取静态预测的方式滚动的进行向前一步预测,得到的结果如图5所示,拟合值和观测值之间存在一定差距,但差距较小,因此模型的拟合程度总体上较好。继续使用该模型,采用动态预测的方式对2019年1月至10月全国电影收入进行预测,得到结果如圖6所示。可以看出,我国电影票房收入在2019年2月左右会出现大幅上涨,2019年1月至10月整体的电影票房收入较2018年可能有所回落。

3  结论

电影票房收入是衡量一个电影项目投资成功与否的重要标志,它不仅仅影响着电影投资者,更是对我国电影行业甚至文化行业的持续发展有着重要的影响。本文基于2013年3月至2018年12月全国电影票房收入数据,建立了全国电影票房收入的ARIMA模型,经过模型检验和拟合,本文选取的最优模型为ARIMA(1,1,1)(0,1,1)12,该模型的预测数据与全国电影票房收入的真实值相差较小,拟合程度好。综上所述,该模型在预测全国电影票房收入方面效果较好,基于该模型对全国电影票房收入进行预测,可以为我国电影行业的投资和发展提供一定的理论依据。但是因为我国电影票房数据存在着数据量少,数据统计不完全的情况等问题,本文预测存在一定的局限性,在今后的研究中,可以在拓展数据量的基础上建立更为合适的模型,来提高预测精度。

参考文献:

[1]王锦慧,卜彦芳,李念.华莱坞电影票房预测模型的实证分析[J].新闻大学,2016(01):9-14,145.

[2]王艳,金天星.市场营销与风险评估双重视角下的电影票房预测——以中影集团推出电影票房量化分析系统为例[J].中国电影市场,2012(03):11-12.

[3]姚武华.中国内地市场国产电影票房特征及其影响因素研究——基于PLS模型的实证分析[J].价格理论与实践,2018(02): 83-86.

[4]Litman B, Kohl L. Predicting Success of Theatrical Movies: The 80s Experience[J]. Journal of Media Economics, 1989, 2: 35-50.

[5]Kulkarni G, Kannan P, Moe W. Using online search data to forecast new product sales[J]. Decision Support Systems, 2012, 52(3): 604-611.

[6]王炼,贾建民.基于网络搜索的票房预测模型——来自中國电影市场的证据[J].系统工程理论与实践,2014,34(12):3079-3090.

[7]王文文,周澍民.社会化媒体对电影票房的预测价值研究[J].新闻传播,2013(12):254-255.

[8]李雪,伍晨.网络视频的社会化分享对国产电影票房影响的实证研究[J].技术经济,2016,35(01):103-109.

[9]汪旭晖,王军.网络口碑如何影响电影票房——中国电影“高票房低口碑”现象反思[J].湖南师范大学社会科学学报,2015, 44(02):152-160.

[10]王锦慧,晏思雨.中国电影版权商业价值评估模型研究[J]. 当代电影,2015(11):73-80.

[11]王铮,许敏.电影票房的影响因素分析——基于Logit模型的研究[J].经济问题探索,2013(11):96-102.

[12]戴建华,郑意凡.电影票房表现的延续性研究[J].现代传播(中国传媒大学学报),2018,40(08):124-129.

[13]郑坚,周尚波.基于神经网络的电影票房预测建模[J].计算机应用,2014,34(03):742-748.

[14]解建仓,王玥,雷社平,等.基于ARIMA模型的大坝安全监测数据分析与预测[J].人民黄河,2018,40(10):131-134.

[15]贺箫楠,宋晓辉,朱鑫.基于ARIMA模型的洛阳市手足口病发病率预测[J].现代预防医学,2019,46(03):403-406.

猜你喜欢

ARIMA模型预测
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
选修2—2期中考试预测卷(A卷)
不可预测