APP下载

中国电影市场票房趋势研究

2019-04-04

福建质量管理 2019年7期
关键词:差分代码预测

(优视科技有限公司 北京 100102)

引言

近几年来,随着经济的快速增长,中国国民的收入和生活水平相比以前有很大的改变。人们对物质和精神追求也相对的提高了,从小孩到年轻人再到中老年人,都开始踏入电影院去观看电影了。2017年来自国家新闻出版广电总局电影局的数据显示,我国2017年观影人次达到16.2亿,比上年13.72亿增长18.08%。

同时国家对于文化产业的支持,也推进了中国电影市场的发展。国内大量资本企业的注入也让市场更加活跃,包括互联网企业也纷纷成立了自己的影业公司,如阿里影业,百度影业以及腾讯影业。这些互联网企业的投资加入,无疑是给中国电影市场注入了强大的血液。

目前国内的电影票价趋于稳定,那么电影票房实际就代表了观影人次,所以研究电影市场票房变化,在一定程度上体现了国民观影意愿,同时在一定程度上代表国家经济增长状况以及人均可支配收入的情况。

本文数据来自国家电影专资办 2010-2018年月票房数据。

本文将利用时间序列在研究时间相关问题上的优势,找到适用于研究电影市场票房的时间序列模型,利用参数估计给出模型的参数,最后对模型进行诊断,判断模型的好坏,最后利用已经建立的模型对未来给定的时间进行预测。

一、建立ARIMA模型

ARIMA模型全称为自回归积分滑动平均模型(Autoregressive Integrated Moving Average Model,简记ARIMA),是由博克思(Box)和詹金斯(Jenkins)于70年代初提出一著名时间序列(Time-series Approach)预测方法[1],所以又称为Box-Jenkins模型、博克思-詹金斯法。其中ARIMA(p,d,q)称为差分自回归移动平均模型,AR是自回归,p为自回归项; MA为移动平均,q为移动平均项数,d为时间序列成为平稳时所做的差分次数。所谓ARIMA模型,是指将非平稳时间序列转化为平稳时间序列,然后将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归所建立的模型。ARIMA模型根据原序列是否平稳以及回归中所含部分的不同,包括移动平均过程(MA)、自回归过程(AR)、自回归移动平均过程(ARMA)以及ARIMA过程。

基本步骤:

a.根据时间序列的散点图、自相关函数和偏自相关函数图以ADF单位根检验其方差、趋势及其季节性变化规律,对序列的平稳性进行识别。一般来讲,经济运行的时间序列都不是平稳序列。

b.对非平稳序列进行平稳化处理。如果数据序列是非平稳的,并存在一定的增长或下降趋势,则需要对数据进行差分处理,如果数据存在异方差,则需对数据进行技术处理,直到处理后的数据的自相关函数值和偏相关函数值无显著地异于零。

c.根据时间序列模型的识别规则,建立相应的模型。若平稳序列的偏相关函数是截尾的,而自相关函数是拖尾的,可断定序列适合AR模型;若平稳序列的偏相关函数是拖尾的,而自相关函数是截尾的,则可断定序列适合MA模型;若平稳序列的偏相关函数和自相关函数均是拖尾的,则序列适合ARMA模型。(截尾是指时间序列的自相关函数(ACF)或偏自相关函数(PACF)在某阶后均为0的性质(比如AR的PACF);拖尾是ACF或PACF并不在某阶后均为0的性质(比如AR的ACF)。)

d.进行参数估计,检验是否具有统计意义。

e.进行假设检验,诊断残差序列是否为白噪声。

f.利用已通过检验的模型进行预测分析。

二、样本选取及数据来源

数据来自猫眼电影票房专业版,数据时间范围2011年1月至2018年12月。(见图1)

图1

三、识别模型

对每月的票房进行数据预处理,观察数据时间序列图,使用python完成,结果见图2:(代码见附录1)

图2

观察数据,时间序列具有相对明显的季节性波动,总体呈现上升趋势,同时发现2017-2018年波动相对剧烈,可能会与预测造成比较大的影响。

对时间序列进行分解,可以更加直观的显示了数据的上升趋势,以及年内的季节性波动见图3(代码见附录2):

图3

四、参数估计

首先对数据进行一、二阶差分,二阶差分后的时间序列与一阶差分相差不大,并且随着时间推移,时间序列的均值和方差方式不变,因此可以将差分次数d设置为1(图4为1阶拆分,图5为2阶拆分)

图4

图5

利用python我们可以用for循环来探索不同的组合。对于参数的每个组合,我们使用statsmodels模块的SARIMAX()函数拟合一个新的季节性ARIMA模型,并评估其整体质量。(代码见附录3)

通过迭代计算ARIMA(0,1,0)x(3,2,0,12)产生相对低的AIC值936.269。因此,认为这可能是考虑过的所有模型参数结果中最佳选择。

五、模型诊断

将时间序列数据生成的最佳拟合模型的参数输入到新的SARIMAX模型中,图6、7(代码见附录4):

ARIMAX的输出产生的SARIMAX返回大量的信息,主要观察系数表。coef列显示每个特征的重要性以及每个特征如何影响时间序列。P>|z| 列表示我们每个特征重量的意义。可以发现每个指标的P值都低于或接近0.05,所以模型保留的指标权重相对合理的。见图7

图6

图7

进行模型诊断,图8:

a.在右上的图KDE与N(0,1)的正太分布基本相似

b.左下角的Q-Q图显示,残差(蓝点)的有序分布遵循采用N(0,1)的标准正态分布采样的线性趋势。

c.随着时间的推移(左上图)的残差基本不显示明显的季节性,似乎是白噪声。通过观察右下角的自相关,这表明时间序列残差与其本身的滞后版本具有较弱的相关性。

图8

六、验证模型

根据已经获取的时间序列模型,将预测值与时间序列的实际值进行比较,验证模型的预测准确性。

我们从2018-01-01开始进行预测。(代码见附录5)。设置dynamic=False参数确保我们每一次预测前一个值都可以使用截止到这个时间点的所有完整数据。

观察图9,预测值和实际值还是存在一些偏差,同时置信区间波动较大。

图9

使用动态预测可以更好的表达真实的预测,设置dynamic=True,只使用时间序列中的信息到某一时间节点,之后,使用先前预测时间点的值生成预测。(代码见附录6)

动态预测值相对静态预测值,更加贴合实际值,但是置信区间范围比静态更大。

图10

七、模型预测

对2019年月度票房进行预测见图11,预测的结果相对可以接受,由于数据相对较少,而且波动较大,导致置信区间范围较大,待收集更多数据后,模型还有继续优化的空间。(代码见附录7)

图11

八、模型优缺点及推广

模型优点:ARIMA模型多使用于时间序列,模型简单,只需要内生变量而不需要借助其他外生变量,并且在建模过程中有多种方法可以选择,在模型的诊断过程中能对模型的好坏进行评价,对于预测起到正向的作用。

模型缺点:ARIMA模型对数据进行预测时,要求时序数据是稳定的,或者通过差分化之后是稳定的;本质上只能捕捉线性关系,不能捕捉非线性关系。对于短期的预测效果相对较好,对于长期的预测由于很多宏观因素的影响,其预测精度就会下降,误差增加。

模型推广:ARIMA模型对于大多数以时间为变量的趋势都有相对理想的拟合效果,可以广泛应用于气温、税收、降水量等研究中。

猜你喜欢

差分代码预测
RLW-KdV方程的紧致有限差分格式
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
数列与差分
创世代码
创世代码
创世代码
创世代码
不必预测未来,只需把握现在