基于随机森林回归模型的国产电影票房预测

2020-04-02李旺泽

湖北工业大学学报 2020年1期

李旺泽，郑列

(湖北工业大学理学院，湖北武汉 430068)

电影是文化产业当中最具产值的消费艺术之一。在中国，电影票房从2010年的101.72亿元猛增至2017年的559.11亿元，2018年11月25日，当年国产电影总票房达到了559.12亿元，已超过前一年全年票房。伴随政府相关扶持政策不断出台，腾讯、阿里在内的众多互联网巨头投资电影产业。但中国电影市场的实际情况却是，国产电影从2017年开始80%都处于亏损状态，因此有必要建立一个合理的模型来研究影响中国票房收入的因素，在电影发行前预测该电影的票房收入。

1 国内外研究现状

20世纪80年代，国内外的学者开始了对电影票房预测模型的研究。Barry Litman(1983)[1]作为电影票房预测的鼻祖，认为电影票房受发行、创意及营销三角度的影响，故选取了导演、出品地、类型、档期、提名等10个因素，对700多部电影运用多元线性回归的方法进行电影票房预测研究。Scott Sochay(1994)[2]改进了 Barry Litman 提出的模型，增加了放映周数的预测，并且将变量进一步细分，从原本的 14 个影响因子增加到 22 个。可惜的是以上两种预测方法的准确率分别为 25%和 38%。Ramesh Sharda 和 Dursun Delen(2007)[3]首次提出用BP神经网络模型来预测电影票房，且预测准确率达到了65%。Google(2013)[4]开发了其自有的票房预测系统，选取电影上映前一周的搜索量和广告点击量等为影响因素建立了线性回归模型，认为这些影响因素与电影票房之间的关系是简单的线性关系，其得到的预测准确率高达94%，但是其模型与数据没有对外公开。

我国对电影票房预测的研究在2012年开始。郑坚(2012)[5]等人利用反馈神经网络技术开创了中国国内电影票房量化研究的先河，将国内电影票房预测带上了理论和方法技术的新层次，其模型的预测准确率为80%。杨威(2014)[6]从搜集到的微博数据数量特征、情感特征和宣传特征三个角度，建立了多元线性回归、SVM和BP 神经网络模型。史伟(2015)[7]以网络评价为视角，用微博中的情感信息来预测电影票房收入。罗捷(2015)[8]添加了外国影片对票房有所影响这个指标，利用回归模型建立票房预测模型。聂鸿迪(2015)[9]选取了22个变量，建立了多元回归模型解释了各个影响因素对电影票房的影响，然后通过建立BP 神经网络模型来预测票房。王伟(2015)[10]对神经网络模型进行了改进，加入了记忆层增加对异常值进行处理。王跃华(2016)[11]从制片、宣传和发行的角度出发，建立了由质量、宣传、档期、排片等因素组成的票房影响因素钻石模型。2017 年滑瑶等[12]着重研究了电影票房的季节性影响因素，建立Holt-Winter 无季节指数平滑模型，对国内电影票房进行预测；2017 年张雪[13]采用了深度学习方法卷积神经网络来预测电影票房。上述国内学者电影票房预测模型精度基本都在80%左右。

2 数据来源及说明

笔者从猫眼网、艺恩网、时光网、微博以及电影票房网选取了电影的6个类型、年份、首日票房、观众评分人数、观众想看人数等22个相关因素为自变量。选择了2011年到2018年11月票房过亿的292部电影为研究对象，选择其中的262部电影为训练集，30部电影为测试集。

爬取的部分原始数据见图1。因为原始数据中有很多定性变量，故将对其进行一定的哑变量处理，具体说明见表1。

图1 原始数据

3 模型的构建

随机森林由许多决策树组成，其中每棵树的值取决于随机向量的独立采样。当新样本输入到随机森林模型中时，每个决策树模型都对这个样本进行分类，哪一类选择得多，就预测该样本为哪一类。随机森林最后模型的输出结果由森林中的每一颗决策树共同决定，当分类树变成回归树时，随机森林就可以进行回归预测分析，分类最终结果是每颗决策树的均值。具体构建过程如图2所示。

通过R软件的randomForest包来构建随机森林，分枝变量选择数mtry和树分类器个数ntree的取值将直接影响最后的预测结果和精度。图3和图4是这2个参数不同取值的误差。

图3 分枝变量选择数的确定

图4 树分类器个数的确定

最终得到了随机森林回归模型见表2。

表2 随机森林回归模型

建立树分类器ntree个数为55，分枝变量选择数mtry为11的回归类型随机森林，平均残差平方为7.909841，其方差解释能力为80.81%。说明模型拟合较好。

4 结果与分析

精度平均减少值和节点不纯度的平均减少值是度量变量重要性的指标，其值越高表示该变量对结果越重要，影响越大。由图5知，观众评分人数、首日票房、首周票房、观众想看人数、明星影响力、导演影响力、编剧影响力、制式、电影评分等因素相对电影类型和出品公司和发行公司等因素更为重要。

图5 指标重要度

采用 Mean Absolute Percentage Error(MAPE)对建立的随机森林电影票房预测模型进行评估：

其中n是样本量，通过建立的随机森林模型训练得到的结果值为Xi，实际的电影票房为Yi。MAPE值越大，说明建立的随机森林电影预测模型得到的值与实际电影票房差距越大，即说明模型的预测效果越差。本文建立的随机森林回归电影票房预测模型的MAPE值为0.1525845，即平均预测精度达到了85%左右。

表3 模型预测结果

图6 电影票房预测结果

5 结论

本文从国产电影票房市场出发，把电影实际票房作为被解释变量，观众评分人数、首日票房、首周票房、观众想看人数、明星影响力、导演影响力、编剧影响力、制式、电影评分等22个因子作为解释变量，基于随机森林回归模型的方法建立了国产电影票房模型,在预测精度上有一定改善。本文研究结果表明，前期影片的宣传力度和频率，主创演员、导演和编辑的知名度，电影本身的ip效应和影片类型的商业价值，以及合理的特效技术和档期安排等都是影响电影取得高票房必不可少的因素。