结合区间理论熵权和TOPSIS的映前总票房区间预测

2020-09-01唐中君周亚丽

工业工程 2020年4期

唐中君，周亚丽

(北京工业大学经济与管理学院，北京 100124)

我国电影产业不断繁荣发展，2019年全国总票房达642.66亿元，银幕总数超越北美，成为全球最大的电影市场。虽然我国电影产业不断发展壮大，规模增长迅速，但是不同电影的投资回报存在较大的波动性。2019上半年国产电影前50部中仅有13部盈利；引进片中，《X战警：黑凤凰》等收益情况也不容乐观。因此，电影票房预测有助于制定有效决策和规避风险。

对电影票房的预测可分为上映前和上映后的预测。电影的生命周期极短，上映前的预测显得尤为重要[1]。上映前可获得的票房影响因素有电影类型、导演票房影响力(以下简称导演影响力)、演员票房影响力(以下简称演员影响力)[1-6]、上映期票房影响力(以下简称上映期影响力)[3-6]、影片预告片播放量[6]、影片时长[7]等。导演影响力、演员影响力、上映期影响力等因素存在一定程度的模糊性。已有研究对演员影响力、导演影响力的量化方法有奖项提名数总和[5]、设置前一部电影是否成功作为虚拟变量并考虑前一部电影的票房表现[2]、搜索引擎搜索量[3]等。用上映日是否为节假日[6]或放映时间与热门档期的重合天数[5]等量化上映期影响力。这些量化方法没有考虑导演影响力、演员影响力及上映期影响力的模糊性。

对模糊性变量的量化主要有概率和非概率方法[8]。概率方法需得到模糊性变量的精确概率分布。这对于导演影响力和演员影响力等模糊性变量的量化是难以做到的[9]，然而采用非概率方法的区间数表示则是容易的。学者Young[10]提出区间数的思想，并用其解决不确定性和模糊性问题。运用区间理论时，对于模糊性变量无需知道精确值，只需给定大概范围[8]，并且在解决量化问题的同时提高信息利用率。由此可见，对于导演影响力、演员影响力等存在模糊性的变量，采用区间数量化更合理。区间理论不断发展，已广泛应用于工程分析[8,11-12]、综合评价[13]、动态优化[14]、岩爆等级预测[15]等多个领域，但未发现将其应用于电影票房预测方面的研究。

区间数只能用于量化票房影响因素，需结合其他方法才能在上映前预测电影总票房。目前电影票房预测方法有以神经网络为代表的机器学习方法[1-4]、以线性回归为代表的回归类方法[5]、以Bass模型[16-17]为代表的扩散类方法等。这些方法与区间数结合会产生复杂的计算推演过程，但是TOPSIS法[18]则不同，其计算过程简单。该方法依据决策方案的各描述指标与理想解的距离判断决策方案的好坏[19]。方案的各指标值距正理想解越近、距负理想解越远，则该方案越优。将每部电影看作一个方案，以票房影响因素为票房评价指标，取各指标最大值和最小值为理想解，则可通过计算票房评价指标与理想解的接近程度判断电影票房。高理想解贴近度对应高票房；反之，对应低票房。不同影响因素对票房的影响程度不同，需对各因素赋权。区间数和TOPSIS法无法完成对指标的赋权，因此需要一种指标赋权方法。熵权法是一种客观赋权方法，权重结果依赖数据本身，科学合理性高[18]。电影上映前，电影口碑、在线评论、网站评分等重要信息未产生，使得上映前的票房点预测值精度难以保证。此外，电影上映前票房预测主要用于各类投资决策，区间预测值即可满足投资决策要求。不同类型的电影有不同的观众群体，具有不同的票房规律。因此，按照电影类型分别进行票房预测更具可行性。

基于以上分析，本文将构建一种按照电影类型分别收集数据的结合区间理论、熵权法和TOPSIS法的电影上映前总票房区间预测方法。该方法选取票房的重要影响因素作为票房评价指标；采用区间数量化上映期影响力、导演影响力、演员影响力等评价指标；利用熵权法对各指标赋权；通过TOPSIS法得到票房理想解贴近度，确定不同票房级别对应的理想解贴近度区间，从而得到票房区间预测值。采用2015~2017年上映的剧情类和动作类电影验证该方法的有效性。

1 预测方法的构建

1.1 预测方法概述

结合区间理论、熵权法和TOPSIS法的电影上映前总票房区间预测方法如图1所示。该方法包括票房评价指标的选取和量化、基于训练集的票房理想解贴近度区间计算、基于测试集的方法验证和待预测电影票房预测4个阶段。其中，待预测电影票房预测阶段与基于测试集的方法验证阶段流程相同，为方便起见，在图1中，将两者画在一起。图中实线矩形为数据操作过程；平行四边形代表流程输入和输出；箭头代表流程走向。图中，η为理想解贴近度；分别为第i部电影第j个加权规范化后的票房评价指标与正理想解、负理想解的欧几里得距离。

基于训练集的票房理想解贴近度区间计算阶段，以训练集电影数据为输入，通过熵权法确定指标权重区间、计算理想解。该阶段的输出为分级票房的理想解贴近度区间。基于测试集的方法验证(待预测电影票房预测)阶段，以测试集(待预测)电影数据为输入，根据前述指标权重区间和理想解，计算测试集(待测试)电影的票房理想解贴近度。该阶段的输出为测试集(待预测)电影的票房预测级别，即票房区间预测值。

图 1 结合区间数熵权法和理想解法的电影上映前总票房预测方法Figure 1 A prediction method for total box office before released based on interval theory, entropy weight, and TOPSIS

1.2 票房评价指标的选取及量化

一部电影的成功与否，受多方面因素影响。能否从众多因素中选取最关键的因素，关系着电影票房预测有效性。本文选择如下9个因素，建立票房评价指标体系。

1.2.1 百度指数

百度作为全球最大的中文搜索引擎，其指数是分析网民行为的重要数据。电影上映前，电影发行方通常会组织大量的营销宣传活动。百度指数能体现电影营销宣传活动的力度。基于此，选取百度指数为票房评价指标之一。为了保证数据一致性，以电影名称为搜索关键词收集电影百度指数。百度指数区间

其中，DBDi代表第i部电影百度指数区间。由于遗忘效应的存在，本文只收集电影上映前7 d的百度指数。其中，百度指数以d为基本单位；DBDiL、分别代表第i部电影上映前7 d百度指数的最小值和最大值。

1.2.2 微博话题关注度与微博电影视频播放量

电影上映前，发行商通常在国内主流社交媒体“新浪微博”上宣传。宣传方式包括创建电影话题，发布电影宣传片、预告片、花絮片等方式。区别于百度指数，社交媒体数据反映潜在观众对电影的关注程度，是电影票房的重要影响因素[20-21]。因此，选择微博话题关注度、微博电影视频播放量为电影票房评价指标。以上2个指标量化后的值为点数据，为便于计算，将其转化为区间数

其中，DWGi代表第i部电影的微博话题关注度区间；DWG、DWG为第i部电影的微博话题关注度的最小值和最大值(人)；DSPi代表第i部电影的微博电影视频播放量区间；DSP、DSP分别为第i部电影的微博电影视频播放量的最小值和最大值(万次)。

1.2.3 上映期影响力

已有研究证实，票房表现与上映期密切相关[5]。上映期影响力指上映期对票房的影响程度。本文运用区间数量化上映期影响力为

其中，DDQi代表第i部电影的上映期影响力区间；DDQ、DDQ分别代表第i部电影上映期影响力区间的左端点和右端点。本文在文献[4]有关上映期影响力量化的基础上，将上映期影响力转化为区间数。具体日期的影响力区间如表1所示。

表 1 上映期影响力区间Table 1 The influence range of release date

1.2.4 想看人数

电影上映前的营销宣传会增强观众的观影意向。体现潜在观众观影意向的指标有时光网、豆瓣电影网统计的想看人数。同种类型的电影在相同的网站统计想看人数数据。类似于微博话题关注度，想看人数为点数据，将其转化为区间数为

其中，DXKi代表第i部电影的想看人数区间；分别为第i部电影的想看人数的最小值和最大值。

1.2.5 导演影响力

电影导演作为一部电影的执导者，对电影票房的成功起着至关重要的作用。文献[3]研究表明，新电影最大的魅力有包括电影导演在内的超级明星。导演影响力指导演对票房的影响程度为

其中，DDYi代表第i部电影的导演影响力区间分别代表第i部电影导演影响力区间的左端点和右端点。当该导演在第i部电影之前执导的全部电影数目dr 0时，

式中，d−Boxofficeidp表示第i部电影导演在该电影之前执导的第dp部电影的票房(万元)，dq=min(dr,3)。当dr=0时，

1.2.6 演员影响力

电影的呈现靠演员实现。演员专业水平、角色塑造能力影响着电影的质量，进而影响观众的观影感受。演员影响力指演员对票房的影响程度。Allbert[22]的研究证明，当前电影的票房受演员前一部电影表现的影响。因此，本文以第一主演和第二主演在当前电影之前参演的电影的票房为基础，量化演员的票房影响力区间，见式(9)~(12)。

其中,DZYi(k)代表第i部电影第k(k=1,2)主演影响力区间。当该演员在第i部电影之前参演的全部电影数目sr(k) 0时，

式中，s−Boxofficeisp(k)(k)表示第i部电影第k主演在参演第i部电影之前参演的第sp(k)部电影的票房(万元)。tsp(k)表示演员在之前参演的第sp(k)部电影的角色排名，本文只取演员角色排名在10以内的电影。sq(k)=min(sr(k),3)，sr表示该主演在第i部电影之前主演的全部电影数目，当sr(k)=0时，

1.2.7 电影时长

在正常的电影时长范围和同等花费的条件下，观众倾向于观看时长更长的影片。电影时长对电影票房有正向影响[7]。类似于微博话题关注度，电影时长是点数据

其中，DDSi代表第i部电影时长区间；分别为第i部电影时长的最小值和最大值(min)。

1.3 基于训练集的票房理想解贴近度区间计算

基于训练集的票房理想解贴近度区间计算阶段由数据规范化及熵权法确定权重、求加权规范化票房评价指标矩阵、确定每部电影的理想解贴近度和确定分级票房的理想解贴近度区间4部分组成。

1.3.1 数据规范化及熵权法确定权重

1) 数据规范化。

根据票房评价指标选取与量化阶段选取的n个票房评价指标及量化方法，收集m部同类型电影原始数据，构建如式(13)所示的原始的区间数票房评价指标矩阵代表第i部电影第j个票房评价指标区间。

票房评价指标选取及量化阶段选取的指标均为效益型指标，即指标值越大对票房越有益。针对效益型指标的规范化方式[23](见式(14))，代表规范化后的第i部电影第j个票房评价指标区间。对规范化，得到式(15)所示的规范化的区间数票房评价指标矩阵

2) 熵权法确定权重。

1.3.2 求加权规范化票房评价指标矩阵

根据数据规范化及熵权法确定权重阶段得到的规范化区间数票房评价指标矩阵及各指标权重，建立加权规范化区间数票房评价指标矩阵(ci j)m×n为

进而根据求得的加权规范化区间数票房评价指标矩阵，得到如式(21)和(22)所示的正负理想解。代表第j个电影票房评价指标的正理想解；代表第j个电影票房评价指标的负理想解。

1.3.3 确定每部电影的理想解贴近度

确定票房理想解贴近度之前首先要确定票房评价指标与正负理想解之间的距离。欧几里得距离是常用的一种距离定义。对于任意的2个区间数a=[aL,aU]，b=[bL,bU]，a和b之间的欧几里得距离[24]为

根据求加权规范化票房评价指标矩阵阶段得到的理想解与加权规范化区间数票房评价指标矩阵，由式(23)可以得到每部电影票房评价指标与理想解的欧几里得距离为

根据每部电影各指标与理想解的距离，确定各指标理想解贴近度 ηij与电影票房理想解贴近度ηi(i=1,2,···,m)[25]为

1.3.4 确定分级电影的理想解贴近度区间

2017年票房过亿的92部电影中，票房2亿以上的电影占据70%以上的份额。票房超过5亿无疑是好营销和好作品的结合。基于此，将电影票房分为4个等级：Ⅰ(5 000万以下)、Ⅱ(5 000万至2亿)、Ⅲ(2亿至5亿)、Ⅳ(5亿以上)。根据确定每部电影的理想解贴近度阶段得到的每部电影的理想解贴近度及票房分级标准，确定每个等级的电影理想解贴近度区间。

1.4 基于测试集的方法验证

1) 数据规范化。将测试集电影票房评价指标数据规范化处理，得到规范化的票房评价指标。

2) 确定加权规范化票房评价指标。按照式(20)对第1)步求得的规范化的测试集电影票房评价指标进行加权，得到加权规范化的测试集票房评价指标数据。其中，指标权重源自基于训练集的票房理想解贴近度区间计算阶段。数a=[aL,aU]，b=[bL,bU]，则称P(a≥b)为a≥b的可

3) 确定测试集电影票房理想解贴近度。首先判定第2)步中得到的加权规范化的票房评价指标与基于训练集的票房理想解贴近度区间计算阶段得到的理想解的大小。其中，对于任意的2个非负区间能度[26]

如果测试集中电影i的第j个加权规范化的票房评价指标大于正理想解的可能度大于0.5，则记该指标与理想解的贴近度反之，如果小于负理想解的可能度大于0.5，则该指标与理想解的贴近度记如果不是以上2种情况，则按照式(24)和(25)计算 ηij。最后按照式(26)计算待测试电影的理想解贴近度 ηi。

4) 测试集电影票房级别的预测。判定测试集电影i票房理想解贴近度属于哪一票房理想解贴近度区间。该票房理想解贴近度区间对应的票房级别即为测试集电影i的票房预测级别，从而得到票房预测区间值。

由于待预测电影的票房预测流程与基于测试集的方法验证流程相同，不再对待测试电影的票房预测流程加以赘述。

2 预测方法的验证

2.1 数据来源

收集了2015~2017年上映的168部电影相关数据，最终选择数量多且票房波动性居前2类的68部动作类电影和65部剧情类电影验证本文提出的方法。首先，随机抽取8部动作类和8部剧情类电影作为测试集，60部动作类和57部剧情类电影为训练集，分别进行预测方法的验证；其次，为进一步验证方法的可靠性，利用样本数据进行K-折交叉验证。

根据本文选取的票房评价指标的特点及各网站数据显示情况，本文各指标数据来源见表2。

表 2 各指标数据来源Table 2 Data source of each indicator

2.2 基于训练集的剧情类和动作类电影票房理想解贴近度区间计算

用57部剧情类和60部动作类电影分别作为训练集，按照图1所示的方法计算票房理想解贴近度区间。

按照式(17)~(19)求得剧情类和动作类电影各指标左右端点的熵以及指标权重，结果见表3。

根据指标权重，按照式(19)对规范化的区间数票房评价指标矩阵进行加权。按照式(21)和(22)求得各指标理想解，结果见表4。

表 3 指标熵及权重Table 3 The index entropy and weight

表 4 理想解Table 4 The ideal solution

根据理想解，用式(26)计算训练集各电影的票房理想解贴近度，进一步得到各电影票房等级的票房理想解贴近度η 的取值区间，结果见表5。

2.3 基于测试集的剧情类和动作类电影票房预测方法的验证

用随机选择的8部动作类和8部剧情类电影分别验证提出的电影上映前总票房区间预测方法。验证结果见表6。

由表6可知，只有编号7、8剧情类电影和编号1、2、6动作类电影预测错误。所有预测结果没有出现预测级别和实际级别差超过一个级别的样本，预测结果可用来为影院排片以及发行商决策提供指导。

表 5 票房理想解贴近度区间Table 5 The ideal solution nearness degree interval of box office

2.4 动作类和剧情类电影的5-折交叉验证

为了进一步验证预测方法的有效性，基于动作类和剧情类样本数据进行K-折交叉验证。K为进行交叉验证的次数，K取5，将两种类型电影样本通过随机抽样分别分成5个样本子集，轮流将其中4份做训练集，1份做验证集，用票房预测正确的电影数占测试集电影总数的比例计算预测准确率，将5次交叉验证准确率的均值作为K-折交叉验证结果。本文提出的预测方法在动作类和剧情类电影的K-折交叉验证结果见表7。平均准确率分别为79.33%和73.92%，说明本文提出的预测方法具有一定有效性。

表 6 测试集验证结果Table 6 The validation results of test set

表 7 交叉验证结果Table 7 The cross-validation results%

3 结论

因不同类型电影有不同需求规律，本文提出按电影类型分类的结合区间理论、熵权法和TOPSIS法的电影上映前总票房区间预测方法。为解决模糊性票房影响因素的量化问题，提出用区间数量化票房评价指标；考虑数据本身信息的效用值，采用熵权法对各指标赋权；根据TOPSIS法求解每部电影的票房理想解贴近度，根据每个级别电影的票房理想解贴近度区间判断待预测电影票房所属的级别，从而得到区间预测值。用2015~2017年上映的68部动作类和65部剧情类电影验证了提出的预测方法的有效性。该方法对于与电影类似的短生命周期体验品的早期需求预测具有一定的参考价值。本方法的预测结果存在一定误差，主要原因是没有考虑口碑和电影制作成本等指标。以后的研究有必要考虑增加指标。