APP下载

大数据在文化企业价值评估中的应用
——以电影票房收入预测为例

2014-07-06袁煌潘宇

中国资产评估 2014年10期
关键词:电影票房变量预测

■袁煌 潘宇

消费者反馈信息不仅能够反映产品销售情况,更是产品准确定位和企业良性循环发展的重要一环。在大数据时代,获取和测度消费者反馈数据已成为现实。文化企业生产运营离不开这一重要环节,对文化企业价值的评估更需要关注消费者反馈对企业价值的影响。作者以电影票房收入预测为例,尝试在文化企业价值评估中,利用大数据方式测度除传统价值影响因素之外的消费者市场评价因素,从而更全面地考量企业价值影响因素。(P10)

移动互联网、云计算与大数据时代,产生了“反馈经济”。通过移动设备获取的各种数据实时传输到云中,通过大数据池进行比较分析计算,反馈到用户手机终端或其他设备上,最终目的是引发某种行为的纠正。这个闭环的形成对个人的行为乃至整个经济与社会有着丰富意义。硅谷的创业者们把利用这种技术建立的创业公司,称之为有“反馈经济”的企业。

联合国教科文组织在《文化统计框架——2009》中,提出“文化圈”模型,将文化活动分成五个阶段,包括创造、生产、传播、展览(接受或传递),消费(参与)。这五个阶段既是循环相因的过程(任何一个阶段都可以是起点),又是交叉连接的网状模型(基于新技术的作用),见图1。显然,文化企业产品的生产与消费过程就是一个反馈经济的典型应用。

图1 文化活动之间的相互关系模型

传统的文化企业价值评估过程中,受调查成本、调查技术等因素制约,更多偏重于文化企业创造、生产、传播以及展览(传递)的过程,对于作品内容被消费者接受程度、消费者参与以及消费体验过程的反馈信息和测度不够。即使进行一定的市场调查,如传统的收视率调查,但由于受抽样技术、样本量、调查问题设计等因素影响,且被调查人员非主动评价可能反映的不是其真实思想,会造成该网状模型缺失消费者体验、参与、接受这几个重要环节,难以形成闭环反馈,可能影响对文化企业产品创造传播效果的真实判断,进而影响文化企业价值创造和价值评估。信息网络技术的发展使获取消费者体验数据的工作成为可能,基于 “样本=总体”全体数据分析的大数据思想及其应用技术,为文化企业产品创造与消费循环的评价提供了全新的方法和手段。下面笔者以电影票房预测为例,对如何将大数据应用在传统模型中进行尝试与探讨。

一、基于传统因素分析的电影票房收入预测模型

(一)票房收入影响因素简析

影响电影票房收入的因素可以分为外部因素和内部因素。外部因素主要是指电影制作和发行的外部环境;内部因素是电影的基本面因素,影响电影的整体素质。外部和内部因素共同作用,影响电影的票房收入和版权价值。

通常,外部因素不能够直接反映或者影响电影的基本素质,而是通过影响电影制作和发行的外部环境,影响电影的制作和收入实现。主要包括国家经济环境、国家宏观产业政策、市场消费能力、发行公司的实力、院线的放映能力以及放映档期等方面,见图2。

影响电影票房收入的内部因素主要是指能够直接反映和影响电影某种素质的各种要素,如电影的类型、制片人、剧本、导演、演员、后期制作人员和制作费用等,见图3。

(二)预测模型建立

在收入及价值影响因素分析基础上,以同类电影票房收入和其影响因素作为对象,根据其历史数据构建影响电影票房收入的多因素回归模型,模型检验通过后,将被评估对象特定影响因素量化后代入模型预测被评估电影作品的票房收入。

1. 回归模型参数的确定

选择票房收入影响因素变量需要遵循三条基本原则:首先,选择的每一个自变量都必须对因变量产生显著的影响;其次,选择的每一个自变量都应该能够进行提取及量化;第三,选择的每一个自变量之间都不应存在明显的相关关系。

影响电影票房收入的因素非常多,然而实际工作时,并不会将所有因素和影响因子都应用到分析当中,通常是筛选出覆盖面广、影响大并且预期能够充分反映影响票房收入的因素作为自变量。

图2 影响电影价值的外部因素

图3 影响电影价值的内部因素

通过对于多个影响因素的详细分析,笔者判断宏观经济环境、市场消费能力、发行机构实力、放映档期、制片人、剧本、导演、演员、其他专业制作人员和制作费用等多个因素会从多个方面共同影响电影票房收入。

由于选择的变量较多,同时一些变量之间存在着一定的相关性,直接纳入分析不但复杂,而且很可能因为变量间的多重共线性而无法得出正确的结论,因此进行统计分析前,需要对原始变量指标进行相应的处理。

首先,由于剧本、导演、演员以及制作人员对电影的质量起着非常重要的作用,因此将上述几项影响因素纳入模型作为自变量。显然,对于上述几项变量,购买成本和劳务费的高低是其重要的衡量标准。一般而言,剧本优秀,购买成本就高;导演优秀,其获得的劳务报酬就高。这是电影界长时间以来形成的规律。然而由于我国电影产业数据尚未完全公开,对于电影作品剧本购买的费用以及导演、演员、其他专业制作人员的劳务费用等细节数据不能够详细获得,因此本研究将剧本购买费用、导演等制作人员劳务费等多项费用整合为电影的投资额度进行衡量。投资额度包括电影作品制作费用、宣传费用以及制作人员的劳务费用,将几个影响因素放在一起作为一个变量,一方面降低了数据获取的难度,另一方面也解决了指标过多、关系复杂、易产生变量自相关的问题。

其次,放映场次和档期因素是制片方将电影作品推向市场所面对的营销环境。放映场次是制片方能够为市场提供的最大供给量,档期因素是制片方选择的市场需求环境,因此这两项因素也需纳入模型作为自变量。

第三,制片人是电影作品整体的支持和把握者,因此本研究将其纳入模型作为自变量。

最后,电影收入还受我国整体经济水平和环境的影响,因此需要将我国宏观经济状况和市场消费能力纳入模型。为了提高多个变量的综合反应能力,将宏观经济发展水平衡量指标、市场消费能力指标与前面四个自变量进行整合,确定四个综合变量,然后根据所构建的变量指标进行多元统计分析。样本选择、数据来源及变量处理,参见王家新,刘萍所著《文化企业资产评估研究》一书。

2. 回归模型的建立与检验

本模型引入4个解释变量——调整后的投资额度、调整后的档期因素、放映场次和制片人因素,以电影票房收入作为因变量,建立如下模型:

其中:PFSR代表票房收入;TZED代表调整后的投资额度(关联宏观经济因素与投资额度);DQ代表调整后的档期因素(关联市场消费能力因素与投资额度);FYCC代表放映场次;ZPR代表制片人因素;C为常数。

模型的回归结果如表1所示。经过检验,变量之间的两两相关系数都不大,只有TZED和FYCC的相关系数为0.6,因此,模型不存在多重共线性。从样本总体上看,四个解释变量中,FYCC和DQ两个变量均通过了5%的显著性水平检验;而TZED和ZPR均只通过了50%的显著性水平检验,但如果将这两个变量剔除,回归的拟合优度会受到较大影响,因此本文决定保留这两个变量;方程总体检验的F统计值=176.797,说明上述基本模型在5%的显著水平下总体线性关系成立;另外,调整后的拟合优度为0.945,说明四个解释变量组成的模型对被解释变量的拟合程度很高。

本文利用46部电影的数据,估计回归方程系数,得到以下结果,见表1:

表1 最小二乘回归结果

综上所述,回归结果表明票房收入的合理解释变量为:调整后的投资额度与票房收入呈正相关关系,原因可以解释为电影的剧本、导演、演员以及各种硬件设施越好,制作出的电影越出色,质量越好,越有票房号召力。虽然变量解释比较具有说服力,但相关关系只通过了50%的显著性检验,说明变量的设定可能还存在一定的缺陷。本文分析原因可能是由于目前国内电影方面的数据没有得到有效的公开,导演、演员、剧本等各单位因素无法单独衡量,本文将多个因素规整到一个因素中,并假设每一个因素与投资额度相关系数均为1,而使整体的系数反映不尽人意。对此,有待获取更加详尽的数据进行进一步的研究和考证。

放映场次与票房收入呈正相关关系,并且该相关关系极为显著,可以解释为在拥有足够高的需求水平的市场环境中,放映供给的增加无疑会增加票房收入,这与理论解释完全吻合。

调整后的档期因素与票房收入呈正相关关系,并且该相关关系极为显著,可以解释为好的档期是观众观影需求较为旺盛的时期,可能是观众拥有闲余时间,也可能是闲余资本较多,能够激发观众的观影热情,为电影创造一个较平时更好的高需求的市场环境。

制片人因素与电影票房收入呈正相关关系,原因可以解释为优秀的制片人能够拥有相对稳定的资金来源,具有独到的艺术见解,能够把握市场的发展趋势,制作出来的影片具有较好的市场适应能力和艺术性,因此能够吸引更多的观众。但其相关关系也只通过了50%的显著性检验,本文分析原因可能是由于虚拟变量赋值的标准并没有完全体现制片人的价值,从而导致数据结果出现偏颇。

基于上述结论,调整后的投资额度、调整后的档期因素、放映场次和制片人因素均与票房收入呈正相关关系,符合理论分析的结论;另外,虽然其中有两个变量只属于较为显著,但四个变量的组合模型,拟合度R2值达到了0.945,修正后的R2值也达到了0.94,说明四个解释变量整体对票房收入这个因变量具有较高的拟合优度,能够充分解释因变量,是一个比较合理的模型,但仍然存在改进的空间。

根据预测结果,可以得到预测模型一为:

PFSR=-4476.77+0.75×TZED+8877.5×DQ+148 5.50×FYCC+619.94×ZPR

实际预测结果的检验数据见表3。

二、结合大数据相关性因素的电影票房收入预测模型

谷歌、搜狗等利用网络用户对相应电影关键词搜索量与电影票房收入之间的相关关系进行了研究。研究结果表明,对某电影的搜索量与其电影票房收入之间存在正相关关系。而目前对大数据应用中的相关性也开始提出质疑,仅有相关性是否足够?如何将相关性与因果关系结合?笔者认为这也是大数据应用中需要关注的问题。结合笔者对电影票房收入因果关系分析建立的回归模型,我们尝试将网络搜索量引入模型,以完善消费者体验与反馈环节。

与网络平台不同,普通网络用户无法获取更多、更精确、相关性更强的搜索数据。为进行比较研究,我们尝试使用百度新闻搜索、网页搜索、贴吧搜索工具,对样本电影以“电影+电影名称”作为关键词,进行搜索,并统计全部对应搜索量数据。将对应搜索量数据(SSL)作为新变量,添加到已经建立的回归模型中。考虑到新闻搜索、网页搜索数据中相关性较弱,最终经过反复验证,最终以百度贴吧中“关注”数据作为模型新变量(SSL),对46个电影样本进行回归。回归模型及结果如下:

其中:PFSR代表票房收入;TZED代表调整后的投资额度(关联宏观经济因素与投资额度);DQ代表调整后的档期因素(关联市场消费能力因素与投资额度);FYCC代表放映场次;ZPR代表制片人因素;SSL代表百度贴吧中的全部关注量; C为常数。

模型的回归结果如表2所示。经过检验,变量之间的两两相关系数都不大,只有TZED和FYCC的相关系数为0.6,因此,模型不存在多重共线性。从样本总体上看,五个解释变量中,TZED、ZPR变量的t检验值高于未考虑搜索量因素的模型一,DQ变量两个模型数值接近,SSL也高于5%置信度下1.675的水平;方程总体检验的F统计值=154.01,说明上述基本模型在5%的显著水平下总体线性关系成立;另外,拟合优度为0.95,高于未考虑搜索量因素的模型一。

46部电影的数据估计回归方程系数结果见表2。

表2 最小二乘回归结果

综上所述,回归结果表明票房收入的合理解释变量为:经过经济环境调整的投资额度,与因变量正相关;经过市场消费环境调整后的档期因素,与因变量正相关;放映场次与因变量正相关;制片人因素与因变量正相关;网络用户关注程度与电影票房收入正相关。

表3 模型一、二实际预测检验结果对比

三、两个预测模型实际预测检验结果的比较

将两个预测模型分别对2010年票房收入前10的国产故事片进行实际预测,检验模型预测效果。预测数据见表3。10部电影实际预测数据中,6部预测误差明显降低,2部预测误差基本一致,2部预测误差有所提高。总体看,加入未来用户关注因素后的模型二,在总体误差率及标准差方面均有所降低,说明考虑用户反馈信息后,收入预测更趋合理。

四、小结

文化企业产品属于体验式消费产品,消费者最终的体验结果不仅影响其自身对后续产品的消费,也同时会影响其他消费者的看法,同时也能够反馈给文化企业,进一步促进本产品的改进和后续产品的创作效果,如《纸牌屋》电视剧的创作和播放就是一个非常典型的案例。并且这种方式在移动互联网、大数据应用背景下,正成为一种常态。对于文化企业的评估,也不能忽视消费者体验及反馈这一重要环节,大数据则是我们衡量消费者体验价值的重要工具。

但是,我们还要清醒地认识到大数据应用中可能存在的误区。特别是大数据相关性的特性,与资产评估要求的解释性、因果性之间的协调,对评估师来说,不仅要知道是什么,还要告诉用户为什么。所以,探索大数据应用与传统模型的有机结合,是资产评估大数据应用中的重要环节。本文试图通过电影票房预测案例,进行这方面的探索。当然,在这个过程中会存在很多困难,比如我们在搜集消费者体验数据时,无法像网络平台公司一样获取精准的搜索数据。此外,本案例由于是在电影放映后进行的研究,相关搜索数据不仅包含电影放映前的数据,与实际放映前搜索数据相比也会存在一定差距。同时,选择什么样的用户数据,也需要不断试验、检验。我们的研究仍然存在很多需要进一步完善和改进之处,希望本文的研究思路能够对大家有所启发。

[1]http://baike.baidu.com/view/13324423.htm?fr=aladdin.

[2]张晓明,王家新,章建刚.中国文化产业发展报告.北京:社会科学文献出版社,2014.4.

[3](英)迈尔·舍恩伯格,(英)库克耶,著.盛杨燕,周涛.译.大数据时代.杭州:浙江人民出版社,2013.1.

猜你喜欢

电影票房变量预测
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
选修2—2期中考试预测卷(A卷)
抓住不变量解题
新年新气象,元旦来带头 2021年1月电影票房排行榜
打铁还需自身硬 2020年10月电影票房排行榜
意料之中,整体表现平淡 2020年9月电影票房排行榜
也谈分离变量
暑期档继续“遇冷”2019年7月电影票房排行榜