数据的面孔①
——西方电影评价体系研究中的主客观博弈
2017-11-16胡心言南京艺术学院传媒学院江苏南京210013
胡心言(南京艺术学院 传媒学院,江苏 南京 210013)
数据的面孔①
——西方电影评价体系研究中的主客观博弈
胡心言(南京艺术学院 传媒学院,江苏 南京 210013)
西方电影评价体系在长期的理论和实践探索中已逐渐形成三个层级:大众口碑和用户评分、专业电影评价组织奖项或榜单以及立足于数据统计的评价之研究。其中每一层级的评价,都涉及了客观方法和主观问题之间的彼此优化、互为论证、相互博弈。该体系很好地糅合了电影评价行为的主客两面,且通过不同评价层级之间的参照和指导,将西方电影平衡在艺术与商业、大众与小众、品质与传播之间。
电影评价体系;分层评价;数据分析;主客观博弈
1990年代中后期,随着互联网技术迅猛普及,网络用户几何式增长,人类社会在随后短短二十年内就进入了数字时代。互联网瞬息万变的联络速度,兼之电子计算机强大的存储功能,使人类对既往社会文化生活资料的调动能力、处理能力和分析能力都空前提高。在电视电影行业的观众研究领域,最显著的变化就是贯穿线上线下的,更加丰富多元的电影评价行为的产生。
但是,目前国内电影评价行为尚未形成完整、科学、自洽的体系。而西方学界则已对电影评价行为进行过较为严谨和详细的梳理研究。本文参考了近二十篇当代西方学者基于各式电影评价行为的研究论文,意图梳理出西方电影评价行为的层级和体系,作为国内电影评价体系的建立提供借鉴。
本文所观察到的西方电影评价主要围绕三层级的评价行为展开的:
第一层级:口碑,个人评分,专家影评等;第二层级:奥斯卡奖,Top250 IMDb,Rotten Tomatoes,美国国家电影收藏目录等;第三层级:间隔年算法,三维评价算法等。
第一层级评价的主体是自然人,无论大众、专家学者或是AMPAS(美国电影艺术与科学学院)中的电影精英,他们都兼具人性的精髓与局限。这一部分数据是随机而庞杂的,却也是最为活跃和敏感的。
第二层级评价的主体是那些商业或非商业的电影评价组织,可以是线上的电影信息互享平台,也可以是线下的各色颁奖或榜单。这一层级评价是第一层级的回馈和整合,这些评价体制基于不同的评价标准,然而相对具有某种程序理性,并且在实践中被不断打磨和完善。
第三层级评价是在立足于数据理性而不断置疑、创新和检验的评价之评价。它能够随意调动下级或平级的数字资源,在方法论的层面上试验和检验电影评价的“最优解”,从而对电影评价,乃至整个电影行业生态产生终极作用。“三次评价”甚而能够横向跨越电影的学科界限,使电影学以标准化、理论化的面目与其他人文、社科、经济或政治学研究对接,未来发挥出电影作为一种超级媒介的最大效益。
一、一次评价:大众口碑及用户评价
1990年,IMDb (Internet Movie Database)网站的创始工程师Col Needham发布了一个名为“她们的眼睛”(“Those Eyes”)的脚本,意图征集一份“拥有最美眼睛的女演员”列表。这份列表很快续长,并以惊人的速度分列出新的更全面的条目,在极短时间内就收到了覆盖超过10000部电影电视剧的演职人员信息,而这仅是拥有百年历史的电影电视行业数据化工程的肇始。
IMDb于1996年上线,初期的主要运行目的,就是利用普通用户的力量,收集和整理过往和当前的电影电视信息,通过网页之间的超链接将它们整合成一个网状联结的数字信息系统。用户量越多,采集信息越丰富,网状结构就越复杂,随之对整个电影行业的归纳整理就越趋向科学合理。而与网状结构同样日趋复杂化的,是客观信息中所裹挟的主观评价:因为建立在网页和网页间的超链接关联是由用户的每一次点击行为产生的,而即使是这简单的“关联行为”中也有偏见,有情感,有认同。开发者意识到,网络用户不仅有上网搜集客观电影资讯的需要,还同时存有主观意识上的情感认同的需求:共享和评价。IMDb后续发布的“推荐系统”(recommended system)或“250部最佳电影”(Top250)便是在客观数据逐渐完善起来之后自然衍生的。
用户评价行为本身就包含着主体与客体、主观与客观之间二元博弈的特质[1]。电影评价的主体是人,面对身为客体的某部影片,可谓“仁者见仁,智者见智”,是主观的;而电影评价的理想受众却通常是“尽可能多的人”——普世的眼睛,难免苛求其评价“客观”,这里的“客观”意味着公正、有序、有效、使人信服。如上所述IMDb网站的发展,推而广之看整个电影评价体系的大费周章,如拥有88个条目的奥斯卡奖评奖细则,不难窥见电影评价行为本身的复杂性。越是严肃认真的电影评价,由于普适的要求,越是谨慎和两难。从IMDb的发展过程可见,带有主观色彩的评价行为,是与同样带有主观色彩的认同的需要相互对照的。客观信息和主观评价这相互促成的两者,似乎难以分割[2]。以人为主体的评价行为不能免于主观性的偏差,需要更高层级的理性梳理行为去不断规避和调整,方可能使评价结果无限接近于公理。
二、二次评价:主客观矛盾的优化方案
1998年上线的Rotten Tomatoes(“烂番茄”)网站的创举,是将专业电影评论中的正面/负面态度计量化,据此生成从0%到100%不等的“番茄新鲜度”来反映电影质量;一位电影人(C)推荐一部电影(M),则该电影计2分,不推荐计1分,未评论计0分,“番茄新鲜度”Y=C★M。所有影评人打分相权衡则为该电影的最终评分[3]。“Rotten Tomatoes”网站的做法,很像是基于一次评价(专家影评)的二次评价(新鲜度评价)。作为影评人个人写作的“一次评价”从数据库宏观所见是庞杂的、不可控的,然而数据库从中提炼观点,将观点转化为数据,则相当于是将个人的评价行为进行新一次编码:其标准统一,结果简洁,输入主观,输出客观,且可快速量产。它保留了“一次评价”中自然人嬉笑怒骂之性情,符合用户(读者)情感认同的需求,又同时对“一次评价”中的暧昧多义进行了优化重组,使之更接近电影评价的公尺,靠近数字时代自动化、可视化的需求。
IMDb网站虽然面向的是普通电影观众,却也在不断完善电影评分中的主客观矛盾。如IMDb网站中关于“250部最佳电影”的算法(贝叶斯统计算法),其公式为:
其中,“最小投票数”是有资格进入“250部电影”评选的最低准入资格,如投票人数低于1250人则不能参选。加权得分设置为两个数值相加的总和,这保证了在投票人数较少的情况下,第一个数值无限接近于0,则加权得分无限接近于目前所有电影的平均分,而在投票人数足够多的情况下,第二个数值无限趋近于0,则观众所打出的该电影的平均分才更有可能影响甚至决定加权得分。同时,网站设置只有被评定为“经常投票者”的用户方有资格对“250部电影”进行评分。我们看到,IMDb用加权评分的方式筛去了可能“不客观”的评价,保留了可能“客观”的共识。作为“二次评价”,它通过对三个因变量(打分、打分人数以及每个打分主体的权重)的控制把握评分的客观稳定,预防表达态度的盲目、减轻盲目表达的后果,达到更好更及时地反映电影品质的目的。
与Rotten Tomatoes和IMDb迥异,奥斯卡奖评奖是全然人为的评价行为,虽然不比前两种评价行为的自动化和时效性,但也体现了十分相似的结果优化方式。奥斯卡奖的评奖主体必须为奖项主办单位AMPAS(美国电影艺术与科学学院)的会员,全球仅有六千多名会员,按专业门类被细分于十五个行业协会,每个专业奖项是由每个对应行会的会员选出的,只有“最佳影片”是全院共选。这与IMDb中关于用户投票准入门槛的设置如出一辙。再者,奥斯卡评奖由遵循“优先系统”(preferential system)的决策原则,即大多数奖项采用可转移单票制的形式投票,每一个会员都可以选择五个入围者,以优先顺序形式排序。两种票选的决策方式呈现出高度的程序理性,与IMDb和Rotten Tomatoes算法本质上是有相似之处的。具体算法为:假设540人共投出12种排序方式,其中选C为第一顺位的人数最多,为272位,则C入选。去掉C,剩下选票中以B为第一顺位的人数最多,为202位,则B入选,以此类推,直到最高票数项总数小于136者淘汰(540/(3+1)+ 1=136)。
过程演绎如图1[4]:
图1
若该计票方法不能得出最优结果,则再遵循排序复选制选出最优结果如图2[4]:
图2
在奥斯卡奖的这份“算法”中,投票的“是”与“否”如同被编为程序中的“0”与“1”,而一切复杂的计票方式都是为了得出可能范围内的“最优解”。它可以看作是一套人为设计出的科学算法在对主观投票行为进行“二次评价”。
综上两点,本文认为,IMDb、Rotten Tomatoes以及奥斯卡奖评选之间,看似有“客观机器”和“主观人为”的差别,其背后诉求却都是寻求评价电影的“最优”方式,其所面临的主观评价与客观评价的矛盾困境是相似的,解决问题的方向也是基本一致的:优化统筹庞杂的个体的声音,汇成清晰客观的阅读界面,并在意见的共性中凸显每部电影的个性,这些都是优秀的“二次评价”的共有功能 。
在“二次评价”对个体的评价意见进行优化整合的基础上,电影的优劣位次不断地被梳理和重认:如电影《肖申克的救赎》,在面向不同群体的不同榜单和评分中都位列前茅。又如电影《公民凯恩》,因为开创性的叙事展开和理念革新被各类电影教材奉为圭臬。宏观上,各类“二次评价”所聚合而成的“电影评价生态”本身就是对电影学及电影产业极重要的议题。微观上,某一部电影从制作到公映,再到若干年后的影响,其过程似社会文化从精英生产到大众阅读,无论是从时间的经历还是从空间的辐射,都值得被记录和研究[5]。
三、三次评价:置疑、演绎与论证
浏览近十年来西方多个领域学者针对电影评价的回顾性研究,同样会发现其中主观内容和客观内容交叉斡旋的事实。具体来说,涉及的是电影评价“定量”和“定性”两个问题。“定量”问题是统计学问题,是这类研究所立足的主要方法和工具;而“定性”问题是真理与标准的问题,常与“电影观”等电影学的主观议题息息相关。与商业网站所运行的“二级评价”不同,这些学术研究承担了更多高屋建瓴的责任,因此它们所关注的定性问题、定量问题也就更加宏观和多元。研究一般先对电影作品提出一条或数条评价标准,或对电影评价的行为主体(大众/专家/行业评奖/票房)提出问题或者见解,接着,根据研究对象选择合适的数据库。研究者会根据所采集数据建立数学模型进行统计学分析,形成可视的、直观的数学结果,最后将结果与前提标准或问题相比对,检验问题,得出结论,或给出新的建议。
在电影评价的问题上,主观标准较客观标准显现出更高的优先级,因为大多数针对电影评价的研究都选择从定性问题开宗明义。主观标准体现是评价主体对一部好电影的要求和预期。不同主体的评价目的不同,对电影的观察也会各有侧重,但总要存有一个一以贯之的、内部自洽的评价要旨。如奥斯卡奖的评价要旨是:“嘉奖该年度电影的杰出成就”,“杰出成就”(outstanding achievements)即是其评价的主观标准[4]。研究表明,奥斯卡选票机制在那些设定符合“杰出”要旨的奖项评选中表现更好、更少受群众呼声等外部因素的影响,可证奥斯卡奖的评选机制契合其评选要旨,是精英导向而不是民粹导向的[5;6]。
又如,美国国家电影目录是美国1989年通过《国家电影保护法》之后建立起来的国家电影评价体制,该体制旨在选出“对美国具有文化,历史或美学上的重要影响的世界电影”。相比“杰出”“质量优异”这些相对基于当下观感的评价标准,电影的“重要性”倾向于其历史的、持久的影响力,侧重的是电影的经典程度。其评价过程是保密的[7]。以此为启发,美国西北大学2014年的一份联合研究《Cross-evaluation of metrics to estimate the significance of creative works》针对电影的“持久影响力”这一评价要旨设计了相符的“间隔年”算法[3]。
间隔年算法试图将历史上每一部公映电影按公映时序排列并联结成一张相互参照、不断援引的电影关联网络[3]。算法规定,如果公映时间在先的影片在场景、人物、台词等部分借鉴、引用或模仿了公映时间在先的影片,则将它们的公映年份的间隔数t计入公映在前的影片的影响力评分。统计发现,随着电影公映年限增长,其引用次数一般会下降,那些经历数十年仍被不断引用重提的电影便是经典电影。其中,A算法可以成功预测间隔年在22年以上的NFR收录电影,B算法则可以成功预测间隔年在18年以内的收录电影。结论为,首先“间隔年”算法能有效地预测和验证美国国家电影收藏名录所选电影;其次,经过科学设计的算法,能够比外围专家的意见更精确地甄别出“重要电影”。在这项研究中,主观标准是可以用客观算法表达的,主观标准经过客观算法的验证更加合理和可信,两者之间被证实为高度的正相关关系。
“间隔年”算法得益于研究者和一般大众之于“重要性”的主观理解,然而其记数方法是将“重要”这一带有主观色彩的评判标准量化为单部电影的影响因子,使每一部电影的表现清晰可观。这项研究中不仅有对于电影评价标准的主观定性,也有对于“如何筛选出重要电影”的客观定量。如果说美国国家电影收藏目录的电影评价机制是基于专家个体意见所统筹出的“二次评价”,那么发明“间隔年”算法的学术研究则是基于该评价机制的二次评价行为所进行的“三次评价”。它能把握该评价体的评价要旨,在数理上作出预测和解释,能以信服的方式给出主观评价标准的客观依据。此种评价应该是更高级的。
Yong Liu于2006年所作《Word of Mouth for Movies: Its Dynamics and Impact on Box Office Revenue》通过测量电影在网络上的口碑讯息所含的正/负讯息的百分比来确定口碑的正面/负面程度,跟踪口碑活动对票房收益的影响[2],其研究发现口碑讯息对电影的票房表现(尤其是公映前几周的票房表现)具有解释力; 该作者另一项研究《The different Effects of Online Words-Of-Mouth and Critic’s Reviews On Pre-release Movie Evaluation》[8]对电影爱好者和非电影爱好者进行比对研究,发现在映前非电影爱好者受负面口碑影响大于电影爱好者,而相比大众口碑,电影爱好者更易受专家评论的影响。另一份研究《Film Awards as Indicators of Cinematic Creativity and Achievement》[9]则以电影“创造力”为指标,对比奥斯卡奖和其他六个国际电影奖的评选结果,通过取样1132部英语电影,依据导/表/编/摄/曲五大国家行业协会对每部电影的评分(1-5分),以反观各奖项颁发的可信度。根据Coefficient Alphas算法,奥斯卡奖在其中表现最优,与“创造力”评价符合度最高[9]:
客观算法除了能对电影评价做出评价和预测,在某些情况下,还能够证实研究者的合理猜测,如上述“奥斯卡与创造力”和“口碑与票房绩效”两份研究中,研究者所设计的问题带有比较明显指向性。而有些情况下,统计学所得结论数据则可能与一般大众预期有所出入。如前文所例举的“间隔年”算法研究,在将结果与各大评分系统进行拟合的时候,发现IMDb网站“总投票数”和“投票均分”两项与“间隔年”算法的结果重合度很高,甚至超过了某些专家评分网站。该作者还详细论证了用于“间隔年”算法中的“电影关联网”模型,是如何借鉴了IMDb网站庞大的网页关联结构的,IMDb在这里为其建模提供了重要参考。这些研究可有力证明,一些电影爱好者对IMDb评分的诟病是缺乏正当依据的。
主观定性与客观定量所结合的统计学研究,有些情况下甚至可以自行演绎出新的评价系统,设计并论证出新的评价要旨。联合研究《The Wisdom of the Few》[10]对大众评分体系置疑,于是借由“筛选算法”(Filtering Approach)创建了一个仅基于互联网影评专家的评分推荐系统,并详细论证了它的优劣得失。Peress.M 和Spiring.A 2010年针对电影评价体系的研究《Scaling the Critics: Uncovering the Latent Dimensions of Movie Criticism With an Item Response Approach》[11],用空间构建的方式,模拟了以“质量”“主题”和“属性”为评价标准的电影评价体系。“质量”“主题”和“属性”被看做三个维度的三个潜在变量,放在同一数学平面中,再模拟它们之间的空间位置关系,得出某部电影的评价结果。通过空间标注,每一部影片都会在立体空间中找到自己的“位置”(location)。而众多电影空间标注的集散数据,将会在矢量图上形成不同阵营,便于后来者比照自己的作品,提前锁定受众人群,预测其成功的可能性,预评其艺术价值。
结 语
本文看到,高质量的“三层评价”都经历了主观置疑、客观建模演绎以及科学论证结果这三步过程。客观方法和主观问题互为论证,互有优化,对于整个电影评价体系以及各层级的电影评价行为有预测、指导和创造的价值,有可能对于电影评价的规范化、体系化有所裨益。这三级评价是互赖为生,互惠互利的。
贯穿于这三层评价之中的,或许仍然是许许多多此消彼长的矛盾议题。短期的票房数据或许可以反映商业的成败,然而长期的社会文化影响如何衡量?需要厘清“是何影响”,同时也需要试验“如何衡量”。电影是以商业标准为好,还是以艺术标准为好?商业标准相对易用硬性指标衡量,艺术标准则需要更多的探讨,更小心的检验,更直观的论证。代表精英的专家评判与代表民众的大众评判相互指摘,如何沟通协调这两者,电影属于大众还是精英?数据可以让我们在短期内看清一件事,然而仅凭这些数据却不足以回答这些问题。评估电影的长期影响需要艰苦的追踪素材的过程、将素材再量化的过程。而当处于第一层级的个人、第二层级的评价组织和第三层级的专家学者都尝试在主观与客观的二元转化中去思考这些问题的时候,将是从不同维度体察、理解和表述问题的社会力量。未来,主观定性评价和客观定量评价相结合的结果红利或许会逐渐在西方电影行业中显现出来。
[1] Seshadrinathan K, Soundararajan R, Bovik A C, et al. Study of subjective and objective quality assessment of video[J]. IEEE transactions on image processing, 2010, 19(6): 1427-1441.
[2] Liu Y. Word of mouth for movies: Its dynamics and impact on box office revenue[J]. Journal of marketing, 2006, 70(3): 74-89.
[3] Wasserman M, Zeng X H, Amaral L A. Cross-evaluation of metrics to estimate the significance of creative works[J]. Proc Natl Acad Sci U S A, 2015,112(5): 1281-6.
[4] Gehrlein W V, Kher H V. Decision Rules for the Academy Awards Versus Those for Elections[J]. Interfaces, 2004, 34(3): 226-234.
[5] Dodds K. Popular geopolitics and audience dispositions: James Bond and the internet movie database (IMDb)[J]. Transactions of the Institute of British Geographers, 2006, 31(2): 116-130.
[6] Holbrook M B. Popular Appeal versus Expert Judgments of Motion Pictures[J]. Journal of Consumer Research, 1999, 26(2): 144.
[7] Allen M P, Lincoln A E. Critical discourse and the cultural consecration of American films[J]. Social Forces, 2004, 82(3): 871-894.
[8] Chakravarty A, Liu Y, Mazumdar T. The Differential Effects of Online Word-of-Mouth and Critics’ Reviews on Pre-release Movie Evaluation[J].Journal of Interactive Marketing, 2010, 24(3): 185-197.
[9] Simonton D K. Film Awards as Indicators of Cinematic Creativity and Achievement: A Quantitative Comparison of the Oscars and Six Alternatives[J].Creativity Research Journal, 2004, 16(2-3): 163-172.
[10] Amatriain X, Lathia N, Pujol J M, et al. The wisdom of the few: a collaborative filtering approach based on expert opinions from the web[C].Proceedings of the 32nd international ACM SIGIR conference on Research and development in information retrieval, 2009: 532-539.
J902;J905
A
1008-9667(2017)03-0137-05
2017-04-13
胡心言(1992— ),女,江苏南京人,南京艺术学院传媒学院2016级博士研究生,紫金文创项目组成员,研究方向:戏剧与影视学。
① 本文为紫金文创研究院项目《影视作品影响力的评价体系研究》(项目编号:KTSYZ20160701)阶段性成果;江苏省“十三五”重点学科项目“戏剧与影视学”阶段性成果。
(责任编辑:李小戈)