APP下载

KDD系统在制片人决策过程中的应用

2020-11-13付晓朦

艺海 2020年9期
关键词:大数据

付晓朦

〔摘 要〕今全球已进入数字化、信息化、网络化时代,数据影响着各个行业的发展。互联网时代下的制片公司,他们并不缺乏产品思维,而是缺乏作品思维。他们过于的看重数据的力量,一味地去迎合观众口味,而忽视了电影内容本身。同样是利用大数据国外打造的影视作品却能可观的成绩,他们的共同点就是对数据的深入挖掘与解读。也就是我所要探讨的KDD系统。

电影既是商品也是艺术,一味地去迎合观众的口味,难免会制造出媚俗质量低的电影。作为制片人,我们需要重视的不是数据本身,而是根据自身的需求,通过KDD系统,对数据进行深入的挖掘,得到数据背后的有利用价值和意义的知识。

〔关键词〕大数据;数据额挖掘;KDD系统

一.KDD系统特点

1.KDD系统定义

KDD既Knowledge Discovery in Database,人們给KDD下过很多定义,但目前公认的是由美国Microsoft Research labs的Fayyad等人所提出的定义,即KDD系统的目的是为了从海量大数据集中,识别出是对目标项目有效且可行,新颖并且有趣,不易被发现的,最后生成可以被理解的模式,KDD系统区别于普通数据软件的一点就是它的运作过程是一个非平凡而更高级的。

KDD系统的优点是帮助使用者,屏蔽掉原始未经处理的数据,那些烦琐的细节,将数据库中提炼出有简洁,有利用价值的数据报告,提供给使用者。这些知识是含蓄并且不易被发现的,也是事先未知的并且有趣,数据挖掘是KDD系统中重要的一个步骤。

2.KDD系统特点

通过数据挖掘所发现得到的模式,需要保证是可以被用户所理解的,它主要是体现在发现的模式要简单有效、新颖并且有趣、并且符合用户需求。但KDD挖掘出来的数据是通过算法挖掘出来的,深入而不是表象,是有趣并有价值意义的。这也是KDD系统与普通大数据分析的最大区别。在影视行业中,指的就是制片人在为该项目向投资方进行阐述的过程,要简单易懂,使投资方产生投资兴趣。

①有效性

“有效性”的意思是指通过数据分析这一过程,从而挖掘与发现出来的模式必须保持有一定的可信性。所谓的“模式”一词的意思是将得出的规律作为依据指导人们进行实践的方式,是理论和实践之间的中介。

对影视行业来说,有效性就是指影视项目必须顺应时代发展,满足市场需求,合理合法,有说服力。

②新颖性

“新颖性”的意思是指要求KDD系统所发现的模式必须是新颖的,区别于以往的。模式是否新颖可以通过将KDD系统所得到的数据结果和普通数据分析所得出的结果之间进行对比,通过比较结果来判断模式的新颖程度。所谓的普通数据分析,就是指通过计算平均值等利用数据本身进行计算所得到的趋势等等的研究过程。对影视行业来说,新颖性就是指影视项目内容的新颖程度。

③潜在有用性

“潜在有用性”是指KDD系统所总结出来的模式将来有实际效用,对于影视行业来说,就是最终的项目必须是有技术支持,可以完成并上映的,并且是可以提高市场回报率的高质量项目。

3.KDD系统使用流程

①数据筛选

数据筛选:数据筛选的目的是确定目标数据。 在第一个步骤中制片人要根据所开发的项目需求,从网络放映平台或者影院消息中获取终相关的观众行为,兴趣爱好等。

②数据预处理

数据预处理: 由于大数据存在着水分大,不够真实,不完整和不一致的弊端,所以制片人的在做项目决策之前,需要做的事情是将所有收集到的数据进行预处理与分类。将数据中原有的不正确的,以及对项目决策利用价值的信息。在这一过程中,填补空缺数据,纠正不一致的数据,从而改善数据质量,提高数据挖掘的精准度。可以利用权威软件进行数据筛选例如猫眼专业版,观影人影评等。

③知识发现---关联规则模式

知识发现:也就是数据挖掘的过程。制片人定时或随时对上述的目标数据集进行知识发现操作,挖掘用户感兴趣的模式,即知识。本篇论文讨论的是观众观影行为背后有什么有趣的共同行为,即观影共性。然后通过关联原则模型算法进行数据挖掘。

④决策模式

制片人将最终所决定项目,以投资方能理解的方式呈现给投资方,通过KDD技术分析过程的体现,加强项目说服力。

4.KDD系统技术核心

在上述步骤中,知识的发现也就是所谓的数据挖掘,占据极其重要的地位,它是根据使用者需求,通过合适的,知识发现算法,从数据中通过挖掘工作,从而发现有关的知识讯息,这也决定了整个KDD过程的使用效果与处事效率。本论文中,所要进行探讨的是关联规则模型,即制片人通过关联规则中的算法,找到观众观影行为所存在的潜在习惯。

①关联规则定义

关联规则就是从海量数据中,发现到的不同数据在同一事件中出现的相关性,也就是从大量数据中挖掘出不同类型数据,这些频繁的项目,在一个事件中,集中存在的有趣的关联或相关关系。

这种关联关系有可能是自身的,例如电影和爆米花;也有可能是本身毫无关联,而是通过外界因素所形成的关系,经典的案例就是啤酒喝尿布。前一种关系我们有时候可以直观的获取,但后一种关系通过表面现象就不易获得,而我们的关联规则算法解决的就是这部分问题。

②关联规则应用

为了更直观的理解关联规则,我利用上述所提到的经典案例来进行解释。在美国超市中,一个很奇怪的现象就是,如果将尿布与啤酒摆在一个货架上卖,啤酒和尿布的销售量会双双翻倍增加。这最早是由Wal-Mart数据分析人员发现的。Wal-Mart,作为美国曾经的,零售行业巨头,旗下拥有世界上最海量的数据,并且有属于自己的数据仓库。数据分析人员的工作是为了提高超市收益,他们想通过KDD系统,更精准地了解顾客的需求,平时逛超市的购买习惯,Wal-Mart将顾客的购物行为最为目标数据,他们从数据仓库里,集中收集了所有门店中,顾客们详细的,交易行为数据。在这些购买记录的基础上,WalMart选择采用关联规则模式,对这些交易行为数据进行分析和挖掘。让人大吃一惊的是,尿布一直保持超高的销售量的,但相较于其他婴幼儿产品,这些顾客同尿布一起,购买最多的,却是啤酒,这是多么奇怪但是有趣的组合。

经过大量实际调查与跟踪分析,数据分析人员了解到这些顾客,往往都是一些年轻的父亲。他们下班后,经常要到Wal-Mart买婴儿尿布,而他们中有近50%的人,同时也会顺手为自己买一些啤酒。其原因源于美国人的生活模式,大多数美国年轻妈妈,都会选择在家里照顾孩子。所以,买尿布的工作就理所应当地交给了她们的丈夫。在他们下班后,路过超市,他们会习惯性的给小孩买回尿布,但也不会忘记买几听啤酒来犒劳自己。

这个案例同时印证了维克托·迈尔-舍恩伯格提过的一个很有指导意义的观点:通过找出一个关联物并监控它,利用KDD系统,去发现你本不可能认为他们会发生关联的因素上,并以此为新的契机,来开发目标消费群体。这也是我认为作为制片人对大数据利用的正确方式,即通过KDD系统深入解读大数据,找到隐性关联,帮助制片人在策划阶段创新求变。

二.以《纸牌屋》为例浅析KDD在制片过程中的应用

1.终端数据收集

对于制片人来说,首先要做到的是通过制作公司与权威网络放映平台以及影院合作,利用互联网直接收集观众信息,掌握终端信息,建立直接联系,作为数据收集来源。这是前提也是基础。

Netflix花了一年的时间来调查观众的喜好,制作《纸牌屋》时,充分地利用了自有播放平台所记录下来的数据,其数据库包含了千万的万用户的收视选择、百万条评论、以及所有用户的次主题搜索。Netflix将用户观看记录作为目标数据,发现点播老版BBC《纸牌屋》的人数最多,并以此为出发点,研究其背后现象。

2.数据预处理

Netflix 确定了目标观众,过滤掉其他干扰信息,收集目标观众观看BBC《纸牌屋》的过程以及他们的后续行为。在这一过程中,Netflix会通过观众观看行为来作为筛选条件,用以排除一些没有意义而又烦琐的数据,例如我们所说的水军刷播放量等等,从而确保数据的真实性。

数据的预处理,是对数据挖掘工作影响程度最大的一个步骤,是后面程序得以进行的基础。数据越细致与精准,在挖掘过程中才能找到那些有趣的联系。制片人可以与权威网络平台与流媒体签订协议,共享资源,建立品牌效应,投入资金封路用户信息,保证数据真实性,从而利于数据预处理。

3.关联规则模型建立

①关联规则基本模型

使用关联规则模型,确定目标观众潜在行为共性。Netflix追踪观看BBC《纸牌屋》的观众观影记录,发现其主力受众群为“美国中年男性专业人士”。发现这些观众共频繁点播政治剧,再追踪下去,发现其中的一大部分人给惊悚悬疑大师大卫芬奇拍摄的作品打分高,并且经常看史派西主演的作品。这样一来,Netflix通过关联规则模型,得到了隐性并且有趣的关联,政治元素与惊悚元素。

数据挖掘的算法有很多,本论文讨论的是Apriori 算法,是最被人们认可,切使用时间最长的一种算法。现在,Apriori算法适合任何领域,我们需要大致了解一下Apriori算法。

②Apriori算法

Apriori算法,是用来挖掘目标数据中出现频繁的现象一种,在专业学术语言来讲,我们将Apriori称为频繁项集算法,其核心思想,就是通过候选数据组成集的生成,以及目标数据的深入挖掘,这两个阶段来挖掘有联系的项与项,之间的共同的并且有趣的关系。

在关联模型规则中,我们需要了解三个指标,分别是支持度,可信度,提升度。为了方便了解,我们设定A代表在Netflix中点播BBC《纸牌屋》的观众同时爱看政治剧的人,B代表在Netflix中点播BBC《纸牌屋》的观众中爱看大卫芬奇惊悚忧郁的人,C代表Netflix的所有观众。

所谓支持度,就是同时满足A和B的人占C的比例。

所谓置信度,就是同时满足A和B的人占符合A的比例。

所谓提升度,就是同时满足A和B的人与符合B的比例。

关联规则模型与其他模型的最大区别就在于提升度,提升度反映了关联规则中A与B的关联是否有趣,提升度值小于1则意味着是起反作用的,大于1则认为是有联系的且值越高越有意义,才能说明挖掘的关联规则是有价值的。

我们用Netflix在制作《纸牌屋》的例子来作为说明。

上表是不完整的Netflix用户的观看记录的数据库,用来更为直观的解释关联规则的运用,

表中展现其中几个观众的行为代号为1-6。项集I={点播BBC《纸牌屋》,常看的导演,常看的演员,常看的类型}。考虑关联规则:A(点播过BBC《纸牌屋》又经常点播政治剧的观众),1,2,4,5,6符合条件,B(点播过BBC《纸牌屋》又喜欢大卫芬奇的观众),1,6符合条件,同时符合A和B的是1,6,因此支持度约为0.3,置信度约为0.7,提升度为1.4。提升度大于1,大卫芬奇与政治局存在着联系。这样一来,Netflix发现点播BBC《纸牌屋》的用户大多都是美国观众,于是Netflix将点播BBC《纸牌屋》的美国观众作为条件,将不一致数据清除掉,仅对这些美国观众的行为进行追踪,研究他们共同特点。

一开始,Netflix的制片人只是了解下用户的观影行为,不是抽样调查,而是对所有用户进行调查,然后根据观看量的排名进行排列,发现美国观众喜欢看政治剧,发现贡献这些数据的用户观影的其他关联性,这些共同点是根据关联规则算法得出来的,他们是有关联而不是因果关系,不是说喜欢看政治局的人就一定会喜欢大卫芬奇的作品,但是通过计算发现对大卫芬奇的支持度不低,因为是这两个因素链接到了一起。

③决策模式形成与评价

形成项目决策模式。Netflix将KDD系统所提供的关联信息,综合主要用户的潜在共同点,邀请了大卫芬奇作为导演,史派西作为主演,决定制作美版《纸牌屋》。在播放形式上,Netflix制作的《紙牌屋》不同于其他的周播剧,而是一次性播完一季。因为根据KDD系统发现这些目标人群大多不喜欢在固定时刻收看电视剧,而是直到全集播放完毕,再一次性看完。

4.通过KDD系统产生决策效果

2013年2月《纸牌屋》上线后,用户数仅一天就增加了300万。Netflix的成功,不是将数据分析结果直接搬用,而是通过KDD系统中的关联规则模式,发现一些之前没有考虑到的新的领域,Netflix最开始只是发现了用户们对英版《纸牌屋》的关注,再将美国观众爱看政治剧与惊悚元素这俩之间的关联性结合起来,在此基础上再把大卫芬奇和史派西的崇拜者拉入进美版《纸牌屋》的这个项目中,同时改变播放形式,这一系列因素的关联下,完美结合,实现了利益的最大化。简而言之,《纸牌屋》的成功,归结于对制作人通过KDD系统对数据进行深度挖掘从而成就价值最大化。

三.国内市场使用环境分析

1.国内电影市场数据应用

大数据这个词,整个电影市场都在谈论它,想通过大数据来提高项目收益。但就目前而言,国内电影市场对数据的利用往往局限于表面现象,例如单纯指看重浏览量,关注度等,单纯的通过一个明星的影响力以及一个IP的好评度来武断的进行购买,对IP的开发只限于表面而非深层次地挖掘。

数据,信息,变现和知识是有区别的。拿一个简单的例子来做解释,数据就仿佛是鸡蛋和面粉,信息就是一个蛋糕坯子,表现就是在坯子上涂上奶油,而知识,则是我们将这块蛋糕吃掉。蛋糕的真正价值不在于你是用什么做的,你做成了什么样,而是最终被我们吃掉。这也是数据的真正价值。

KDD系统与现在国内电影市场对数据利用的最根本的区别是,KDD系统通过关联原则对数据的加工处理,深入挖掘,得到了那些表面上也许并没有关联的行为,但实际上人们在不自觉中会经常下意识地去搭配观看的现象展现出来,给制片人提供一片崭新的领域,在这个新的领域中,制片人寻找新的消费点,来创造出既新颖又可靠的项目,而不是现在国内电影市场普遍存在的直接搬用数据,仅仅是通过统计,得到一个排序,然后按照热度,来进行项目更改,这种对数据淺层次的利用,不仅造成现在天价明星片酬,电影成本提高的现象,也埋没了很多有内容,有质量,踏踏实实的作品。当然,比制片人更看重这些数据的是投资方,在电影立项过程中,通过KDD系统对数据处理的展示,加强项目的说服力,提供一个好的开始,最终形成一个口碑与票房双赢的结果。

2.国内市场引入KDD系统的雏形

我仔细查阅了《捉妖记》的项目策划过程,发现《捉妖记》的策划过程中已经有了KDD系统的流程雏形,提供了给KDD系统滋生的土壤,只是还没有成熟的应用方法。

许诚毅与江志强的探讨中,早就有过《捉妖记》的想法,但直到开始实际拍摄,中间足足经过了5年。这5年的时间里,他们一直在聊故事,两个人都想创作一部讲中国妖怪的电影。随后的决策过程与KDD系统流程十分相似:

数据筛选:项目类型确定后,江志强将目标调查对象确定为喜欢看奇幻妖魔电影的观众,并对其行为进行全面的信息收集。

数据预处理:通过权威的网络播放平台作为来源,确保数据的真实性。并去除不爱观看奇幻妖魔电影的这些不一致的观众数据。

知识发现:江志强曾在采访中说,他们发现到喜欢看奇幻题材的用户对《山海经》和《聊斋》的搜索量最高。并找到了一个叫作《宅妖》的小故事颇受欢迎,而这些观众对《史瑞克》等动画类型的电影点播量很高。这意味着虽然是讲妖怪,但他们以“万物有灵且美”的主旨,证明善与美是观众们都愿意接受的价值。这一过程其实就是我们所说的采用关联规则模式,寻找目标观众之间所存在的潜在关联。

形成知识:最终江志强与许诚毅的《捉妖记》是一个适合一家人去观看的全家欢电影,而不是恐怖片。影片中所创造出来的妖怪胡巴,也广被观众所接受喜爱,最终获得了可观的票房成绩,并成功。

四.KDD系统的优势与规避风险方法

1. 使用KDD系统优势

KDD系统本身具有对数据处理迅速的优势,高效的反馈观众信息,定位受众群,确定数据中潜在新颖的关联形成决策模式。

KDD系统的使用目的是避免“行外人”盲目利用数据,帮助制片人创新求变。它不是单纯地进行数据分析及搬运,而是通过对数据的分析帮助制片人进行创作,在对数据深入挖掘的基础上寻找新的视角,完成立项,既符合观众的习惯性思维方式,又进行了创新,满足了观众对新事物的期待,以及对创作者的交代。

KDD系统挖掘结果是关注的相关性而不是因果关系,并不是完全符合数据的作品就可以成功,它仅能反映出观众的态度,但不能告诉制片人你要拍什么。最终决定电影质量好坏的是电影自身内容,因此,通过KDD系统提供的结果是需要制片人潜在的,深入的,制片人对所提供的数据进行进一步思考,来确保电影的高质量以及低风险。

2.使用KDD系统面对的难题

①数据全面真实

与其他数据分析系统一样,都必须要面对的一个最关键,最棘手的问题,就是你收集来的分析对象,是否真的仔细看过影片,不带个人思想偏见,可以代表影片真正的目标观众。热衷在社交网络上发言的网民,有哪些是真的认真观看过影片的,又有多少是宣传方雇来炒作的水军,又是否能否代表那些常年不发言,就默默地看电影的人。

现在,那些精确海量的数据,都被掌控在电商,社交平台,视频网的后台中,为了市场竞争优势,他们手中的数据相对机密,不容易直接获取。

②数据是否隐私

用户隐私问题一直是数据挖掘应用难以绕开的一个问题,如被央视曝光过的网易邮箱,苹果电脑都涉及侵犯用户隐私。目前,中国并没有专门的法律法规来界定用户隐私,处理相关问题时多采用其他相关法规条例来解释。但随着民众隐私意识的日益增强,合法合规地获取数据、分析数据和应用数据,是进行数据挖掘必须要遵守的原则。

3.规避风险措施

据咨询,猫眼和豆瓣的后台都具有放水军的软件。豆瓣上的口碑相对准确,但人群偏文艺。猫眼的数据相对真实些。如何判断数据是否真实,目前有几种方法。

①真实口碑和走势曲线是否相符合

例如在没有任何营销事件的情况下,某部影片增长了大量的想看人数,这基本断定是水军。猫眼上的电影数据曲线是真实反映的。

②购票用户的评价要比一般用户的评价权重高,这是目前放水军刷口碑的一种方法。

③大多制片人对影片的分析,及类型的分析,一般会把前三天的数据抛去,因为一般买票房会集中在首日或者周末,前三天的客观因素太多,例如票补和自购等。抛去前三日的数据,相对真实。

④国家政策的支持,严重惩戒票房作假的政策出台,势必会在一定程度上打压造假行为,使数据变得相对真实些。

4.避免制作公司垄断上下游

据了解,目前公司垄断是造成数据水分大的原因之一。以《捉妖记》为例,安乐(北京)电影发行有限公司,其播放期长达64天,安乐这样制发放,包括院线全部都参与公司,因为经济利益的问题,肯定会在自己的影城百老汇里注水。当然还有一个原因是为了超越同档期的速7,拿到中影冠军。

在旧好莱坞的制片厂制的垄断下,包括明星,影片题材等都出现来问题。因为出来了反垄断法,然后便进入了新好莱坞时代。

那如果将电影制作工业线上的每个部门都拆开了,避免出现一个公司垄断全过程的现象,这样每个部门之间没有利益关系,会不会在一定程度上减少注水现象。

5.制片人通过社交平台直接与观众建立互动关系

麻省理工学院出版的《流媒体,分享,窃取》一书中提到,制片人对电影市场的敏感度是十分重要的,通过与观众的沟通,建立与消费者的直接联系,而不仅是依赖于发行商进行内容宣传與推广。应用数据分析有诸多阻碍,也并不能保证制作出来的影片可以成功个,但KDD系统的最大优势是帮助制片人寻找新的巨大机遇,这就需要制片精英人士来进行操作。

因此,为了保证互动性,制片人应充分利用社交网络和粉丝社群或建立网站,以成为直接数据来源,例如传奇影业在数据分析部门投入大量人力和财力,从微博,百度,豆瓣,天猫等票务软件等多渠道获取数据,从而方便制片人与观众更好地进行交流。

6.制片人与流媒体建立合作关系

Netflix仅将“好莱坞电影”就分出了近8万种“微类型”。通过拓宽数据的来源,数据收集会全面很多,近年来制片人也在尝试首轮放映与流媒体同步发行,随后,制片人,放映商,流媒体平台可以通过共享数据,了解观众对各种类型电影的喜好,最终实现共赢。

总 结

数据永远只能作为辅助,灵魂永远是主创团队。梦工厂CEO卡森伯格就曾表示:“电影靠创造力,不靠数据分析。当年卡梅隆创作《阿凡达》的时候,假如当初对观众进行调查,问他们是否想看《阿凡达》,观众可能根本不知道他在说什么,如果随了这种对数据的浅层分析,也许就不会有《阿凡达》的诞生了。

对数据的判断,以及对数据的运用,才是影视数据挖掘最关键的一步。深厚的影视经验,专业知识素质,以及对市场的敏感度都是必不可少的。这也是中国影视数据界的最大的矛盾,懂技术的不懂电影,懂电影的不懂技术。正是因此,我才会想要尝试引入KDD系统,因为KDD系统并不是单纯的数据分析,数据分析得到是将数据整合,得到一种统计结果,这些结果是谁都可以得到的,并不新鲜。但KDD技术是在这些基础处理上,根据当前市场条件以及业务结合进行解读,通过算法进行知识发现,给予制片人灵感,才能发挥出数据的价值与作用。

KDD系统重点在于帮助制片人寻找未知的模式与规律,寻找新的可以开发的领域,是帮助制片人打开创作思路,在制片人进行决策过程中,引入KDD系统,是为了在弥补过于重视大数据统计,一味地去迎合观众的口味,来开发影视作品这一现象。对于影视来说,作品本身的质量才是最重要的。

KDD系统会与普通的数据分析软件一样成列出制片人所制定观众们都喜欢看的题材,并且将他们之间的有趣的关系展现在制片人面前,而制片人需要做的是下功夫想出一个与众不同的讲故事的方式,用专业、有深度的剧情留住目标观众。否则,就会出现全明星高颜值阵容,大热IP,投资巨大然后票房成绩却差强人意的现象。

观众的审美在不断地提高与变化,他们在网络上上传的评论与意见、网页的浏览痕迹,这些展示的是观众的喜好,但这里的陈列出来的观众的喜好,只是暂时的,静态的。在这些表象之下,只有看到那些可开发的未经触碰的新的领域,才能充分地利用数据所提供的真正价值,创新是永恒的目标。而这些新的领域,是可以通过KDD系统产出的,因此,我认为将KDD系统引入到制片人进行项目决策过程中,帮助制片人开拓领域这一作用是不可缺少的。

当然,引入KDD系统的另一大目的是为了提高制片人所开发项目的说服力,如今,各个领域的公司都将手伸入到影视制作行业当中,其中很多人并不了解电影艺术,所以在他们看来,数据能说明一切。制片人通过KDD系统得到的数据知识,呈现在投资方面前,让他们通过数据直观的了解该项目的市场环境,受众面等等,也许会比制片人苦口婆心的去解释项目的新意要直接得多。

(责任编辑:牧鑫)

猜你喜欢

大数据
基于在线教育的大数据研究
“互联网+”农产品物流业的大数据策略研究
基于大数据的小微电商授信评估研究
大数据时代新闻的新变化探究
浅谈大数据在出版业的应用
“互联网+”对传统图书出版的影响和推动作用
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究