APP下载

大数据“猜”对奥斯卡

2013-04-29

科技生活 2013年7期
关键词:奥斯卡奖奥斯卡数学模型

只要能抓住那些依赖数据而不是肠胃生活的人,有些事情是可以进行预测的。

在这个大数据的时代,数据模型预测愈发显示出其重要性。众多数据专家将数学模型预测应用到各个角落——预测总统大选结果、奥斯卡获奖名单等等。他们希望通过对这些焦点话题的预测让更多的人认识数据分析,能够真正拓展数据分析观念。

曾经准确预报美国大选50个州结果

去年,纽约微软研究院计算机专家大卫·罗斯切尔德使用了一种多样式、数据导向的模型成功地预测了美国总统大选。在51个地方选举结果中(包括美国50个州和华盛顿特区)罗斯切尔德准确地预告了50个结果。

事实证明,罗斯切尔德和其他预测专家正在有效地利用大规模数据分析,以超过98%的预测精准度获取媒体的视线。如同《科技纵览》杂志的斯蒂文·切利所说:“只要能抓住那些依赖数据而不是肠胃生活的人,有些事情是可以进行预测的。”

像罗斯切尔德这样的人,热衷数据分析,他们希望能够通过努力,不断延展各种信息整合的可能性。正如他本人曾经说过,数学模型预测的范围十分宽广,只要有因果关系,有规律的行业都可以进行预测。

最近,罗斯切尔德正投身于新的项目之中,他希望通过用数据分析让人们重新思考“预测”和“预报”的概念,并希望这种预测和预报能有效地促进今后微软对产品和服务的开发。罗斯切尔德这次成为全球媒体热点的预测就是对第85届电影艺术与科学院奖——奥斯卡奖评选结果的推断。

我们可以在他发表在PredictWise上的博客中看到其预测过程和结果。罗斯切尔德整合了微软Office团队的力量以强化这次奥斯卡选票预测的准确性。通过Excel的工具,他的模型可以实时分析全部24类奥斯卡奖项的结果。而对罗斯切尔德来讲,这其实是他日常工作的一部分。

“我对奥斯卡获奖结果的分析跟对其他事情,包括对政治的分析,采用的是同样的方法。” 罗斯切尔德说:“我寻找最有效的数据,之后建数据显著模型,模型不能忽略各个年度的任何分析结果。在获得‘样本外检验(实际操作)的结果前,这些模型都会通过历史数据进行测试校订以确保它们是经得起推敲的。这一过程,一向都是艰辛而痛苦的。数学模型分析需要预测将来,而不能仅仅证实过去。”

选取有效数据需要加入某些哲学判断

在同一领域,我们可以采用不同的模型。预测总统竞选时,除了罗斯切尔德,还有著名的数据预测达人内特·希尔沃,以及埃默里大学助理教授德鲁·林策等等。他们使用了不同的模型,均达到了95%以上的准确率。而获得更可信的预测结果则需不断推演改善模型。

除了模型的质量至关重要之外,北京集奥聚合公司首席技术官刘国清认为在数学模型预测中,获取数据的质量和数量对预测结果同样有决定性的影响。罗斯切尔德本人也这样说道:“诚然,科学是相近的,但判断哪些数据是最有效的是有所区别的。”

你或许觉得预测奥斯卡奖获得者比预测美国总统选举结果的数学模型分析要简单很多。总统选举变化莫测,1.27亿张的选票,错综复杂,胜利可能命悬一线;而奥斯卡评选团只有6000多的选票。事实上,奥斯卡奖评选的数据的差异性非常明显。总统选举时仅一个州就会有3万人的民调数据,找出其中共性建立分析模型则容易些,而在其他行业或其他预测中这是很难实现的。

罗斯切尔德通常关注四种数据:民意调查、预测市场、基础数据以及用户产生数据。他说:“在做政治预测分析的时候,我使用基础数据,比如过去的选举结果、候选人以及经济指数,以勾画出一个大致的范围结构。之后,我会转向预测市场和民调的数据以吸收获取关于选举更多的信息。2012的总统大选我没怎么使用用户产生数据,但在微软Xbox LIVE这一产品的分析中,用户数据是至关重要的。用户数据的实时性能够帮我们更好地分析这种大的产品项目。”

在选取有效数据时,有时需要加入某些哲学判断,希沃尔曾经说过:“面对一堆数据时,我们经常处理得很糟糕。拥有更多的信息并不意味着我们能更好地预测。”事实上,现在的数据不仅仅是数字。

罗斯切尔德在做奥斯卡分析的时候没有民意调查和基础数据,票房结果和电影评分在数据分析中用处不大。因此他更多关注的是调查市场,这些数据非常坚实,而同时他也引入了用户产生数据,这让他更好地在电影、奖项类别中找到相关性。比如判断电影《林肯》能获得在多少个奖项中获胜等等。

打造出独立于某一领域的分析方法

听罗斯切尔德讲述他如何实现奥斯卡获奖结果预测这类项目令人获益匪浅。他说:“当我开始新的项目时,我要考虑几个关键的事情以做出有效的推测。”

“第一,我会判断是什么最相关的预测。以奥斯卡为例,我关注的是所有24个奖项的获奖可能性,同时关注重点影片获得不同奖项的潜力。”

“第二,所有的预测都要随时更新。这点对数据研究预测分析非常重要,要分析从初始判断到最终结果中发生的各种事件、各种影响因素。而奥斯卡颁奖之前的几次电影评选就是这种具有影响力的事件。”

“最后,为确保预测的准确性,要利用同一领域内的历史数据不断调整推进模型。值得强调的是,我们的目的是要打造出独立于某一领域的分析方法,以确保其延展性。这次奥斯卡的分析对微软、学术界或其他行业都非常有价值,它会引导出更多有效的预测方法,从而自由地应用到各个领域。”

猜你喜欢

奥斯卡奖奥斯卡数学模型
AHP法短跑数学模型分析
活用数学模型,理解排列组合
《少年的你》获得奥斯卡提名
刘洋归来!打造中国服装设计“奥斯卡奖”
成龙:奥斯卡来找我,不是我找奥斯卡
对一个数学模型的思考
动物奥斯卡
古塔形变的数学模型