大数据:还是大错误?
2014-03-14纪元
大数据:还是大错误?
五年前,谷歌的一个研究小组在全球顶级的科学杂志《自然》上宣布了一个令人瞩目的成果。该小组可以追踪美国境内流感的传播趋势,而这一结果不依赖于任何医疗检查。他们的追踪速度甚至比美国疾控中心(CDC)要快得多。谷歌的追踪结果只有一天的延时,而CDC则需要汇总大量医师的诊断结果才能得到一张传播趋势图,延时超过一周。谷歌能算得这么快,是因为他们发现当人们出现流感症状的时候,往往会跑到网络上搜索一些相关的内容。
“谷歌流感趋势”不仅快捷、准确、成本低廉,而且没有使用什么理论。谷歌流感趋势的成功,很快就成为了商业、技术和科学领域中最新趋势的象征。兴奋的媒体记者们不停地在问,谷歌给我们带来了什么新的科技?
然而在“大数据”里,大多数公司感兴趣的是所谓的“现实数据”,诸如网页搜索记录、信用卡消费记录和移动电话与附近基站的通信记录等。谷歌流感趋势就是基于这样的现实数据。甚至这类数据比对撞机的数据规模还要大(如Facebook),更重要的是虽然这类数据的规模很大,但却相对容易采集。它们往往是由于不同的用途被搜集起来并杂乱地堆积在一起,而且可以实时地更新。人们的通信、娱乐以及商务活动都已经转移到互联网上,互联网也已经进入我们的手机、汽车甚至是眼镜。因此人们的整个生活都可以被记录和数字化,这些在十年前都是无法想象的。
大数据的鼓吹者们提出了4个令人兴奋的论断,每一个都能从谷歌流感趋势的成功中印证: 第一,数据分析可以生成惊人准确的结果;第二,因为每一个数据点都可以被捕捉到,所以可以彻底淘汰过去那种抽样统计的方法;第三,不用再寻找现象背后的原因,我们只需要知道两者之间有统计相关性就行了;第四, 不再需要科学的或者统计的模型。
不幸的是,上述信条都是极端乐观和过于简化了。在谷歌、Facebook和亚马逊这些公司不断通过人们所产生的数据来理解我们生活的过程中,现实数据支撑起了新互联网经济。爱德华·斯诺登揭露了美国政府数据监听的规模和范围,很显然安全部门同样痴迷从我们的日常数据中挖掘点什么东西出来。
虽然大数据在科学家、企业家和政府眼里看起来充满希望,但如果忽略了一些以前所熟知的统计学中的教训,大数据可能注定会让我们失望。 剑桥大学Spiegelhalter教授曾说到:“大数据中有大量的小数据问题。这些问题不会随着数据量的增大而消失,它们只会更加突出。”
在那篇关于谷歌流感趋势预测的文章发表4年以后,新的一期《自然杂志消息》报道了一则坏消息:在最近的一次流感爆发中谷歌流感趋势不起作用了。这个工具曾经可靠地运作了十几个冬天,在海量数据分析和不需要理论模型的条件下提供了快速和准确的流感爆发趋势。然而这一次它迷路了,谷歌的模型显示这一次的流感爆发非常严重,疾控中心在慢慢汇总各地数据以后,却发现谷歌的预测结果比实际情况夸大了几乎一倍。
这种不需要任何理论的纯粹的相关性分析方法,其结果难免是脆弱的。谷歌将使用新的数据再次校准流感趋势这个产品,重新来过。
我们再回头来看看大数据的4个基础信条。其一,如果简单地忽略掉那些反面的数据,比如Target的怀孕预测算法,那么很容易就会过高地估计算法的精确度。其二,如果在一个固定不变的环境里做预测,可以认为因果关系不再重要。而当我们处在一个变化的世界中,或者是我们自己就想要改变这个环境,这种想法就很危险了。其三,“N=所有”,以及采样偏差无关紧要,这些前提在绝大多数的实际情况下都是不成立的。最后,当数据里的假象远远超过真相的时候,还持有“数据足够大的时候,就可以自己说出结论了”这种观点就显得太过天真。
大数据已经到来,但它并没有带来新的真理。现在的挑战是要吸取统计学中老的教训,在比以前大得多的数据规模下去解决新的问题、获取新的答案。
(来源:FT Magazine 编译:纪元)