大数据究竟是什么
2018-10-21汪晖
汪晖
机器智能离不开数据,那么大量的数据和现在大家所说的大数据是不是一回事呢?如果不是,它们之间又有什么联系和区别呢?
毫无疑问,大数据的数据量自然是非常大的,但是光是量大还不是我们所说的大数据。比如过去国家统计局的数据量也很大,但那并不是真正意义上的大数据。这两者的差别我们可以从三个方面来看。
第一,大数据具有多维度性质,而不同维度之间有着天然的(而非人为的)联系。为了说明这一点,我们不妨看一个实际的例子。
2013年9月,百度发布了一个颇有意思的统计结果:中国十大“吃货”省市排行榜。百度没有做任何民意调查和对各地饮食习惯的研究,只是从“百度知道”的7700万条和吃有关的问题里“挖掘”出来一些结论:在有关“××能吃吗”的问题中,福建、浙江、广东、四川等地的网友最常问的是“××虫能吃吗”,江苏、上海、北京等地的网友最常问“××的皮能不能吃”,内蒙古、新疆、西藏的网友最关心的是“蘑菇能吃吗”,而宁夏网友最关心的竟然是“螃蟹能吃吗”!宁夏网友的问题一定会让福建的网友大跌眼镜。
百度做的这件事其实就是大数据的一个典型应用。它有这样一些特点:首先,它的数据量非常大。其次,这些数据的维度非常多,不仅涉及食物的做法、吃法、营养价值、价格等,而且包含了提问者的很多信息,如互联网IP地址、所用的计算机(或者手机)型号、浏览器的种类等等。这些维度并不是明确地给出的(这一点和传统的数据库不一样),因此在外人看来,这些原始的数据“相当杂乱”,但恰恰是这些看上去杂乱无章的数据,将原来看似无关的维度联系了起来。经过对这些信息的挖掘、加工和整理,就得到了有意义的统计规律。
百度只是公布了一點点大家感兴趣的结果,其实它还完全可以从这些数据中得到更多有价值的统计结果。比如,它很容易得到不同年龄、性别和文化背景的人(这些很容易挖掘出来)的饮食习惯,不同生活习惯的人(比如正常作息的、夜猫子,经常出差的或者不爱运动的)的饮食习惯等等。如果百度的数据收集时间跨度足够长,它还可以看出不同地区人们饮食习惯的变化,尤其是在不同经济发展阶段饮食习惯的改变。而这些看似很简单的问题,没有这些大数据,还真是很难得到答案。这就是大数据多维度的威力。
大数据的第二个特点在于它的完备性。为了说明这一点,让我们再来看一个实例。从1932年开始,盖洛普一直在对美国总统选举进行预测。几十年来它不断改进采样方法,力求使统计结果准确。但是在过去的几十年,它对美国大选结果的预测可以讲是大局(全国)尚准确,但是细节(每一个州)常常出错。因为再好的采样方法,也有考虑不周全之处。
但是到了2 0 1 2年总统选举时,这种“永远预测不准”的情况得到了改变。一位名不见经传的统计学家Nate Silver通过对互联网上能够获得的大量数据(包括社交网络上用户发表的信息、新闻信息和其他网络信息)进行大数据分析,准确地预测了全部50个州的选举结果。Silver并没有多么好的采样方法,只是收集的数据很完备。
数据的完备性的作用远比准确预测一次总统选举大得多,谷歌无人驾驶汽车便是一个很好的例子。无人驾驶汽车可以算是一个机器人,它能像人一样对各种随机突发性事件快速做出判断。
2004年,经济学家们还认为驾驶员是人工智能很难取代的。当然,他们不是凭空得出这个结论的。除分析了技术上和心理上的难度外,他们还参考了当年DARPA组织的自动驾驶汽车拉力赛的结果—当时排名第一的汽车花了几小时才开出8英里,然后就抛锚了。但是仅仅过了6年,谷歌的自动驾驶汽车不仅研制出来了,而且在高速公路和繁华的市区行驶了14万英里,没有出过一次事故。
为什么谷歌能在不到6年的时间里做到这一点呢?最根本的原因是谷歌的思维方式和以往的科学家们都不同—他们把这个机器人的问题变成了一个大数据的问题。
首先,自动驾驶汽车项目是谷歌街景项目的延伸。谷歌的自动驾驶汽车只能去它“扫过街”的地方,在行驶到这些地方时,它对周围的环境是非常了解的,而过去那些研究所里研制的自动驾驶汽车,每到一处都要临时识别目标,这是人的思维方式。
其次,谷歌的自动驾驶汽车上装了十几个传感器,每秒进行几十次各种扫描。这不仅超过了人所谓的“眼观六路,耳听八方”,而且积攒下来的大量数据使它对各地的路况以及不同交通状况下车辆行驶的模式有了准确的了解。计算机学习这些“经验”的速度远远比人快。依靠这些,谷歌才能在非常短的时间里实现汽车的自动驾驶。
大数据的第三个特征在它的英文表述“big data”这个词中体现得很清楚。请注意,这里使用的是big data,而不是large data。这两个表述有什么区别呢?big主要是强调抽象意义上的大,而large是强调数量(或者尺寸)大。big data不仅表示数据量大,更重要的是强调了思维方式的不同。这种以数据为主的新做法,在某种程度上颠覆了人们长期以来在科学和工程上的方法论。
过去,我们强调一件事的因果关系,通过前提和假设推导出结果。但是在大数据时代,由于数据的完备性,我们常常是先知道结论,再去找原因(甚至不去找原因)。事实上,在一些拥有大数据的IT公司,包括谷歌、阿里巴巴等,今天已经在按照这种思维方式做事了。谷歌的产品比竞争对手好,主要不是靠技术,而是靠它的数据比对手的更完备,同时它愿意用数据来解决问题。阿里巴巴的小额贷款业务能做起来,也是利用了大数据思维。这是一种我们以前完全没见过的新的思维方式,一种新的方法论。
大数据的这三个特点导致人工智能和人具有完全不同的特点。它不是通过逻辑推理归纳演绎得出结论,而是利用大数据的完备性和多维度特点直接找到答案。而大数据的完备性让机器有可能比人更能够掌控全局,或者说帮助决策者更好地掌握全局。