更多的数据,更大的麻烦
2017-12-06贺琴川
贺琴川
大数据也有大麻烦
我们身处于这样一个数据爆炸的时代,尤其是最近这些年来我们生产的数据量和分析量都在激增。据统计分析,过去的30年里,每两年,世界上的数据量就增加了约10倍——这一比率甚至使得摩尔定律都相形见绌。而现在世界上90%的数据是在过去两年里创造出来的。对于数据分析来说,这是伟大的,现在的我们得到了比人类历史上任何时候都要多得多的数据供我们分析和操纵。很了不起不是吗?但是这就代表着我们可以高枕无忧地随意使用这些数据了吗?
在大数据时代,人们越来越倾向于“用数据说话”。由数据驱动的决策被认为是一种明智的做法,但数据的真实性又会很大程度上影响决策的正确与否。因为数据是有偏见的,或者说人类收集和分析数据时是有偏见的。数据并不是越多越好,鱼龙混杂的结果就是可能让我们更加难以接近真相。
在许多分析算法中,筛选信息起着非常重要的作用。如果没有筛选,我们可能会经历“无用输入/无用输出”的情形。但是筛选的依据是什么?是以数量决定权重吗?毋庸置疑,肯定是越近期的事件可参考的数据越多,如果将此定为高权重的部分,那么我们很容易得到一个不太准确的结论,因为我们抛弃了那些因为年代久远而被认为是低权重的重要事实。
最新的就一定更好?
喜新厌旧似乎是我们每个人的天性,我们对他人或是事件的最新认知往往会在做判断时占据主要的地位。比如两个本来很要好的朋友,小A一直很照顾小B。小A最近因为其他事情上的不顺而好几次把气撒在小B身上。小B也很是生气,觉得小A根本就没把自己当朋友,两人关系破裂,形同陌路。为何只是小小的几次不和就会对一段亲密关系造成如此之大的杀伤力?原因在于我们对近期发生的事情的印象过于深刻,反而忽略了以往存在的事实。
如果世界上90%的数据都是最近两年里创造出来的,那么我们的数据就存在固有的“近因偏差”。这种认知偏差让人们倾向于认为,我们在近期观察到的趋势和模式将在未来继续存在。因此人们会增加对近期所发生的事件的重视,并假设这些模式会与即将要发生的事情有直接的联系,并以此作为制定决策的关键。
比如,你所居住的城市最近几年的夏天都温度较低,你就认为当地的气候在变冷,但很可能明年气温就回升了;你看到这支股票近期的势头很好,一直在上涨,你可能会预测它会一直这样无限期地持续下去,而这显然也是不太可能的;尤其是,在中国,房价已经连续上涨了几十年,几乎已经没人相信中国房价未来会跌了。
虽然历史会重演,但近期的表现并不能直接表明未来的成功或失败。因此,重要的是,不要给一个信息不成比例的关注。当我们给我们的大数据系统塞进大量过多的近期数据时,数据分析将会被近因效应极大地扭曲,很有可能你因此得出的预测结论还不如你掷硬币来得可靠些。
如果想做出明智的决策,不仅要学会降低对近期表现的关注度,还要对以往的表现考虑得多一些。仅仅通过是六个月或一年的表现去分析可能并不扎实,如果不懂得从更遥远的过去收集更多的信息数据,反过来,就会误导自己做出草率的决定,成为目光短浅之人。
学会删除数据更为重要
当然,最新的数据不一定是最好的,以往的老数据也同样不等于就是绝对有用的。关键是在时间的锤炼过程中,学会删除有缺陷和无效的数据。
比如你是一个喜欢拍照的人,时间久了你的手机相册里会存有很多张照片。假设你手机的存储空间是固定的,那么你就必须定期清理那些照片。你需要想想哪些是值得你留下来作为以后会回顾的相片,而哪些是你将来看都不会再看一眼的。如果你为了省事,只留下新照片,直接把那些老照片都删除了,你可能会删除许多珍贵的值得留念的照片,反而留下了一些无意义的照片。
在这个大数据的背景下,我们所拥有的数据集合,比以往的任何时刻对我们的研究所产生的影响都要大。而数据的科学性越弱,数据规模和数据的质量就越可能呈现负相关,此时时间本身就成为更加重要的过滤工具。我们如果不仔细选择过去保存下来的有价值、有意义的事物,它们就会被迅速膨胀的信息洪流悄无声息地吞没掉。
因此,如果我们正在大数据中寻找一些可以告诉我们未来将会是如何发展的依据,我们需要知道当前的数据中什么是重要的,我们需要冲洗掉那些不重要的东西。新鲜的事物更能吸引我们的眼球,但却不一定重要,我们需要克服这一点。
我们常用的搜索工具的算法基本上还是偏向于新鲜事物的,越近期发生的越排得靠前,越容易被我们所看到。而那些以往的旧闻,很可能点击进去后已经变成了失效的网址。也许我们应该考虑设计一个智能程序,使得信息系统能够变通,懂得忽略不重要但卻是最近产生的信息。
大数据时代机遇与挑战并存,我们要善于利用我们所拥有的数据,应该懂得只分析那些有意义的数据,以质为主而不是以数取胜。数据只会如滚雪球一般越来越大,懂得主动选择放弃哪些事情,与选择做何事同样重要。