大数据的中国陷阱
2014-02-17安替
安替
现在,上到高官,下到推销员,左一句“新媒体”,右一句“大数据”,预示着从美国传来的“大数据”浪潮也会和微博一样,很快就要进入中国的主流话语。既然从美国的推特(Twitter)到中国的微博,有太多重大变化,那么“大数据”这样的美国产物,在进入中国之后,会发生什么样的嬗变?
要理解大数据浪潮,有两个样板。一个是幻想项目,美国正在热播的电视连续剧《疑犯追踪》(Person of Interest),讲述了美国国安局有一台记录全球监控画面和通讯信息的大“机器”,能根据拥有的海量数据预测犯罪相关人。另一个是现实工程,奥巴马两次大选的成功,就是背后科技团队对大数据的挖掘和整理,所以能得出和主流媒体不同但更准确的预测。大数据的魔力就在于,它能预测未来,掌握这样的未来信息,就能控制商业和政治。
但无论是幻想的“机器”还是奥巴马大选团队,大数据魔术得以实现的关键是,这些数据是基本准确和真实的。幻想的美国国安局“机器”收集的是监控视频、电话记录、银行转账、税单、网络言论,如果要准确预测出一个行为不合理的反社会人物,这些数据必须真实可靠。而大选大数据战略,更是完全要依赖包含选民具体信息所谓“电话银行”的准确性。因此,在催票过程中,两党选举团队和盟友,必须派出海量的志愿者,挨家挨户在选区敲门(Canvass),除了提高投票率,更重要的是更正“电话银行”住户各类信息的错误。笔者前年11月就在弗吉尼亚州一个选区参与了这种Canvass活动,亲身感受到“大数据”背后是繁重的确认工作。
当大数据引入中国时,立刻会遇到数据的中国陷阱——失真。美国著名统计学者、《纽约时报》博主Nate Silver利用各州民调数据,得出奥巴马会大幅度赢得第二次大选的预测,击败盖洛普全国民调,但想想他如果用的是中国各省民调,能得出什么样的结论?在中国做有关社科方面的研究,第一要则就是别相信任何现成的调查数据,必须想办法亲自动手另起炉灶。很难想象,依赖各种编造、浮夸、以应付为前提的“大数据”,这项技术在美国会达到正面的战略效果。
数据失真的背后必有深刻的政治社会原因。在数据收集方面,必须有最基本的隐私保护、言论保护和人权保护制度,公民才敢于向有关机构公布个人信息,已发表的信息才可长久存在。另外,政府也按照法律公开各种信息,以回报公民对政府的信任,减少公民因隐私被获取而产生的恐惧感。这在各种观点性数据的收集方面尤为重要。目前各种基于社会媒体的舆论分析,在很多方面是个笑话:因为各种原因删帖,或经大力“引导”后的“舆论”分析,能当真吗?这就是过去几年大部分对微博的数量分析都不能看的原因,逼得哈佛教授Gary King需要自己建一个社交网站才能获得真实数据。
目前在中国有前途的大数据分析,大多是对商业行为的分析,因为数据来自真实的购买记录,失实率低。但这种分析无外乎就是数据库运算加一部分的外来数据挖掘,与我们所说的“大数据”的功能与意义相去甚远。
即便解决了收集数据的真实性问题——比如直接调用服务器,进行更加深度的挖掘和人工确认等等,中国大数据的发展也会遇到另一个问题:大数据得出的结论,是自下而上的,这和中国普遍的自上而下决策过程相冲突。大数据其实是决策微民主化过程:重大决策必须参考甚至取决于每个个体决策的总和趋势,如果只讲“顶层设计”,一定会水土不服。
这样的数据决策民主是不是有缺点,那是另外一个问题。例如乔布斯的Apple和iPhone,可不是从任何数据得出的决策,他的做法甚至是反数据决策民主的。如果真的要实施大数据战略,必然包含着决策民主化的过程。
在这种情况下,除了纯粹商业大数据分析,任何结论需要提交给非商业的决策者,就会出现一个典型的中国问题:调查报告如果不符合领导思路怎么会存在?本身是展现技术独立决策魔力的大数据,在中国,很容易会沦为“大忽悠”,为了领导和客户的喜爱,而故意修改数据模型甚至结论本身。
“大数据”其实是公开社会条件下数字化治理的决策智能版,而中国的数字化治理也只有在一些已经或者努力在海外上市的公司,才在西方大环境的压力之下被迫实现。因此,几乎成为“机器神祇”的美国大数据,进入中国之后,也只能强化商业购买上的预测力,却很难发挥其社会魔力。
(摘自《财新新世纪周刊》)endprint