大数据的中国陷阱

2014-02-17安替

领导文萃 2014年2期

安替

现在，上到高官，下到推销员，左一句“新媒体”，右一句“大数据”，预示着从美国传来的“大数据”浪潮也会和微博一样，很快就要进入中国的主流话语。既然从美国的推特（Twitter）到中国的微博，有太多重大变化，那么“大数据”这样的美国产物，在进入中国之后，会发生什么样的嬗变？

要理解大数据浪潮，有两个样板。一个是幻想项目，美国正在热播的电视连续剧《疑犯追踪》（Person of Interest），讲述了美国国安局有一台记录全球监控画面和通讯信息的大“机器”，能根据拥有的海量数据预测犯罪相关人。另一个是现实工程，奥巴马两次大选的成功，就是背后科技团队对大数据的挖掘和整理，所以能得出和主流媒体不同但更准确的预测。大数据的魔力就在于，它能预测未来，掌握这样的未来信息，就能控制商业和政治。

但无论是幻想的“机器”还是奥巴马大选团队，大数据魔术得以实现的关键是，这些数据是基本准确和真实的。幻想的美国国安局“机器”收集的是监控视频、电话记录、银行转账、税单、网络言论，如果要准确预测出一个行为不合理的反社会人物，这些数据必须真实可靠。而大选大数据战略，更是完全要依赖包含选民具体信息所谓“电话银行”的准确性。因此，在催票过程中，两党选举团队和盟友，必须派出海量的志愿者，挨家挨户在选区敲门（Canvass），除了提高投票率，更重要的是更正“电话银行”住户各类信息的错误。笔者前年11月就在弗吉尼亚州一个选区参与了这种Canvass活动，亲身感受到“大数据”背后是繁重的确认工作。

当大数据引入中国时，立刻会遇到数据的中国陷阱——失真。美国著名统计学者、《纽约时报》博主Nate Silver利用各州民调数据，得出奥巴马会大幅度赢得第二次大选的预测，击败盖洛普全国民调，但想想他如果用的是中国各省民调，能得出什么样的结论？在中国做有关社科方面的研究，第一要则就是别相信任何现成的调查数据，必须想办法亲自动手另起炉灶。很难想象，依赖各种编造、浮夸、以应付为前提的“大数据”，这项技术在美国会达到正面的战略效果。

数据失真的背后必有深刻的政治社会原因。在数据收集方面，必须有最基本的隐私保护、言论保护和人权保护制度，公民才敢于向有关机构公布个人信息，已发表的信息才可长久存在。另外，政府也按照法律公开各种信息，以回报公民对政府的信任，减少公民因隐私被获取而产生的恐惧感。这在各种观点性数据的收集方面尤为重要。目前各种基于社会媒体的舆论分析，在很多方面是个笑话：因为各种原因删帖，或经大力“引导”后的“舆论”分析，能当真吗？这就是过去几年大部分对微博的数量分析都不能看的原因，逼得哈佛教授Gary King需要自己建一个社交网站才能获得真实数据。

目前在中国有前途的大数据分析，大多是对商业行为的分析，因为数据来自真实的购买记录，失实率低。但这种分析无外乎就是数据库运算加一部分的外来数据挖掘，与我们所说的“大数据”的功能与意义相去甚远。

即便解决了收集数据的真实性问题——比如直接调用服务器，进行更加深度的挖掘和人工确认等等，中国大数据的发展也会遇到另一个问题：大数据得出的结论，是自下而上的，这和中国普遍的自上而下决策过程相冲突。大数据其实是决策微民主化过程：重大决策必须参考甚至取决于每个个体决策的总和趋势，如果只讲“顶层设计”，一定会水土不服。

这样的数据决策民主是不是有缺点，那是另外一个问题。例如乔布斯的Apple和iPhone，可不是从任何数据得出的决策，他的做法甚至是反数据决策民主的。如果真的要实施大数据战略，必然包含着决策民主化的过程。

在这种情况下，除了纯粹商业大数据分析，任何结论需要提交给非商业的决策者，就会出现一个典型的中国问题：调查报告如果不符合领导思路怎么会存在？本身是展现技术独立决策魔力的大数据，在中国，很容易会沦为“大忽悠”，为了领导和客户的喜爱，而故意修改数据模型甚至结论本身。

“大数据”其实是公开社会条件下数字化治理的决策智能版，而中国的数字化治理也只有在一些已经或者努力在海外上市的公司，才在西方大环境的压力之下被迫实现。因此，几乎成为“机器神祇”的美国大数据，进入中国之后，也只能强化商业购买上的预测力，却很难发挥其社会魔力。

（摘自《财新新世纪周刊》）endprint