大数据:一场新技术革命
2015-09-10郑渝川
郑渝川
一提到大数据,很多人就会想到谷歌的“流感趋势”预测系统。2008年起,谷歌就在监控跟流感相关的搜索项,这一项目由数据驱动,最终成为一项效率上远超美国官方卫生部门及医疗行业监控效能的公共卫生预警系统。
然而,2012—2013年的流感高发期,谷歌的预测系统,准确性却发生了下滑,预测数据称11%的美国人将在高峰期患上流感,实际情况却只有6%。这样的误判并非个例。
谷歌的流感趋势系统经常被看做是大数据方法获得胜利的证据。误判的存在,却也说明,依托于对实时数据及其相关性的算法进行识别分析,很可能遗漏语境,产生高估或低估。流感趋势系统曾被证明其预测准确,赢得公共卫生部门及医疗行业的信任。如果这种信任延续,公共卫生部门显然会根据大数据预测调拨应急物资,通知企业生产疫苗,并适时启动应急预案——这种情况下,要是出现误判,不仅会造成资源浪费,还可能因资源错配使得疫病传播等紧急情况变得更为突出。
金融行业更早引入数据挖掘分析的理念和工具,甚至因此形成对数据分析及预测的盲目崇拜。2008年美国金融危机及之后引发的欧债危机表明,数据分析不能仅仅依托于相关性分析。金融行业、商业领域,战略与政策制定既需要积极借助数据挖掘分析来提高精准度,同样也需要融合反映因果关系的理论、假设、观念。而这本身正是大数据时代需要进一步深化提升的重要目标。
普利策奖获奖团队成员史蒂夫·洛尔所著的《大数据主义》,向读者展现了一幅仍在野蛮生长、不断优化完善的大数据进化图景。很多人可能因为大数据已经体现的分析威力和应用效益,而忽略大数据的发展与应用。大数据的未来应用前景、理论上应当实现的作用,目前还没有得到比较完美的积极呈现,包括数据科学家在内的各界学者、企业家、公司人、消费者,都还在路上。
《大数据主义》这本书不同于之前以大数据为主题的许多商业畅销书,作者为了说明大数据的演进特点,选取了大数据主义思想的典型代表、雅虎的前数据工程师杰夫·哈梅巴赫,以及数据时代最为成功的标杆企业之一的IBM公司,分别以这样一个数据科学家和数据企业为样本,深入介绍了大数据时代是如何随着数据理念、技术和方法的不断发展而前进。作者并不讳言在大数据时代的各阶段,数据理念、技术和方法都存在相应的局限性甚至缺陷,包括在起步阶段早期对相关性、可测量性的过度推崇,但强调数据科学具有很强的开放性,将积极融合其他学科领域的成果,增强对于医药、能源、农药等行业运作情况的把握。
大数据主义的基本内核,是要求猜测和基于经验的推理,服从于基于数据分析的科学判断。这并不是说经验与直觉就毫无意义,事实上,“好的直觉其实就是大量数据的综合,只不过这些数据难以量化为数字罢了”。大数据时代的演进,通过计量与数据水平的提升,人类的直觉与经验不仅有望更为清晰的具象化,转化为数据,而且还能反过来为科学、艺术、医学及其他方面的拥有丰富经验、良好直觉的天才进一步提高自己的判断能力服务。
借助大数据,更多企业和公共部门将原本杂乱无章的信息,梳理得井然有序,为构建人类行为模型提供助力,依据各方面翔实准确的数据,算法可以精确量化人的性格特征,精准预测人的行为不再只是空想。当然,这也因此引发伦理争议,人们担忧受到更多操纵,会因为隐私的更多外泄遭遇更多风险。
(《大数据主义》, [美]史蒂夫·洛尔 著,中信出版社2015年9月版)
新书推荐
《胡耀邦文选》
中共中央文献编辑委员会 编
人民出版社
2015年11月版
这部文选,收入了胡耀邦同志1952年5月至1986年10月这段时间内的重要著作77篇,约49万字,包括文章、讲话、报告、谈话、批示、书信、题词等,相当一部分是第一次公开发表。
《颓废与沉默:透视犬儒文化》
徐 贲 著
东方出版社
2015年7月版
犬儒原指古希腊犬儒学派的哲学家。他们提出绝对的个人精神自由,轻视一切社会虚套、习俗和文化规范,过着禁欲的简陋生活,被当时人讥为穷犬,故称。后亦泛指具有这些特点的人。面对中国现阶段知识分子的犬儒心态、社会的犬儒主义状态,作者针砭时弊,鼓励人们思考和反思,共同寻求解救之道。
《宫崎市定中国史》
[日]宫崎市定 著
浙江人民出版社
2015年11月版
日本历史学家、汉学家宫崎市定毕生致力于中国史的研究与教学。本书是他积40年研究与教学经验、面向普通读者的结晶之作,以世界史眼光和社会经济史视角把精致的实证研究与大气恢弘的通史叙述紧密结合,集中体现了他的研究成果和特色。
《权力与选择:政治科学导论》
[美]W.菲利普斯·夏夫利 著
世界图书出版公司·后浪出版公司
2015年9月版
本书最大的特点在于,从“权力”与“选择”两个角度来剖析解读政治,通过这条主线,将零碎的知识组合成完备的政治学体系。作者从政治的概念、国家与公共政策、公民与政体、国家机器、国际政治这五方面入手,引导读者全面详尽地理解政治学的知识领域。