数据在历史中的运用
2019-12-25禹淼楠
禹淼楠
摘要:徐子沛先生《数据之巅》一书以数据为轴,在梳理了美国数据文化和大数据发展历史的同时揭示了在现代文明进程中的那只无形的数据之手。该书将数据与人类文明的发展以及民主体制的演化相结合,为历史研究拓展了新的思路。将数据文化作为一种新的视角来深入发掘美国历史中的细节,这对其他国家的历史研究也具有很大的借鉴意义。
关键词:大数据;美国史;人口普查
中图分类号:F49 文献标识码:A文章编号:CN61-1487-(2019)15-0141-04
大数据在当今这个信息化的社会中占有着很重要的地位。在美国,“大数据”这一概念并不仅仅局限于大量的数据和处理大量数据的技术,或者所谓的“4个v”之类的简单的概念,而是涵盖了人们在大规模数据的基础上可以做到的事情,而这些事情在小规模的数据上是无法实现的①。从这个角度来看,数据表示的是过去,表达的却是未来。从小数据之历史到大数据的崛起,《数据之巅》全书一共分为了两个部分。在第一部分,以美国数据文化的发展历史为线索介绍了小数据的发展历程。作者将美国历史的第一个百年分成了三个时代,分别为初数时代、内战时代和镀金时代,后两百年的历史被划分为了进步时代、抽样时代、开放时代和大数据时代。不同的是,在第一个一百年中三个时代的划分是有起点与终点的,但是在后一百多年的历史中作者认为这些时代或多或少的对现在仍有一些影响,所以仅有起点而并没有终点,在本文中会抽取文章中一些典型例子来做介绍。
一、小数据之历史
(一)数据与分权
人口普查无疑是整个初数时代的核心。无论古今中外,每个国家最基本的要素都是其国民和土地,因此,“点人头”一直是一个国家最基本、最原始、规模最大的社会活动。作者以1787年制宪会议中的一些问题为切入点,讲述了美国的建国者如何构建与运用数据分权的方法来解决问题。
作者以“伟大的妥协”为开头,迅速切入到美国每十年一次的人口普查。与其他的国家和地区的人口普查不同,美国的这种人口普查模式可以算是一种创举。作者将美国的人口普查与中法两国的人口普查相比对。其他的国家和地区的人口普查一般是为了征税或实施社会控制,所以民众的内心会产生很多担忧和抗拒的情绪,这种担忧甚至存在于地方政府之中。比如1753年英国计划展开的人口普查就因各地诸侯抵抗而流产。不同的是美国的人口普查是一种数据分权的体现,将人口与国家利益的划分相结合,多报人口意味着更多的税务和义务,而隐瞒人口则会失去相应的关乎权利的席位划分。所以美国的人口普查受到了广大民众和地方政府的大力支持和宣传,因而取得了显著的成果。
此外,人口普查及数据问题对第一届众议院选举产生了重大的影响力,首先围绕统计什么、不统计什么产生了争论。其次,在第一次人口普查后,“粗放”的数据也产生了一定的问题。最突出的问题就是众议院到底应该设多少,即一个席位究竟应该代表多少人。后来,汉密尔顿和杰斐逊分别提出了余数法和除数法来解决这一数学难题,华盛顿以汉密尔顿的余数法违宪为由行使了第一次总统否决权,选择了杰斐逊的除数法(因宪法规定席位代表的人数不应低于30000人,而新罕布什尔州的每席代表人数为28364所以汉密尔顿的余数法违宪)。
(二)内战时期的“灯塔”
到了内战时期,人口普查依旧拥有举足轻重的地位。美国历史学家罗伊·尼科尔斯(1896-1973)曾说过:“人口普查已经成为南方最大的敌人。”作者认为在1830-1870这个阶段美国的数据文化进入了一个特殊的历史阶段,数据在南北双方激烈的竞争之中扮演了“灯塔”般的重要角色。这一段时期的人口普查范围在逐渐地扩大,慢慢超出人口的范畴,涉及精神病患者、文盲等各个方面,这些新的数据也参与到了南北双方激烈的辩论之中。作者花了很大的笔墨透过“向大海进军”这一事件来讲述数据在战争中的重要作用。在1860年林肯上任以后,人口普查又因为分肥制回到了肯尼迪的手中,因战争的需要,也催生了人口普查部门的创新,绘制了大量的地图和数据。谢尔曼利用大量的数据分析最终决定切断自己的后方补给,自己將这次行动称为“向大海进军”。战争胜利后谢尔曼给肯尼迪发去了感谢信,信中说道:“在这场战争濒临结束时发生的种种事件证明,您给我提供的各种统计表格和数据价值巨大,没有它们,我不可能完成任务,这些任务,对世界上最敏捷、最有经验的不对而言,都是像迷宫一样的难题。”在多年之后谢尔曼回忆往事之时还总结说:“历史上没有任何一次行军远征,曾经建立在像这次一样完善和肯定的数据之上。”
(三)镀金时代的迅猛发展
镀金时代是数据发展与爆发十分集中的一个时段。路易斯·芒福德曾说:“在一个半世纪前所有伟大的发明背后,绝不仅仅是技术本身的长期进步,同时还有思维方式的转变。”美国数据观念的转变就从加菲尔德的用数据预测开始,他认为数据是社会规律的载体,此外,加菲尔德还提出了要对普查结果保密。这也为普查工作开启了有关隐私权的话题,虽然隐私权的正式确立是很久之后的事情,但加菲尔德的这一举措也可谓深谋远虑。
随着人口的不断增长,人口普查需要的数据处理量逐渐增大,最可行的解决方法就是推动技术创新。1888年霍尔瑞斯制造出了第一台打孔卡片制表机,使得本将无法按期完成的每十年一次的人口普查得以继续顺利进行。之后霍尔瑞斯建立了自己的公司,并于1911年与其他公司合并成为了后来的国际商用机器公司也就是今天的IBM。
面对镀金时代光鲜外表下的各种危机与乱象,改良派认为应该依靠调查事实和专业的分析来解决问题,专家、科学和数据成为了这个时代的主导。1908年,数据开始进入美国法庭。布兰代斯仅两页的法律分析援引了一百多页的数据和统计来证明劳动时间过长对女性健康的危害,这种诉讼方法后来被称为“布兰代斯诉讼方法”。在为黑人儿童争取平等择校的布朗诉教育委员会案也采用了这种方法,最终获得了胜利。
这一时期数据不仅仅用在法律案件中,还用来做重大决策,这种方法叫做成本收益分析,如果收益/成本>1,证明收益大于成本,且该比率越大,可行性越高。在应用于如水利工程等方面时,这种方法不断经受着各种争执,也在不断的完善,但在这里涉及到一个关于道德的问题,如何给生命定价。从20世纪10年代到70年代,基于生命价值的量化一直在学术圈、商业界和政界悄悄的进行,直到70年代福特公司卷入了“平托”风波才显现出来,奇怪的是,经历这种风波之后的成本分析方法却越发深入的应用到政府决策当中。1981年里根总统颁布第12291号行政命令,要求联邦政府的各个部委在推出重大管制规定的时候都必须进行成本收益分析。量化成为了整个进步时代的主流。
美国的政治制度与统计科学的相互影响不仅仅表现在“用数据分权”这一点上,也体现在了美国的选举制度上,这一新的统计革命时代被作者成为“抽样时代”。对于担任新总统人选的预测起于1824年,在媒体的推波助澜之下,这种调查和预测逐渐成为大众政治生活中的重要内容,被称为民意调查。从单纯的讲求数量大到科学的抽样技术的应用,民意调查不再仅仅局限于总统大选中,也应用到了社会生活的许多方面之中,进一步的、抽样这一科学的统计方法由政界起始逐渐推广到了企业生产之中,并起到了极其重要的作用。
二、大数据的崛起
随着统计科学的发展和电子数据的累积,人类迈进了大数据的时代,开放成为了大数据时代的主旋律。奥巴马在2010年9月23日在联合国大会上的演讲中提到:“开放的经济、开放的社会和开放的政府,是人类社会之所以能够进步最深厚、最强大的基础。”②作者认为就美国的数据开放而言,其最早的表现形式是信息自由、数据公开,是一种典型的内开发。美国的信息自由运动起源于民间对政治知情权的争取。1953年,在新闻界的强烈要求下,国会开始草拟《信息自由法》,直至1966年才勉强通过。即便通过,执行效果也差强人意,终于在新闻界的抗议和批评的浪潮中国会于1972年提出了《信息自由法修正案》。该修正案规定,如果政府拒绝民间关于信息公开的要求,任何公民都有权提起司法诉讼,而法院才拥有信息是否公开的最终裁判权,由此美国政府的信息公开驶入正轨。
随着20世纪70年代环境保护运动的兴起,这些不断公开的数据成为了制衡的另一个标准,内开放进入了新的发展阶段。通过公开的数据,将企业置于社会公众的监管之下,有效的监督了环境污染、产品质量、食品卫生、药物安全等各行各业。进一步地对美国国会议员的财产进行监督,要求财产公开,财产公开的这种诉求成为后来“数据开放”的原型。
但此时美国的数据呈现一种分散的状态,普查局和州政府所拥有的不同种类的数据没有办法得到有效的沟通。“9·11”事件从另一个角度上推动了这个融合进程的发展。因在悲剧现场的第一时间,国家统计部门无法为最高决策者提供准确的伤亡和财产损失数据,这种数据之痛推动了LEND(工作单位和家庭住址的纵向动态系统)的进展。LEND不仅数据分析的粒度细致,而且提供以时间为跨度的纵向数据分析,这个系统的整合与开发起初完全是为了政府部门使用,后来在“数据应該服务于民”观点的引导下,普查局为LEND开发了一个基于地图的互动式界面On The Map,受到了美国社会的欢迎。将数据公开作为一个过渡,紧接着内开放进入了数据开放的时代,将数据的所有权交还社会。数据对于经济发展和社会生活具有重大的服务作用。
作者认为,大数据由三个层面构成,首先是代表人类保存数据能力增强的摩尔定律,其次是导致人类生产数据增多的社交媒体,最后是通过数据挖掘使得人类使用数据的能力增强。在大数据的前提下,随着计算型社会的兴起,人们在各个领域的研究出现了很多新思路,一些精细的、微妙的、曾难以捕捉的信息上升成为显性的知识。而这些知识赋予了机器智能,为人类提供自动化服务,这就是所谓的数据之巅。也正是由此,得以进入智能型社会。由此回到了作者反复强调的一点“数据,正在成为这个世界最重要的土壤和基础”。
三、结论
《数据之巅:大数据革命,历史现实与未来》一书的作者以美国的数据发展的历史与文化为例,揭示了数据对于当今世界的重要性。数据在美国的社会文化与生活中占据了一个十分独特又不可或缺的地位。从建国初期的用数据分权,到南北战争时期证实黑人自由就会发疯的言论是来源于统计失误,并运用到军事中,再后来加菲尔德将统计变成一个专业的部门为政府和人民服务,随之增加的数据处理的需求拉动了技术上的创新,成为IBM成功的第一步,紧接着在通过量化提高产品质量,分析处理劳资冲突并成为黑人与妇女争取权益的一个科学有利的证据,随后产生的抽样技术应用到民意调查、质量监管,成为美国人民生活中不可或缺的一个关注点。直到现在不断加大的数据开放力度,可以说,在美国建国两百余年的历史中,数据一直都在。这一整条清晰明朗且独特的脉络使美国成为揭示数据重要性的一个典型的标本。与传统的美国史所讲述的内容有所不同,这本书的记述更偏向于美国统计学史,在梳理了美国数据的发展历程之余,更为重要的是在这个信息化高速发展的今天为我们历史研究提供了很多新思路、新视野与新方法。就当下这种多学科交叉,相互借鉴的今天,我们要学会借鉴其他学科一些东西来弥补自身,而不是仅仅局限于传统的历史研究方法之中,思考别的学科的先进的概念是否可以被借鉴,思考别的学科的研究方法是否可以移植与应用,别的学科的研究成果对于解释本学科的概念是否有价值或者是否可以当作证据。大数据也正越来越多的应用于历史研究中,在大数据的环境下可以通过建立数据库、信息中心等多种方式,将繁杂的历史信息加以整合,很多我们容易忽略的,或者一些微小的联系得以展现在眼前。此外,在美国现当代史的研究中,数据更是起到了十分关键的作用,正如书中作者所言,要讲科技符号转化为文化符号,在建立起这样的数据文化之后,我们才能更好的融入大数据之中,整合数据,更好的利用数据。
但從历史专业书籍的角度来看,这本书就略显不足。数据对于美国历史来说固然像一根隐形的脉络贯穿其中,但仅仅用数据这一根线来贯穿却略显单薄,不过基于作者的主旨是在于以此为例讲述大数据背景下应该将科技符号转化为文化符号,那么这一点上是可以理解的。作者由于并非历史专业的学者,就梳理美国数据史与数据文化的发展历程方面所做的贡献是值得肯定的。作者为我们所提供的新的研究方法与新的概念的普及也是值得我们深入思考的,不过就严密的史学逻辑的论证和证据的选择上是我们历史写作时需要格外谨慎注意的地方。对于历史写作而言,材料是第一性,对于材料而言,真实性与合理性又是重中之重。由此,在做历史论证的时候,应该客观公正的选取真实合理且用之恰当的材料,不能为了论证自己的观点来选取材料,或者有偏向性的解读材料。作者所提供的例子在梳理整个历程时都是十分典型的,也是十分经典的,但用于论证数据文化作为一只无形的手对美国文明进程的推动作用却不够严谨。无论是在权利分配、推动法制建设,还是在一些重要且典型的诉讼案(如与合理化妇女工作时间或与废除黑人种族隔离的相关案件)所取得的成功上,仅仅强调数据的作用是远远不够的,在这些材料的解读上也是十分片面的。这不仅会容易使读者仅仅关注于数据而产生误区,也使得这些用来论证的证据看起来像是“精挑细选”过的。任何一个概念的群落都是有十分核心典范的个体和边缘个体,这篇文章选取的便都可看作核心典范的个体。但每一个概念的群落的核心典范的个体都可以说明这个观点的话,那么这个建构体系必然是存在问题的。
注 释:
①透视美国大数据爆发全景[J].互联网周刊,2013.1.
②英文原文为:〝Each country will pursue path rooted in the culture of its own people.Yet experience shows us that history is on the side of liberty;that the strongest foundation for human progress lies in open economies,open societies,and open governments〞—Remarks to the United Nations General Assembly, Obama,September 23,2010.