姑娘、棉花和数据
2014-06-13涂子沛
涂子沛
如果要追溯历史,美国的人口普查部门和美国的建国可谓是相生相伴,但这个最早的统计部门在它成立100 多年后,依然是一个临时机构。
其实,从19 世纪50 年代的肯尼迪开始,每一届办公室主任都想把临时的普查办公室升级为一个常设机构。民间的统计团体也长期在国会游说,包括沃克,他在离开普查系统之后,还担任美国统计协会的主席,他也主张,普查范围应该不断扩大、升级为永久性机构,这样有助于保持工作的连续性。
但历届国会均拒绝了升级,总统不支持的理由也很明确,普查工作每10年才一次,公务员队伍应该尽量精简。
1899年3月,为了筹备世纪之交的新普查,梅里亚姆被任命为普查办公室主任。梅里亚姆是一名资深政客,曾担任明尼苏达州州长,但却毫无统计工作经验,这一任命曾引起普查系统的强烈批评和反对。
但历史常常和人类开玩笑:正是在这位外行的领导下,普查人实现了半个多世纪的梦想,普查办公室成功升级为常设机构!
姑娘的力量
这位外行走的也是“偏门”。要说原因,和霍尔瑞斯发明的自动打孔机有关。
那时候,在数据分析开始之前,必须把几千万张问卷先转变为打了孔的卡片。因为霍尔瑞斯发明的自动打孔机,打孔工作已经成为女性的专利。梅里亚姆因此雇用了几千名卡片打孔员,清一色都是年轻的姑娘。她们每天打扮得花枝招展,像云彩一样,在联邦政府的办公大楼里穿梭,成为一道亮丽的风景线。
除了年轻,姑娘们还有一个共同的特点——都想留在首都华盛顿结婚生子。梅里亚姆在国会、政府频繁组织联谊活动,于是,姑娘们和议员、公务员们打成了一片。在她们的强力攻势下,国会议员在不知不觉中被争取了过来。美国的人口学之父、著名的威尔科斯教授在谈到这段往事时说:“在处理和国会的关系上,梅里亚姆十分聪明,这些姑娘令人眼花缭乱。普查局之所以能成为永久性的常设机构,和统计科学没有‘半毛钱关系,仅仅是因为有人想把姑娘们留在华盛顿。”
姑娘们“攻陷”了国会,但任何一个法案的通过,还需要总统点头。恰恰这时候的总统西奥多·罗斯福也非常重视数据,而且就在议员们消受了艳福、改变了立场的时候,发生了一件小事,让罗斯福看到了小数据的大力量。
棉花也疯狂
1793 年轧棉机的发明,激活了正在萎缩的奴隶制,棉花种植业从此兴起,并成为美国的重要经济支柱,这种情况一直延续到20世纪。1899年,美国共产棉花900万担,其中3/4 用于出口。但接下来的几年,英国的纺织业不景气,导致棉花价格大幅波动,不少棉农破产。罗斯福总统因此急需数据,他要求统计一年当中各个时段的棉花产量,以便根据价格变化进行调控。
每一年的棉花产量,农业部都会统计,来年的产量他们也会预测,但这次罗斯福总统要的,是一年内各个时段的实时数据。农业部左拼右凑,还是束手无策,拿不出可靠的数据。
这时候,普查办公室一个部门主管诺思灵机一动。他提出,在刚刚完成的工业普查中,已经掌握了全国各地轧棉机的分布和数量,每一朵棉花都要通过轧棉机去籽。因此,通过轧棉机的轧棉记录,我们就可以准确地计算不同时间节点上的棉花产量。诺思用了一年的时间,在全国3万台轧棉机上建立了统计报告制度,每月统计两次,从而获得了棉花产量的准确数据。这个数据精细到半个月,罗斯福总统大感欣慰,于是同意普查办公室升级为永久性的常设机构。
1902年3月,在经历了100多年的波折起伏之后,美国联邦政府终于在内务部成立了普查局。一年后,普查局和劳工统计局一起并入商务劳工部(DCL)。因为棉花统计的功劳,诺思晋升为普查局局长。
人口普查局和劳工统计局堪称美国统计工作的中枢和主干,美国政府后来的很多统计部门,例如交通统计部、能源统计部、卫生统计部大多是在这两个部门的基础上分化而来的。因为没有统一的标准,全社会的数据就不可能进行有效的对比和汇总,即使计算得再准确,也没有什么意义。1901年,美国还建立了国家标准与技术研究院(NIST),推进各类标准在社会中的建立和应用。劳工统计局、普查局、标准局与1863年成立的农业统计局并驾齐驱,标志着美国国家统计机构的健全和崛起。
值得一提的是,在棉花统计过程中,开始出现商业隐私的争议。普查局最初以县为单位,公开发布各地的棉花产量,以供各级政府、商业组织和个体农户参考。但对于一个小县,如果只有两三台轧棉机,公布其总数,则意味着各台轧棉机的机主就能推算出其他轧棉机的产量,这相当于商业机密的变相泄露,因此引起了一些地方的抗议。普查局很快修改了规定,规定一个郡县的轧棉机如果不超过三台,其数据必须合并在其他郡县中,不予单独发布。这也表明,美国社会的隐私意识在逐步成熟。
到1910年,第27任总统塔夫脱首次为普查发表了专门的总统声明,向大众公开保证政府不会滥用普查信息和数据。他在声明中说:
“普查的唯一目标是获得我们国家人口和资源的总体信息,我们要求每个人都回答问卷,是为了保证能够编撰细致的统计信息。普查和纳税、军队服役、强制入学、移民管理以及任何国家、州和地方层面的执法工作没有任何关系,任何人都不会因为提供这些信息而受到伤害,没有任何必要担心我们会公开个人情况及事务的数据。我们会对信息提供人的权益进行合理保护,每个工作人员都禁止泄露任何信息,违反规定必受重罚。”
棉花,又一次改变了美国历史。
数据安全浮出水面
除了隐私意识的成熟,在棉花的统计和预测中,数据安全的问题也开始浮出水面。上文提到,农业统计局每个月都要发布统计报告,其中的一个重要指标,就是对下个月各种农作物产量的预测。这些数据会影响全国很多商品的供求关系,甚至左右期货市场价格的波动和成交量的多少。因此,这份报告在发布之前,被视为机密。1903年,农业部总统计师海德成立了一个三人小组,专门负责对全国各种农作物的产量进行预测。每月正式发布数据的当天,三人小组就会召开会议,共同确定各项数据的大小,然后在同一时间提供给所有的新闻媒体。
1903年12月,罗斯福给农业部部长写信,说他收到多起投诉,有人提前知道了棉花的产量数据,并利用它在股票和期货市场上进行内线交易。这意味着数据泄密。海德立刻修改了数据讨论和发布的过程:他把会议地点定在了一个与外界通信隔绝的房间,并规定在完成数据预测的工作之后,三人小组的成员也必须待在会议室,直到数据正式对外发布之后才能离开。
海德认为这万无一失,他也向部长拍胸膛保证,但罗斯福总统还是继续接到投诉。
泄密者确实是三人小组中的一名成员,他是助理统计师霍姆斯。霍姆斯把数据泄露给了华尔街一位棉花投机商赖柏。在被要求不能离开会议室之后,他跟赖柏约定,用会议室百叶窗的窗帘作为信号:当窗帘拉到一半,就是约定的棉花产量,窗帘最后停在不同的位置,就表示不同的产量。
海德百思不得其解,但他最终还是想出了一个办法,挖出了“内鬼”。
一天,在所有的数据汇总、预测完成后,他在最后一分钟提出要紧急修改,但这时候,霍姆斯的信号已经发出,得到错误信号的赖柏在当天的交易中损失了25000 美元。巨亏之下,赖柏愤愤不平,他在交易现场公开指责有人“篡改”了数据,这当然也暴露了他提前知道数据这一事实。在后续的调查当中,赖柏供出了霍姆斯。
令人尴尬的是,虽然霍姆斯对其阴谋供认不讳,但当时却找不到一部法律能给他定罪。因为无法可依,农业部最后只能对霍姆斯开除了事,总统计师海德被迫引咎辞职。
面对丑闻的尴尬,罗斯福十分震怒,他责令立即立法。1909 年,美国国会通过立法,将公务员提前泄露相关数据的行为定为刑事犯罪。此后,农业部着力完善了数据安全机制,推出了“锁定”制度:凡是接触到敏感数据的工作人员,在数据发布前必须被隔离,数据公布以后隔离才能解除。锁定制度同时也明确规定,数据大小的最终决定权在专业统计人员手中,即使是农业部部长,也属于锁定的对象:他仅仅在数据正式发布前的15分钟,在同样封闭的情况下听取专业人员对数据的解释,以便回答记者们提出的问题。这个制度不仅提高了数据的安全性,也把数据的决策权牢牢地掌控在专业技术人员手里,保证了统计工作的中立性和专业性。
这种锁定制度很快在其他统计部门得到推广。例如,每届总统大选期间,“失业率”就十分敏感,甚至可以影响老总统的去留和成败,它的计算过程,都是在“锁定”的情况下由统计学家独立计算得出的,连劳工部部长也无权过问。
隐私观念的成熟、数据安全管理制度的完善都表明,这时候的美国,已经开始向一个具有现代意识的国家转变。