统计大数据的“狂想曲”
2019-12-21杨睿重庆工业职业技术学院
文/杨睿,重庆工业职业技术学院
1 数据时代背景下的统计学
在现代统计学还处于黎明期的1903年,威尔斯为何做出这样的预言,我们无从得知。但是在接近100年后的今天,统计学的思考方法对我们来说毫无疑问已经成为与阅读能力同样重要的能力。就好像一个没有阅读能力的人在现代社会寸步难行,没有统计学思维的人同样难以在现代社会生存。我们生活在大数据时代。高性能计算机和全球网络的强大组合正在得到人们的赞美甚至推崇。专家不断告诉我们,他们发现了一种新的能力,可以对海量数据进行筛查并发现真相,这将为政府、商业、金融、医疗、法律以及我们的日常生活带来一场革命。我们可以做出更明智的决策,因为强大的计算机可以对数据进行分析,发现重要的结论。
2 由于认知性错误,我们很容易受到各种统计性骗局的懵逼
在早期,癌症能否被治愈?也许可以。但通常使用的据说最能证明这一点的数据其实并不能证明这一点。康涅狄格州肿瘤研究所挂号处那些数据记录可一直追溯到1935年,这些数据似乎显示,从1935年到1941年间,癌症术后5年的存活率大幅提高。其实,这些数据记录从1941年才开始采集,在此之前的所有数据都是追查所得。许多病人早已离开了康涅狄格州,他们是否尚在人世不得而知。按照医学记者莱昂纳德·恩格尔的说法,由此而导致的偏差足以解释术后存活率为何会出现大幅提高的背后原因。为了更具价值,一份基于样本的报告必须使用一个具备代表性的样本,该样本必须排除产生偏差的任何可能性。这正是耶鲁大学毕业生调查数据不具价值的原因,也是许多报纸和杂志内容缺乏实质意义的原因。一位心理医生曾写报告说,其实每个人都是神经质的。抛开使用“神经质”一词会破坏该词所具有的意义不谈,先看看这位医生的样本吧。也就是说,这位心理医生的观察对象都是哪些人?原来,这一富有“启发性”的结论是他观察自己的病人得来,这些病人与普通人样本有着天壤之别。如果一个人精神正常,我们的这位医生根本就见不到他。以这种方式再仔细看看你所读到的东西,你就可以避免相信许多似是而非的东西。还要记住:导致偏差的显性原因和隐性原因都有可能轻易摧毁一个样本的可靠性。也就是说,即使找不到明显的偏差来源,但只要在某处可能存在偏差,你就要对结果保持一定的怀疑。
3 统计调查的数据会出现偏差?
调查人员的构成往往会以一种微妙的方式影响到调查结果。第二次世界大战期间,美国国家民意研究中心派出了两组调查员,一组由白人构成,另一组由黑人构成,对南方一个城市中的500 个黑人进行三个问题的调查。第一个问题是:“如果日本战胜美国,黑人在美国的待遇会得到改善还是会变得更糟?”黑人调查组的结果显示他们的调查对象中9%的人认为是“得到改善”,而白人调查组的调查结果显示只有2%的人这样认为。黑人调查组的结果中有2 5%的人认为黑人的待遇会更加糟糕,而白人调查组的结果则是4 5%。第二个问题是将第一个问题中的“日本”替换成“纳粹”,对这一问题调查所得结果和第一个问题的调查结果相近。第三个问题旨在探求被调查者对前两个问题的真实态度。“打败轴心国与改进国内的民主制度二者相比,您认为哪个更重要?”黑人调查组得出的结果是39%的人支持“打败轴心国”,而白人调查组的结果则是62%。这就是受未知因素影响而导致的偏差。可能最有影响力的因素是在民意调查时,人们普遍都有一种说好话的倾向,这种倾向在阅读民意调查时往往应该被考虑进来。在战时回答一个暗含对国家是否忠诚的问题时,南方黑人对白人的回答都是一些冠冕堂皇的话,而不是他们内心的真实想法,这不是很正常吗?此外,不同的调查员可能会选择不同的群体进行调查,也可能是造成偏差的原因。在任何情况下,调查结果都明显带有一定的偏差,因此这些调查毫无价值。你自己可以判断一下有多少民意调查的结论是带有偏差且毫无价值的,但是却没有什么有效的办法能避免。一般而言,民意调查都会带有特定方向的偏差。如果你对这些民意调查的结果有所质疑,你可以收集有力证据来证明,比如《文学摘要》的方向错误。《文学摘要》的错误在于它选择了与普通人相比生活更为宽裕、受过良好教育、消息灵通、警惕性高、着装雅致、行为保守且爱好较为固定的群体作为调查对象。事实正如我们所见,完全没有必要操纵一场民意调查,也不用为了制造一种假象而刻意扭曲调查结果。如果样本的偏差与期望的结果一致,就能达到自动操纵的效果。
4 选择性报告与谎报
《达拉斯晨报》的一位体育专栏作家度过了极为倒霉的一个星期,他在选择国家橄榄球联盟(NFL)比赛的获胜球队时猜对了1次,猜错了12 次,还有一场比赛是平局。他写道:“理论上说,如果让达拉斯动物园里的一只狒狒观看14 场NFL 比赛的赛程,让它为每场比赛选择一支球队,它可以至少选出7 支获胜球队。”第二个星期,拉达斯动物园里的大猩猩“坎达大帝”通过选择训练员手里的纸条进行了预测。结果,坎达猜对了9 次,猜错了4 次,击败了《达拉斯晨报》的所有6 位体育专栏作家。媒体像发现食物的饿狼一样争相报道这个故事。不过,如果坎达的表现没有这么好,比如猜对6 次,猜错7 次,它还会被人报道吗?另一个因素是,为了出风头,人们可能会捏造数据,以吸引公众的注意。明尼阿波利斯那个股票经纪人和他的狗每天早上都会得到公正的监督吗?过去,桥牌曾经是美国最流行的扑克游戏,当时有许多人向当地报纸表示,他们抽到了同一花色的十三张牌。一位喜欢数学的桥牌选手通过估计发现,出现这种情况的数量太过离谱。考虑到抽到这种牌的可能性,当时进行过的总局数远远不足以产生如此众多的“同花色局”。值得注意的是,报纸报道的这种相同花色通常是黑桃。显然,为了让自己的名字出现在报纸上,人们对自己的经历进行了润色。由于这些错误,我们很容易受到各种统计性骗局的蒙蔽。当人们用毫无意义的模式来证明政府政策的后果、营销计划的不凡影响、投资策略的成功或者保健品的效果时,我们很容易认为这些模式是有意义的。由于我们在内心深处希望理解这个世界,因此我们形成了这种声名狼藉的、很难摆脱的弱点。