统计学:合格公民必备素养?
2019-10-23Fiona
Fiona
2016年6月,英国就是否“脱离欧盟”举行全民公投,“脱欧派”以52%对48%胜出。其后,英国一直在“脱欧”事务上问题不断,尽管英国首相约翰逊表示10月31日“脱欧”的时间不会被推延。
“脱欧”公投时期,一辆红色大巴成为当时“脱欧”运动的标志性形象,车身上刷有醒目的游说标语:“我们每周向欧盟支付3.5亿英镑,让我们把这些钱用在国民医疗服务体系上吧!”它将抓人眼球的大额费用支出,与具有公益性的英国国民医疗服务体系(National Health Service)并置,对数字的巧妙使用,最终让公投的天平倒向了“脱欧派”一方。
为了获得额外的一例肠癌,这100人必须在一生中每年吃大约180份油腻的培根三明治。
那么,巴士车身上的数据可靠吗?就像政治话语通常使用的数据一样,3.5亿英镑不是完全捏造的,它确有依据。根据公开的财务报表,2017年欧盟商定的英国年度缴费金额为186亿英镑(即每周3.57亿英镑)。但是,扣除56亿英镑退税之后,这个数字缩减至130亿英镑。此外,其中大约40亿英镑还将从欧盟返还,用于诸如科学、农业等公共领域,英国即便离开欧盟,也要自己支付这部分费用。
当时,有不少人批评“脱欧派”鼓吹英国每周向欧盟支付3.5亿英镑。2017年,在还是外交大臣的约翰逊提到这个数据时,英国统计局主席谴责了他,认为这是“典型的对官方统计数据的滥用”,甚至还对约翰逊提起私人刑事诉讼,罪名是“公职中的不当行为”,只是后来高等法院终止了这一起诉。
巴士标语
当时,红色巴士上的标语在数百万人心中激起了强烈的情感共鸣,但它本身是条错误的信息。这一事件揭示了统计数据潜藏的威力和弱点:它可以用来强化观点,但也往往经不起检视。在这个统计数据日益发挥重要作用的时代,统计学素养将成为一项基本的公民技能。我们需要具备能力去识破那些滥用数据的现象,并通过数据来揭穿错误的观点。
统计数据并不是一成不变的事实,就像内特·西尔弗(Nate Silver)在《信号与噪音》中所表述的那样:“数字本身无法表达观点,是我们在为它说话,是我们在向它注入有意义的东西。”人们使用自身的判断力来选择问题、确定概念、分析数据,甚至选择不同的数据表述方式,都会彻底改变数据所呈现的情感色彩。
回到英国“脱欧”运动中的那辆红色巴士。假设英国确实每周向欧盟支付了3.5亿英镑,如果以“留欧派”的立场,我们可以在巴士上写些什么呢?让一个大数据显得小些,有两种典型方法,一种是将它换算成在一个更大数字中的比例。例如,英国目前的GDP约为2.3万亿英镑,因此英国向欧盟缴纳的费用在GDP中的占比还不到1%。
另一种方法,是将数据分解成更小、更容易被感知的单位。例如,英国有6600万人,每周3.5亿英镑的总花费仅为每人每天75便士,还不到1美元,相当于一小包薯片的成本。如果在红色巴士上写“我们每人每天给欧盟送一包薯片”,“脱欧派”也许就没那么顺利了。
培根致命?
数据常常被用于说服,而不是提供信息。因此,人们需要提高自身的统计素养。学校虽然开设统计学课程,但是由于过分强调其中的数学基础,往往忽略培养学生通过统计学来解决实际问题、表达观点的能力。
新西兰教育者就此革命性地提出了“PPDAC模式”:问题(Problem)、计划(Plan)、数据(Data)、分析(Analysis)、结论(Conclusion),以解决问题为核心,来学习统计學原理、使用统计学工具。
车身上刷有醒目游说标语的巴士
可以通过这样一个例子来运用“PPDAC模式”。2019年,CNN发布了一则头条新闻:“研究表明,每天吃一片培根,就会增加患结肠癌或直肠癌风险。”随后,英国《太阳报》夸张地表述为:“每天一片培根将会致命。”我们提出的问题是:我们应该关注这个风险吗?需要放弃培根吗?文章中提到的一项研究结论是:每天食用25克加工肉类(相当于隔天吃一大块培根三明治)与增加19%的罹患肠癌风险相关。
一位受过统计学基础训练的人,会立即想到两个问题。首先,这种相关性是因果关系吗?换言之,人们如果开始吃培根,患病风险就会上升,还是两者之间仅仅只是有关联而已?国际癌症研究机构,目前已经证实了食用加工肉类将增加肠癌患病风险,所以,我们可以接受这个因果关系。
第二个问题是,这个影响是否足够显著,以至需要引起注意。“增长19%”是一个相对风险,这种表述关联的方式会夸大风险本身。其中的关键问题是:19%的基数是什么?如果不知道基数—绝对风险,就无法判断19%的增长风险是否值得担忧。
统计数据本身会给出一些答案,但它们通常会提出更多的问题。
因此,还需要一个数据:绝对风险。研究结果表明,大约6%的人会患上肠癌,无论他们做什么,即便不吃培根。在100个不吃培根的人中,预计其中6人在有生之年会患上肠癌。与此同时,在每天吃25克培根(比如隔天吃一大块培根三明治)的100人中,预计会比原先6人增加19%,即约7人会患上肠癌。
连环杀手哈罗德·希普曼
因此,为了获得额外的一例肠癌,这100人必须在一生中每年吃大约180份油腻的培根三明治,一生共消耗1万份,100人共100万份。所以,经过这样的表述,这则骇人听闻的头条新闻就显得无足轻重了。不幸的是,很少有媒体人具备上述的分析能力。
连环杀手
哈罗德·希普曼(Harold Shipman)是英国杀人最多的凶手,尽管他不符合典型的连环杀手形象。在1975年至1998年间,他作为曼彻斯特郊区的一位温文尔雅的家庭医生(全科医生),向他的215位老年病人注射了过量的镇痛剂,并直接导致他们死亡。
后来,他企图继承一位受害者的部分遗产而伪造了一份遗嘱,受害者女儿恰好是一位律师,这引起了她的怀疑。通过调查希普曼的电脑,律师发现他不断地修改病人病历,使他们显得比实际情况更加严重。随后,法医在15位未被火化的受害者体内,发现了致命剂量的二乙酰吗啡(医用海洛因)。
希普曼因15起谋杀案被判终身监禁。其间当局开展了公开调查,以确定除了已被判处的罪行之外,希普曼是否还有其他违法行为,以及他是否可以被提前抓获。
统计学家也加入了这项调查。他们首先统计分析了受害者的信息与希普曼的活动情况。
希普曼的受害者以女性居多,且大多为70~90岁的老人;但随着时间的推移,一些年轻的受害者开始出现;在1992年前后,没有出现谋杀行为。事实也表明,希普曼原与其他医生联合执业,后因受到怀疑而独自工作,此后,他的谋杀行为变得更加频繁。
将希普曼病人的死亡时间与其他家庭医生的病人相比较,可以发现希普曼的病人大多在下午早些时候死亡。而进一步的调查也证明,希普曼一般在午餐后进行家访,这个时间段他通常会与老年病人单独在一起。他给他们注射过量的吗啡,让老人们在他面前平静地死去。
希普曼这样做也需要冒一定风险,因为一次尸检就能暴露他的罪行。但是,考虑到病人的高龄和明显的自然死亡特征,没有人会怀疑这位家庭医生。因此,统计学家还需要回答一个问题:他能被提早发现吗?
如果比较希普曼与其他全科医生的累积病人死亡人数,希普曼的数据要明显高于后者,两者之差即为希普曼的累积超额死亡人数。到1998年,65岁及以上的病人中,希普曼的累积超额死亡人数为174名女性、49名男性。这几乎就是后来调查确认的老年受害者的实际人数,可见统计分析的准确性。
“零假设检验”
如果有人每年监控希普曼的死亡病人数,能否在某个节点发出死亡人数异常警报,从而对希普曼展开调查,以挽回尚未逝去的生命呢?这个问题,其实涉及推论统计中的“统计显著性假设”。
可以先建立“零假设”,即希普曼和他的同事拥有相同的病人死亡数,在这种情况下,希普曼是完全正常的。然后,我们计算能推翻零假设的统计值,并且算出零假设为真的情况下,该统计值随机出现的可能性,即P值。最后将P值与预设的临界值进行比较—临界值一般设为0.05或0.01,P值越小,则统计显著性水平越高,说明希普曼的病人死亡人数越是离奇。也就是说,如果数据不能被解释为是纯粹地随机发生,那么就拒绝了零假设,证明其中有一些其他因素发挥了作用。
如果這一统计过程在实际情况中被真实地执行了,那么早在1979年,仅仅通过三年的监测,就会得出0.004的P值,远小于一般设定的0.05或0.01的临界值—意味着可以对希普曼展开调查。
这种“零假设检验”的方法,是众多科学主张的基础,包括希格斯玻色子这样的重大发现。但是,为什么这样的统计方法并不适用于监测全科医生的病人死亡数?其中有两个原因,首先,当时全英国全科医生约为2.5万人,若将临界值设为0.05,那么每20名完全无辜的医生中,就有1名出现较高的统计显著性水平,全英将有1300位,而对他们展开调查显然不合适,且希普曼很可能会被遗漏。
用“ PPDAC 模式”做一个数据侦探
第二个问题是,由于每年都会增加新的数据,因此显著水平测试会重复进行。根据“重对数律”,如果进行这样的重复检验,即使零假设是正确的,无论设置怎样的显著水平,结果都会拒绝零假设。这意味着,如果对一名医生进行长时间的重复测试,最终肯定会得出病人死亡率过高的结论,即使事实并非如此。
希普曼的故事,说明了统计素养的两个有机组成部分。一是统计调查能力,能清晰表达数据所揭示的内容;二是对由数据得出的观点有辨析能力,同时知道如何解读数据、可以从数据中提出怎样的问题。
统计数据本身会给出一些答案,但它们通常会提出更多的问题。
这样的统计素养很难教授,它不能归纳为公式和算法,必须通过实践经验积累与学徒式的指导。学习统计艺术需要时间与耐心。