敬畏数据:幸存者偏差
2021-03-24邱元阳
邱元阳
疫情管控期间,在學校门岗值班,利用这点闲暇在网上给孩子找一本RISC-V方面的英文版教材,发现其价格在800~1000多元,不由感叹计算机方面的书真贵。同事取笑说:“计算机方面的人才收入高啊,这点书费跟年薪50万相比根本微不足道了。”一旁的门卫大爷听到,不屑地说:“哪来那么多的年薪50万,现在的大学生都找不到工作了,身边的人都是没上大学的比上大学的混得好。”
面对老一套的“读书无用”论,我一时竟然不知如何反驳,只好问他身边都有哪些例子。大爷振振有词地说,邻居那个大学毕业生现在还在卖鸡蛋,刚刚出门的那辆奔驰里面坐的是没上过大学的超市老板。我说你其他邻居的孩子呢,大学毕业都做什么了?他说那就不得而知了,可能也有像你这样当老师的,勉强糊口。我忽然明白了,大爷之所以觉得上学的不如没上学的,原因不在于价值观,而是他只能看到他所在的圈子的情况,那些远走高飞成就一番事业的,他根本无从知晓。
这就好比,“没来的请举手!”没人举手,于是老师宣布,大家都来了。人们总是只看到经过筛选而产生的结果,没有意识到筛选的过程,因此忽略了被筛选掉的关键信息。这就是幸存者偏差。
1941年,哥伦比亚大学统计学教授沃德应军方要求,提供关于“飞机应如何加强防护才能降低被击落概率”的相关建议。沃德教授利用联军遭受攻击后返航的幸存轰炸机的数据进行研究后发现:机翼弹痕最多而机尾弹痕最少。但沃德教授给出的结论却是“应该强化机尾的防护”。这让军方非常疑惑,因为机翼才是最容易被击中的位置,为何不是加强机翼的防护呢?沃德教授的解释是:这些统计的样本只涵盖了幸存的飞机,多次被击中机翼的飞机仍然飞回来了,说明这地方不致命;机尾弹痕较少并非是机尾不易被击中,而是那些机尾被击中的飞机大多已无法返航了……一句话,看不见的弹痕最致命。这个经典的统计偏差即被后人称为“幸存者偏差”。
成功人士的经验分享,也有这样的误区。不管他有怎样的经验,他都是成功者,或者说是“幸存者”,其经验往往都是没有参考价值的大路货。而失败者的教训——就好比被击中的机尾,才是宝贵的,这些教训能避免自己重蹈覆辙而直接挂掉。然而失败者却已经没有机会说话了,幸存者才有表现的机会。
一个笑话中提到,记者到车站了解春运期间车票是否难买,在排队进站的人群中采访,“请问你买到火车票了吗?”“买到了。”“你呢?”“买到了。”问到的人都买到票了,于是记者对着镜头说:“都说今年火车票难买,但是通过采访我们发现,大家都买到了火车票。”
幸存者偏差往往就是忽略了筛选条件,把经过筛选的结果当成随机结果。读过纳西姆·塔勒布《随机漫步的傻瓜》一书的人都会感叹,我们多年积累的经验在随机性面前是多么不可靠,轻易地就被随机性愚弄。
在大数据时代,我们已经可以得到很多相关联的数据,但是对这些数据进行利用和分析时,却可能犯各种统计错误,如新冠肺炎初期的病死率,有人就直接用当时的病死人数除以感染人数来计算;疫情期间一年的离婚率,据说高达30%,实际上竟然是用当年离婚人数除以结婚人数得到的……
除了考虑样本的代表性,还要考虑数据的相关性,除了考虑看得见的数据,还要想想那些没有看到的数据。
对待数据,还是要保持敬畏之心。