数据如何撒谎?
2016-09-14
傅亦沁
政治新闻看多了,各类“误导”方法很容易就积累一打:
GDP 数字漂亮的时候强调 GDP,通货膨胀数字好看的时候强调通货膨胀。绝对数字漂亮的时候强调绝对数字,百分比好看的时候强调百分比。
夸自己就说“失业率低”,批评对手就说“失业率低只是因为很多人都不找工作了,所以没算在经济活动人口里面”。
希望增长的数字和去年相比有下降,那就和过去五年相比。希望下降的数字还在不停增长,那就说“增长率下降”:某地商品房连续四年的均价分别为 1 万、2 万、3.8 万、7 万。看到这组数据,你必定会大叫:天哪,房价真是涨得越来越厉害了!不过事实却恰恰相反:这四年的房价增长率竟在逐年降低。
不过也不仅是政客。只要是做 PPT 的行业,大家这种事都干过不少吧。
那么,数据说谎的方式具体有哪些呢?
幂律分布陷阱
当奥巴马说“我国经济09年以来增长13%”的时候,他没有告诉你其实美国人只有最富的 1% 收入增长了——剩下 99% 的人收入反而比之前略微下降。会出现这种情况是因为收入不是正态,而是幂律分布的(即大家常说的“20%拥有80%的财富”)。所以最富人群的收入变化对经济总量影响最大,而大多数人的收入变化对总量几乎没有影响。
举个具体的例子。假设有两个人,一个人有 100 块钱,一个人有 两 块钱。如果前者财富增长 10%(来到 110 块),后者减少 50%(来到 1 块),整个经济还是增长了 8%。
美国现在的情况就是这样,“经济整体复苏”但“多数人可支配收入没涨”。奥巴马夸自己经济政策有效确实没错,但特朗普、桑德斯也靠“拯救经济”的口号吸引了大量选民。这两个看似矛盾的事实其实都是对的。
幂律分布的数据在很多地方都会误导人。比如一家“成功” VC 的业绩其实完全由所投公司中表现最好的一家决定。基金整体增长,只是因为投对了一家有 100 倍回报率的公司,而这家明星公司比该 VC 投的其他所有公司加起来都值钱。
调查问卷设计漏洞
英国政府 2015 年开始同意让父亲和母亲共休产假。但一年后的统计数据却显示,只有 1% 的父亲选择了休假。BBC、《卫报》等各大媒体报道之后引发强烈社会反响。
真的是这样吗?
原来,这个 “1%” 的分母不是“有资格休假的父亲”,而是“所有男性”。有人指出,如果这么算,即使当年所有新生父亲都选择休假, 调查得到的数字也只不过是 5%。
可以从调查结果中获利的商业机构就更不可信了。之前有新闻说,一项对 2000 人的调查发现,16 到 25 岁女性每周花 5 小时自拍——这听起来挺科学吧?但看过真正的调查报告之后你会发现,这个“5 小时”的数据没有涵盖“从不自拍”的女性。再仔细看,你会发现这份调查是由一家美妆电商发布的,其目的可想而知。
除了在“分母”上做手脚以外,改变调查结果的方法还有很多。例如,不给出“其他”或“不知道”这类选项、问题题干加入误导性语言、调查对象有针对性选择等等。
一个很有意思的例子是,如果在问题中提到“奥巴马”(民主党执政8年的总统),更少的民主党人会说贫富差距过去8年变大了,而更多的共和党人会说过去8年经济变差了。简单地在题干中加上一个人名就改变了调查的结果。
暗示因果关系
2015 年开始,英国卫生大臣亨特频繁引用《英国医学会期刊》的一项研究,说周日住院的病人比周三住院的病人死亡率高 15%,每年英国有 6000 到 11000 人因为医院周末人手不足而死亡。
这听起来既科学、又可怕,对吧?
但问题在这里:有没有可能周末住院的病人本身病情就比周中住院的重呢?(英国很多人平时可以请带薪病假。)在控制病人病情等其他因素之前,我们无法确定周日住院的死亡率高就一定是因为医院人手少。
卫生大臣亨特暗示这个因果关系也有他自己的原因——他所在的保守党竞选时承诺会增加公立医院周末员工数量,但因为保守党同时也削减了公共医疗开支(他们承诺会削减政府开支),所以必须要求年轻医生工作更长时间、照顾更多病人且不领加班费。如此一来年轻医生非常不满,亨特和他所在的保守党便希望通过这些数据来增加舆论对医生的压力。
另一个类似的问题是同工不同酬。你可以经常在奥巴马、希拉里的演讲中听到“做同样的工作,女性工资是男性的77%”这个数字。但是,“同工不同酬”引用的美国劳动统计部报告第一页就写明他们“没有控制很多可能显著影响男女工资差异的因素”,比如工作时长、受教育程度、效率等。
有学者把 1960 到 1990 年代共 263 篇这方面的论文全部分析了一遍,发现如果只看“单身男女”或“刚进入劳动市场的男女”,那么所谓的性别差异会显著缩小,几乎不存在,随着年龄(工龄)增长,10-15 年后男女差异才开始逐渐显现。
研究发现,商业、金融、法律等行业在时间上很不灵活,需要员工(尤其是高层)投入大量且连续的时间在办公室办公。这种不灵活就导致女性在有孩子后,更多地选择时间相对灵活但工资较低的工作。比如说,两个以同样成绩从法学院毕业的男性和女性进入了同一家顶尖律师事务所,一开始他们工资相当,但女律师几年后因为要照顾孩子,选择改做时间更灵活的“公司法律顾问”,而男律师成为原来那家律所的合伙人。人口普查里,他俩都是“律师”,但女性的工资就没有男性高。