不要掉入统计数字的陷阱
2017-03-30王心仪
王心仪
摘要:我们生活在信息时代,信息的主题就是统计数据,统计数据覆盖经济和社会的各个领域,但是并非所有的统计数据都是客观真实的,本文通过实例来分析有偏的样本、精选的平均数、隐藏的部分数据、误解的相关关系、不完全匹配的资料等几种统计数字说谎的方式及其破解的方法。
关键词:統计数字;陷阱;破解方法
中图分类号:F713.8;F712.3 文献识别码:A 文章编号:1001-828X(2017)001-000-02
在这个信息爆炸的时代,各种各样的数据充斥在我们周围,比如“广东本科生平均月薪7000元,你拖后腿了吗?”、“北京人初婚平均年龄为27岁,结婚越晚越稳定”……可是,数字摆在那儿,我们就能正确认识世界了吗?我们要如何才能够看清这些漫天飞舞、貌似客观真实的统计数据背后的谎言?下面我们就来看看几种统计数字说谎的例子及其破解的方法。
一、有偏的样本
我们来看一则媒体报道:“6月15日,人工智能公司iPIN.com在北京发布了《2015年iPIN.com中国大学薪酬排行榜》,清华大学高居榜首,复旦大学和上海财经大学分列二三位。这份薪酬排行榜是根据来自招聘和猎头公司的4000万大学毕业生真实毕业去向数据分析所得,由各大学毕业五年薪酬指数计算所得。”
事实上,这个数据中就使用了一个有偏的样本,从以下几个方面,我们可以看出破绽:首先,对于一群已经离开学校的人,了解他们的平均收入,且精确到以元为单位,几乎不太可能;其次,对于年收入10万元以上的阶层来说,投资渠道更广,因此他们的收入不可能完全来自于薪水;再次,这些毕业生不一定坚持说真话,有些人可能出于虚荣或天生乐观而夸大数据,还有一些人也有可能故意缩小数字;最后,没有人能够掌握那些不通过招聘和猎头公司的学生就业情况,比如自我创业者。因此,得出的数据实际上是建立在这样一个样本之上:它代表的是毕业五年的学生中能够联系上的,并愿意站出来说出真实收入的一个特殊群体。所以,这个样本的代表性并不强。
因此,为了确保结论有价值,就要抽取有代表性的样本,一是要保证样本足够大,纯随机抽样方法效果最好,但是有时纯随机抽样样本选取难度大,成本昂贵,可以采取分层随机抽样的方法。二是要看内在样本提供的答案是否真实,有时可以通过观察其调查的方式来判断结果的真实程度。比如,在调查出租车司机喜欢听哪个频道的收音机节目时,用问卷调查法就不如用观察法获得的结果相对可靠。
二、精选的平均数
我们来看一下广州南方人才市场发布的《2015-2016年广东地区薪酬调查报告》,报告显示:广州地区平均月薪为6911元,深圳更是高达7631元。(来自《新快报》,2015年9月18日)。这样的数据倒是与一线城市的形象完美契合,但让那些拿着个税起征点以下工资的大多数人情何以堪。那么,导致这种不满的原因是什么呢?就是精心挑选的平均数。
事实上,平均数不仅是简单意义上的算术平均数,还包括了中位数和众数。算术平均数又称均值,是将所有数据加总后除以样本数得来的结果,也是平常意义上的平均数。中位数是将所有数值从高到低排列,最中间的数值。众数是所有数值中出现频率最高的数值。算术平均数并不能够完全反映真实的薪酬状况,从统计上说,中位数和众数比算术平均数更有说服力。显然,每月近7000元的收入,在广州并不算低,但有多少人能达到这个工资水平?只公布薪酬平均数而不公布其他相关数据只会掩盖真实问题,薪酬统计就这样成为了少数人的狂欢,多数人的悲哀。因此,在看到平均数时,我们首先要问问是什么类型的平均,是算术平均数,中位数,还是众数,特别是那些没有标明类型的平均数。
三、隐藏的部分数据
下面这则牙膏广告令人印象深刻:“经科学验证,与高露洁普通含氟牙膏相比,高露洁360°牙膏能减少口腔细菌滋生,效果最高高出75%,有效对抗八大口腔问题。”(来自高露洁官方网站)。可是透过这则品牌牙膏的广告宣传,我们却无法知道以下信息,一是样本量,即所抽取测试对象的样本量是多少?二是测试过程,即测试对象是哪些人?测试过程持续了多长时间?而这些信息都决定了测试结果的可靠性,商家就是利用这样不充分的样本数据,来达到预期的广告效果。这些隐藏的数据的欺骗性在于人们经常忽略了它们的存在,这当然也是它们取得成功的奥秘。另一种被隐藏的数据表明事物的变动范围(全距)和给定平均数的偏离水平(标准差)。如“昆明和北非撒哈拉沙漠地区的年平均气温都在15℃左右”的数据忽略了昆明的气温波动范围是7~28℃,而沙漠的波动范围是-9~40℃”。
因此,数量小的样本存在偶然因素,必然导致偶然的、毫无意义的统计结论;要对数据进行在一定显著性水平下(10%或5%或1%)的显著性检验;要注意事物的变动范围和给定平均数的偏离水平;要查看引起变化的原因,比如,某个报告得出“最近25年癌症死亡人数增多”的结论,你就要反问:癌症的死亡人数真的有增加吗?数据中是否遗漏了“以前许多‘病因不明的案例现在已经确诊为癌症”这一引起变化的原因?
四、变身的统计图
你也许会质疑:图表是很直观的统计数据,难道还能不真实吗?下面就来看看精挑细选的统计图是如何欺骗蒙蔽人们双眼的。
上面这张图(横坐标表示的是月份,纵坐标是每月的体育消费额)是一个原始的、清晰显示一年来体育消费变化的折线图,并且变化是逐月反映出来的。然而画图者会发现,整张图按比例绘制,虽然看上去体育消费的确上升了10%,但是却不振奋人心。这时候,他们就会把底部的数据抹去,最后得到下面这张图的效果:
你是否发现,纵坐标的每一个刻度都缩减为了原来的1/10,横纵坐标的比例关系被更改了。最后出来的效果,就相当于将“体育消费支出增长了10个百分点”改写成“体育消费支出惊人地攀升了10个百分点”。因此,在遇到统计图时,我们要仔细观察图中的数据,不能把注意力集中在图形的直观效果上,而应深究隐含的数据,通过数据的对比得出结论,才不会被看似“惊人”的变化图所迷惑。
五、误解的相关关系
存在于两个事物之间的关联关系并不能说明其中一个事物的变化将引起另一个事物的变化,也就是说,如果A出现了,緊接着B也出现了,那么就得出A导致了B的结论,这种推论毫无根据。比如,大学中抽烟者的学习成绩普遍不如不抽烟者,你就能得出“抽烟导致低分”的结论吗?会不会是相反的作用关系呢?也许不理想的成绩促使学生变得爱抽烟,以此释放压力呢?虽然这两种说法都不靠谱,更大的可能性是:吸烟和学习成绩这两个因素并不互为因果,而同为性格这个第三个因素的产物,也许性格影响成绩,也影响抽烟。因此,在使用相关关系时,要注意分辨这个相关是否是事件变迁的产物或时代趋势的产物,否则就是对相关关系的误解。
六、不完全匹配的资料
搜集这样的资料,却把它说成是那样一回事,这种挂羊头卖狗肉的行为就是统计资料的不完全匹配。我们来看这么一组政府统计数据:“2010年全国铁路交通死亡人数1589人,航空运输方面死亡42人。”那是否就意味着坐飞机比乘火车更安全?答案是否定的,原因有三点,一是统计基数不同,2010年全国铁路共发送旅客16.76亿人次,全国民航旅客运输量则为2,68亿人次。二是统计口径不同,铁路交通事故熟虑绝大多数都是路外事故和生产事故,而不是行车事故,即真正因行车事故死亡的车内乘客只占一部分,而航空运输只统计飞行事故,不包含地面事故和生产事故。三是因为直接比较各类交通工具的意外事故数量来判断旅途安全情况是不正确的,应该询问每100万乘客里程的遇难人数,并比较这些人数才能确定哪种出行方式的风险最大。因此,在分析统计资料时,应留心从搜集原始资料到形成结论的整个过程中,是否存在着概念的偷换,也就是将看上去极像、而完全不同的两件事混淆在一起,如上例中“交通事故死亡人数”的增多不能等同于“交通事故死亡率”的提高。
七、结语
人类社会发展带来的所有问题,一定要靠社会进一步发展来解决。就像数据这么多造假和扭曲,怎么解决?办法就是大数据,大数据的本质不是数据多,也不是数字大,而是维度丰富。在大数据时代,我们每一个人都可以轻松地获得各种维度的数据。比如说这个城市的发电量、用电量,居民外出度假的总数,这个城市的汽车的增长,房价的涨幅,这个城市的社会商品的零售总额,这个城市的网购的数量等。当这么多数据汇集在一起的时候,真相将会越来越纤毫毕现。
参考文献:
[1](美)达莱尔·哈夫.统计数字会撒谎[M].中国城市出版社,2009,3.
[2]小岛宽之.你一定爱读的极简统计学[M].台海出版社,2015,1.
[3]朱连庆.数据会说谎[J],现代家电,2016(16).
[4]吴磊,等.融合过抽样和欠抽样的不平衡数据重抽样方法[J].计算机工程与应用,2013(21).
[5]不靠谱的统计数字如何欺骗了你?http://mt.sohu.com/20160912/n468228624.shtml.