数量经济统计中常见的几种偏差问题研究
2016-05-20代金博
代金博
摘 要:我们知道,每一项成功的研究都离不开数据,数据的获得使我们的统计分析得以实现。然而有时候我们未必能从所得到的统计数据中得到正确合理的判断,这就是因为我们的数据存在着偏差。统计学中的偏差是指在研究或者推论过程中所获得的结果系统地偏离其真实值,它属于系统误差。统计偏差具有单方面性,有正负之分,可高于真实值,也可低于真实值。偏差往往是因为研究对象的选择方法不对,收集信息的方式不当、以及一些混杂因素的存在而产生的,常出现在调查研究的设计阶段、抽样阶段等。
关键词:统计偏差;数量经济学;经济统计;抽样;回忆性偏差
偏差的产生给我们统计调查带来了很多不必要的麻烦,带有偏差的数据常常蒙蔽了我们的眼睛,使我们得出不准确的判断,让我们的整个调查分析得到误导性的结论,接下来让我们了解一下统计学里最常见几种偏差。
一、选择性偏差
据称美国著名导演宝琳·凯尔曾经在接受电视台采访时,当主持人问她对本次尼克松参与竞选的态度时,她说:“尼克松在本次大选中不可能获胜,我所接触的人中没有支持他的”。可结果并不像凯尔预测的那样,尼克松在大选中成功获胜,使得凯尔的这一判断以失败而告终。也许这句话并非出自凯尔之口,但却说明了统计学中常见的一个问题——不成功的样本所带来的不成功判断,即我们所说的选择性偏差。选择性偏差是指被我们选入观察的研究对象和没有被我们选入观察的对象之间存在差异,使得研究结果出现系统误差,从而得到误导性的结论。在医学中,参加医学实验的志愿者与非志愿者在关心健康,注意饮食卫生以及营养食疗、禁烟禁酒和身体锻炼等方面都存在差异,志愿者作为实验样本,而非志愿者却被排除在外,这样的实验观察势必存在选择性偏差,给实验结果带来不准确的判断。同样的,当我们做一些消费者问卷调查时,在机场进行问卷调查和在乡村公路做调查会出现两个极端,一个是调查者中大多是富人,而另一个则是大多比较贫困,同样的调查可能会出现显著的不同结果。
二、回忆性偏差
回忆性偏差是研究对象的记忆失真或者记忆不完整所造成的研究结果偏差。人类与生俱来就有一种将现实存在的结果推究到以前发生的事的冲动,即所谓的因果关系。主要起因就是我们在努力解释当前好或者不好的事情时,回忆总是不由自主的将其归结为过去发生的事所引起的。在统计调查中使用纵向追踪研究比横向研究更具有优势,原因之一就避免了回忆性偏差。在追踪研究中,数据是同时采集的,正如在研究学生对学校态度和辍学之间的关系时,在五岁的时候,参与者被问及他对学校的态度。再过十几年,我们重新采访参与者,看他是否高中辍学。而在横向研究中,所用的数据是在统一时间点上采集的,当研究者询问此时已经辍学的他五岁时对学校的态度,所得到的信息必然是不可靠的。
三、存活者偏差
1941年,第二次世界大战正如火如荼的进行着,当时美英联军正对德日法西斯进行大规模的轰炸,然而,每次轰炸后,战斗机都损失惨重,伤痕累累,为了减少战斗机和飞行员的损伤,此时英国皇家空军的指挥官找到了哥伦比亚大学统计学家沃德教授,希望他根据统计学知识来寻找战斗机的改装点。沃德对军方提供的资料进行了详细的分析,研究发现从返回战斗机的弹着点上来看,机翼是整个战斗机中最容易被击中的部位,而飞行员所在的座舱和发动机所在的机尾则是最少被击中的部位。联军对这一发现非常满意,并准备立即着手加强对机翼的装甲,但沃德却对此持反对意见,他认为应该加强飞行员座舱和机尾部位的装甲——即最少发现弹孔的地方。这一态度引起了大家的惊愕与怀疑,沃德解释道,在他所分析的样本中,只包含顺利返回基地的战斗机,从统计学角度来看,多次被击中机翼的战斗机还可以安全返回,而很少发现弹着点的部位,并不是真的不会中弹,而是一旦被击中,该战斗机根本没有返回的可能。这一解释让联军指挥官恍然大悟,决定接受沃德的建议,加强了驾驶舱和机尾发动机部位的防御装甲,从此之后联军战斗机被击落的比例显著的下降了。这就是典型的存活者偏差的例子。
存活者偏差的出现是因为我们只看到了经过某种筛选后产生的结果,而往往忽略了整个筛选的过程,因此我们失去了被筛选掉的关键信息。正如《纽约时报》对此曾说过一句很精辟的话:“数据本身并没有对我们撒谎,只不过有些数字没有发出声音罢了”。我们之所以被统计蒙蔽,是因为没有看到这些数字而已。我们将其形容为“沉默的数据”。
四、发表性偏差
在现实生活中具有统计学意义的结果(A和B相关)相比于不具有统计学意义的结果(A和B无关)更易被我们所接受和发表,这就是我们所说的发表性偏差,又称“出版性偏差”,假如说你现在进行一项研究,调查研究玩网络游戏和患胰腺癌之间的关系,你非常严谨认真的追踪调查,花了15年收集了5万人的数据。最终发现,长时间玩网络游戏和患胰腺癌之间并无任何关系,试想这种结论会有期刊愿意接收发表么?答案是肯定的——没有期刊会愿意发表,因为你得到的结论玩网络游戏和患胰腺癌毫无关系,不具有明显的统计学意义。公众或者期刊对这一结论感觉索然无味。假如你的另一位同事做同样的实验,“一不小心”得到了不同的结论——玩网络游戏能明显减少患胰腺癌的几率。此时各大期刊便会纷纷伸出橄榄枝,以求这一突破性发现在该期刊上发表。这样的结果便会误导我们,混淆了我们的真实结论。
在统计过程中异乎寻常的事时有发生,这只是概率问题。正如我们进行100次的统计调查,99次的调查正确结论都显示不相关,而一次的纯属无稽的结果却显示相关——正如玩网络游戏能降低患胰腺癌的几率,这一结论成功的引起人们的注意,迎合了人们的相关性偏好,把它当作一项伟大的发现。当然,产生这一偏差的源头的并不在于统计研究的本身,但传递给公众的信息却是偏颇的。这源于我们更喜欢相关性。
著名的哲学家教育学家安德烈斯贝略曾说过:数据能代替判断,用数据说谎容易,但是用真实数据说出真相却没有这么简单。统计让我们接触到越来越多的数据,我们应该更好的利用这些数据,探索出数据隐藏下的真相。(作者单位:天津财经大学统计系)
参考文献:
[1] 陈悟朝.统计原来挺有趣[J].中国统计,2009(11)
[2] 魏振军.统计通俗读本:漫游数据王国[M].中国统计出版社,2010
[3] Darrel Huff,廖颖琳.统计数字会撒谎[M].中国城市出版社,2009
[4] 张建国,王香生等.体制与健康促进研究中的混杂因素及其控制与处理[J].中国运动医学杂志,2010(6)