社会调查误差消减问题的浅析

2009-12-17陈静

大家 2009年9期

陈静

摘要:通过分析社会调查中各个步骤中误差的来源,讨论在资源既定且有限的条件下,如何最大限度地消减或消除各种可能的误差,实现尽可能小的投入换取尽可能多和有效的信息,以达到对调查对象最大可能的正确认识。

关键词:社会调查抽样误差消减

一、引言

在社会调查研究中,如何做到“正确”?“正确”从方法意义上说,指通过“科学”的方法最大限度地消减或消除各种可能误差,以此达到对调查对象的最大可能的正确认识。从误差的发现、分析到误差的消减或消除,每一个阶段都需要付出成本。因此一种正确的调查方法,就是要以最小的成本投入来最大化消减误差。而总体研究设计便是一种用总体的视角和框架去审视并把握调查的每一个步骤,确定在各个步骤中如何有所选择地进行权衡,以便能合理高效的配置资源,从而实现以最小代价消减最大误差。为了能明确说明为什么要采用总体研究设计,首先需要就调查研究中的各种可能误差有个清楚的认识,然后在此基础上分析总体研究设计的特点、步骤和优势。

二、误差来源分析

社会调查指的是一种采用自填式问卷或结构式访问的方法,系统地直接地从一个取自总体的样本那里收集资料,并通过分析这些资料来认识社会现象及其规律的社会研究方式(风笑天,1996:3)。从这种界定可以看出,一个完整的社会调查需要有以下几个重要步骤:总体界定(抽样框的界定)、抽样、调查工具设计及使用、资料收集与计量、数据分析与总结。可以说,在这些主要步骤及其中诸多细小步骤中,每一阶段都有出现误差的可能性,其中有的误差是客观存在的、不可避免的。

第一,就抽样框制作来说,抽样框制作是否良好,直接影响到调查结果能否精确的推测或估计总体。比如采用过时的抽样框,当有新成分或具有新特征成分加入时仍用老的抽样框;又如抽样框框定的对象并非调查研究所针对的对象总体;另外有的调查中,抽样框不是事先就能确定的,而是处于变动之中的,从而抽样与抽样框的制作是同步进行的(Fowler,1993:11)。

第二,就抽样来看,存在抽样误差。抽样误差是指用样本值去估计总体值时所出现的误差(风笑天,2001:149)。此抽样所指的是一种概率抽样,因而这种误差是一种随机性误差,而且这种误差是可以计算的,其统计描述即是标准误(standard error)(Fowler,1993:27—28)。尽管抽样误差作为一种随机误差可以予以计算并且可以进行控制,但是这些都是一种理论上的讨论,现实的抽样往往更为复杂。因为抽样方案虽然事先设定好了,但一旦实施下去,便会有诸多可能需要变通的地方,这时现实中的变通就会带来非随机性的抽样误差,比如调查员个人自由选择替代样本而出现主观偏差。这就需要研究者加以严格的控制,否则允许调查员个人自由选择样本单位则必定会产生有偏的结果(联合国统计局,1984:83)。不过此处为了讨论上的方便,我们还是将抽样误差中的这些变通之策予以忽略,从而将抽样误差视为随机误差。这是不可消除的误差,但却是可以计算并控制的。另外,如果出于研究目的需要而采用非概率抽样,那就更是容易产生更大的误差。

第三,调查工具的设计及其使用。这是最为复杂也最具有挑战性的一个消减误差环节。首先是测量工具的设计问题(以问卷设计为例)。也许每一个人都能设计出一份问卷,但是设计一份优秀的问题却是极为艰难的。

从研究者角度说,首先他必须能够对其所要研究的对象或问题给予清晰的界定,然后对各个概念进行操作化、指标化,使其成为一种具有可操作性的测量工具,以便能收集到有关被调查对象的行为、态度和社会特征的资料(风笑天,1996:119)。

其次,还有语言表达方面的问题。问卷是要站在被调查者的角度来设计的,我们需要根据被调查对象的特点采用相应的语言表达形式。如果问卷中的问题如果含糊、带倾向性或具有双重含义或歧义等,就容易影响被调查者的理解和填答,甚至拒答,而这些都易导致测量结果出现误差1。

问卷设计和使用方面有两类误差来源:一是问卷设计过程中的效度和信度问题,信度是指用相同研究技术重复测量同一个对象时得到一致研究结果的可能性。按照巴比(2000:173)的说法,失败的信度可被视为一种随机误差,而失败的效度则是一种系统误差。二是问卷使用中出现的误差。问卷设计是研究者主观能把握的方面,在一定程度上可完全归结为研究者的个人综合能力,而问卷的使用或发挥测量作用时,则存在着诸多外在的或主观或客观的误差源。在有调查员的场合下,调查员在“问题——回答”过程中即会引入误差,而且这种误差通常来说是无法知道的,尤其是在主观态度方面,这是客观测量手段所无法测量的误差。

数据整理、记录和编码等琐碎操作也可能会出现误差。由于调查结果通常都是大量的数字,调查员容易出现记录错误、录入错误等,这些可以通过些核对技术和技巧进行清理,但是它们也仍是一个误差来源。

第四,问卷调查过程中出现的无回答现象。我们可以将总体看成被划分为两个“层”,一层是由这样的单位组成,如果这些单位被抽中的话,就会得到其测量值;另一层则是由无法得到测量值的单位组成。这两层单位之间是存在差异的(科克伦,1985:544)2。事实上,不仅无回答会影响调查结果,甚至找替代对象来填补都会造成误差。一个包含比初始选定的单位少于80%的样本(或更替率在20%以上),几乎肯定是显著的有偏差的(联合国统计局,1984:92)。

总的来说,我们可以将误差分为四大类:抽样框误差、抽样误差、测量误差和无回答误差3。其中抽样误差是客观存在的,对于随机抽样引起的随机误差是永远无法完全消除的,但它是可以计量和控制的,比如通过增大样本容量以减少抽样误差。而对于其他三项误差,我们可以称之为非抽样误差。从理论上说,这些误差是可以消除的,但是事实上那是无法实现的。而且这类误差是不可能通过增加样本容量的方法而减少的,而且只能通过改进某些操作的质量来减少,或用通俗的话说就是把事情做得更好些(Kish,1997:581)。

三、总体研究设计与误差消减

上述分析表明,我们对误差进行了分析并归类,并且提出了可能的消减方法。但是,“正确”的调查还有一个面向是关键的,那就是成本、代价问题。从理论上说,可以通过各种方法消减何种误差,但是实际操作中则需要付出很大的代价。

以拒访为例,我们可以通过高额的报酬来感谢被调查者以让其愿意合作,也可以辅之以相关部门的帮助以解决入户问题,但这些都是需要人力、物力和财力的投入。有研究表明,一个典型的情况是,用访问法选出来的单位与之联系和同意合作的,第一次访问时大概可达60%,第二次访问可能增加10%,第三次再增加5%,如此等等。随着访问人员愈是接近坚决不答复之人,每增加一个单位,费用也就会急剧上升(联合国统计局,1984:92—94)。

像这种边际效用递减情况也见之于样本容量的确定上。样本容量越大,越有助于消除抽样误差。但是其成本—收益的权衡使我们不得不在可能条件下选择适宜的样本数。一般来说,对于小样本,样本规模较小的增加即可在调查结果精确性方面带来明显增加,而对于大样本,则增加同样多的个案,收获却甚微。因此通常许多调查公司即将其样本规模限制在2000内,因为当样本规模超过了这一点时,花费在所增加的样本规模上的成本相对增加估计的精确性来说,就有些得不偿失了(风笑天,1996:94)。

另一个重要问题是我们应该考虑如何通过高效地配置资源来,是该集中资源去扩大样本容量,还是该集中资源去提高回答率;另外在选择资料收集方式上,是该用邮寄还是入户调查,还是电话访问等。

也因为存在如此之多的抉择,我们才需要采用总体研究设计方法。所谓总体研究设计,指当一个人设计一个调查研究或评估一项调查质量时,需要将整个数据的收集过程看成是一个整体,即全面衡量,而不是只看见一两个方面,诸如抽样质量(抽样框制作、样本规模、抽样方案、回答率)、问卷质量及数据收集的质量(尤其是在使用调查员的培训和监督的程序中),还有数据收集方式等构成一个高度相关的整体。而这种工作前提便是我们每一个研究的总体成本是既定的,因而我们需要用总体思维方式来最有效的配置资源(Fowler,1993:142)。

总之,要进行一项“正确”的调查,是需要有一个总体观、全局观,即需要一种总体研究设计思维,把整个研究过程、目标、条件当作一个整体来思考。尽管其中某些步骤的做法看来并不是很理想或说有改进的可能,但是作为一个整体,它必然会是较为理想的。在总体研究设计中,我们无法在每一个细节、每一个阶段达到最优,但在整体上我们能做得更好,真正实现尽可能小的投入换取尽可能多的信息和尽可能有效的信息。

参考文献:

【1】毛泽东,1991,毛泽东选集(第一卷),人民出版社

【2】风笑天, 1996,现代社会调查方法,华中理工大学出版社

———, 1997,社会调查方法还是社会研究方法,社会学研究(2):21—30

———, 2001,社会学研究方法,中国人民大学出版社

———, 2002,社会调查中的问卷设计,天津人民出版社

【3】袁方主编,1997,社会研究方法教程,北京大学出版社

【4】联合国统计局编,1984,抽样调查理论基础,上海人民出版社

【5】W. G. 科克伦,1985,抽样技术,中国统计出版社

【6】艾尔.巴比,2000,社会研究方法(上册),华夏出版社

【7】J.T. Lessler,W.D. Kalsbeek,1997,调查中的非抽样误差,中国统计出版社

【8】L.Kish,1997,抽样调查,中国统计出版社