APP下载

网络调查中的非抽样误差来源与控制

2011-10-18马慧敏

统计与决策 2011年5期
关键词:调查员住户城镇

马慧敏

(安徽财经大学统计与应用数学学院,安徽蚌埠233030)

网络调查中的非抽样误差来源与控制

马慧敏

(安徽财经大学统计与应用数学学院,安徽蚌埠233030)

文章主要讨论了城镇住户网络调查中的非抽样误差的来源与控制。探讨了城镇住户网络调查设计阶段、实施阶段、处理阶段的非抽样误差类型;介绍了城镇住户网络调查的几类常见的非抽样误差,并对这些非抽样误差的控制提出了一些具体措施。

网络调查;非抽样误差;无回答;抽样框误差

抽样调查的误差是指调查搜集到的样本资料与所研究总体的真实情况之间的差异。根据来源可以将抽样调查的误差划分为抽样误差和非抽样误差。抽样误差是指由于抽样调查的随机性引起的样本统计量与总体指标值之间的差异,是抽样调查所固有的,可以事先计算并加以控制。非抽样误差是指除抽样误差以外,抽样调查所带来的样本统计量与总体变量值的偏差。几乎所有类型的调查都会产生非抽样误差。

非抽样误差的构成因素比较复杂,不易识别,难于控制,可以产生于抽样调查的各个阶段。城镇住户调查是一项通过复杂设计的抽样调查,因此非抽样误差的类别较多。按照非抽样误差的来源可以将其分为调查阶段的非抽样误差、整理阶段的非抽样误差、数据处理与分析阶段的非抽样误差等类型。根据非抽样误差的特点可以将其分为抽样框误差、回答误差、无回答误差、测量误差等(Lessler,1997)。

在现阶段,城镇住户网络调查还必须与传统调查方式相结合,采取混合调查方式。采用网络调查方式所带来的非抽样误差具有特定形式与特点。与传统的调查方式相比,网络调查具有自愿性、定向性、互动性、经济性、及时性、方便性、匿名性等特征。正是这些特征导致非抽样误差具有更多来源,对调查结果影响更广泛。

1 网络调查各阶段的非抽样误差

网络抽样调查的每一个阶段都可能产生非抽样误差。按照统计调查的过程划分,可以将统计调查分为调查方案设计、搜集资料、调查整理、调查结果的分析与解释等四个阶段。对于城镇住户调查来说,经济因素、社会因素、人为因素都会对调查的结果产生影响。采用网络方式进行调查,调查的执行者与调查对象存在空间上的距离,这样会减少调查员收集数据可能产生的误差,但是会增加调查对象的回答误差。因此,采用网络调查对城镇住户进行调查,在调查过程的各个阶段都会有新的误差来源。

1.1 调查设计阶段

网络调查的设计主要包括方案的设计和调查组织形式的设计。调查方案的设计过程中为了确定调查对象和单位,必须编制抽样框。在城镇住户的网络调查过程中,采用的是二重抽样的方法,根据一重抽样的结果编制抽样框。这样一来,一重抽样就显得非常重要。在实际的城镇住户调查中,首先面临的问题就是城镇住户的界定。现在一般按照住地原则,改变了以前的户口原则,但是由于人口的流动性增大,人们的住所有时候也不止一个,会经常导致该调查的住户没有纳入抽样框,不属于城镇住户调查范围的进入了一相调查样本,从而影响抽样框的完备性,带来抽样框误差。

网络调查调查问卷和调查表的设计不同于普通的平面调查的设计。运用计算机技术可以使得调查表华丽、好看,如果配上各种动画效果和多媒体技术,一份调查表会设计的声情并茂,从吸引调查者眼球来说会起到良好的效果。但另一方面也可能会分散调查对象的注意力,所以调查问卷的设计对抽样误差的影响也比较大。

网络调查以网络为调查手段,也就是借助于网络这种平台进行调查。采用网络调查与传统调查方式相结合的方法开展调查。两种调查的效果显然有一定的区别,调查对象适应网络这种调查手段的能力也要通过实践去检验,所以城镇住户网络调查还具有由调查组织方式和手段引起的非抽样误差。

1.2 搜集资料阶段

采用传统调查进行资料搜集,主要会产生回答误差和无回答误差。调查员上门登记时,如果没有预约,会出现调查住户家里没人或者由于某些原因不能接受调查等无回答情况,这样就会产生无回答误差,这类误差也属于非抽样误差。采用网络调查的方式,由于有共同的网络平台,能有效减少无回答情况的出现,但是无回答误差依然存在。

调查对象通过网络方式接受调查,可以采用联机方式,也可以采用脱机方式填写调查问卷。如果进行一般的市场调查或社会调查,肯定存在违背随机原则的抽样误差。如果进行城镇住户调查,通过采取适当措施能够尽量降低抽样误差。而在填答问卷的过程中,由于没有与调查员进行面对面的交流,调查对象在填写问卷时候会出现对指标的理解方面的误差。电脑屏幕与纸质材料对人的视觉冲击存在很大差异,会导致网络调查过程中填写问卷时出现无意识的错填、漏填等情况。这些都可以称作回答误差。回答误差是网络调查数据搜集阶段非抽样误差的主要来源之一。

1.3 调查处理阶段

传统的城镇住户调查资料的录入工作主要由经过专门培训的调查员进行。利用网络调查方式进行调查,数据的录入工作主要由调查对象也就是调查户完成。这样会极容易产生数据的录入误差。所以必须研究怎样提高数据录入质量。由于调查户录入的数据进入了网络调查系统的数据库,非抽样误差主要产生于数据的审核、整理过程中。

了解网络抽样调查误差的主要来源,就可以根据各种类型非抽样误差的特点,在统计调查过程的各个环节,采取有针对性的控制措施,尽量减少非抽样误差对调查结果的影响。

2 网络调查中的抽样框误差

抽样框是调查总体全部单位的名录,比较好的抽样框与调查单位之间应该存在一一对应的关系。在城镇住户网络调查方案中,可以考虑采用二相抽样和多阶段抽样相结合方法抽取调查户。第一步进行大样本调查,在调查区(县)内按照PPS方法随机抽选居委会,在抽中居委会内随机抽选调查住户。如果按照当地派出所或者居委会提供的资料抽选调查户,会经常发生有的住宅无人居住或者有的住户没有在派出所或居委会登记的情况,造成抽样框丢失,产生非抽样误差。

城镇住户的界定问题本身就是一个比较复杂的问题,如果采用户口登记原则,现在人口流动性较大,农村进城务工人员很多,出租住房的情况也非常普遍,这样的抽样框显然存在一定的缺陷。如果采用居委会的登记资料,在一定程度上会减轻调查员编制抽样框的负担,抽样框也比较齐全,但是同样会碰到诸如新搬家住户没有及时登记或者由于人事调动没有及时到居委会报到的情形。在实际中必须综合二者的信息,采取调查员实地考察绘制地图的方法才能有效避免抽样框丢失、重复抽样和包含一些非目标调查户带来的非抽样误差。但是在一些城乡结合部,城镇和农村居民的界限有时候非常模糊。

根据中国互联网络信息中心(CNNIC)的调查结果,截至2009年12月31日,中国网民规模达到3.84亿人,普及率达到28.9%。城镇居民网民规模为2.77亿,占整体网民的72.2%。但是,还有超过半数的城镇居民不能称为网民。按照这样一个网民规模,采用完全的网络调查方式显然会产生抽样框误差。为了避免代表性不足产生的非抽样误差,就必须采用混合调查方式。

抽样框丢失和抽样框误入是城镇住户调查过程中经常遇到的问题之一。抽样框丢失是指将本应属于调查范围的调查对象排除在调查之外,抽样框误入是指将不属于调查范围的调查对象错误的纳入调查范围。抽样框丢失和抽样框误入会导致总体总和估计和均值估计产生偏倚,根据Kiranandana(1976)和Lessler(1997)的讨论,可以计算出总和估计与均值估计的非抽样误差。

设在网络城镇住户调查中考察对象总体包括N个调查对象,其中总体中有N0个调查对象没有编入抽样框,另有NA个对象正确进入抽样框。由于没有正确界定,还有NB个不应纳入城镇住户调查的对象(比如农村住户)进入了抽样框。这时与抽样框相联系的调查对象的全部元素个数可以记为:

如果仅仅从抽样框丢失的角度进行考虑,调查总体总和估计量Y应由三部分构成,即Y0,YA和YB。YB为错误纳入考察范围的住户的对应指标的总量,这一部分总量应予以扣除,于是有:

其中Y为网络住户抽样调查总体对应的总量指标。YA为正确纳入抽样框的网络调查住户统计指标的总量,Y0为本应属于抽样框范围但没有进行调查的住户统计指标的总量,YB为不属于抽样总体范围内的对象错误纳入调查范围的住户统计指标的总量值。设总量指标Y的期望与方差分别为E (Y)和Var(Y),其样本估计量的值为赞,则抽样框元素丢失所造成的绝对偏差A1、相对偏差R1(赞)和相对偏差系数c.o.v(赞)可以表示为:

其中,Stdev(YB-Y0)表示绝对偏差A1的估计标准误差。

3 网络调查中的回答误差

3.1 理解误差

理解误差是指调查对象对调查项目的理解不同造成的误差。这时候就要求调查方案的设计者在调查项目的设计时充分考虑到不要让调查对象陷入对调查项目误判的泥潭。如“城镇居民家庭基本情况调查表”中“非家庭人口在家用餐”这项指标理解起来就非常困难。按照现在的城镇住户调查手册的解释,所谓的“家庭人口”是指“居住在一起,经济上合在一起共同生活的家庭成员。凡计算为家庭人口的成员其全部收支都应包括在调查表中”。按照该指标的解释,在外地就学的学生不计在家庭人口,但是从日记账的情况来看,绝大多数住户都不会把在外地就学的孩子偶尔回家吃顿饭记在非家庭人口在家用餐者一类里。类似的还包括已经成家,经济自立,平时用饭不在一起,只在周末或假日回家吃饭的子女,按日常的理解也有许多调查户没有计入“非家庭人口在家用餐”这一项。

除了受传统因素的影响外,理解误差还受人类心理、认知、感官等多方面因素的影响。在设计调查问卷的时候,问卷调查的顺序、版式、颜色、图形图片的使用等都会影响调查者接受调查时的心理,从而影响到调查的效果。网络调查与传统调查相比,可以采用的技术手段更多,对调查者的理解力提出了更多的考验。网络调查问卷设计时,可以更多的从人们心理认知角度去考虑怎样合理的运用各种多媒体技术。采用下拉列表框,悬停按钮,Flash动画等多种方法来设置调查项目。从而帮助调查对象对调查项目进行正确理解,避免传统纸质调查枯燥乏味的设计版式对理解问题的影响。

3.2 记忆误差

城市住户调查是一项长期调查工作,每个调查户一旦入样,按照我们设计的调查方案,最少要接受为期一年的调查。在这样一段长的时期内,经常性调查户必须对自己的每一笔收支进行记录,采用每日记账的方法确实是一项繁琐的工作。在现有的调查方案中,调查项目较多,调查项目的分类很细。很多被调查户不能真正做到每日记账。隔段时间记一次势必会产生记忆误差,这种记忆误差可能是遗漏了一些收入或支出项目,有时可能是对这些项目的价格或价值记忆不清,与实际数字差别较大。尤其是一些家庭生活用品,如“家庭日杂用品”,“粮油类”,“肉禽蛋水产品类”等支出项目,这些支出项目每天都在进行,但是又做不到每日记账,就不可避免的产生记忆误差。一些大宗商品的支出虽然不易遗漏,但是对消费金额记忆不准确,有的隔段时间以后就只能估算了。采用网络调查的方式,这种记忆性误差也是不可完全避免的。

3.3 有意识误差

城镇住户调查进行时间较长以后,极容易产生有意识的回答误差。因为调查户在长期的调查过程中,会产生厌倦情绪,采取不愿意合作或应付的态度,从而降低调查数据的准确性。城镇住户调查的实际进行过程中,经常会发生调查户为了迎合调查员的心理,有意的编造一些数据。在长期的调查过程中,一部分调查户已经学会了怎样编造数据不易于发现,甚至掌握了应付检查的一套技巧。这种有意识误差更加隐蔽,会造成数据严重失真。

传统上许多人都害怕露富,所以在收入调查过程中,不愿意将自己的收入如实填报,网络调查由于具有一定的匿名性,可以有效降低对收入公开的回避心理,但是有些收入还是无法获得真实数据,调查住户会有意识地调低他们的收入水平。这也是高税收收入阶层很难进入城镇住户调查抽样框的原因之一。非现金收入这部分很多是单位的福利,有的单位会告诉员工不要对外界公开。现金收入有的单位是因人而异,所以要想获得真实数据较难。总之,在收入调查过程中极容易产生有意识误差,在支出调查中则容易产生记忆性误差。

4 网络调查中的无回答误差

无回答误差是指已经入样的调查对象拒绝接受调查或者虽然接受了调查但没有填写完整,造成数据缺失引起的非抽样误差。在城镇住户调查中,选定调查户以后,调查对象拒绝接受调查的情况也时有发生,这时就必须换户。一旦换户就打破了抽样的随机原则,产生抽样误差。同时也会产生非抽样误差。无回答误差根据主观意图可以分为有意识无回答误差和无意识无回答误差,简称有意无回答误差和无意无回答误差。

4.1 有意无回答误差

有意无回答误差与有意回答误差不同,它是指调查对象有意识的对某些调查项目不予回答。按照现行的城镇住户调查体制,被抽中的调查户通过做工作一般愿意接受调查,但是因为调查登记工作主要靠自觉完成,所以会造成调查者对一部分调查项目有意不予回答。这种有意不回答一部分是因为对调查内容不了解,所以没法填报。另一方面为了隐瞒收入或支出的事实,或者是嫌麻烦,干脆采取回避的态度,不予填报。城镇住户调查项目较多,门类齐全,有的项目调查住户可能在调查期内确实没有发生,所以有义务回答的情况很难判断,这时候只有通过间接手段或者对调查住户深入细致的做工作,以尽量避免这类非抽样误差的产生。网络调查可以采用前台匿名,后台实名的方式有效降低这种类型的误差。

4.2 无意无回答误差

无意无回答误差实际上也分两种情况,一种情况是忘记了填写调查表或者没有按时上交调查表,另一种情况是忘记填写调查表中部分调查项目。前一种情况造成的原因有调查住户生病、出差、探亲访友等等,后一种情况则是由于调查住户的疏忽大意产生。对于这两种情况下的无意无回答,都需要调查员经常与调查住户保持联系,或者进行回访。采用网络技术的城镇住户调查,尤其是在线形式的调查,调查员很容易知道一些调查项目没有填写,比如说,柴米油盐等日常生活用品支出长期没有进行更新,就必须通过某种方式与调查户取得联系,了解具体情况,使调查户及时更新调查内容。

另外,网络调查中的非抽样误差还包括测量误差。测量误差是指由于调查过程中使用到测量工具,测量工具的使用不当会导致调查数据与真实值不一致引起的误差。比如说对某个路口一定时间内通过的人群进行计数,就会经常发生多记或漏记的情形。在城镇住户调查过程中,由于调查户的文化水平参差不齐,也会产生测量误差。这种误差也可以归为无意识回答误差。在此不进行过多的探讨。

5 网络调查非抽样误差的控制

5.1 抽样框误差的控制

抽样误差可以事先计算并加以控制,非抽样误差控制起来较难,但是采取适当措施可以有效降低非抽样误差。抽样框误差的控制主要是设计合理的抽样框选取办法。现有的依靠城市公安局、派出所来获取调查住户名录的方法可能会导致抽样框丢失或抽样框偏差。如果结合社区街道居委会或者实地城市地形图的方法,所获得的抽样框会更加准确。采用网络调查的住户编制抽样框的时候应该考虑到使用网络的熟练程度以及对网络调查户的控制问题。只有真正熟练掌握了网络调查方法(可以采用短期培训的方法)的调查户才能编入网络调查户的抽样框中。

5.2 回答误差的控制

不管是理解误差、记忆误差,还是有意识回答误差,都是由调查对象的主观因素引起的。在城镇住户调查中,调查项目繁多,极容易影响调查者的情绪。这时候,必须通过调查人员耐心细致的与调查住户进行沟通。首先要做好调查住户的宣传培训工作,通过拉家常,讲道理,使得调查住户打消心理上的顾虑。同时也要进行适当的法制与形势教育。让调查户明白城镇住户调查的重要意义以及法律依据。其次要让调查住户了解各项调查内容的具体含义,如果有条件,尽量进行集中培训,没有条件的时候,可以采取有针对性的培训服务。网络调查过程中,通过在线答疑的方式,及时解答调查住户对指标理解、正确填答方法等方面的疑难问题,从而有效降低理解误差。最后,调查员还必须时刻关注调查住户填写调查问卷的进度,对有的项目长时间没有更新的要提醒调查户进行更新,提醒的方式可以采取网络内部通知,电子邮件,手机短信,电话通知等多种手段,尽量避免一个月集中填几次的住户的记忆误差的产生。

5.3 无回答误差的控制

在一般的抽样调查中,无回答是影响抽样调查非抽样误差的一个主要因素,调查者总是采取各种办法吸引调查对象参加调查活动。按照《中华人民共和国统计法》第三条的规定,“基层群众性自治组织和公民有义务如实提供国家统计调查所需的情况”。所以政府调查,尤其是城镇住户调查无回答情况没有市场调查及普通社会调查那么严重,但也应该引起足够的重视。在一相调查过程中获得的抽样框提取二相样本,也就是经常性调查户,如果抽中的调查户拒访,可以采取换户的方法解决无回答问题。换户的过程中,可以采用左手原则,也可以采用近邻原则。

前面已经提及无回答误差主要分为有意无回答和无意无回答两种类型。实际上还可以将无回答分成单元无回答和项目无回答,也就是全部无回答和部分无回答。不管是哪种类型的无回答,都会造成样本与总体的偏差,破坏随机性原则,产生非抽样误差。对于城镇住户调查而言,由于是政府组织的一项经常性的调查活动,由专门的调查机构负责实施。虽然存在调查户拒访的问题,也就是单元无回答,更多的表现形式是项目无回答,所以解决无回答问题的根本在于提高调查员的综合素质,调查员与调查户之间经常沟通,必要时可以动员街道居委会及社区工作人员帮助予以解决。关键是要做好对调查户的宣传培训工作。

网络调查的最大优势之一是实时性,所以建议在城镇住户网络调查中采取联机在线调查,而不是脱机调查。这也是控制无回答误差的有效方法。调查户联机填写调查表,数据信息及时传递到调查机构的电脑中,调查员如果发现某个住户长期没有登陆网络或者某些日常收支没有更新,就必须及时与调查户取得联系,了解调查户没有及时登记的原因,如果是由于生病、外出、繁忙等因素引起的无意无回答,提醒他们予以登记。如果是有意无回答造成的,通过深入细致的做工作,让其予以补登。

[1](美)Judith T.Lessler,William D.Kalsbeek.调查中的非抽样误差[M].北京:中国统计出版社,1997.

[2]杜婷.网络调查的非抽样误差控制及调整方法[J].统计与决策,2006, (8).

[3]方国斌,陈年红.基于网络技术的抽样调查设计与实施研究[J].统计与决策,2009,(1).

[4]金勇进,蒋妍,李序颖.抽样技术[M].北京:中国人民大学出版社, 2002.

[5]金勇进.非抽样误差分析[M].北京:中国统计出版社,1995.

[6]王菲,曾五一.网络调查中的非抽样误差及其预防措施[J].统计教育,2003,(3).

[7]中国互联网络信息中心.第25次中国互联网络发展状况统计报告[EB/OL].http://research.cnnic.cn/img/h000/h12/attach201006131107080. pdf,2001-1-15.

[8]Couper,M.P.Web Surveys:A Review of Issues and Approaches [J].Public Opinion Quarterly,2000,64(4).

[9]Vehovar,V.,Lozar Manfreda,K.,Koren,G.Internet Surveys.The SAGE Handbook of Public Opinion Research[Z].Thousand Oaks:Sage,2008.

(责任编辑/亦民)

C811

A

1002-6487(2011)05-0017-04

马慧敏(1977-),女,汉族,山西怀仁人,硕士,讲师,研究方向:宏观经济统计分析。

猜你喜欢

调查员住户城镇
提升乡村社会调查员素养浅析 以农村固定观察点调查员为例
2.5 MPa及以上城镇燃气管道与输气管道区别
文化边城镇远
顶层住户的无奈——渗漏篇
简单的高招
青海省人民政府办公厅关于认真做好住户调查样本轮换工作的通知
我国家事调查员运行现状研究
城镇排水系统量化指标体系研究
城镇医保支出为何跑赢消费支出
建立社会调查员制度,深入开展“关爱明天,普法先行”教育活动