农村抽样调查中的抽样框问题
2010-10-20沈菲飞
沈菲飞
农村抽样调查中的抽样框问题
沈菲飞
准确、完备的抽样框是抽样调查的前提条件,对农村抽样框的选择应考虑到中国农村具体情况,不能照搬城市调查的方法。分析了抽样框老化、遗漏目标等四种抽样框误差类型,并结合中国农村实际,提出入乡随俗、多方合作、加强过程控制、户籍制度改革等建议。
抽样框;抽样调查;农村
一、抽样调查与抽样框
抽样调查是按照随机原则从总体中抽取部分个体进行观察,并据此推断有关总体的数字特征。与全面调查比较,抽样调查需要的时间短,调查经费较少,动员人力物力也相对较少。抽样框是用来代表总体,并从中抽选样本的框架[1]。要使抽样样本的结果真正代表总体参数,样本的抽取必须遵循随机原则且贯穿在调查的全过程。准确、完备的抽样框是开展抽样调查的前提条件,然而抽样框的完整性一直是我国抽样调查的瓶颈,常规做法就是通过扩大样本量来减少误差。
由于空间结构上的不同,农村居民和城市居民抽样的差别较为明显,因此农村抽样不能照搬城市抽样的方法。笔者结合参与中国科协《中国公民科学素质评估指标及实证研究》项目的体会,对农村抽样调查中抽样框的选择和误差进行初步分析和讨论。本调查共抽取了安徽省17个城市101个居委会364个村委会共12550人,其中城镇3518人,农村9032人;调查时间为2007年2月。来自抽样点所在县(市、县、区)的400多位安徽大学本科生,经过培训和考核后担任了此次调查的资料搜集和入户访问工作。省、市、县、区等各级科协利用行政权力适度地为调查员的调查进行组织协调,课题组派出督导员深入一线对被调查地区的调查环节分别进行监督指导。
本次调查以2000年第五次全国人口普查数据为基础进行抽样框设计,采用四阶段分层定比抽样(Four-Stage,Probability Proportionate to Size Sampling,PPS)方法(见表 1),在经过中国公民科学素质调查课题组的前三个阶段的抽样以后,要求调查员在抽中的居委会或村委会中采用简单随机或等距抽样的方法确定最终的调查对象(户、具体到人)。
表1 四阶段分层定比(PPS)抽样单位和方法
二、抽样框的选择
对抽样框的选择必须建立在评价、构造、使用该抽样框的费用和采用该抽样框时调查估计值的总误差基础上,更应考虑具体的国情。
出于节省费用的考虑,在家庭电话普及的地区和国家(美、加)采用电话访问,通过RDD(random digit dialing)程序,产生的所有家庭电话号码作为抽样框[2]。在美国,经过科学分类和加工以后的基础性人口或户籍资料,也很容易以市场购买的方式获取。日本和欧洲有详尽的人口管理制度,均采用入户面访法。在日本,有向社会公开的居民注册系统,为抽样设计提供了较大的便利。中国虽然有完备的户口管理系统和户籍管理制度,但不对社会公开,只能凭借与行政组织主管负责人的私人关系来获取抽样框资料。
我国农村的抽样调查多以人口普查的统计资料为基础进行抽样框设计,采用PPS方法抽取样本进行精度高的入户调查。PPS抽样是一个逐级收集样本的方法,由城市抽样总体抽取乡镇,从乡镇抽取村委会,再由村委会抽取居民户,最后落实被访者。这种层层落实的多阶抽样有助于逐级控制、逐级采用灵活合适的抽样方法,以达到理想的最终访问对象。PPS抽样的基础是业已形成的文本登记档,一旦获得全面反映人口状况的登记文本,抽样就简单易行了。但文本资料与当地人口实际变动状况之间的脱节和资料的不公开,会引起抽样误差[3]。
在资料非市场化的中国,抽样必须全程借助各级行政资源。以往的农村抽样调查样本量大、调查时间长,多借助于行政力量层层推广,形式上的抽样调查成了实质上的全面调查,抽样的功能被异化[4]。本次调查发现,在农村二维随机数表使用率很低,乡村的“熟人社会”使采用替代样本,样本出现同质化、亲缘化。而借助行政力量进行集中地点调查时,熟人会相互讨论从而影响调查结果。因此,如果不按照随机原则抽样,不加强调查过程中的质量控制,就会造成样本同质化,这样,通过扩大样本量来减少抽样框误差的做法就没意义了。
三、抽样框误差
抽样框误差指在实践中抽样框(抽样总体)与所研究的总体(目标总体)不一致。本次安徽省调查以2000年第五次全国人口普查数据为抽样依据,以抽中地区的公安局和村委会提供的户籍信息为抽样框,这可能是现实中最理想的抽样框,但仍有各类不足,主要有以下问题:
(一)抽样框老化
当代中国正处在一个剧烈的社会变迁时期,社会生活的各个方面都在改变。统计数据有很强的即时性,随着时间的推移,抽样框必须更新,否则就会老化,不符合实际情况,使样本产生偏差,如行政区域调整、农村城镇化、居民搬迁等;同时有些新建社区的目标不在抽样框中,成为丢失单位。可采用辅助抽样框进行补救。本次调查四级抽样时在某些村委会就使用了粮种补贴登记表作为辅助抽样框。
(二)遗漏目标总体单位
安徽省有大量农村人口外出异地打工,造成人籍分离,这使得按农业户籍人口抽样出现大规模的空缺成为可能。本次调查以2000年第五次全国人口普查数据为基础进行抽样框设计,按照“五普”的城乡人口分类标准,凡人口密度在1500人/平房公里以上,在城镇建设延伸区内的农村户籍人口均为城镇人口,这部分人口的居住形态、生活形态、工作形态与农村的农民并没有区别,但由于城市化的行政操作使拥有城市居民身份的农民在抽样框中缺失。
无论是根据村委会提供的户籍资料一次到位选人方案,还是采用进入被访户家中确定被访者,或者是请干部复核初步被选名单,基层行政人员只要介入抽样框的选取过程,会以影响工作进度和质量的角度,有意无意的剔除和干部关系不好或交通不便的“特殊”样本户和被访者。
(三)抽样样本包含了非目标总体单位
由于发现非目标总体单元相对比较容易,可以通过一定程序进行剔除,因此这种误差影响较小。
(四)复合联接
复合联接指一个目标总体单位接着一个以上的抽样单位,比如有的家庭拥有两个住所、两个地址,那么他们被选中的概率就是一般家庭的两倍。
四、误差校正方案
(一)优化调查时间,用地址代替名册抽样
安徽省大量外出务工人员使按农业户籍资料编制的抽样框实际抽样时会出现大规模的空缺,使用替补方案目前还无法做到补测抽中异地务工人员,因此选取外出务工人员集中返乡的春节前后作为调查时间。另外,本次调查中用地址代替名册抽样也值得提倡,即当抽样进入到村委会一级时,不按户籍资料抽取住户,而是按照门牌号码抽取住户,以解决名册与居民实际居住地址相脱离的状况(调查者需要在调研前亲赴调查点熟悉情况)。鉴于调查时间不可能都安排在春节前后,按照户籍或政府的统计口径抽样会造成较大偏差,农村抽样调查的调查目标总体应以实际居住地为原则。
(二)建立公开、科学的人口管理系统,完善样本框资料
在中国,比较重要的社会资源往往直接掌控在国家或地方行政组织手里。要建立比较完备的抽样调查框,除了利用行政组织独家控制的户籍资料或人口普查数据及其他居民资料以外,别无其他途径。国内相关行政机关独家垄断的人口基础信息没有对社会公开,也没有相应的法律制度规范这方面的工作。只有当垄断性信息的保护壁垒消除以后,学术调查对政府资源的依赖性才会弱化。
我国人口管理部门分散,存在不同程度的部门分割、交叉重叠现象,如出生、死亡、城乡流动人口统计调查由公安部门进行,死亡原因和婴儿死亡统计等由卫生部门统计,老年人口、残疾人口等情况由民政机关负责,人口普查是国家统计局进行的。需要设立专门机关从宏观上对全局进行把握,清晰划分每个部门管辖的范围[5]。现行城乡分割的户籍制度是计划经济时代的产物,随着市场经济体制的逐步建立和完善,越来越不适应形势发展的要求了。对我国大量的流动人口管理,应以“居住地人口管理”取代“户籍属地管理”模式,以“户籍随人走”取代“人籍分离”[6]。
(三)入乡随俗,多方合作,加强过程控制
目前很多科研性质较强的抽样调查主要实施力量都是研究项目组,形式也多为入户调查。诚然,入户调查适合具有封闭式的个性自由的城镇居民,但在方言多、生活方式相对固定、居住又分散的农村,入户调查难度很大,借助行政力量采用有效组织的集中调查可能会更快更好的实现调查需要[7]。本次调查基本采用入户调查方式,在特殊情况下借助了行政力量进行集中调查。在中国社会文化中,人们对政府的权威感很强,乡村领导出面会有快速一致的行动,但也会对被访者心理造成无形的暗示影响,因此必须对被访者进行心理干预,请政府工作人员暂时回避,以保证调查结果的客观性、科学性。
本次调查的顺利实施得益于专家学者、政府行政人员和学生调查员三个群体之间分工合作,各自的文化资本和政治资本体现出强大的互补优势。
专家学者利用专业知识等文化资本有效投入,既在前期的设计研究中设计、论证,也在中期的调查中组成督导员对被调查地区的调查环节(从地方科协到调查员,再到被调查者)分别进行监督指导,还在后期的研究、检验中提供专业理论技术的支撑。
省市县区等各级科协部门层级分明,行政权力由上而下直到地方基层,这一政治资本特色补充了专家学者的不足。科协人员在前期的设计论证中给予配合、提出意见;在中期的调查中更是为本问卷调查提供抽样各类基础性资料和便利的行政机制运行保证。鉴于地方语言、风俗等文化差异,地方科协利用行政权力适度地为调查员的调查进行组织协调工作,是调查顺利进行的行政保障。
从大学生中抽取的调查员,经过专家的培训,具备问卷调查的知识以及假期实践的经验,并且由于被调查地区家乡籍贯的身份,加上地方科协对他们的支持与协助,增加了调查研究过程的效率和信度。
五、结语
抽样框在抽样调查中处于基础地位,抽样框是否全面对推断总体具有较大影响。对农村抽查的抽样框选择不能照搬西方或者城市抽查的方法,应该考虑到中国具体的国情。农村抽样调查抽样框的完善除了寄希望于户籍改革,建立公开科学的人口管理系统,完善抽样框资料外,还应在调研前亲赴调查点熟悉情况,强化抽样的可操作性,使理想的抽样设计与实际调研完美结合,避免闭门造车、纸上谈兵。调研实施中和实施后要结合多方力量进行质量控制,社会约束和监督。
[1]J u d i t h TL e s s l e r,Wi l l i a mDK a i s b e e k.调查中的非抽样误差[M].朱金勇进译.北京:中国统计出版社,1 9 9 7:4 7.
[2]胡志萍,王斌会.盖洛普民意测验及其实现抽样随机原则的思考[J].统计与决策,2 0 0 4(3):8 9-9 0.
[3]边燕杰,李路路,蔡禾.社会调查方法与技术[M].北京:社会科学文献出版社,2 0 0 6:7 2.
[4]冯士雍.抽样调查应用与理论中的若干前沿问题[J].统计与信息论坛,2 0 0 7(1).
[5]白海军,徐海俊.我国户籍制度改革发展现状及对策分析[J].河北大学学报,2 0 0 6(4).
[6]肖文韬.工业化力度、人口流动行为与户籍改革[J].人口与经济,2 0 0 4(3).
[7]王振威.对“官入”调查研究方法之反思[J].调研世界,2 0 0 8(3).
C811
A
1673-1999(2010)01-0057-03
沈菲飞(1980-),男,安徽巢湖人,硕士,巢湖学院(安徽巢湖238000)管理系讲师,从事科技传播工作。
中国科学技术协会“中国公民科学素质评估指标及实证研究”(项目编号:2006DCYJ11-A)课题资助。
2009-12-12