流行病调查中住户调查样本采集及抽样框设计研究
——以山东省泰安市住户调查为例
2011-08-05时涛
时 涛
(泰山医学院,山东泰安 271016)
在预防医学各学科中,凡是涉及到专题问题的调查设计、资料的获取和数据资料的分析和解释,都要以流行病学方法为基础。流行病调查主要以抽样调查为主,样本的调查结果被用于对所研究总体的特征进行描述。因此,科学有效的采集样本数据是流行病调查与控制研究的前提。除对医院病历抽查外,主要采集方式是入户面访,这样对住户抽样调查的方案设计、抽样框设计、样本抽选就提出了很高的要求。本研究以泰安市某流行病入户面访调查作为案例,具体介绍了一套切实可行的方案,现报告如下。
1 抽样总体的确定
根据我国的国情,我国户籍制度比较完善,每年1%人口抽样调查实施规范,可以从相关部门获得比较完备的人口统计资料。因此,调查总体比较容易确定。人口资料作为调查的基本资料,应当来自于样本地区正式的最新统计出版物,例如当年的《统计年鉴》等。对于更细节的数据可以通过被行业认可的权威机构获得,如样本地区的各级统计局、民政局、公安局以及街道办事处、居(村)委会等单位和部门。
1.1 目标区域 指调查覆盖的区域范围,根据研究的目的确定。
1.2 目标户 指以户为单位的调查对象。
1.3 目标单位 指以人为单位的调查单位,也就是最终的调查对象。
2 抽样方案设计
2.1 确定抽样总体 泰安市所辖泰山区、岱岳区、新泰市、肥城市、宁阳县、东平县等六县市所有住户。
2.2 确定抽样单位 泰安市每一个家庭户(即住户)。
2.3 确定抽样方法 采用—个为分层的三阶段概率与规模成比例抽样法(PPS[1])。在具体方法上采用:分层抽样、PPS抽样、等距抽样、整群抽样等几种概率抽样方法结合使用,目的是得到一个等概的自加权样本。具体抽法是:①把泰安市分成六个抽样小总体,每一个区、市、县作为小的抽样总体;每个小抽样总体都分成城镇、乡村两层。②根据每个区、市、县的人口数量,按比例分层抽样原则,从每个小抽样总体中抽出一定数量的街道(乡镇);本调查抽取泰山区5个街道(乡镇)涉及11个居(村)委会;岱岳区抽取8个街道(乡镇)涉及13个居(村)委会;肥城市7个街道(乡镇)涉及15个居(村)委会;新泰市9个街道(乡镇)涉及17个居(村)委会;宁阳县4个街道(乡镇)涉及9个居(村)委会;东平县抽取5个街道(乡镇)涉及10个居(村)委会。共成功315份问卷。③利用系统间隔法,随机从抽中的街道(乡镇)中抽出一定数量的居(村)委会;同时照顾到泰安市各县市的经济发展水平,在实际抽取居委会时按照配额抽样方法,给各小抽样总体分配不同的配额;见表1。④利用系统间隔法,以A表第7户为起点,每n(n=总户数/10,有小数的取整数)户抽一户,从抽中的居(村)委会中抽取十个样本家庭户。
表1 各县市区抽样配额一览表
3 抽样框设计[2]
选定的居(村)委会的抽样框设计步骤:(1)绘制一份所选居(村)委会的详细地图;(2)建筑物编号,编制各建筑编号内户数一览表;(3)编制住户列表A表,即抽样框。
3.1 绘制一份所选居(村)委会的详细地图
准备此地图有如下几种方法:① 访问员可以在当地政府部门取得一份详细的地图,其上还应有居(村)委会所包含的建筑物数目;②一些居(村)委会的入口处有标明本居(村)委会所含建筑物位置的详细地图,访问员可以绘制建筑物所在位置的地图,并标明建筑物数目;③访问员自己走访观察本居(村)委会的建筑物,然后绘制地图。
绘制抽样图采取“沿右手边走,从左至右,从上至下”的原则,采用以下步骤:
首先,要求抽样员找到选定区域的东北角,这个需要学会观察该区域有无明确的边界,弄不清楚最好去社区居委会(或村委会)咨询,明确后再行动,可以节省体力;然后,沿右手边走,做到不重不漏地标记每一个建筑物及其详细内容(住户数),边走边在纸上做标记;最后,在A4纸上铅笔整理成型,再用签字笔绘制抽样图成图。注意字迹清晰、手写工整、标注明确。
特别提到的是,数据收集、整理、分析的大前提是正确绘制抽样图,这是之后每一个统计工作环节的前提和基础,而抽样调查、市场调研相关的教科书竟没有提到抽样图的绘制方法,这是统计教学工作者的失误之处。
3.2 建筑物编号,编制各建筑编号内户数一览表
3.2.1 建筑物应当按照从左至右,从上至下的顺序进行编号。非住宅建筑也应当画在地图上,但不应给予编号,这样可以尽可能的提供位置参考;如果一栋建筑有多于一个的入口,而且他们互不相通,那么应当给予不同的编号。
3.2.2 统计每栋建筑物的住户数(X1,X2,…,Xn),并以“每层户数×层数”的方式把每栋建筑物住户数标明在地图上。如果是第一层和第二层及以上的每层户数不一致,那么以第二层户数为第二层及以上户数,总户数就应记为“第一层户数+第二层户数×剩余层数”;对于农村为私房的村委,可以不必每一户都以一个建筑物标明,但可以至多30户为一个单位作为一个建筑物编号来标明,同时标明该编号户数。
3.2.3 对于所有居(村)委会实地访问的任意两户间隔不少于20个户;对于所有居委、村委地图上建筑物编号不能少于20个。
3.2.4 编制建筑编号内户数一览表。见表2。有经验的抽样员这个步骤可以省略,直接绘制住户列表A表。
表2 泰山区迎胜居委会各建筑编号内户数一览表
3.3 编制住户列表A表,即抽样框
一份表格会发给到访问员,简称A表。这份表格的每一个单元格代表一个家庭。每一个单元格都有编号:编号从左至右,从上至下。每一行有20个单元格。从1开始,第一行的编号为1至20,第二行的编号为21至40,如此类推。访问员应当按照上一步骤中对建筑物标号的顺序,将这个居(村)委会的每一户家庭对应在这个表格中。
3.4 抽取样本住户
在住户列表A表中,抽取样本住户。在居(村)委会内选择住户在同样的表格内,访问员首先应当计算拜访的间隔数。由于访问成功率对不同居(村)委会有较大不同,一个可行的办法是选择10个住户作为“A”类,他们会被优先考虑。于是,拜访的间隔数可以这样计算:拜访的间隔数=居委或村委内所有住户数/10。同时,表格内亦列出了产生的随机数7作为“A”类地址的起点,编号为7的单元格内已标明为“A”。这代表与这些编号对应的住户是访问员应当拜访的住户,访问员应当按照住户编号的顺序依次拜访。值得注意的是表格内写“A”的单元格都会呈现一定线性规律。
最后编制样本住户一览表(表3),便于访问员实地走访及问卷封皮的填写。
表3 泰山区迎胜居委会样本户一览表
以上介绍的是调查设计过程中最重要的一环——抽样框的设计及样本采集的方式,这种方法可以为流行病调查甚至其他商业调查提供很好的参考,有很强的可操作性和实用价值。同时,这部分内容作为抽样调查的重要组成部分,是否在教科书当中介绍值得统计教学同仁们考虑。
[1] 冯士雍.抽样调查理论与方法[M].北京:中国统计出版社,1998:185-187.
[2] 时涛.电视收视率调查中非抽样误差来源及控制研究——基于AC尼尔森媒介调查的实践[D].天津财经大学,2009.