样本轮换下两阶段抽样连续调查的统计方法及应用*
2015-03-09苏州大学医学部公共卫生学院卫生统计学教研室215123歌刘升学周云华施佳琛
苏州大学医学部公共卫生学院卫生统计学教研室(215123) 傅 颖 高 歌刘升学 周云华 施佳琛
样本轮换下两阶段抽样连续调查的统计方法及应用*
苏州大学医学部公共卫生学院卫生统计学教研室(215123) 傅 颖 高 歌△刘升学 周云华 施佳琛
目的为实际需要的样本轮换下两阶段抽样连续调查提供科学的调查方法与统计公式,为制定某核电站职工辐射防护措施提供依据。方法采用数理统计学的理论方法推导统计量的计算公式;采用本文研究的样本轮换下两阶段抽样连续调查的统计方法,对某核电站职工的白细胞数进行了连续三年的调查分析;采用SAS编程模拟调查分析100个样本,对本文研究的调查方法及其统计公式作信度与效度评价。结果对样本轮换下两阶段抽样连续调查,推导出总体均值的估计量及其方差与估计方差的计算公式;该核电站职工两阶段抽样均轮换样本的2010年、2011年白细胞数总体均值的估计量分别为5.88、5.84(103/mm3),其标准误分别为0.247、0.255,与一般成人白细胞均数的差异具有统计学意义;100个总体均数的95%可信区间均包含模拟总体均数。结论本文研究的样本轮换下两阶段抽样连续调查的统计方法具有较好的理论与实际意义以及较高的效度与信度;该核电站职工的白细胞数偏低,应引起相关部门的高度重视。
两阶段抽样 样本轮换 连续调查 核电站职工 白细胞
为了调查总体在不同时间上的水平变化、平均水平或者累计,连续调查的方法已广泛采用。样本疲劳和代表性下降是多次调查固定样本的两个不可忽视的问题。不同次调查中重新抽取新样本,也存在以下几个严重问题:不能很好地体现出总体随时间的变化;不能以固定样本的前期资料对现期总体做出精度较高的回归组合估计;调查时间、费用、操作要求均比固定样本高。样本轮换(sample rotation)是指在样本容量不变的前提下,每隔一定时间更换部分样本单元,既保留了部分原有样本单元,又增加了部分新样本单元,所以兼有全新样本与固定样本的优点,是控制系统误差、减小抽样误差、提高估计精度、减少调查费用的重要手段,是国内外统计专业公认的在连续调查中采用的好方法。
目前,国内外对一次性(横断面)抽样调查的统计方法研究较多,理论及方法也比较成熟;而对于连续抽样调查,主要局限于样本轮换下简单随机抽样调查的研究。本文对实际调查中常需采用的样本轮换下两阶段抽样连续调查的统计方法进行了研究。
样本轮换下两阶段抽样连续调查的统计方法
1.调查方法
在两阶段样本均轮换的过程中,第一阶段是初级单元的轮换,使现期初级样本单元中既有保留的初级单元,又有轮换的初级单元,在轮换的初级单元中所有次级单元均是新样本。第二阶段是在保留的初级单元中对次级单元进行轮换,使现期次级单元中既有保留的次级单元,又有轮换的次级单元。对于初级单元和次级单元均按照最优样本轮换率计算轮换和保留的个数并实施简单随机抽样进行相应的轮换和保留。
设总体包含L个初级单元,第i个初级单元包含Ni个次级单元。初级单元的样本容量为l,第i个初级单元的样本容量为ni,第h次调查保留初级单元数为vh,轮换初级单元数为别是第一阶段与第二阶段的抽样比。记Yhij为第h次抽样时总体第i个初级单元中第j个次级单元的指标值,i=1,2,…,L;j=1,2,…,Ni。yhij为第h次抽样时样本第i个初级单元中第j个次级单元的指标值,i=1,2,…,l;j=1,2,…,ni。
2.总体均值的估计量
在样本轮换下的简单随机抽样,前人已给出第h次抽样总体均值的组合估计量,因第h次抽中的第i个保留初级单元内作样本轮换下的简单随机(第二阶段)抽样,故第h次抽中的第i个保留初级单元按次级单元指标均值的组合估计量为[1-2]:
因第h次抽中的第i个轮换初级单元,是采用简单随机抽样获取的新样本,所以第i个轮换初级单元按次级单元指标样本均值为:
这里,yhuij为第h次抽中的第i个轮换初级单元第j个次级单元的指标值,则两阶段样本都轮换的第h次总体均值的估计量为[1-2]:
3.总体均值估计量的方差
对(3)式按方差的性质,总体均值估计量的方差为:
其中,根据初级单元大小不等的不放回抽样的研究结果可知[3-5]:
因第h次抽中的第i个保留初级单元内作样本轮换下的连续抽样调查,故(7)式中的计算公式为[3-5]:
应用实例
职业放射损伤是以造血组织损伤为主,而职业群体的血细胞变化特点是以中性粒细胞为主的白细胞降低,以及血红蛋白、血小板的下降[6]。为了了解某核电站职工的健康状况及其在连续时间上的水平变化,探讨职业病危险因素,我们对该核电站职工的白细胞数进行了两阶段抽样下样本轮换连续三次(年)的调查分析。
1.调查设计
(1)调查对象 以2009-2011年中国某核电站(共22个处)全体职工为调查对象,调查指标为血液学指标白细胞(WBC)数(103/mm3)。
(2)调查方法
采用两阶段抽样下样本轮换的连续调查,以处为初级单元,以职工为次级单元,初级单元和次级单元均进行样本轮换。对总体22个处(L=22)统一编号。根据相关公式[5]估计得:2009年(h=1)按40%的抽样比随机抽取9个处(l=9),每个抽中处按45%的抽样比随机抽取次级单元组成2009年的样本;2010年轮换初级单元数u2=6,保留初级单元数v2=3;2011年轮换初级单元数u3=5,保留初级单元数v3=4(表1)。首先在初级单元进行样本轮换,保留部分旧的处,换入部分新的处,保持l=9不变。新换入的各处中仍按45%的抽样比随机抽取次级单元;保留的各处中保留部分旧的次级单元,换入部分新的次级单元(旧的次级单元和新的次级单元来自同一个处)。2009、2010、2011年分别调查次级单元(职工)199人、218人、202人,共调查619人次。
表1 2009-2011年样本处及其调查人数
(3)质量控制
苏州大学医学部前身隶属于核工业部,长期以来与各核电站保持着良好的课题合作关系,本次调查亦得到了该核电站的大力支持。在本次调查之前对调查员组织培训,让其了解整个课题的意义并掌握样本轮换的具体实施步骤。所采血液样本亦是由专人送指定医院测定,实验室检查结果返回后数据采用双人录入并校对。
2.调查分析结果
(1)2009年的调查计算结果
因第一年未涉及样本轮换,所以按照一般(非轮换样本)二阶段抽样均值的算法,得2009年的均值¯y=6.26(103/mm3)。
(2)2010年的调查计算结果
基本指标vh、uh、nhi、uhi、mhi、Φh、Φhi等根据本研究提供的相关公式(本文从略)或按文献[3-5]估计。
①总体均值的估计量
由式(2)计算得第7、8、11、15、17、20六个轮换处均值的估计值分别为5.54、5.91、6.47、5.53、 5.55、5.71(103/mm3),则按式(3)计算得轮换处均值的估计值为5.79(103/mm3)。
由式(3)得2010年总体均值估计量:
②总体均值估计量的方差
由式(4)得2010年总体均值估计量的估计方差:
(3)2011年的调查计算结果
(4)统计推断
一般成人白细胞数的平均值为6.50(103/mm3),将样本轮换后的2010年、2011年该核电站职工白细胞样本均数分别与之比较做Z检验,结果如表2。表中可见两个总体均值的95%可信区间均不包含正常均值,P值均小于0.05,表明该核电站职工2010年及2011年白细胞数的总体均值低于一般成人的总体均值。
表2 核电站职工与正常人白细胞数(103/mm3)的比较
效度与信度评价
1.基于计算机模拟的效度信度评价方法
以本文应用实例中该核电站为模拟总体,包含22个初级单位,次级单位数共3500。以次级单位(职工)白细胞数2010年调查所得样本均数5.88、标准差2.11作为模拟总体的参数。通过SAS编程:建立模拟总体;模拟样本轮换下二阶段抽样连续10次调查100个样本(第一阶段抽40%的初级单位,第二阶段抽10%的次级单位);对模拟调查资料运用本文给出的公式计算10次调查总体均值估计量及其估计方差、总体均数95%的上下限,来评价本文研究的调查方法及其公式的效度和信度。
2.模拟调查分析结果
以样本的序号为横坐标,以每个样本所得的总体均值95%可信区间为纵坐标画图,见图1。图1中的中横线为模拟总体均数。从图1看出,100个模拟样本得到的100个总体均数95%可信区间全部包含模拟总体均数,可认为100个样本均数与总体均数(模拟真值)的差别无统计学意义,说明本文研究的样本轮换下二阶段抽样连续调查的调查方法及其统计公式具有较高的效度;又因100个样本均数均接近同一数值(模拟总体均值),同时也说明本文研究的调查方法及其统计公式具有良好的信度。
图1样本轮换下二附段抽样连续调查分析的模拟结果
讨 论
1.样本轮换的连续调查是固定样本与全新样本连续调查的折中方法,既能反映变化也能节省一定资源,其理论发展相对滞后[7-8],主要集中于对简单抽样下样本轮换问题的研究[9]。本文对实际需要的样本轮换下二阶段抽样连续调查,从数学上首次推导出总体均数的估计量及其方差、估计方差的统计公式,具有统计理论方法学意义。
2.新的调查方法及其统计公式的效度与信度需采用大个数样本多次连续调查分析来验证,进行实例调查几乎不可能。本文采用计算机模拟的方法,不仅能实现理论上的大量重复抽样调查,还能保证获取资料的各项条件的稳定性。本文基于SAS进行大样本个数(100个样本)连续10次的计算机模拟实验,对本文研究的调查方法及其统计公式,得到了高信度、高效度的评价结论。
3.样本轮换下连续抽样调查在国内外应用比较广泛,主要应用于住户调查[10]、贸易[11]、社会经济[12]等领域,尚未见文献报道用于医学领域。本文首次在医学领域,使用二阶段抽样下样本轮换的方法调查分析出该核电站职工的白细胞数比正常人白细胞数低,与姚志刚[13]、冯晓敏[14]等人得出的结论一致,提示长期低剂量电离辐射已影响了放射人员的健康,放射人员要增强自我保护意识,同时相关部门要定期给职工做血液检查并在辐射防护设计、管理和运行过程中应更加严格遵守ALARA原则[15]。
4.本研究对模拟总体,同时模拟二阶段横断面抽样调查100个样本(各阶段抽样比与样本轮换模拟相同),分析结果样本均数的标准误比样本轮换模拟调查平均高出30%,说明本文研究的样本轮换下二阶段抽样连续调查的方法可大大提高抽样精度。因篇幅所限,精度比较的模拟实验结果本文未予介绍。
1.赵俊康.考虑偏差时的样本轮换问题研究.山西财经大学学报,2001,23(4):100-102.
2.Lind JT.Repeated surveys and the kalman filter.Econometrics Journal,2005,8(3):418-427.
3.Cochran WG.Sampling Techniques.3rd.New York:John Wiley&Sons,1977.
4.Fuller WA,Rao JNK.A regression composite estimator with application to the Canadian Labour Force Survey.Survey Methodology,2001,27:45-51.
5.欧辉,潘红艳.不同规模单水平样本轮换最优轮换率的确定.数学理论与应用,2010,30(3):88-92.
6.商希梅,乔建维,侯殿俊,等.150名60Coγ射线工作者辐射效应分析研究.中国辐射卫生,2003,12(3):183.
7.陈光慧.连续性抽样估计方法研究综述.统计与信息论坛,2010,25(12):3-9.
8.Duncan GJ,Kalton G.Issues of Design and Analysis of Surveys Across Time.International Statistical Review,1987,55(1):97-117.
9.U.K.Office of Population Censuses and Surveys.General Household Survey 1982.London:HMSO,1984.
10.陈光慧,刘建平.我国农村住户连续性抽样调查方案设计.统计研究,2013,30(2):80-87.
11.张同利,万寿桥,任志安.小型批发零售贸易行业抽样中样本轮换方法.财贸研究,1996(4):58-60.
12.喻艳.连续性统计调查在社会经济研究领域的应用.现代经济信息,2011,24:264.
13.姚志刚,衣同晔,钱志远,等.2007-2011年秦山核电站工作人员健康状况分析.职业与健康,2012,28(11):1326-1327.
14.冯晓敏.放射工作人员的血液检验结果探讨.中国辐射卫生,2012,21(3):294.
15.田浩天.核电站大修集体剂量控制管理浅析.科协论坛,2013,6:64-65.
(责任编辑:丁海龙)
The Statistical Method of Sample Rotation Under Two-stage Sampling Successive Survey and its Application
Fu Ying,Gao Ge,Liu Shengxue,et al.(Department of Epidemiology and Biostatistics,School of Public Health,Soochow University(215123),Suzhou)
ObjectiveTo provide a scientific survey method and formulae of sample rotation under two-stage sampling,and to offer scientific basis for the relevant departments to set the strategy on radiation protection.MethodsWe derived the statistic formulae with mathematical statistics method.Sample rotation under two-stage sampling was applied to successive survey on the number of white blood cells(WBC)three years.SAS programming to simulate 100 samples was taken to make validity and reliability assessment on the survey method and its statistical formulae.ResultsWe derived the formulae of estimation of population mean,variance and estimated variance for the sample rotation under two-stage sampling.After two-stage sample rotation,population means of nuclear workers′WBC were respectively 5.88 and 5.84(103/mm3)in 2010 and 2011,and corresponding standard errors were respectively 0.247 and 0.255,which were of statistical differences compared with healthy adults.Simulated population means was totally included in 100 population mean 95%confidence intervals.ConclusionSample rotation under two-stage sampling and its formulae have achieved well theoretical and practical significance,which are also of high validity and reliability.For the nuclear workers,numbers of their WBC were lower than healthy adults in 2010 and 2011,which should be paid more attention to.
Two-stage sampling;Sample rotation;Successive survey;Nuclear workers;White blood cells
*:国家自然科学基金项目(项目编号:81273188)
△通信作者:高歌,E-mail:gaoge@suda.edu.cn