捕获再捕获抽样方法回顾
2019-08-06魏慧楠
1引言
目前,非概率抽样方法在估计人口规模中的应用越来越广泛,由于某些特定人群缺乏抽样框,无法按照随机原则来进行传统的概率抽样,非概率抽样作为概率抽样的补偿策略,充分展示了其抽样方法的灵活性和实用性。Lincoln、Chapman等学者先后构造了两样本的捕获再捕获估计量,并将该方法用于野生动物种群规模的研究;Anne Chao于1989年对捕获再捕获估计量进行了补充,通过对动物种群同时进行的t次捕获再捕获实验,构造了多重捕获再捕获估计量。目前,捕获再捕获思想已经广泛地用于对人口规模的估计。
2文献综述
(一)连锁推荐抽样
目前,对人口规模的研究有两种主流的非概率抽样方法:一是位置抽样(比如目标抽样),位置抽样适用于目标人群在地理上比较集中的情况;二是连锁推荐抽样 ,比如滚雪球抽样和同伴驱动抽样。很长一段时间以来,许多学者将连锁推荐抽样仅仅视为一种方便抽样,对其估计量的无偏性怀有质疑。但是,学者Heckathorn认为如果对连锁推荐抽样过程进行了合理设计,我们同样可以得到无偏估计量。
滚雪球抽样是一种常见的通过连锁推荐方式进行的抽样方法。滚雪球抽样要根据线人提供的样本线索,按照同伴推荐和再推荐的方式来逐步获取样本。值得注意的是,在进行滚雪球抽样时,由于缺乏抽样框,无法按照随机原则来抽取样本,有学者提出了一种解决方法,即选取一组差异最大的样本作为种子,以此来提高估计结果的精确度。有学者发现特殊人群一般都有其特有的社会网络,在其社会网络基础上可通过连锁推荐的方式获取滚雪球样本,两位学者还利用单波滚雪球样本对海洛因使用者的规模进行了估计。
(二)B图抽样设计
但是,现有的以连锁推荐方式进行的抽样方法在选取种子时均无法按照随机原则进行抽取,即特定人群缺乏抽样框的问题依然存在。Spreen和Bogaerts(2016)对此进行了改进,提出了B图抽样设计,解决了缺乏抽样框的这一问题。B图抽样设计大体上分成三步来完成抽样过程,第一步:Spreen和Bogaerts认为不完整的抽样框也是有用的,可将所有可用的不完全抽样框组合成一个新的抽样框;第二步:如果这个抽样框被专家认为覆盖了当地未知隐藏人口的很大一部分,则可以在这个抽样框中通过随机原则抽取种子;第三步:以连锁推荐的方式,由种子推荐同伴。在很多研究中,人们往往感兴趣的是有多少与已注册隐藏人员直接联系的未注册隐藏人员。通过B图抽样设计,每个与注册人员直接相关的未注册人员都有机会入样,因此可以实现对隐藏人口规模的估计。Spreen和Bogaerts利用来自多个资源的注册数据,形成一个抽样框,对荷兰某城市吸毒人口的规模进行了估计。
值得注意的是,B图抽样设计假设大部分被推荐的个体,被推荐的次数为1和2。这一假设在人口规模较大时是合理的,因为人口规模越大,被推荐次数少(少到1次或者2次)的个体就越多。
(三)文献评述
B图抽样设计方法无疑是对连锁推荐方式的非概率抽样方法的进一步补充和改进,但值得注意的是,B图抽样设计在其构造的抽样框内是按照随机抽样原则来抽取样本的,对随机抽样而言,意味着总体中每一个单位都有相等的入样概率,这属于等概率抽样的范畴,等概率抽样将总体中每一个单位看成是平等的。但是,如果总体单位之间存在着较大的差距,我们需要借助辅助变量(各单位的规模大小)来确定每个单位的入样概率,即实施不等概率抽样。因此,B图抽样设计没有考虑到各资源贡献率大小不相等的问题,将所有的资源看做是平等的,对抽样框内的个体按照随机原则进行了抽样。
对人口规模的实际研究时,每个种子的贡献(种子推荐的同伴个数)是不一样大的。因此,可以引入不等概率抽样的思想,对贡献大的种子单位赋予大的入样概率,贡献小的种子单位赋予小的入样概率,入样概率与种子的贡献大小成比例。不等概率抽样的优点是可以提高抽样的估计精度,减少抽样误差。
实际工作中经常采用的是PPS抽样,PPS抽样是一种放回的不等概率抽样。所谓放回不等概率抽样是指,在抽样之前就给总体中每一个单位赋予一个确定的抽取概率,在放回抽样的每一次抽取中,每个单位被抽中的概率都不变,直到抽够n个样本单位为止。放回不等概率抽样方法中,最重要也是最常见的是总体中每个单位每次被抽到的概率与单位的规模大小成比例的抽样,即PPS抽样。
3几种估计量的回顾
(一)两样本的捕获再捕获估计量
1. LP估计量
Lincoln和Petersen使用捕获再捕获估计方法对生物种群规模进行了估计,提出了LP估计量:
其中,ni表示第i次捕获的动物数量,m2表示第二次被捕获的动物中被标记过的数量。
2. Chapman估计量
由于LP估计量在m2=0的情况下无法满足估计要求,Chapman对LP估计量进行了改进,提出了Chapman估计量:
(二)多重捕获再捕获估计量
捕获再捕获估计方法有三条假设:
1.空间封闭假设:在对特定人群的研究期间,目标人群不存在出生、死亡或迁移等活动,即目标人群的总体规模是稳定的;
2.个体之间的独立性假设:每个个体有相同的入样概率,且其入样概率独立于其他个体;
3.个体当前的被捕获状态独立于其先前的被捕获历史,即个体第二次被捕获不受来自第一次被捕获的影响。
由于我们对目标人群的总体规模的研究在在短时间内可以完成,因此捕获再捕获估计的第一条假设相对容易满足,即在研究期间内目标人群的总体规模是稳定的。但是,捕获再捕获估计方法的第二条和第三条假设可能无法一一满足,为更好地满足后两条假设,一个可行的办法是同时进行多次捕获再捕获实验。
Anne Chao(1989)实现了这种做法,提出了Chao估计量。Anne Chao对动物种群同时进行了t次捕获再捕获实验,获得了t个样本。并且假设这t个样本中,所有被捕获的动物被捕获的次数为1和2,分别用f1和f2表示。也就是说,被捕获的的动物总数为s=f1+f2;没有被捕获过的动物即未知的动物的数量为f0;因此,动物种群的总体规模为N=f1+f2+f0=s+f0,其估計量N
取决于( )。
如果t足够大,则Chao估计量可表示为:
(三)PPS样本的总体总值估计量
1. 汉森-赫维茨估计量
设y1,y2,…,yn是按PPS抽样得到的样本观测值,与它们相对应的Zi值和Mi的取值也自然地记为小写的z1,z2,…,zn和m1,m2,…,mn。对于总体总值Y,汉森-赫维茨给出一下估计量:
4小结
捕获再捕获抽样方法已经非常成熟,我们要掌握各种方法的内涵和实用性,从问题出发,选择适合样本特征的方法进行研究,真正发挥捕获再捕获方法在研究中的作用。
作者简介:
魏慧楠(1994- ) ,女,山西长治人,硕士研究生,研究方向:流动人口.