APP下载

分层抽样下的变体平行模型及其实证研究

2019-08-23宋颖潇

税务与经济 2019年4期
关键词:变体总体平行

吕 恕,宋颖潇

(电子科技大学 数学科学学院,四川 成都 611731)

一、引言

互联网飞速发展的现代社会,充斥着复杂多变的信息,其中敏感性信息因涉及个人隐私,如吸毒、性取向等,其调查结果获取的难度极大。针对敏感性问题调查发展起来的专业调查方法,主要有随机化应答技术和非随机化应答技术,这些专业调查方法确保了受访者在调查中的匿名性,提高了敏感性问题调查结果的有效性。其中非随机化应答技术不需要复杂的随机化装置,使调查更简单便捷,还可与网络调查相结合,这一特点打破了以往敏感问题专业调查技术只能面对面、一对一,调查结果回答率和真实回答率不高的缺点,扩大了调查范围、降低了调查成本、提高了调查效率。但非随机化应答技术尚处于发展中,其各个方面的研究都还不完善,实际应用也不够广泛,因此对非随机化应答技术的研究还有待于进一步深化。

非随机化应答技术是针对二项选择属性特征敏感问题的调查模型,即是否具有某种敏感特征。变体平行模型[1]是非随机化应答技术中应用范围最广且最高效的模型,其既解决了三角模型和交叉模型[2]的局限问题——不能用于敏感问题中两分类都敏感的情况(如吸毒三次以上和吸毒三次以下),也解决了平行模型[3]中受访者非敏感性特征的比例不易得的问题(如喜欢吃辣的人群比例)。目前国内外对于敏感问题调查中非随机化应答技术的应用,大多限于小范围特定群体小样本的简单随机抽样,即使遇到复杂样本也只是利用简单随机抽样下的非随机化应答技术进行调查,导致调查结果出现较大误差。[4]分层抽样划分了总体类别,增大了各个类别中样本的共同性,抽取的样本代表性更好,抽样误差较小,因此分层抽样常常被用于样本间差异较大或样本较多的复杂情况。

本文将分层抽样引进变体平行模型中,对分层抽样下变体平行模型的敏感比例估计值、估计值方差和样本量的确定做出了详细推导。介绍了网络调查及其数据误差[5],分析了分层抽样下变体平行模型与网络调查结合的效果。利用新设计进行实证研究——吸毒人员复吸比例调查研究,使用蒙特卡罗方法模拟实际的调查过程。

二、变体平行模型介绍

变体平行模型的设计如下:令X=1表示具有敏感性特征的人的类别(吸毒),X=0表示不具有敏感性特征的人的类别(不吸毒)。引入两个二分随机变量Y和W,假设Y和W都是非敏感的且X、Y、W相互独立,p=P(W=1)已知而q=P(Y=1)未知。例如,Y=1表示受访者喜欢吃辣,Y=0表示受访者不喜欢吃辣,W=1表示受访者ID最后一位是奇数,W=0表示受访者ID最后一位是偶数。可以合理地认为p≈0.5,要求估计具有敏感性特征的人群比例πv=P(X=1)(下标v表示变体平行模型the variant of Parallel Model)。

受访者被要求如实回答表1左侧部分,并选择自己对应情况的符号。

表1 变体平行模型设计及其对应概率

由表1知,当受访者选择“○”时,受访者属于{Y=0,W=0}这一子类;当受访者选择“△”时,受访者属于{X=0,W=1}这一子类;当受访者选择“□”时,受访者属于{Y=1,W=0}∪{X=1,W=1}这一子类。因为{X=0}、{Y=0}、{Y=1}、{W=0}、{W=1}均是非敏感的,所以{Y=0,W=0}、{X=0,W=1}和{Y=1,W=0}∪{X=1,W=1}这三个子类都是非敏感的,无论受访者做出什么样的选择都是非敏感的,都不会被采访者知道他的真实分类,即受访者是否具有敏感性特征。

三、分层抽样下的变体平行模型

分层抽样的具体方法为:按总体各单位的显著特征(如性别、年龄等)将总体分层;根据各层单位数、总体单位数和样本容量,确定每一层的抽样比例(抽样比);依据抽样比在每层以简单随机抽样的方法抽取样本;汇总每层抽样结果,组成总体抽样样本。在分层时需做到使层内各单位间的差异尽可能小,层间各单位间的差异尽可能大,层与层相互独立,总体各单位在划分时不重不漏。

设调查总体容量为N,将总体划分为L层,第i层容量为Ni(i=1,2,…,L),分别在各层以简单随机抽样的方法独立抽样,调查共抽取总样本容量为n,第i层样本容量为ni(i=1,2,…,L),对抽取的每个单位,采用非随机化应答技术进行调查。

令πi表示第i层子总体中具有敏感性特征X的人群比例,qi表示第i层子总体中具有非敏感性特征Y的人群比例,pi表示第i层子总体中具有非敏感性特征W的人群比例。pi已知而qi未知。根据表1,设mi1、mi2、mi3分别表示第i层ni个子样本中受访者选择“○”、“△”、“□”的人数,λi1、λi2、λi3分别表示第i层ni个子样本中受访者选择“○”、“△”、“□”的人群比例。

第i层子总体中:

由λi1=(1-qi)(1-pi),λi2=(1-πi)pi可得

调查总体中,πv的估计量为:

其中ωi=Ni/N为第i层的权重,即第i层的抽样比例,∑ωi=1。

调查中预先给定一个精度α,

根据分层抽样样本量最优分配原则可知,当且仅当

四、实证研究

网络调查的误差分为覆盖误差、抽样误差、无回答误差和计量误差,分层抽样下的变体平行模型可以有效降低四类误差,用于网络调查两分类均敏感的问题。本文实证研究主题为“吸毒人员复吸比例调查研究”,调查的目标人群是吸毒人员,以蒙特卡洛模拟的方式进行研究。吸毒人员分为被查获一次且无戒毒史的偶吸人员和复吸(成瘾)人员,复吸人员相比偶吸人员更难戒断,同时男女在戒毒时产生的反应也有所不同,因此在戒毒方案的制定上要有所区分。

令X=1表示受访者(吸毒人员)复吸,W=1表示受访者编号ID尾数为偶数,Y=1表示受访者喜欢吃辣。则p=P(W=1)=0.5,q=P(Y=1)未知,求吸毒人员中复吸的人群比例π=P(X=1)的估计值。

首先将所有吸毒人员按性别分层,据《2015年中国毒品形势报告》统计[6],截至2015年底,全国共有吸毒人员234.5万(不含戒断三年未发现复吸人数、死亡人数和离境人数),其中男性200.7万名,女性33.8万名,分别占85.6%和14.4%。设调查总体容量为N=5 000 000,男性层容量为Nm=4 280 000,层权重ωm=85.6%,女性层容量为Nf=720 000,层权重ωf=14.4%。令πm表示男性层中复吸人群比例,πf表示女性层中复吸人群比例,男性层和女性层中具有非敏感性特征W和Y的人群比例均与总体相同。

利用蒙特卡洛方法对男性层和女性层分别进行模拟,实现了变体平行模型的整个问卷调查过程,假设样本量的设定是合理且有效的。在软件中生成吸毒人员的信息矩阵,每个人的信息包括{X,Y,W},其中X、Y、W分别以一定的概率生成。据统计,截至2015年底,全国吸毒人员中偶吸人员106.9万名,复吸人员127.6万名,分别占45.6%和54.4%。因此在生成吸毒人员的信息矩阵时可将概率设定为:πs=P(X=1)=0.544,p=P(W=1)=0.5,其中s表示实际调查中敏感人群比重。

表2 分层抽样下的变体平行模型

生成信息矩阵后,需要对信息矩阵进行筛选,按照表2分层抽样下的变体平行模型选出符合条件的信息,即{X=0,W=1},得到受访者中选择“△”的人数。设mm、mf分别表示男性层和女性层中受访者选择 “△”的人数,通过公式(1)、公式(2)计算可以得出实验中男性层和女性层的敏感人群比例。

(1)

(2)

重复实验100次,男性层和女性层的实验结果分别如图1、图2所示。

图1 男性层敏感人群比例重复实验100次的结果

图2 女性层敏感人群比例重复实验100次的结果

再将重复100次实验的男性层、女性层敏感人群比例代入计算公式(3),可以得到重复100次实验情况下调查总体中敏感人群的比例,如图3所示。

(3)

图3 调查总体中敏感人群比例重复实验100次的结果

由上述男性层、女性层和调查总体中的敏感人群比例图可以看出,重复实验100次,实验结果总在预设值附近波动,因此蒙特卡洛模拟可以很好地实现敏感性问题调查的物理过程,且打破了抽样调查在相同情况下只能进行一次有效调查的限制,得到了重复实验100次的结果。

但是从图中也可以看出,每个群体中波动的大小不同,分析男性层和女性层的敏感人群比例的方差可知,见公式(4)、公式(5),在设定的各层敏感人群比例与非敏感人群比例与总体保持一致的情况下,各层敏感人群比例的方差只与样本量的大小有关,且两者成反比。本实证研究中男性层的样本量比女性层大,因此男性层敏感人群比例的方差比女性层小,很好地解释了实验结果中男性层波动更小的情形。

(4)

(5)

五、研究结论

通过上述分析可知,分层抽样下的非随机化应答技术应用范围更广、精度更高,相比简单随机抽样下的非随机化应答技术,更适用于调查较为复杂、单位间差异较大的总体。其与网络调查相结合可以使得敏感性问题的调查变得更加便捷。分层抽样下的变体平行模型需要注意以下三点:

3.各层样本量分配比例的确定。每层在抽样时的抽样比例不能简单地用层权来衡量,而应该根据分层抽样样本量最优分配原则来确定。

实证研究中对于吸毒人员复吸比例的调查研究,成功地实现了相同条件下的重复实验,实验结果在真实值附近波动,模拟了敏感性问题调查的实际过程。该项实证有助于戒毒管理单位更加科学有效地帮助吸毒人员戒毒。本文对于变体平行模型的改进及其实证研究敏感性问题调查方法的进一步完善提供了可靠有效的理论参考和指导原则。

猜你喜欢

变体总体平行
基于DDPG算法的变体飞行器自主变形决策
向量的平行与垂直
平行
逃离平行世界
2020年秋粮收购总体进度快于上年
外汇市场运行有望延续总体平稳发展趋势
直击高考中的用样本估计总体
非仿射参数依赖LPV模型的变体飞行器H∞控制
再顶平行进口
耀变体喷流高能电子谱的形成机制