分层抽样下多项选择敏感问题随机抽样调查方法及应用

2013-04-18邱赛兵

湖南人文科技学院学报 2013年2期

邱赛兵，唐波

(湖南城市学院数学与计算科学学院，湖南益阳413000)

敏感性问题是指机构、组织或个人由于经济、安全、形象等原因不宜或拒绝让外部知晓的问题，如政府机密、企业商务秘密、个人隐私等。对于这类敏感性问题，调查中若采用直接回答的方式，被调查者为了保护自己的隐私或出于其他的目的，往往会拒绝回答或故意做出错误的回答。这样就破坏了我们收集数据的真实性。因而为了得到敏感性问题的可靠的样本数据，美国社会学家S．L．Warner在1965年首次提出了敏感问题的调查与统计处理技术，也称随机应答技术(Ranomized Response Technique，RRT)。RRT使用特定的随机化装置，根据概率论知识计算出敏感问题特征在人群中的分布［1］。在沃纳模型中，总体总是被划分为互相排斥的两类，如“考试中作弊的学生”与“考试中没有作弊的学生”。但在实际中，常会碰到总体可划分多于两类的情况，如调查某厂职工对领导的满意程度，职工可分为“满意”、“一般”、“不满意”三种互斥情况。本文对多项选择敏感问题分层抽样下的随机应答模型进行了研究，并推导出了每种敏感属性的总体比例和方差估计值计算公式及敏感属性比例95%的置信区间。

一调查方法

(一)多项选择敏感问题的随机化调查模型

(二)多项选择敏感问题分层抽样下的RRT模型

对调查的总体若按与所调查敏感性问题相关的标志分层，则可提高其精度。假设总体分为L层，πhi为第h层中具有第i类敏感性特征的人在总体中所占的真实比例，第h层容量为Nh，层权为wh，抽样的样本容量为nh，设nhi表示抽取的nh个人中回答i的人数，λhi为此方案下每层样本中每个人回答i的概率。

二公式推导

虽然原始分类多于两类，但当调查的目的是要估计总体中任何一类的个数占总数的比例时，实质上这些比例是按两分类得到的，所以两分类的理论均适合与此种情况［3］。λhi分别服从参数为(λhi，nhi)的二项分布。

由全概率公式可得:

于是，总体比例的估计量及其方差为为:

定理^πi是πi的无偏估计量。

对于等比例分配有［4］:

则总体比例的估计量和方差为:

在Neyman最优分配情形下有:

所能达到的最小方差为:

πi的95%的置信区间为:

三应用实例

以湖南城市学院朝阳校区全体在校大学二、三、四年级学生为总体，调查指标为多项选择敏感问题:上学年考试作弊的严重程度 k，k=1，2，3，4分别表示作弊次数为0，1，2次和大于2次。π∧ik表示i年级学生作弊次数为第k类属性所占的比例，i=2，3，4;k=1，2，3，4。划分总体为三层，大二为第一层，共1100人，大三为第二层共1280人，大四为第三层共1080人，分别随机抽取110人，128人，108人进行调查。设计20张外形相同的卡片，12张写上数字0，其它分别写上1，2，3，4其张数均为1张，混合均匀放入盒内。被调查的学生有放回地随机从盒内抽取一张卡片，若卡片上写的是数字0则真实回答自己上学年曾作弊的次数，若是0以外的数字则回答该数字。本次调查问卷回收率达100%，回收问卷合格率为100%．用Excel2000建立数据库录入数据，对所有资料进行手工及计算机纠错．数据管理与计算通过Excel2000及SAS9．13完成．

表1 各年级考试作弊严重程度比例

按(6)式计算得大二、大三、大四学生在考试作弊严重程度的的估计值^π1=0．6523，^π2=0．1791，^π3=0．1071，^π3=0．0615。其中w1=0．3180，w1=0．3699 ，w1=0．3121 。

按(7)式计算^π1，^π2，^π3，^π4估计方差分别为:

四结论

分层随机抽样的特点是在获得总体参数估计的同时，也能获得有关各层的参数估计。在分层抽样过程中，可将差异不太大的对象归为一类，从而使分层抽样的样本比纯随机抽样的样本更具有代表性，也使得抽样调查中的数据的收集汇总和处理更为方便，操作性更强［5］。由前面的公式(10)和(11)，我们容易得出，对分层随机抽样，当则Neyman最优分配下估计量方差小于等比例分配下的方差，且这两种抽样下的精度均高于纯随机简单抽样。

［1］WARNER S L．Randomized Response:a Survey Technique for Eliminating Evasive Answer Bias［J］．American statistical Association，1965(60):63 －69．

［2］ARIJIT CHAUDHURI．Christofides’ Rondomized Response Technique in Complex Sample Surveys［J］．Metrika，2004(60):223 －228．

［3］贺志龙，高歌．多项选择敏感问题RRT二阶段抽样的统计方法及应用［J］．中国卫生统计，2009(26):580－582．

［4］孙明举，段刚，孙山泽．多项选择随机化调查的多样本模型．数理统计与管理［J］．2004，19(2):61－63．

［5］高歌，范玉波．敏感问题改进的随机应答技术模型分层整群抽样研究及应用［J］．苏州大学学报:医学版，2008(5):750－754．