APP下载

小域估计在问卷分割中的应用研究

2021-09-27王小宁

统计与信息论坛 2021年9期
关键词:数据项参数估计样本量

王小宁

(中国传媒大学 数据科学与智能媒体学院,北京 100024)

一、引言

抽样调查一直是统计学和社会学研究的一个热门话题,利用调查问卷研究社会问题在大数据和人工智能时代仍是一个主要的方法,但是随着同一调查项目要解决问题的增加,很多的调查问卷变得越来越长,而长问卷造成的直接结果是无回答率升高、问卷的数据质量降低同时被访者的回答负担增大。解决长问卷无回答率高的一个方案是将长问卷中的所有问题分成几个小的部分(本文称其为数据项),然后仅对抽中的被访者选择其中的几个数据项让被访者进行填答,这种方法被称为问卷分割设计(SQD)。每个被访者填答的部分可以是固定的也可以是随机的,具体情况可视调查目标来决定。例如,如果感兴趣的目标是部分样本的均值,方差和协方差等统计量,那么需要被访者随机回答其中的一个或几个即可。

问卷分割数据的参数估计包括简单参数估计,如参数的均值和方差等,但当落入某些域的样本单元数目很小甚至为零时,此时传统的参数估计方法得到的精度往往较低,而采用小域估计方法因其在小域样本的估计精度和可靠性上有很大提升,因此成为一种研究小域样本的主流方法。基于问卷分割得到的样本在数据结构上存在数据缺失,相比于完全的问卷结构在进行小域样本的估计时使用小域估计方法精度更高。提高小域估计的精度和可靠性主要从改进抽样设计和改进估计量两方面进行研究,但是改进抽样设计的本质是在原来的基础上增加样本量,因此无法从根本上解决小域估计问题,改进估计量的方法主要是借助该域或其他域的样本信息或辅助信息来提升估计精度。

本文主要在问卷分割设计的基础上,探索小域样本中利用小域估计方法提升估计精度的问题。结合分割样本数据的特点和现实统计估计中对小域样本的需求,深入研究基于问卷分割的小域估计方法,提出了基于分割样本的隐式链接模型间接估计,即问卷分割样本的经验最好线性无偏预测模型(EBLUP),模拟结果显示在偏差、相对偏差、估计的均方误差和相对有效性等衡量指标上优于分割样本常用的多重插补法(PMM)得到的估计结果,这为进行小样本的参数估计提供了一个不错的思路,拓展了问卷分割设计的应用范围。

二、问卷分割和小域估计的研究进展

国外一些政府调查机构,如美国国家统计局和澳大利亚统计局的一些调查项目中已经应用了问卷分割设计。Chipperfield和Steel指出问卷分割设计优于传统抽样设计的三个优势,第一是可以通过允许每个样本单元的变化来增加调查目标的有效性,如每个需要衡量的特征需要的样本量是不同的,可以根据调查的目标来灵活调整样本量;第二是通过探索收集的数据项之间的相关性来提高估计的有效性,例如对信息施加影响可以增强估计的准确性,这在利用插补方法分析数据时尤其管用,利用最好线性无偏估计(BLUE)来估计参数也利用了变量之间的相关性,借用相关性信息可降低估计参数的方差;第三是增加了从样本单元中收集整个完整调查项目中所有问题的灵活性[1-2]。例如,对于访员和研究机构来说,实施短一点的调查问卷比长的调查问卷的压力要小一些。尽管基于以上的优势问卷分割设计能够为未来的问卷调查提供参考,但是因为对该领域的研究相对来说还是不够充分,因此有必要对其进行适当的拓展,以使得它能够被应用到更多的领域中,或使其成为对于长问卷优化来说更有效的一个替代方法。

问卷长度的缩短相对长问卷来说可以有效地提高被访者的调查积极性,在一定程度上增加回答率,Chipperfield和Steel在平衡抽样中的无回答率和抽样效率之间进行了理论分析,得出问卷分割设计结合数据插补是提升抽样效率的一个不错方法。问卷分割设计除了可以降低无回答率外,还可以提高回答数据的质量。

关于问卷分割的研究不仅能提高调查的成本效率,相对简单抽样设计来说回答的时长也会减少,也可以减少无回答率的同时提高抽样的效率。利用问卷分割设计得到的数据比简单随机抽样的质量也会增加,针对问卷中的缺失数据可用似然方法进行估计,对于参数估计中样本比较少的情况下利用小域估计提升参数估计的精度,因此复杂调查中的问卷分割设计是一个很值得研究的问题。

小域估计一直是当今抽样调查中的一个热点问题,由于小域的样本量很小甚至为零,如果用传统的直接估计无法得到小域的精确估计,故借助于其他相邻或相似的小域样本信息和历史信息的间接估计来提高估计精度是十分必要的[3]。在抽样调查的背景下,若域统计量仅仅是基于特定域的样本数据,则将其称为“直接”估计。直接估计量也可以使用已知的辅助信息,例如与感兴趣的变量y相关的辅助变量x的总和。直接估计量通常是基于调查设计的,但它也可以在模型下估计。基于设计的估计量使用调查权重,相关的推断基于抽样设计引起的概率分布,其中人口值保持不变。使用模型辅助直接估计也是基于设计的,旨在使推断对可能的模型错误指定具有稳定性。良好辅助数据的可用性和合适的链接模型确定对于间接估计形成是至关重要的。正如Schaible指出的那样,需要通过不同机构之间的协调与合作来扩大对辅助信息的应用[4]。

目前国内对小域估计研究的论文相对较少,冯士雍将小域估计列为抽样调查领域三个前沿研究方向之一[5]。吕萍对小域估计的理论和最新进展进行过综述,介绍了基于模型的小域估计的主要方法[6]。吕萍和郭淡泊研究了传统的比例、最优、内曼、等量分配方法和Power分配方法中与样本量的分配方法[7]。周巍等利用抽样调查数据结合卫星遥感技术构造多个目标变量的单元层次模型估计,估计了黑龙江省几种农作物的种植面积[8]。国外关于小域估计的研究文献比较多,除了Rao和Molina出版了一部全面介绍小域估计理论的专著外,不少学者从模型的角度对小域估计进行过探索[9]。小域估计通常抽样不涉及传统的人口统计方法,但是近年来对小面积统计的需求大大增加,政府在制定政策和计划资金分配和区域规划方面越来越多地使用小域估计方法,Zhang和Bryant探讨了基于贝叶斯基准的小域估计模型[10]。Fuller、Chambers等人的书中也给出了小域估计理论的详细介绍[11-12];Sugasawa和Kubokawa给出了混合模型中小域估计的研究综述[13];Jiang和Rao对稳健小域估计方法做了一个系统性综述[3]。关于小域估计在问卷分割中的应用,朱钰、Kamgar等得出运用小域估计方法对分割问卷进行参数估计,能显著提高统计调查的精度[14-15]。

问卷分割设计由于其在设计上的特点以及经费的约束,在某些域上也往往会存在样本量很少的情况,因此结合小域估计的方法来对问卷分割设计得到的参数进行估计不失为一个理想的选择,借助小域估计方法也能在一定程度上增加估计的效率。使用问卷分割设计进行数据收集,子样本选择是随机的,因此相应的无回答也是完全随机的。根据对长问卷的分割策略,每个被访者仅被问到其中的几个数据项,因此得到的数据从整体结构来看是缺失的。同时调查项目有时受经费的影响获取的样本量比较小,尤其是在分析获取问卷中部分问题的参数估计时,样本量更少甚至接近于0,因此需要考虑使用辅助信息的手段来增加估计的准确性,而小域估计是不错的选择。

三、问卷分割的小域估计

为了能够使得小域估计方法应用于问卷分割设计,在问卷分割设计的初始阶段需要对问卷进行如下的处理,使其能够满足小域估计的条件:

第一,初始的长问卷被分成一个核心数据项和几个非核心数据项(比如K个),其中核心数据项是每个被访者的必答项,每个被访者回答其中K个数据项中的一个或几个。如果被访者只是回答K个问题中的一个,以K=3为例,可表示为图1所示的形式,其中“√”表示必答数据项和可选数据项中的回答部分,空白表示可选分组中的未回答部分(图1表示相同)。

图1 K=3核心部分+非重叠子集

图1中包含一个“核心”数据项和三个非核心数据项,核心数据项用y0表示,这个数据项可以是一个变量也可以是多个变量,一般来说通常会使用被访者的个人属性特征和与调查目的最相关的几个变量作为这个核心的数据项,如被访者的年龄、性别、收入、受教育情况、婚姻状态以及个人收入、是否信仰某种宗教等被访者的个人属性特征。除此之外,每个被访者都会回答一个非核心数据项。这种设计的另一个优点是任何yk(k=1,2,3)与y0之间的相关性是可以计算的,但是非核心部分的相关系数计算比较困难。此项设计的不足还包括对于任何yk(k=1,2,3)分配相同的样本量才是适宜的,但是在实际中并不是所有的问卷都包含带有人口属性的核心数据项。一般情况下对于数据项包含K个非核心数据项的问卷来说,组合的方式有2K-1种,但是这个设计也有一个局限性,即当数据项有多个时,例如K=7时组合就有27-1=127种,在实际调查中就会出现执行困难。模式的选择专注于这种类型的设计,因为它的设计解决了为受访者量身定制调查的目标。

第二,所有的样本单元基于已知的辅助变量进行分类,因此,能够保证同类样本单元的同质性,每个类可以看成是一个域。这里的辅助变量通常是被访者用户属性的特征组合,如具有高中学历、已婚、工人、工资5 000元/月~10 000元/月一类的人群可以堪称一个域。

第三,每个被选中的被访者随机回答其中的核心数据项和固定的一个非核心数据项,值得注意的是不同子样本的个数(回答不同数据项的总类别数)和总数据项(不包含核心数据项)的个数是相同的。

第四,对于所有的类重复步骤三。

在抽样调查中,调查方案往往是为了估计较高一层调查总体(例如全国)的目标量而设计的,所以利用这些调查得到的、具有总体(全国)属性的样本,去估计下一层子总体(例如省、自治区或直辖市)的目标量时,就会产生样本量少且质量不能保证的问题,原因要么是样本分布由于总体变化而产生偏差造成代表性不够,要么是样本量太小而且方差不稳定,更严重的情况是对某些小(区)域来说,若上一层没有对其抽取样本,这时用于估计的样本量就可能为零。小域估计就是从这一背景出发,从小样本中借助辅助信息来提升估计的效率。小域估计具体的参数估计方法包含直接估计、隐式模型估计和显式模型估计方法等,接下来分别对这三种方法进行分析研究。鉴于问卷分割数据的特点,本文主要从隐式链接模型间接估计的角度探讨提升分割样本的估计精度。

基于隐式链接模型的间接估计也称隐式模型估计法,包括合成估计和复合估计。这些估计量通常是基于设计的,并且它们的设计方差(即相对于采样设计引起的概率分布的方差)通常比直接估计量的设计方差要小。然而,间接估计量通常会有设计偏差,并且设计偏差不会随着整体样本量的增加而减小。如果隐式链接模型近似为真,那么设计偏差可能很小,导致与直接估计量的均方误差(MSE)相比更小,MSE的减少是使用间接估计的主要原因。

基于模型的小域估计方法有以下几个优点:一是可以在假设模型下导出最优估计;二是区域特定的变异性测量可以与每个估计量相关联,而不像传统间接估计量常用的全球测量(平均小区域);三是模型可以从样本数据中验证;四是根据响应变量的性质和数据结构的复杂性(例如空间依赖性和时间序列结构),可以接受各种模型。一般线性混合模型的经验最优线性无偏预测(EBLUP)方法已广泛用于估计固定和随机效应的线性组合的实现值。EBLUP估计量分两步获得:一是获取最优线性无偏预测(BLUP),其首先获得感兴趣量的线性模型无偏估计类中模型的MSE,这取决于模型中随机效应的方差(和协方差);二是通过用方差和协方差参数的合适估计量替换,从BLUP获得EBLUP估计量。在平方误差损失下,小域估计中感兴趣的统计量(例如平均值、比例或更复杂参数)的最佳预测值(BP)是给定数据和模型参数的条件期望。计算BP需要分布式假设,通过将BP相对于从假设的模型参数的先前分布导出的贝叶斯后验分布进行积分,获得平方误差损失下的分层贝叶斯(HB)估计量。HB估计量等于被估计量的后验均值,其中期望是关于给定数据的感兴趣量的后验分布。HB方法使用后验方差作为与HB估计量相关的不确定性度量。感兴趣量的后验(或可信)间隔也可以从感兴趣量的后验分布构建。HB方法被广泛用于小域估计,因为它很简单,推论是精确的,并且可以使用马尔可夫链蒙特卡罗(MCMC)方法处理复杂问题。如果目标是产生估计集合,其分布在某种意义上足够接近相应估计的分布,则对小域总数或均值的基于模型的最优估计可能是不合适的。该方法经常对排名(例如学校、医院或地理区域的排名)或识别具有极端价值的领域(区域)适用。一般情况下,需要构建一组包含三个目标的估计,这些估计可以产生良好的排名、良好的直方图和良好的区域特定估计。然而,同时优化一般情况下是不可行的,并且有必要寻求可以在三个目标之间实现有效平衡的折衷集。该方法通过隐式模型来建立小域和其他小域的联系,达到提高分割样本中小域中目标变量的估计精度,主要方法包括:

1.合成估计量

该估计量是建立在隐式模型基础上的间接估计方法,定义为当一个大域的可靠无偏估计可以由调查样本直接获得时,在假定大域与其所覆盖的各小域有共同特征的前提下,可以使用大域的估计量协助产生小总体的估计量。合成估计量是用大区域的估计量协助产生小域的估计量,因此它的精度就依赖于大域的直接估计的精度,因此得到的小域估计的方差要小于直接估计的方差,但是其均方误差的估计量计算比较困难,一般会通过重抽样方法得到。

2.组合估计量

在假设条件满足的情况下可以使用合成估计,但如果假设条件不满足时仍使用原来的方法会产生很大的偏差,而直接估计虽然会产生无偏、一致的估计量,但是导致小域估计的目标变量会有很大的方差,试着将两者结合起来得到小域估计的组合估计量,即对直接估计量和合成估计量进行加权平均:

(1)

四、基于模型的小域参数估计

(一)模型建立和优化

正如上文中所说,小域估计可应用于样本量比较少的情况,而在问卷分割设计中,因为对长问卷进行了分割,因此使得原来每个类较多的样本量变得越来越少,故在估计总体的时候借助小域估计的一些思想来进行。在介绍具体模型之前先介绍一下经验最好线性无偏预测(EBLUP),假设分割样本数据服从一般线性混合模型:

y=xβ+v+e

(2)

(3)

(4)

(5)

在存在每个单元的辅助信息情况下,平时常用的一个小域估计模型是嵌套误差回归模型,在第i类的总体Ni较大的假定下,模型可以写成:

(6)

基于前面对经验最优线性无偏预测(EBLUP)的介绍,可以得到线性混合的EBLUP是一个基于模型预测,可以提高小域估计的有效性,对应的预测为:

(7)

(8a)

(8b)

式(7)的均方误差(MSE)估计量可以用下式表示:

(9)

式(9)右边的三个符号对应的表达式如下:

(10a)

(10b)

(10c)

(二)参数估计

(11)

(12)

C1,i、C2,i和C3,i的具体表达式见式(10a)、式(10b)和式(10c),从式(12)中得到了相关统计量的计算公式后,接下来使用几个不同的测量指标来比较不同方法的优劣。参数估计的衡量是判断参数估计效果的主要方法,本文中用到的几个比较常见的衡量指标为:

(1)参数估计绝对偏差(AB),具体的估计公式为:

(13)

(2)估计相对偏差(EARB),定义为:

(14)

(3)估计均方误差(EMSE),定义为:

(15)

这里的参数方差也是通过Bootstrap得到,从定义上可看出参数估计的均方误差是估计方差和估计偏差的平方和。

(4)估计的相对有效性,定义为:

(16)

其中ERE表示方法1(用下角标表示)和方法2估计均方误差的比值。

(三)模拟研究

在本节中,采用数值模拟的形式生成具体的数据,结合上一节的参数估计和参数估计衡量方法来分析和证明分割样本中EBLUP方法的有效性。

1.参数设置

首先,设定一个长度为20个问题的长问卷,然后将这20个问题分成6个部分,1个是核心数据项,其余5个是非核心数据项。核心数据项包含5个问题,这5个问题和其余的15个问题是高度相关的,这5个问题每个被访者都会被问到。剩余的15个问题被分配给5个数据项,其中每个数据项被分配3个问题,被分配的问题中不同数据项之间是相关性比较高的,而在同一数据项内的问题相关性是比较低的。基于前面对相关性的描述,设定生成一个多元正态分布,同时生成一个多项式变量来代表分层变量,这个多项式变量和其他的变量是高度相关的。采用图1所示的模式,采用简单随机抽样的形式,对每个子样本抽取固定的100个样本。每层的样本单元随机分配给所有的5个非核心数据项。作为对比,每个问题的总体均值使用多重插补算法中的预测均值匹配法(PMM)以及使用辅助信息的小域估计技术,比较两个方法各自的AB、EARB和EMSE。

2.结果分析

在本次模拟中生成1 000个模拟的自助样本,同时根据生成的数据计算自助总体均值在带有辅助信息条件下的EBLUP和多重插补PMM估计方法,以及相应估计的相对偏差(EARB)和估计的均方误差(EMSE),具体结果见表1。

表1 1 000次Bootstrap样本的参数估计结果

从表1可以看出,EBLUP比多重插补方法的相对偏差相对不大,但估计的相对偏差前者要比后者小一些,且基于EBLUP得到的均方误差也比PMM方法要小得多,从这两个指标看,小域估计是一个不错的选择,同时在相对有效性上小域估计的EMSE多是多重插补的EMSE的比值(ERE)多在0.9以下也可以看出其有效性。

五、小结

本文主要探讨了在问卷分割得到的数据中当进行参数估计时样本量比较小的类进行估计时可能产生估计的偏差而采用的一种新的方法——小域估计方法,首先探讨了该方法的统计学模型,然后在该模型的框架下对参数的估计进行了研究,推导出其经验最好线性无偏预测。在对具体参数的估计中,仅对总体均值和其均方误差进行了估计。

在模拟分析部分,探讨了长问卷有20个不同问题,在实施问卷分割时被分割成6个数据项(1个核心数据项和5个非核心数据项),采用图1所示的模式进行问卷分配的情况下,生成100个随机的样本得到的结果,参考三个不同的衡量指标结果均显示小域估计方法比进行多重插补的PMM方法更有效,这为进行小样本的参数估计提供了一个很好的思路。

本文探讨的是当被估参数相关样本量比较少时的统计量的参数估计,但是该方法有一个弱点是需要了解相关的信息来做辅助推断,如果更好地利用不同数据源的信息来提升参数估计的结果也是未来的一个研究方向。同时当研究的目标是不同变量的相关关系或者对某个变量进行预测时,这就需要围绕模型分析来对问卷分割数据进行具体的讨论。

猜你喜欢

数据项参数估计样本量
一种基于进化算法的概化理论最佳样本量估计新方法:兼与三种传统方法比较*
样本量与东方蜜蜂微卫星DNA遗传多样性参数稳定性的关系
国六柴油车远程排放监测数据项间相关性特征研究*
基于新型DFrFT的LFM信号参数估计算法
网络Meta分析研究进展系列(二十):网络Meta分析的样本量计算及精确性评估
医学研究中样本量的选择
基于参数组合估计的多元控制图的优化研究
基于相似度的蚁群聚类算法∗
一种GTD模型参数估计的改进2D-TLS-ESPRIT算法
非完整数据库Skyline-join查询*