纵向抽样调查中缺失值的预防和处理方法
2018-11-22于力超
于力超
(中央民族大学 理学院,北京 100081)
0 引言
在针对抽样调查数据的统计推断过程中,常存在各种各样的问题,由于无回答等原因造成的缺失数据是一个常见问题,如果处理不当,将对抽样调查活动的顺利实施产生严重的负面影响,研究缺失数据的处理方法意义重大。为了节省时间和人力成本,并观察目标变量随时间的变化趋势,常对一批受访者进行跟踪调查,得到一组纵向调查数据,纵向调查数据缺失问题尤为普遍,由于变换住址、问题敏感等原因,某些纵向调查数据会出现缺失。目前常采用的处理方法是直接删除法,即忽略纵向调查中的缺失数据,仅用获得完整数据的样本进行统计推断,这样不仅造成大量信息的浪费,影响估计结果的有效性,而且如果含缺失数据样本与数据完全样本分布存在差异(即数据的缺失模式不是完全随机缺失(MCAR)),那么得到的参数估计结果有偏[1]。可见,调查数据的质量和缺失数据处理方法的选择影响总体参数估计结果的无偏性和有效性,如何通过调查设计、数据收集过程控制和缺失数据统计处理预防和降低缺失数据的负面影响,是一个研究的热点和难点。
国内现有的关于各种大型纵向抽样调查设计、开展和数据分析的指导手册很少有专门的关于如何处理缺失数据的内容。叶素静等[2]对1980—2013年间92篇关于心理健康纵向调查的文章进行了统计,其中有59篇报道了数据有缺失,但只有39篇报告了缺失数据的处理方法且全部采用的是直接删除法。本人曾参与了美国威斯康星大学关于威斯康星州成年人健康状况的纵向调查(Wiscon-sin Family Health Survey(WFHS)),该调查有严格的数据质量控制标准,对缺失数据采用多重插补法进行处理,经事后检验,从参数估计结果无偏性和有效性两方面看,多重插补法比直接删除法效果好。
本文从缺失数据的事前预防和事后处理两个方面研究和总结了一些适用于纵向抽样调查数据缺失的预防和处理方法,重点研究事后处理方法。若纵向抽样调查数据缺失机制为随机缺失,可采用插补法或加权法,目的是对缺失数据集进行调整以进一步分析,加权法常用于没有从受访者处获得任何信息的单元缺失情形,插补法常用于受访者只提供了调查问卷中部分信息的项目缺失情形,多重插补法因其在估计结果无偏性和有效性方面的良好表现,得到越来越广泛的应用。若纵向抽样调查数据缺失机制为非随机缺失,加权法和插补法将不可用,近年来,研究者提出似然建模方法,即用选择模型法、模式混合模型法和共享参数模型法,通过建立似然函数,用极大似然法进行参数估计,该方法因其广泛适用性越来越受到重视[3-5]。
本文首先阐述设计阶段和数据收集阶段对缺失数据进行事前预防的方法,然后在随机缺失机制下,研究插补法和似然法两种处理纵向缺失数据的方法,最后在非随机缺失机制下,研究用似然法进行总体参数估计的方法。本文中定义缺失数据指数据本身是客观存在的且对总体参数估计有意义,但由于种种原因(如地址变化、问题敏感等)没有收集到的数据。
1 缺失数据的预防
对缺失数据的处理有两种方式:事前预防和事后处理。事后处理只能尽量降低缺失数据带来的不利影响,没有一种事后统计处理方法能够在相关数据缺失时对调查的目标参数进行无偏可靠估计,所以,对于纵向抽样调查,事前预防(即在调查的设计阶段和数据收集阶段采取控制措施尽量降低无回答率)是最有效的方法。
本文认为可以采取以下几项措施:
(1)注重调查问卷的设计质量。问卷不宜过长,问卷项目应与调查目的紧密相关,问卷的设计尽量增加趣味性,尽量避免涉及个人隐私等敏感性问题,如实在无法避免,则采用沃纳随机化回答模型或西蒙斯模型[6]等随机化应答技术,消除被调查者的防卫心理,避免被调查者在没有任何保护的情况下直接应答敏感性问题。
(2)重视调查员和数据管理员的培训,选用工作认真、责任心强的工作人员。通过宣传,强调调查的意义,提高群众的参与意识,并对积极参与调查的受访者给予适当奖励。
(3)对第一轮调查中出现缺失数据的受访者进行追访调查,以尽可能减少缺失数据的出现,特别是在缺失机制为不可忽略缺失的情形下,回答者与未回答者的调查数据分布有较大差异,此时进行追访调查很有必要。
(4)完善抽样框信息,收集受访者的多种联系方式(电话、住址、邮箱等),防止因地址变更等原因导致无法联系受访者的问题出现,跟踪抽样框中受访者联系方式的变化,保证每位受访者不至于在纵向调查过程中失联。威斯康星纵向调查项目(WLS)就在威斯康星州政府和美国劳动统计局的配合下,投入了大量人力财力用于维护抽样框信息,从而能够在整个纵向调查过程中联系到每一位受访者。
事前预防措施只能减少调查数据的缺失比例,但不能完全消除缺失数据,需要对调查收集到的含缺失数据集采用统计方法进行处理。根据数据缺失是否与缺失数据的具体值有关,将数据缺失机制分为随机缺失和非随机缺失,需要首先明确数据的缺失机制,然后基于此选择合适的处理方法。
2 随机缺失机制(MAR)下纵向缺失数据处理方法
随机缺失(MAR)指变量值缺失的概率只与已经观测到的变量值有关,与变量的缺失值无关。对含缺失纵向抽样调查数据集,在随机缺失机制下,常采用插补法或EM算法处理缺失数据。插补法利用已有信息推断缺失数据的替代值,然后基于插补后的完整数据集进行统计推断,用于寻找参数极大似然估计的统计迭代算法——EM算法也常被用于含缺失纵向抽样调查数据集的参数估计。
2.1 概念与符号
对n个受访者在T个调查时点进行纵向调查,假设对各受访者的调查是独立进行的,其中第i个受访者的目标变量向量为Yi=(yi1,...,yiT),若yij数据缺失,则记aij=0 ,否则aij=1,对第i个受访者,可构造指示各时点调查数据是否缺失的向量ai=(ai1,...,aiT),设Yio,Yim分别表示Yi中有观测值的部分和数据缺失的部分。若ai的分布函数有以下等式关系:L(ai|Yi,Xi,θ)=L(ai|Yio,Xi,θ),则数据缺失机制为随机缺失,其中Xi为与Yi有关的自变量。
纵向调查中,若目标变量Y在时点t数据缺失与否只依赖于Y的前期值,且数据的缺失模式为单调缺失(即受访者在某时刻退出调查,此后再未返回),此时数据缺失机制为MAR,例如,患者经检查如果指标恢复正常,可以出院,此后患者的检查数据将缺失,这种情况下数据缺失与否就完全取决于观测到的数据,而与缺失数据的具体值无关。MAR又称可忽略缺失,此时可以忽略缺失机制,仅利用观测值对目标参数进行估计。
2.2 单一插补法
插补法主要适用于调查数据中项目缺失的情形,插补并不会提高参数估计的精度,但如果插补方法使用得当,可以减小由于数据缺失带来的参数估计精度损失。所谓插补,就是基于已有数据信息,为每一个缺失数据计算一个或多个替代值,从而得到完整数据集,然后使用针对完整数据集的方法进行统计推断。为每个缺失数据计算一个替代值的方法称为单一插补法,单一插补法的基本思想是以观测数据为基础,为待插补变量构造一个预测分布,如果该分布合理,则插补后的数据集能够较好反映数据集的真实情况。单一插补法包括均值插补、回归插补、最近距离插补等方法。
对纵向调查中的缺失数据采用均值插补法,即利用在某时点有观测值的样本目标变量的均值作为目标变量数据缺失样本的缺失数据替代值。这是最简便的缺失数据插补方法。
回归插补法类似于抽样调查中的回归估计,利用目标变量Y和自变量X之间的关系,构造回归模型,并基于观测数据对模型参数进行估计,然后利用已有的自变量信息,计算缺失的目标变量值的替代值。
最近距离插补法通过定义测量受访者调查变量间“距离”的函数,根据受访者在自变量上的接近程度选择为数据缺失的受访者提供插补值的受访者,即在与含缺失值受访者临近的数据完全受访者中,选择与其“距离”最近(自变量取值最相似)的受访者所对应的目标变量值作为缺失数据替代值。
最近邻插补法与回归插补法要求目标变量与自变量之间相关性强,对自变量数据质量要求较高。在随机缺失机制下,采用单一插补法操作简便,基于插补后的完整数据集进行参数估计,可以在一定程度上降低估计偏倚,但该方法未考虑缺失数据的不确定性,会导致参数估计量方差被低估,多重插补法是解决此问题的有效方法。
2.3 多重插补法
多重插补法是由Rubin在1978年首先提出并在专著中对其理论及应用进行了全面介绍[6],多重插补法适用于数据缺失机制是随机缺失的情形。分插补步、分析步和合并步三步进行:
(1)插补步。对于纵向调查中的目标变量缺失数据Ym,从给定目标变量观测数据Yo和自变量数据X的条件下的预测分布P(Ym|Yo,X)中重复抽取D个插补值,D一般不少于5,每次抽样都是基于一组独立抽取的分布参数进行。
具体的,首先从给定观测值条件下参数的后验分布P(γ|Yo,X)中抽取一组参数值γ*,将其代入P(Ym|Yo,X)中,从中抽取一组插补值,使得~P(Ym|Yo,X,γ*)。重复进行D次以上过程,得到D个插补值,从而构造D组“完整”数据集,基于此进行下面的分析步和合并步。
(2)分析步。对插补后的D个数据集用针对完整数据集的标准方法进行参数估计,得到D个参数估计值,d=1,…,D。
(3)合并步。综合分析步所得D组参数估计结果,得到参数估计量及其方差。具体的,将分析步所得D个参数估计结果采用Rubin规则[6]进行综合,得到参数估计值为分析步所得D个估计结果的均值,即:
对于参数估计量的方差,首先计算D个基于“完整”数据集的参数估计量的方差估计结果,其均值记为进而计算,则的方差估计结果为:
统计软件R中有针对多重插补法开发的mice包[7],具体操作时,将含缺失纵向调查数据输入R,采用mice生成插补后的多个完整数据集(默认为5个),Graham等(2007)[8]的研究表明,插补数据集个数D随着缺失数据占比的增大应相应增加。
2.4 EM算法
EM算法是一种有效的针对含缺失纵向调查数据集的参数估计方法,通过迭代计算,可以得到参数的极大似然估计。其基本思想是基于n个独立观测受访者的目标变量缺失数据集Ym=(Y1m,...,Ynm)与待估参数γ之间相互关系(Ym中含有与待估参数γ有关的信息),求γ的极大似然估计,通过分布参数γ,Ym的分布可以写出,进而能够求得Ym的合理替代值。EM算法首先设定参数的迭代初值γ(0),每一步迭代包括E步和M步。
E(Expectation)步:
设第k步迭代开始时分布参数为γ(k),由式(3)计算对数似然函数对Ym的条件期望:
其中f(Yim|Yio,γ(k))为已知Yio和当前参数γ(k)时,Yim的后验分布密度。
M(maximization)步:
EM算法每次迭代都会使似然函数值增加,Rubin和Little[9]指出,似然函数有界,序列将收敛到一个稳定值,这个稳定值就是γ的极大似然估计值。
以上介绍了几种随机缺失机制下纵向缺失数据的处理方法。Newman[10]通过模拟产生不同缺失率的纵向调查数据,比较了直接删除法、回归插补法、多重插补法和EM算法在随机缺失机制下参数估计的效果,发现多重插补法和EM算法能得到更准确的参数估计结果,多重插补法求得的参数估计标准误差更合理。虽然相比EM算法和其他单一插补方法,多重插补法耗时较长,计算过程更复杂,但借助计算机软件,多重插补法相对其他方法更有优势。
3 非随机缺失机制(NMAR)下纵向缺失数据处理方法
3.1 概念
与MAR相对的是非随机缺失机制(NMAR),指目标变量Y是否缺失与Y的具体值有关,不管其是否被观测到。例如,居民收入调查中,收入越高,出于保护隐私考虑,受访者回答的倾向越低,此时的数据缺失机制即NMAR。沿用上文的符号,NMAR 下,有L(ai|Yi,Xi,θ)≠L(ai|Yio,Xi,θ)。对于NMAR,在参数估计时必须考虑数据的缺失机制,此时插补法将不可用,需要对(Yi,ai)的联合分布建模,根据联合分布f(Yi,ai|Xi,γ,η)的不同分解方式,Little(1993)[11]将 (Yi,ai)的联合分布模型分为选择模型和模式混合模型。
3.2 选择模型法
选择模型将Yi和ai的联合分布分解为Yi的边缘分布(设分布参数为γ)和ai在给定Yi时的条件分布(分布参数为η),模型中引入与目标变量Yi有关的协变量Xi,并假设Xi数据无缺失,模型如下:
在用选择模型处理纵向抽样调查中的缺失数据时,首先要构建Yi=(Yio,Yim)的统计模型,对纵向数据中常采用潜变量增长模型。
该模型要求对纵向数据的缺失机制fa|Y(ai|Yi,Xi,η)建模,以反映样本在每个观测点数据缺失的概率,常用的回归模型包括Logistic模型和Probit模型。Wu和Carroll(1988)[12]提出共享参数模型(Shared parameter model),可以视为一种特殊的选择模型,其利用个体增长曲线的斜率和截距间接估计缺失指示变量ai的分布。
选择模型(4)能够直观地将Yi和ai的联合分布分解为Yi的边缘分布和Yi的数据缺失机制,其中fY(Yi|Xi,γ)的参数γ是目标变量的总体分布参数,一般是我们感兴趣的参数。选择模型不用像模式混合模型一样先估计子总体参数再求加权平均得到总体参数估计。但不可忽略缺失机制下,必须考虑目标变量的缺失机制,由于ai=0对应的是缺失数据Ymis,i,而且没有Ymis,i的信息,从而造成模型不可识别。此时需要加入一些分布假设,如对纵向调查目标向量Yi的分布采用混合效应模型建立回归模型,加入随机效应项,假定Yi个体增长曲线的斜率和截距服从正态分布。Enders在2011—2013年[5,13,14]的几篇论文中对用选择模型处理NMAR缺失机制下纵向缺失数据的方法进行了研究。
3.3 模式混合模型法
模式混合模型将Yi和ai的联合分布分解为ai的边缘分布(设分布参数为δ)和Yi在给定ai时的条件分布(分布参数为ν),模型如下:
参数估计的思想是首先构造缺失模式,在纵向调查中,单调缺失模式下,缺失模式一般按删失时刻划分,缺失模式类数与调查时点数相同。然后在每个模式内拟合目标变量分布模型,得到各缺失模式下子模型的参数估计值,其中i=1,…,r,r为缺失模式类数,进而将各缺失模式下的参数估计结果整合,假设第i个缺失模式下的样本占比为 πi,fY(Yi|Xi,γ)为目标变量Yi的总体分布,则总体参数估计值̂是r个子模型下目标变量分布参数估计值的加权平均
模式混合模型可以将调查总体按照缺失模式分为若干组,认为各组内的样本分布相似。这样做的好处有两点:第一,由于存在缺失数据,对总体分布直接进行参数估计比较困难,按照缺失模式分组后对各组分别进行参数估计相对容易,将各组参数估计结果利用缺失模式的边缘分布作为权重加权可得总体参数估计;第二,不同缺失模式下子总体目标变量Yi的分布往往存在系统性的差异,我们有时更关心子总体的分布参数,或者希望在估计总体参数的同时也能估计子总体参数。例如Yij为第i个受访者在第j个调查时刻的生活质量指标,aij为其缺失指示变量,aij=1表示受访者在第j个调查时点仍存活,否则aij=0,相对于Yij的边缘分布,我们显然更关心存活者生活质量指标即aij=1条件下Yij的分布,这时模式混合模型就派上了用场。
当缺失机制为NMAR时,选择模型需要对给定目标变量值时缺失指示向量的条件分布建模,由于没有目标变量缺失值的信息,需要做一些主观假设。而模式混合模型避免了对数据缺失机制建模。
但当调查时点数较多时,缺失模式会很多,导致某些模式下的样本量过少,不足以获得子模型下参数的可靠估计,因此Roy(2003)[15]提出用潜在类别变量代替传统的按删失时刻分组的方法,用这种潜在模式混合模型不仅可以减少缺失模式类数,还可以捕捉样本的本质差别进行分类。如何寻找潜变量进行模式划分,这方面的研究很有必要。
4 总结
纵向抽样调查也称追踪调查,在一段时间内的不同时点对同一批受访者进行重复调查,从而观察到事物比较完整的发展过程和关键节点。由于受访者中途退出等原因,纵向抽样调查中数据缺失的现象时有发生,目前针对这种情况,常采用的方法是直接删除法或均值插补法。直接删除法只对数据完整的样本进行分析,这样势必造成大量的信息浪费,而均值插补法没有考虑缺失数据的不确定性,导致参数估计效率降低。本文对现有的纵向调查中缺失数据的处理方法进行了归纳评述,在不同的数据缺失机制下,给出了缺失数据处理方法的使用建议。经研究,在随机缺失机制下,多重插补法使用效果较好,EM算法也能得到较准确的参数估计结果;在非随机缺失机制下,可采用选择模型法、模式混合模型法等似然建模方法进行参数估计。
本文按数据缺失机制将缺失数据处理方法分为两类,今后的研究还可以按数据缺失模式、数据缺失比例等进行分类,研究各种情形下的缺失数据处理方法。在实际的操作工作中,缺失数据的处理不容忽视,在项目研究方案设计和总结报告中应当明确说明缺失数据的事前预防和事后处理方法,这样给出的分析结果才更加可信。