美国纵向调查中缺失数据的应对方法及对我国的启示

2015-10-30于力超金勇进

现代管理科学 2015年9期

于力超金勇进

摘要：大数据时代市场调查中缺失数据的处理问题引起越来越多的关注。文章透过威斯康星纵向调查，总结了美国纵向调查中缺失数据的处理方法，重点介绍了采用多变量序贯回归的方法进行多重插补的方法及IVEware软件的应用情况，研究了多重插补法处理纵向缺失数据的优势所在。作者总结了国外先进经验，结合中国实际，提出研究大数据背景下纵向缺失数据处理方法的思路和几点建议。

关键词：多重插补法；纵向调查；缺失数据；大数据

一、引言

在大数据背景下进行数据分析，数据的质量是关键。有数据显示，对于收集到的调查数据，80%的时间要花在包括缺失数据处理、不合理值删除等数据清洗工作上，获得较高质量数据后方可进一步进行数据分析。我国纵向抽样调查对缺失数据多采用直接删除法进行处理，只利用数据完全的样本进行分析，不仅造成大量信息浪费，而且可能导致估计结果有偏。本文以作者在威斯康星大学学习期间参与的威斯康星纵向调查（Wisconsin Longitudinal Survey）为例，介绍美国专业调查机构如何应对缺失数据问题，并结合我国实际，给出今后相关工作的建议。

二、美国纵向抽样调查中缺失数据的应对方法

美国许多大型纵向调查已开展多年，积累了丰富的数据和实践经验。例如著名的“威斯康星纵向调查”，这项由威斯康星大学麦迪逊分校调查中心组织开展的研究跟踪调查威斯康星州1957年的1万多名高中毕业生，已经持续了50多年的时间。研究范围包括这些高中毕业生所上的大学、大学毕业后的工作和生活以及他们退休后的生活状况，共收集了3 000多个变量的数据，该项目吸引了许多经济学家、心理学家、社会学家以及流行病专家开展相关专题研究项目，从丰富的数据中挖掘他们感兴趣的结论。我们以“威斯康星纵向研究”为例，看美国开展的纵向调查是如何应对缺失数据问题的。

1. 缺失数据的预防和初次出现时的应对。缺失数据多出现在收入和家庭财产相关的敏感变量。对这类问题，应尽量降低问题的敏感性。威斯康星纵向调查在提问涉及隐私的敏感问题时，一般不直接问具体数字而是通过“月收入在xx元到xx元的区间”这样的问题间接获取受访者的收入信息。在每一轮调查开始时，收入分类的边界值取上一轮调查所获得收入数据的10%，50%和80%分位数。受访者可以回答“不知道”或拒绝回答，调查人员对这些受访者进行追访，以尽可能减少缺失数据的出现，在缺失机制为不可忽略缺失的情形下，回答者与无回答者的调查数据分布有较大差异，此时进行追访调查很有必要。如果追访后受访者还是无回答则记录该受访者的该项目数据缺失。

美国的纵向调查重视抽样框信息的完善，收集受访者的多种联系方式（电话、住址、邮箱等），防止地址变更等原因导致无法联系受访者的问题出现，跟踪抽样框中受访者联系方式的变化，保证每位受访者不至在纵向调查过程中失联。威斯康星纵向调查项目（WLS）就在威斯康星州政府和美国劳动统计局的配合下，投入了大量人力财力用于维护抽样框信息，从而能够在整个纵向调查过程中跟踪联系到每一位受访者。

2. 缺失数据的插补调整方法。采取各种预防缺失数据出现的措施只能一定程度上降低缺失数据出现的概率，不可能根本上解决缺失数据问题，威斯康星纵向调查项目（WLS）采取了大量的缺失数据预防措施，但问卷中多数问题的回答率只是在50%到90%之间。为了采用针对完全数据集的统计分析方法，需要对含缺失的数据集进行插补调整。

美国目前处理纵向调查缺失数据最常用的方法是多重插补法，用这种方法可以较好地估计目标参数以及参数估计量的方差。威斯康星纵向调查自1975年以来的各轮调查都采取了多重插补法处理缺失数据，多重插补使用的是密歇根大学调查研究中心开发的软件IVEware。

IVEware软件采用多变量序贯回归的方法进行多重插补，插补所用的回归模型可以是线性模型、logistic模型，Poisson模型或广义logit模型等，软件基于含缺失值的待插补变量的性质自动选择合适的回归模型，除待插补变量外所有其他变量构成回归模型潜在的辅助变量集，插补值从待插补变量的后验预测分布中抽取，该后验预测分布基于所选择的回归模型获得。软件一次只对一个含缺失值的变量进行插补，对多个含缺失值的变量依次插补直到得到完整数据集，前期的含缺失值变量的插补值在后续针对其他变量的插补过程中被视为观测值。该方法是一种基于回归模型的插补方法。

具体地，假设待插补的含缺失值变量为Y1，…，Yk，数据完全的变量记为X，作为开始插补时的辅助变量，Y1，…，Yk在给定辅助变量X时的联合分布：

f（Y1，…，Yk|X，θ1，…，θk）=f1（Y1|X，θ1）…，fk（Yk|X，Y1，…，Yk-1，θk）（1）

参数θj分布未知，假设其先验分布为无信息先验，即π（θj）∝1，我们对等式右边各个因子根据Yj的性质，选用合适的回归模型建模。

若Yj为二值变量，则fj（Yj|X，Y1，…，Yj-1，θj）可基于logistic回归模型求得。

若Yj为属性变量，则fj（Yj|X，Y1，…，Yj-1，θj）可基于广义logit回归模型求得。

若Yj为计数变量，则fj（Yj|X，Y1，…，Yj-1，θj）可基于Poisson对数线性模型求得。

若Yj为连续型变量，则fj（Yj|X，Y1，…，Yj-1，θj）可基于正态线性回归模型求得。

插补时，首先插补缺失值最少的变量（记为Y1），根据Y1的性质选择回归模型，基于该模型从Y1的后验预测分布f1（Y1|X，θ1）中抽取插补值，插补后变量Y1数据完全，然后从Y2的后验预测分布f2（Y2|X，Y1，θ2）中抽取插补值，用与插补Y1相同的步骤插补缺失值第二少的变量Y2，此时前一期插补后的完全数据变量Y1作为回归模型辅助变量的一部分。如此进行下去，依次插补Y1，…，Yk，直至得到一个完整数据集。

将上述插补过程进行M次，得到M个完整数据集，进而采用Rubin（1987）介绍的多重插补后参数估计量及其方差的计算公式，得到所求结果，具体地，首先用完全数据分析方法分析这M个数据集，对第m个插补后的“完整”数据集进行参数估计，记待估参数为γ，得到估计值γ（m），m=1，…，M；然后综合M组估计量，得到统计推断结果，参数估计为

γ=γ（m）（2）

由第i个插补后的“完整”数据集得到参数的方差估计V（m），V=V（m）为M个方差估计的均值，称为组内方差均值，定义组间方差B=（γ（m）-γ）（γ（m）-γ）′，则参数γ的方差估计为：

VMI=V+（1-）B（3）

威斯康星纵向调查目标变量覆盖面广，持续时间长，收集到数据的完整程度基本反映了美国大型纵向调查的情况，一般情况下，数据完全的变量包括性别、受教育年数、每周工作时间、子女数、受教育程度等，而月收入、智商、健康状况、家庭财产等信息常出现数据缺失，需要进行插补调整。其中，对连续型数据如收入、财产等建立插补模型时可采用正态线性回归模型，对于属性变量如健康状况等需要首先将其转化为离散型数据（如健康状况良好则赋值为1，一般则赋值为2，较差则赋值为3），然后建立针对离散型变量的回归模型如广义logit回归模型，对缺失数据进行插补。

三、多重插补法处理缺失数据的优势

用插补法处理缺失数据与直接删除法相比有许多优势。首先，它可以体现完全数据受访单元与含缺失数据受访单元之间的差异，从而得到参数的无偏估计结果，而直接删除法只利用完全数据受访单元的信息，若含缺失数据受访单元与完全数据受访单元的数据分布存在系统性差异，参数的估计结果会有偏；其次，插补法可以充分利用收集到的数据信息，而直接删除法会丢弃大量有用数据，造成信息浪费。

美国目前处理纵向调查缺失数据广泛采用的多重插补法可以充分利用辅助信息和观测数据作为先验信息，采用贝叶斯方法从含缺失变量后验分布中重复抽取插补值，不仅可以获得目标参数的无偏估计，还可以避免单一插补导致的参数估计量方差偏低的情况发生。

美国的纵向调查有一套成熟的缺失数据处理方法和步骤，对于大型纵向调查，在历次调查阶段采用相同的方法进行缺失数据处理，使历次调查的参数估计结果具有可比性。

四、大数据背景下纵向缺失数据处理的意义和启示

当前国内电子商务事业蓬勃发展，阿里巴巴、京东等电商十分重视生产、销售过程中在不同时间点产生的运营数据，这些数据可以视为纵向调查数据，企业希望根据不同时间点的运营数据建立模型，预测未来发展态势，提早制定相应策略。以阿里巴巴为例，其数据平台所有海量数据来自数百万小微企业以及数以亿记的消费者，阿里研究院的数据分析中心通过对他们商务活动和消费过程中产生的纵向数据进行分析，可以帮助企业和政府及时准确了解微观经济的运行情况。“未来制造业的最大‘能源不是石油，而是数据”，马云如此形容数据分析的重要意义。

我国大型抽样调查尤其是纵向调查事业起步较晚，调查设计及数据处理技术尚不成熟，尤其是在缺失数据处理方面，大多没有采用多重插补法等统计分析方法，而是直接删去含缺失值的受访单元，即使插补也大多采用简单的单一插补法，随着大数据时代的来临，这样处理缺失数据弊端明显，因为随着时间的推移，数据量越来越大，其中的缺失数据也会越来越多，而且新老数据很容易出现重复。雀巢公司在200多个国家出售十余万种产品，有数十万家供应商，其数据库数据量很大，决策层希望利用生产和销售数据形成采购议价优势，在市场中占得先机，但一次检查中发现，在近千万条客户、原材料和经销商记录中近一半是过期或重复数据，剩下的一半中还有三分之一是明显不合理或缺失的数据，在利用这些数据之前需要投入大量精力进行数据清洗处理。国内纵向调查数据无论从数量还是质量看，与西方发达国家都存在一定差距，数据缺失的问题十分严重，我们应当学习西方先进的缺失数据处理经验，采用多重插补法、EM算法、基于模型的似然推断法等统计分析方法处理缺失数据问题。

本文介绍了美国纵向调查处理缺失数据时常采用的多重插补法的操作步骤和相应软件，结合我国国情和发展现状，美国的经验对我国纵向缺失数据处理工作的启示有以下几点：

1. 对于纵向调查，观测不同调查时点目标参数的变化情况及发展趋势是一个重要目的，所以对不同时点的含缺失数据集，需采用相同的缺失数据处理及参数估计方法，这样不同时点参数估计结果才有可比性，目前我国尚没有一个关于纵向调查中缺失数据处理方法的标准，在调查手册中也没有专门章节说明如何处理缺失数据，这样可能由于纵向调查不同阶段缺失数据处理方法不同，导致根据不同时点参数估计结果建立的时序模型与客观实际不符，从而失去了根据该模型预测未来发展态势进而制定相应策略的价值。建议研究者和调查设计及数据分析人员重视纵向缺失数据对参数估计结果的不利影响，制定纵向调查缺失数据处理相关的标准，在调查手册和数据分析报告中用专门章节说明缺失数据的预防措施，报告每个调查时点下每个目标变量的数据缺失率，根据数据缺失的可能原因判定数据缺失机制，进而按照标准的方法有针对性地进行缺失数据处理，得到参数估计结果。

2. 重视缺失数据统计处理方法的研究。采用事前预防措施不可能完全消除缺失数据，此时需要对含缺失调查数据集进行事后处理。首先需要确定数据的缺失机制，然后合理选择处理缺失数据的方法。对随机缺失机制和非随机缺失机制，适用的处理方法不同。随机缺失机制下，可采用插补法和极大似然法处理纵向缺失数据。插补法本质是利用已观测到的数据对数据缺失的部分进行填补，以获得尽量完整且与实际情况相符的数据集。极大似然法（MLE）通过最大化似然函数求参数的估计值，存在纵向缺失数据的情形下，常通过EM迭代算法获得参数的极大似然估计。非随机缺失机制下，需要引入目标变量Yi的缺失指示变量ai（ai=0表示Yi数据缺失，ai=1表示Yi有观测值），对（Yi，ai）的联合分布建模，采用极大似然法进行统计推断，在给定辅助变量X的条件下，根据联合分布f（Yi，ai|X）的不同分解方式，可将（Yi，ai）的联合分布模型分为选择模型和模式混合模型。

3. 对于目前国际上广泛采用的多重插补法，其理论基础是贝叶斯统计理论，一般情况下缺失数据的预测分布比较复杂，本文介绍的威斯康星纵向研究采用的序贯多变量回归法将插补过程分解，每一步仅插补一个含缺失值变量，这样可以使问题简化。多重插补的一大优势是允许在构建插补模型时将各种辅助信息考虑在内，提高估计结果的准确性，并且与均值插补、比率插补和回归插补等单一插补法相比，多重插补构造M个完整数据集，可以模拟一定条件下的估计量分布，根据变量数据类型采用不同的回归模型随机多次抽取插补值，能够反映在该模型下由于数据缺失导致的插补值的不确定性，从而增加了估计的有效性，避免了单一插补时参数估计量方差被低估的问题。

4. 重视软件的开发和引进。目前国际上用于缺失数据处理的软件发展速度较快，而我国如果仅用均值插补这样简单的缺失数据处理方法，相关软件的强大功能将无法发挥。我国应当以自主开发为主，同时重视引进国外先进软件，除了本文介绍的密歇根大学开发的IVEware软件外，SAS Proc MI可以在广义线性模型、生存分析模型、随机效应模型等多种模型假定下，采用多重插补法进行含缺失数据情形下的参数估计。R有多个软件包可以进行缺失数据统计分析，ACD包可以在因变量数据缺失时进行属性数据分析，mvnmle包在目标变量和辅助变量联合分布为多元正态分布时，进行目标变量数据缺失情形下的参数极大似然估计，MICE包是R中目前最常用的用于缺失数据分析的软件包，MICE是Multivariate Imputation by Chained Equations的简称，可以进行多变量缺失数据的多重插补，在多个目标变量都可能存在缺失值时，使用MICE包中的mice函数，通过变量之间的关系预测缺失数据，利用蒙特卡洛方法生成多个完整数据集存在imp中，再对imp进行线性回归，最后用pool函数对回归结果进行汇总。以上软件如能应用于我国纵向缺失数据分析领域，必将大大提高参数估计的效率和准确性。

参考文献：

[1] Savard J R， Pearce N C. Wisconsin Longitudinal Study： User's Guide， National Institute of Health，2010.

[2] U.S.Department of Housing and Urban Development.American Housing Survey for the United States： 2007（Current Housing Reports）.Issued September，2008.

[3] Raghunathan T E Lepkowski J M ， et al.A Multivariate Technique for Multiply Imputing M- issing Values Using a Sequence of Regression Models[J].Survey Methodology，2001，（27）：85-95.

[4] Rubin D B.Multiple Imputation for Nonresponse in Surveys[M].John Wiley & Sons， Inc.New York，1987.

基金项目：国家社科基金项目“大数据背景下非概率抽样的统计推断问题研究”（项目号：15BTJ014）；全国统计科学研究重点项目“小微工业企业抽样调查问题研究”（项目号：2013LZ34）；北京市社科基金重点项目“基于北京市地理分布的空间抽样设计研究”（项目号：14JGA022）；北京市优博论文指导教师人文社科项目（项目号：20121000202）。

作者简介：金勇进（1953-），男，汉族，北京市人，中国人民大学统计学院教授、博士生导师，应用统计科学研究中心主任，研究方向为抽样调查技术与数据分析；于力超（1985-），男，汉族，山东省烟台市人，中国人民大学统计学院博士生，研究方向为抽样调查技术与数据分析。

收稿日期：2015-07-18。