高相关性辅助变量择优回归插补法
2012-09-11杨贵军赵晓云
杨贵军,蔡 娟,赵晓云
高相关性辅助变量择优回归插补法
杨贵军,蔡 娟,赵晓云
(天津财经大学中国经济统计研究中心,天津300222)
调查数据无回答在抽样调查中经常出现。无回答项目插补法是处理无回答的最主要方法之一,而辅助变量对提高插补值准确度非常重要。因此,研究调查数据无回答项目的高相关性辅助变量择优回归插补法,先筛选与目标变量间相关系数高的辅助变量,再建立回归插补模型。该方法的辅助变量选择过程简单,插补值准确性高。模拟例子演示了该方法的优良性。
无回答项目;变量择优;回归插补;相关系数
一、引 言
目前,抽样调查的应用领域越来越广,调查数据的无回答问题也受到更多关注。调查数据无回答包括(调查)单元无回答和(调查)项目无回答。单元无回答是调查单元没有回答任何调查项目,调查员没有找到被调查者、或是被调查者由于特殊原因不接受调查等情况都会出现单元无回答;项目无回答是样本单元只回答了部分而不是全部的调查项目,被调查者拒绝回答某些敏感性调查项目、或由于粗心遗漏掉某些调查项目等都会产生项目无回答。无回答会影响调查数据的质量,导致参数估计量出现明显偏差,有时估计量方差也会显著增大,严重影响统计分析结果的可信度[1][2]1-2。
避免或减少调查数据无回答的办法主要有事前预防、事中控制和事后补救。Kish详细讨论了降低无回答率的事前预防办法[3]615-624,由于实际问题的复杂性,事前预防和事中控制无论做得多么严谨细致,只能有效减低无回答率,而不能彻底解决无回答问题;Hansen和Hurwitz认为事后追加样本的二重或二阶抽样方法能有效解决无回答问题[4],但追加样本会导致支付额外的调查费用和延长抽样调查时间,在很多情况下这种方法并不是最优的选择。事后补救的主要方法是插补法,即指构造无回答单元和无回答项目的插补值。Politz和Simmons给出了无回答的随机描述[5];冯士雍总结的无回答单元估计方法有[1]:Horvitz和Thompson提出的逆概率加权法[6]、Deming和Stephan提出的梳理法[7]、Lundstrom提出的校准法[8]以及类加权法。
无回答项目的插补法包括单值插补法和多重插补法。多重插补法给出了无回答项目的多个替代值[9]1-23,常用的多重插补法有回归预测法[10]、倾向得分法、马尔科夫蒙特卡罗法等[11]67-94,无回答项目的单值插补只给出无回答项目的单一替代值,常用的单值插补法有冷卡插补、热卡插补、均值插补、回归插补、比率插补、推理插补、相关性估计插补、最近邻插补、EM算法、贝叶斯自助法及近似贝叶斯自助法等。冷卡插补是根据以前的调查结果或其他资料与数据等给出无回答项目的插补值;热卡插补选用回答项目的数值对无回答项目进行估计;均值插补是将回答项目的样本均值作为无回答项目的插补值;回归插补是依据含无回答的调查项目与其他调查项目间的线性关系构造无回答项目的插补值,这种线性关系是事前已知的;比率插补是回归插补的特例,是利用无截距项的回归模型进行插补;推理插补是依据已观测的样本数据和调查项目间的理论关系以及调查经验等估计无回答项目;相关性估计插补是选用与含无回答调查项目间相关性最大的5个调查项目来对无回答项目进行估计[12];最近邻插补是依据最近距离调查单元的调查项目之间相似度更大的假设对无回答项目插补;EM算法是基于回答单元和回答项目计算无回答项目的最可能值[13];贝叶斯自助法及近似贝叶斯自助法是基于贝叶斯观点的无回答项目插补[9]1-23。同时,方匡南、谢邦昌则利用聚类关联规则对无回答项目插补[14]。
在上述单值插补法中,有些插补法只利用单一调查项目的调查数据估计无回答项目,如均值插补法和热卡插补法。另一些插补法利用了多个调查项目的调查数据,如推理插补、最近邻插补、比率插补、回归插补和相关性估计插补等,插补过程相对复杂,但往往插补值准确度更高。事实上,合理利用其它调查项目的观测数据,能够更准确地描述含无回答调查项目的统计规律,更好地估计无回答项目。然而,并不是每个调查项目都能提供关于含无回答调查项目的有价值信息,有的调查项目与含无回答调查项目之间不存在任何逻辑关系和统计相似性,对无回答项目估计并不重要。因此,筛选出有利于无回答项目估计的调查项目,用之插补无回答项目,会提高插补值的准确度。
笔者针对调查数据,讨论高相关性辅助变量择优回归插补法。第一步,筛选出与含无回答的调查项目间相关系数高的调查项目,进行调查项目择优;第二步,利用筛选出的调查项目建立无回答项目的回归模型,给出相应无回答项目插补值,模拟例子演示了该插补法的准确率。
二、具有辅助变量择优的二步插补过程
为了下文讨论方便,在不引起混淆的情况下,将含无回答的调查项目称为目标变量,其它调查项目称为辅助变量。因无回答项目插补值的准确度受辅助变量影响大,故对辅助变量进行优选后再建立插补模型,则能够提高插补值的准确度。具有辅助变量择优的二步插补过程包括两步:
(一)辅助变量择优
因为筛选出的辅助变量能更好地描述目标变量的统计规律,可以提高插补值准确度。
假设观察样本A=(xij)含有m个变量n次观测,其中i=1,…,n;j=1,…,m,m个变量记为X1,…,Xm。为了消除量纲的影响,对原始数据进行中心标准化变换,即zij=(xij-x珚j)/sj,i=1,…,n;j=1,…,m,其中x珚j和sj分别表示第j个变量的样本均值和样本标准差。将数据集A的调查单元分为A1和A2两部分,A1的所有单元Z1,…,Zm都没有无回答项目,A2的所有单元都含有无回答的项目,记。对于A2中的无回答项目,选择Zk作为目标变量。剔除数据A2中第i单元含无回答的所有变量,剩余变量记为Z,再进行变量择优。
逐步回归过程的变量选择、决策树、粗糙集等方法,依据与目标变量的相关性对辅助变量进行排序。通常与目标变量相关性小的变量不会显著提高无回答项目的预测准确性,有时还可能会增加估计量的随机波动性而降低无回答项目的预测准确性。剔除这些变量,可使目标变量与其它辅助变量的关系更易识别。
将目标变量和辅助变量间相关系数作为辅助变量择优的标准。首先,按z(2)i,j-珔z(1)j取值将辅助变量分为两类,取值正的为第一类,取值负的为第二类;其次,计算相关系数矩阵,记Zj*为Z中与目标变量Zk相关系数最大的辅助变量,若,从第一类优选辅助变量;若,则从第二类中选辅助变量。
(二)利用选出的辅助变量建立目标变量的插补模型
插补模型包括线性模型、贝叶斯自助法、最近邻插补法等。使用回归模型,将选出的辅助变量Z(1),…,Z(e)作为解释变量,Zk为响应变量,模型为Zk=β0+β1Z(1)+…+βeZ(e)+ε。基于数据集A1的拟合模型为^Zk=^β0+^β1Z(1)+…+^βeZ(e),则无回答项目依据相关系数先对辅助变量择优,再建立回归插补模型估计无回答项目的方法,在本文中称为高相关性辅助变量择优回归插补法。高相关性辅助变量作为回归模型的解释变量可能具有共线性,但共线性问题并不影响回归模型的预测精度[15]53-54,也不会影响插补值的准确度。
具有辅助变量择优的二步插补过程是利用辅助变量与目标变量间统计规律预测无回答项目,插补值的准确性依赖于辅助变量的合理选取。先验信息和理论能够更好地对辅助变量择优,即使在先验知识有限或者缺失的情况下,该过程也能对辅助变量进行择优,并给出有参考价值的无回答项目插补值。
常用的回归/比率插补法主要依据先验知识和理论,确定辅助变量及其与目标变量之间的函数关系。当先验知识正确时,回归/比率插补能够提供较好的插补值。由于很多抽样调查的先验知识具有不确定性,并且无回答项目事前未知,每个调查单元包含两个或更多无回答项目的情况在实际调查中经常发生,这些都会限制回归/比率插补法的应用。
三、高相关性辅助变量择优回归插补法的应用
选用两组调查数据演示高相关性辅助变量择优回归插补法的应用,一个例子的调查数据是离散型,另一个是连续型。
(一)离散型调查数据的高相关性辅助变量择优回归插补法
本例的数据是2009年某省直属单位高层管理人员的测评调查数据[12]。调查问卷包括28个调查项目,回答值为1~4;调查单元共计51个:前30个调查单元不含无回答项目,记为A1;后21个调查单元都含无回答项目,记为A2。中心标准化变换后的数据分别记为A1=()和A2=),以A2的无回答项目为例,高相关性辅助变量择优回归插补法如下:
第一步,筛选与目标变量相关系数最大的5个辅助变量。对于目标变量Z8,由于A2第一个调查单元的都是无回答项目,剔除变量Z11和 Z18;基于数据集A1,计算剩余25个辅助变量中与Z8相关系数最大的变量,结果为Z9;按z(2)i,j-珔z(1)j的差值将剩余辅助变量分为两类,差值正的为第一类,差值负的为第二类;由于z(2)1,9大于均值珔z(1)9,从第一类辅助变量中选出与Z8相关系数最大的5个,分别为Z9、Z14、Z10、Z12和Z1作为优选的辅助变量。
第二步,建立无回答项的插补模型。基于数据集A1,利用选出的5个辅助变量,构建目标变量的回归模型,拟合模型为:
模型的决定系数为R2=0.84,修正决定系数珚R2=0.81,检验统计量F=25.54。无回答项目x(2)1,8的插补值为:
插补值与真实值是相同的。
本例给出了全模型插补法、选模型插补法、相关性估计插补法、均值插补法的插补结果,全模型插补法是利用目标变量外的所有辅助变量建立回归模型,并对无回答项目插补;选模型插补法是根据条件数剔除产生共线性的变量,利用其余变量构建回归模型进行插补,而选模型插补法与相关性估计插补法都对辅助变量进行了择优;均值插补只利用目标变量自身的统计规律对无回答项目插补,将数据集A2中每个变量的调查项目均视为无回答项,分别用上述方法进行插补,结果见表1。表1中高相关性辅助变量择优回归插补法简称为相关回归插补,相关插补是指相关性估计插补法。表1第2列给出了每种方法对插补值的总正确率,第3~30列依次给出各插补方法对变量1~28插补值的正确率,28个变量分别用粗体数字表示。
表1 各方法对数据集A2插补值的正确率 (%)
表1显示:与均值插补法相比,高相关性辅助变量择优回归插补法、相关性估计插补法和选模型插补法对28个变量插补值的正确率都高;全模型插补法对22个变量插补值的正确率高;以上4种插补法的总正确率更高,这4种插补法都利用了辅助变量,均值插补法则没有利用辅助变量。合理利用辅助变量的插补方法能够提高无回答项插补值的准确性。
与全模型插补法相比,高相关性辅助变量择优回归插补法对28个变量插补值的正确率高;相关性估计插补法对27个变量插补值的正确率高;选模型插补法对23个变量插补值的正确率高、对2个变量插补值的正确率低,以上三种插补法的总正确率更高,因为选用的不是全部变量而是选出重要的辅助变量,所以提高了无回答项插补值的准确性。
本例中变量间的线性相关程度高,其中最大相关系数为0.95,相关性估计插补法的插补值的总正确率较高。与相关性估计插补法相比,高相关性辅助变量择优回归插补法总正确率略低,差值为0.5%。对于每一个变量的插补正确率,高相关性辅助变量择优回归插补法对10个变量插补值的正确率高,对11个变量插补值的正确率低、对6个变量插补值的正确率与相关性估计插补相等。高相关性辅助变量择优回归插补法与相关性估计插补法之间的插补结果略有不同,但没有明显优劣,都对本例的离散型无回答项目提供了有价值的插补结果。
(二)连续型调查数据的高相关性辅助变量择优回归插补法
这里选用的是管理人员绩效考核的连续型调查数据[15]53-54,包含了7个变量。前20个调查单元为A1,后10个调查单元为A2。将A2的每个数据项均视为无回答项目,分别用高相关性辅助变量择优回归插补法、相关性估计插补法、逐步回归插补法、全模型插补法和均值插补法进行插补。相关性估计插补法是利用与目标变量相关性最大的3个辅助变量对无回答项目插补;逐步回归插补法是基于AIC信息准则利用逐步回归的变量筛选过程择优辅助变量,再用筛选出的辅助变量建立回归模型插补;全模型插补是利用所有辅助变量建立回归模型插补;均值插补法是利用数据集A1中目标变量的均值作为无回答项目的插补值;高相关性辅助变量择优回归插补法选用3个辅助变量。本例中用插补值的均方误差描述连续型调查数据无回答项目插补值的准确度。均方误差越小,插补值准确度越高。各插补法对每个变量插补值的均方误差在表2中给出。
表2 连续数据的不同插补方法比较表
表2显示:逐步回归插补对变量X1~X5插补值的均方误差较小,都小于76,其中对X4插补值比其它插补法的均方误差都小,为53.04;对变量X6和X7插补值的均方误差相对较大,大于100,总均方误差为70.53,小于其它插补法。高相关性辅助变量择优回归插补法对变量X1~X4插补值的均方误差较小,对变量X1、X2、X3插补值的均方误差分别为43.76、41.68、63.45,小于其它插补法;对变量X5、X6插补值的均方误差较大,总均方误差为77.82。相关性估计插补法对变量X1、X2、X7插补值的均方误差小;对变量X7插补值的均方误差为71.02,小于其它插补法,总均方误差92.43,大于上述两种插补法和全模型插补。
全模型插补法对X1、X2、X4、X5、X7插补值的均方误差小,小于78,其中X5插补值的均方误差为62.75,小于其它插补法;对X3、X6插补值的均方误差较大,大于100,总均方误差为78.88;均值插补法只对X6插补值的均方误差小于其它插补法,对其余变量插补值的均方误差和总均方误差都大。
对插补值的残差分析显示:高相关性辅助变量择优回归插补法、逐步回归插补法和全模型插补法分别有8、10、16个插补值绝对残差较大,超过10。插补值绝对残差大的原因很多,其中原因之一可能是插补模型不适于对这些无回答项目插补。相比较而言,高相关性辅助变量择优回归插补更适用,插补值绝对残差大的个数更少。去掉三种方法中绝对残差大于10的插补值,计算其余无回答项目插补值的均方误差,结果见表3。
表3显示:插补值的均方误差明显减少;高相关性辅助变量择优回归插补法对X3、X4、X6、X7插补值的准确度最高;逐步回归模型插补法对X2、X5插补值的准确度最高;全模型插补法对X1插补值的准确度最高,并且总均方误差最小。
表3 三种回归模型插补方法比较表(剔除异常点)
本例调查数据的插补结果表明:辅助变量的择优和合理利用能够提高插补值的准确度。均值插补法没有利用辅助变量,只是根据目标变量自身变化规律估计无回答项目,故插补值准确性差;全变量模型利用全部辅助变量,容易受个别辅助变量波动性异常的影响,计算复杂度较高;高相关性辅助变量择优回归插补法通常会优于不使用辅助变量或不加选择地使用全部辅助变量的插补方法;相关性估计插补只是利用辅助变量的离差对目标变量均值插补值进行修正,变量间的线性相关程度高,插补值的准确度也高;高相关性辅助变量择优回归插补法是建立在辅助变量回归插补模型的基础上,插补值的波动性更小,准确性更高。
四、小 结
本文提出了高相关性辅助变量择优回归插补法,利用辅助变量与目标变量的相关性大小筛选辅助变量,再利用择优的辅助变量构造目标变量的回归插补模型,作为无回答项目插补模型。辅助变量择优过程简单,插补值准确性高。高相关性辅助变量择优回归插补法是具有辅助变量择优的二步插补过程的具体实现。对于具有辅助变量择优的二步插补过程,辅助变量的择优方法很多,利用辅助变量建立的插补模型也有多种选择,如何确定变量择优方法和插补模型的最优组合以提高插补值的准确度,还需要进一步研究。
[1] 冯士雍.抽样调查应用与理论中的若干前沿问题[J].统计与信息论坛,2007,22(1).
[2] 金勇进,邵军.缺失数据的统计处理[M].北京:中国统计出版社,2009.
[3] Kish L.抽样调查[M].倪家勋,孙山泽,译.北京:中国统计出版社,1997.
[4] Hansen M H,Hurwitz W N.The Problem of Nonresponse in Sample Surveys[J].Journal of the American Statistical Association,1946(41).
[5] Politz A N,Simmons W R.An Attempt to Get Not-at-home into the Sample Without Call-back[J].Journal of the American Statistical Association,1949(44).
[6] Horvitz D G,Thompson D J.A Generalization of Sampling Without Replacement from a Finite Population[J].Journal of the American Statistical Association,1952(47).
[7] Deming W E,Stephan F F.On a Least Squares Adjustment of a Samples Frequency Table when the Expected Marginal Tables are Known[J].Annals of Mathematical Statistics,1940(11).
[8] Lundstrom M S.Calibration as a Standard Method for Treatment of Nonresponse[D].Stockholm University,Department of Statistics,1997.
[9] Rubin D B.Multiple Imputation for Nonresponse in Survey[M].New York:John Wiley &Sons,1987.
[10]Yang C Y,Rockville.Multiple Imputation for Missing Data:Concepts and New Development[R].Introduction Material of SAS,2001.
[11]Schafer J L.Analysis of Incomplete Multivariate Data[M].London:Chapman and Hall,1997.
[12]周影,刘龙,马维军,等.调查问卷中含缺失数据的等级变量的补缺方法[J].数学的实践与认识,2011,41(1).
[13]Dempster A P,Laird N M,Rubin D B.Maximum Likelihood from Incomplete Data via the EM Algorithm[J].Journal of the Royal Statistical Society.Series B(Methodological),1977(39).
[14]方匡南,谢邦昌.基于聚类关联规则的缺失数据处理研究[J].统计研究,2011,28(2).
[15]Chatterjee S,Hadi A S.Regression Analysis by Example[M].北京:中国统计出版社,2003.
Regression Interpolation in Selecting Auxiliary Variables of High-Correlation with the Target Variable
YANG Gui-jun,CAI Juan,ZHAO Xiao-yun
(China Center of Economics and Statistics Research,Tianjin University of Finance and Economics,Tianjin 300222,China)
Non-response of data extensively exists in the survey.Interpolation to the non-responses is one of the good solutions,and auxiliary variables are important to improve the accuracy of the interpolated values.This paper discusses the regression interpolation by selecting auxiliary variables of high-correlation with the target variable.Firstly,select the auxiliary variables of the high correlation with the target variable,and then construct regression interpolation model of the target variable by using those auxiliary variables.The new interpolation process is simpler and interpolated values have higher accuracy.The properties of the new method are showed in the two examples.
non-response item;selecting optimal variable;regression Interpolation;correlation coefficient
book=8,ebook=65
O212.4
A
1007-3116(2012)06-0008-06
(责任编辑:郭诗梦)
2011-12-10;修复日期:2012-04-26
国家社会科学基金重大项目《全球视野下的统计数据质量评估方法研究》(09&ZD040);教育部新世纪优秀人才支持计划《我国保险公司风险的监管量化技术及监管机制研究》(NCET-08-0909);教育部留学回国人员科研启动基金项目《两阶段设计的若干问题研究》;2010年度全国统计科学研究计划项目《无回答的解决办法及在经济调查中的应用》(2010LC60)
杨贵军,男,黑龙江哈尔滨人,理学博士,教授,博士生导师,研究方向:统计学;蔡 娟,女,江苏镇江人,硕士生,研究方向:统计学;赵晓云,女,山东滨州人,硕士生,研究方向:统计学。