基于结构方程模型的缺失数据填补方法比较△
2018-05-07邓居敏
邓居敏 陈 羽 关 颖
(南方医科大学公共卫生学院生物统计学系 广州 510515)
近年来,结构方程模型在心理、教育、医学等领域中被广泛使用[1]。在结构方程模型分析中,我们常依靠一些可直接测量的观测变量来预测不能准确、直接测量的潜变量(Latent Variable)。在结构方程模型统计分析中,缺失值的处理是不可避免的问题,而缺失数据的存在会对统计分析结果造成偏移,降低检验效能[2]。因此,我们需要充分分析缺失数据的信息,对缺失数据进行估计,寻求较为合理的处理方法。在结构方程模型中,缺失值的处理方法大致可以分为删除法(Listwise Deletion,LD)、填补法(Multiple Imputation,MI),EM算法(Expectation Maximization Algorithm)和似然估计法(Full-formation Max-Likelihood,FIML)4种。国内外学者的研究主要采用单种方法对结构方程模型中的缺失数据进行处理[3~6],缺少各方法间的比较。因此,对于结构方程模型中缺失数据的处理还未见较权威的方法,不同处理方法之间也缺少合理的评价标准。本研究旨在通过采用以上4种处理方法对缺失数据进行填补,比较其处理效果,为以后分析存在缺失值的结构方程模型提供方法学参考。
1 对象与方法
1.1 数据来源
本研究数据来自一项对于广东省某医学高校共计2503人在内的大学新生的学前调查。调查所用的量表是在美国高等教育研究机构(Cooperative Institutional Research Project,CIRP)所编制的大学新生调查表基础上根据中国的实际情况改编而成的[7]。我们将调查表与录取通知书一起邮寄给新生,并在学生到学校进行入学报到时回收调查表。调查表总共14个条目,分为4个维度:学术自我效能、学术目标、社会目标以及经济目标,各条目采用Likert 4~7点计分方式。
1.2 统计分析
数据分析均采用SAS9.3进行相应的分析。本研究采用LD、EM、MI以及FIML 4种方法对缺失数据进行处理。选取比较适配指数(Comparative Fit Index,CFI),调整后良适性适配指标(Adjusted goodness-of-fit index, AGFI), 标准化残差均方和平方根(Standardized Root Mean Square Residual, SRMR )和渐进残差均方和平方根( Root Mean Square Error of Approximation,SRMR)4个指标来作为模型的评价标准。总的来说,SRMR和RMSEA的值越小越好,这两个值在0.05~0.08之间可接受,当SRMR≤0.05、RMSEA≤0.05时较为理想。CFI和AGFI的值在0~1之间波动,越接近1表示模型拟合的越好。一般将临界值定为0.9。
2 研究结果
2.1 缺失数据处理方法的效果比较
从表1的分析结果可知,使用4种方法对缺失数据进行处理,模型拟合指标均可达到可接受范围。使用多重填补和全息极大似然估计方法对缺失数据进行处理可以得到相近的结果,两种方法对缺失数据进行处理会使模型的拟合效果略强于其他两种方法。而EM算法的各个拟合指标虽不如多重填补以及全息极大似然估计方法好,但是标准误是最小的。与EM算法相反,删除法的标准误是最大的,这表明缺失数据的确会对模型产生影响,因此不能直接忽略缺失数据,只对完整数据进行分析。
表1 不同处理方法的拟合指标比较
处理方法CFIAGFISRMRRMSEADL0.9400.9500.0420.050EM0.9280.9510.0410.053MI0.9400.9520.0400.050FIML0.9350.9510.0410.050
2.2 模型的信效度评价
本研究采用基于多重填补的数据进行验证性因子分析,建立测量模型,计算测量模型的组合信度 (CR)、聚合效度以及区别效度。研究表明各因子载荷在0.51~0.81之间,说明条目信度较好,各条目能较好的解释潜变量。由表2可见,除经济目标的组合信度略低外(CR=0.48<0.50),其他潜变量的组合信度以及各潜变量之间的区别效度均可达到可接受范围,说明所构建的测量模型的拟合效果在合理范围之内。
表2 信效度分析
潜变量CRAVE学术自我效能学术目标社会目标经济目标自我学习期望学术自我效能0.780.370.37学术目标0.660.400.230.40社会目标0.850.460.100.320.46经济目标0.480.340.010.140.100.34自我学习期望0.670.510.250.280.150.0040.51
注:CR指组合信度,AVE是平均方差提取值。
2.3 结构模型的构建与评价
本研究将验证性因子分析中各潜变量中标准因子载荷最大的条目的路径系数固定为1,求各个标准回归系数和拟合指标的平均值作为最终的估计值。以自我学习期望为内生潜变量,学术自我效能、学术目标 、社会目标、经济目标为外生潜变量构建结构模型结果,其拟合指标CFI,AGFI,SRMR和RMSEA分别为0.93,0.95,0.04和0.05,各个拟合指标基本可达到接受标准,显示建构的模型对观察数据的拟合尚可接受。
3 讨论
本研究使用来自2011级广东某高校新生的调查数据阐明了结构方程模型中处理缺失数据的4种方法对模型拟合的影响。使用删除法的优点在于这种方法可以在各种软件中实现,简单快捷。但是由于这种方法是将存在缺失的观测直接进行删除,因此有可能导致有偏估计或者标准误偏大。与删除法不同的是,多重填补、EM算法和全息极大似然估计均使用了数据中所有变量的信息。其中,全息极大似然估计方法的简便之处在于其不需对数据进行填补或其他处理,也不需要计算协方差矩阵或相关矩阵,而是直接对数据进行估计,并建立模型。而多重填补法则是直接给出缺失值的估计值,将不完整数据集填补成完整数据集之后,再进行结构方程模型的构建。多重填补方法的好处在于填补后的完整数据可用于传统的统计分析中。但是这种方法的缺点在于不能像EM算法和FIML方法一样给出直接的结果,研究者需要对统计结果进行进一步的分析。因此,本研究认为处理缺失数据并没有所谓唯一最佳的方法。在进行缺失数据处理时,应该尝试使用多种方法进行比较,选取最合适的方法,而不能片面的完全肯定或完全否定某一种处理方法。
1 陈炳为,陈启光,许碧云.潜在变量模型及其在中医证候中的应用概述.中国卫生统计,2009,29(5):535~538.
2 Stafford RE,Runyon CR,Casabianca JM,et al.Comparing imputation methods for trait estimation using rating scale mode .Journal of Applied Measurement,2017,18(1):12~27.
3 Wallace ML,Anderson SJ,Mazumdar S.A stochastic multiple imputation algorithm for missing covariate data in tree-structured survival analysis .Statistics in Medicine,2010,29(29):3004~3016.
4 帅平,李晓松,周晓华,等.缺失数据统计处理方法的研究进展.中国卫生统计,2013,1:135~139;142.
5 李保东,亢金轩.结构方程建模缺失数据填补方法研究.统计与咨询,2011,1:38~39.
6 Van Buuren S.Multiple Imputation of Discrete and Continuous Data by Fully Conditional Specification .Statistical Methods in Medical Research,2007,16(3):219~242.
7 Cooperative Institutional Research Project.Annual Freshmen Survey.Los Angeles,CA: American Council on Education and UCLA Graduate School of Education ,2011.