利用Monte Carlo技术模拟研究不同缺失值处理方法对完全随机缺失数据的处理效果
2015-01-27武瑞仙邓子兵谯治蛟李晓松
武瑞仙 邓子兵 谯治蛟 李晓松
四川大学华西公共卫生学院卫生统计学教研室(610041)
利用Monte Carlo技术模拟研究不同缺失值处理方法对完全随机缺失数据的处理效果
武瑞仙 邓子兵 谯治蛟 李晓松△
四川大学华西公共卫生学院卫生统计学教研室(610041)
目的 以医疗卫生机构年报资料为数据来源,采用成组删除法、极大似然估计法、多重填补法分别对模拟的完全随机缺失数据集缺失值进行处理,比较不同缺失率下三种方法的缺失处理效果。方法 运用SAS9.3,采用Monte Carlo技术模拟完整数据集及不同缺失比例数据集,利用成组删除法、EM算法、MCMC算法对缺失数据进行处理,得到不同处理方法后的参数估计结果,与完整数据集参数估计进行比较。结果 对于完全随机缺失数据,不同缺失率下,成组删除法的准确率均比较好;缺失率小于10%,三种方法处理效果差异不大;缺失率在10%~30%,成组删除法精确度逐渐降低,EM与MCMC准确度与精确度较好,缺失率大于30%,MCMC准确度与精确度相对较好。结论 对于不同缺失率的数据,综合考虑准确度和精确度,采用不同的方法进行处理。
缺失值 EM算法 Markov Chain Monte Carlo 模拟 参数
在医学和卫生领域,数据缺失是普遍存在又难以避免的现象,传统处理方法中,研究人员往往只是简单地将有缺失值的对象剔除,仅对完全记录对象进行分析[1],这样可能导致样本信息减少和检验效能降低,甚至影响统计分析结果,近二十年,缺失处理研究发展迅速,最具代表性的两个方法是多重填补法与极大似然估计法,本文以医疗卫生机构年报表数据为基础,通过模拟技术,研究不同缺失率下不同缺失处理方法对数据处理的效果,以期为研究人员缺失数据处理提供依据。
资料和方法
1.资料来源
本研究以国家卫生统计网络直报系统2012年“医疗卫生机构年报表-社区卫生服务卫生机构(卫计统1-2表)”横断面调查数据为基础。选取反映社区卫生服务中心规模的特征指标为研究资料,包括在岗人数、实有床位、房屋建筑面积、总诊疗人次数、总收入,上述指标经对数转换后符合正态分布。
2.数据模拟方法
完整数据集的构建是以卫计统1-2表部分变量数据为基础,获取各变量参数与变量间相关系数矩阵(表1、表2),运用Monte Carlo技术[2],模拟具有相关关系的多元正态分布完整数据集,观察数为1000例。以总收入为应变量,在岗人数、实有床位、房屋建筑面积、总诊疗人次数为自变量,拟合多元线性回归模型,估计该模型各参数。再对该完整数据集重复模拟100次,得到各参数的平均值作为参照的标准。
构造不同缺失率的数据集。以模拟出的完整数据集为基础,随机删除多个变量5%~50%比例的数据,构建出完全随机缺失机制下的不同缺失率数据集[3]。分别采用相应的缺失处理方法对缺失数据集进行处理,并对处理后的数据集拟合多元线性回归模型,获得模型各参数的估计值。模拟100次,得到不同缺失率下模型的参数的平均值与标准误,与完整数据集相应参数进行比较。
3.缺失值处理方法
根据研究资料缺失机制、缺失模式及变量类型特点[4],选择不同的缺失值处理方法。在本研究中,模拟构建完全随机缺失机制下任意缺失模式的多元正态分布资料。对于此类资料,传统的缺失处理常采用成组删除法(complete case method),现代处理方法是将缺失处理与模型相结合[5],常用的方法有基于似然函数的极大似然估计(maximum likelihood estimator,MLE)和多重借补法(multiple imputation,MI)。其中,期望-极大化(expectation-maximization,EM)算法是进行极大似然估计的一种有效方法,特别适用于多元正态分布随机缺失机制的数据处理;马尔可夫蒙特卡洛(markov chain monte carlo,MCMC)算法是实现多重填补的一种方法[6],用于处理任意缺失模式的连续型变量数据。
(1)成组删除法
成组删除法是一种简单的缺失数据处理方法,也称为完全记录分析,即删除关键变量中有缺失值的观察对象,只保留无缺失的观察对象进行分析的方法。当数据缺失机制是完全随机缺失(missing completely at random,MCAR[13])时,成组删除法分析的完全记录的对象是原人群的一个随机样本,理论上在进行参数估计时,如果完整数据集是无偏估计,那么成组删除数据集一般也是无偏估计[7]。
(2)期望-极大化算法
EM 算法是一种迭代算法,由Dempster等在1977 年提出[8],主要用于求后验分布参数的最大似然估计值。该算法对缺失值的估计非常有效,当存在缺失数据时,可使用EM算法进行迭代运算,对缺失值进行填充和参数估计。其原理是EM算法每一次迭代由二步组成:E步求出期望,M步则将随机参数进行极大化。简单而言,未知某个随机变量的值,需要在Y和当前模型参数条件下求出其期望值。运算初始先给该变量一个初始值,然后求出模型中的各个参数的估计值(M步),然后利用新估计出的模型对该随机变量值进行估计(E步),如此反复迭代,直至收敛为止。
(3)马尔可夫蒙特卡洛算法
在已经成为一个地球村的今天,中国作为人口大国,在文化“走出去”的战略背景下,积极推动文化外译事业的发展,培养翻译人才。虽然将中国文化外译会面临一些问题,鉴于中文的博大精深,不少辞藻优美,以大量诗词作点缀的小说并不能准确地用英文表达,所以目前外国网友看到的还大多数是一些能传达基本意思的小说,但要坚信能够通过努力让中国的文化为更多人了解熟悉,从而走向世界。
多重填补方法由Rubin于1987年最早提出,要求在数据随机缺失情况下,用两个或更多能反映数据本身概率分布的值来填补缺失或者不完善数据的一种方法。在多重插补中,数据填补是关键环节,对每一个缺失数据填补m(m>1)次,产生m个完全数据集。并对每一个完全数据集都采用标准的完全数据分析的方法进行分析,将所得结果进行综合,最终得到对目标变量的估计[9]。
MCMC 是Bayes 理论中探索后验概率分布的一种方法,Schafer在1997年将其应用于MI[10]。运用MCMC 法对缺失数据集进行多重填补分为两步:
①填补步:Xobs表示不含缺失值的变量,Xmis表示有缺失值的变量,每一个迭代过程均以给定的均数μ和协方差矩阵∑开始,从条件分布P(Xmis,θ|Xobs)中为缺失值抽取替代值。
②后验步:给定一个填补后的完整数据集,后验步用上一步估算得到的均向量和协方差矩阵模拟后验总体的均数μ和协方差矩阵∑和参数θ。
填补完成后,需对填补后的m个完整数据集进行联合统计推断。
结 果
1.不同缺失率下处理效果
用成组删除法、EM法、MCMC法(填补5次)分别对模拟的不同缺失率的100个数据集进行处理,并对处理后数据集进行回归运算,将三种方法各自100个参数估计结果汇总,获得模型各参数的估计值及标准误,如下表:
在不同缺失率时,一种缺失处理后得到的一组变量参数,构成该处理方法模型的参数向量。比较不同缺失率下各处理方法的准确度,则以完整数据集的参数估计作为标准,将不同缺失率下各缺失处理方法的参数向量与完整数据集的参数向量进行比较。比较两个向量的拟合程度用以下两种方法[11]:
讨 论
本研究通过模拟试验证实,当数据缺失机制是完全随机缺失(MCAR)时,不论缺失率为较小的5%,还是较大的50%,对成组删除法处理后的数据集进行参数估计,其估计结果与完整数据集估计结果基本一致,估计准确度较好(见表9)。但是当缺失率大于20%时,其参数估计的标准误明显增大,并且随着缺失率的增加,标准误越来越大,缺失率为50%时,成组删除法参数标准误约为MCMC法的6倍,估计精确度较低(见表6、表7、表8)。
当缺失率大于30%时,EM算法对于参数估计准确度没有成组删除法好,考虑到EM算法是求后验分布的最大似然估计,在缺失比例较高的情况下,该算法已不能良好的估计数据真实情况,对于完全随机缺失机制的数据,其准确度反而不如成组删除法,但其标准误在不同缺失率情况下都较为稳定。
对于MCMC法,随着缺失率的增加,虽然参数估计准确度有所下降,但其精确度较为稳定。本研究认为,综合考虑三种方法处理后数据参数估计的准确度和精确度,当缺失率小于10%时,三种方法差异不大,可以采用操作易行的成组删除法。当缺失率大于10%,成组删除法精确度逐渐降低,可采用EM与MCMC方法进行处理,当缺失率大于30%,如需进行缺失处理,建议采用MCMC方法。
[1]Karahalios A,Baglietto L,Carlin JB,et al.A review of the reporting and handling of missing data in cohort studies with repeated assessment of exposure measures.BMC Med Res Methodol,2012,12:96.
[2]Fan X,Felsovaly A,Sivo SA,et al.SAS for Monte Carlo Studies:A Guide for Quantitative Researchers.North Carolina:SAS Institute Inc.2002,159-169.
[3]John W.Graham.Missing Data-Analysis and Design.New York:Springer Science.2012,240-241.
[4]庞新生.缺失数据处理方法的比较.统计与决策,2010,24:153-155.
[5]RJA Little,DB Rubin.Statistical Analysis with Missing Data.New York:John Wiley & Sons.2002,3-6.
[6]Yang C Yuan.Multiple imputation for missing data:Concepts and new development.SAS Institute Inc,1999,267.
[7]Nakai M,Chen DG,Nishimura K,et al.Comparative Study of Four Methods in Missing Value Imputations under Missing Completely at Random Mechanism.Open Journal of Statistics,2014,4:27-37.
[8]Dempster A,Laird N,Rubin D.Maximum likelihood from incomplete data via the EM algorithm.Journal of the Royal Statistical Society,1977,39(1):1-38.
[9]Rubin DB.Multiple imputation for nonresponse in surveys.New York:John Wiley & Sons,1987:15-22.
[10]Schafer JL,Maren K.Multiple imputation formuliar variate missing-data problems:a data analysis′s perspective.Multivariate Behavioural Research,1998,33:545.
[11]张香云,张秀伟.不同缺失率下EM算法的参数估计.数理统计与管理,2008,27(3):428-431.
(责任编辑:邓 妍)
△通信作者:李晓松,E-mail:lixiaosong1101@126.com