基于Monte Carlo模拟的四种完全随机双变量缺失数据处理方法的比较*

2018-11-05蚌埠医学院公共卫生学院233030

中国卫生统计 2018年5期

蚌埠医学院公共卫生学院(233030)

朱高培朱乐乐孟马承吴学森△

【提要】目的探讨完全随机缺失机制下,成组删除法、均值填补法、回归填补法和多重填补法处理缺失数据的效果及趋势。方法运用R语言,采用Monte Carlo 技术模拟完整数据集、不同缺失比例和相关系数条件下的数据集,比较各种方法处理缺失值的效果。结果当缺失比例为10%时,4种方法处理效果一致。随着缺失比例增加，4种方法处理后均值变化不大;均值填补法处理后相关系数小于其他方法,多重填补法和标准一致,回归填补法填补后相关系数比其他方法偏高而且呈增加趋势。随着回归系数的增加,回归填补法的相关系数准确性增加。结论 4种方法处理完全随机缺失机制下两个相关变量的效果不同,当缺失比例较低时,建议采用成组删除法或回归填补法。当缺失比例较大时,建议使用多重填补法。

尽管许多研究经过严谨的科研设计和实施过程,但缺失值仍是医学统计资料中常见的问题,例如观察性研究中调查对象对调查问卷中某些问题的拒绝回答会给研究结果带来缺失数据[1]。针对缺失值处理的方法很多[2-3],且越来越复杂,我们在处理缺失数据时候,一般会尽量追求操作简单、易于实现的方法。在医学研究中,很多指标变量存在着相关关系,而且很容易存在缺失数据。本研究基于完全随机缺失模式下进行缺失值处理的模拟实验,探讨成组删除法、均值填补法、回归填补法和多重填补法(MI)等常见方法处理具有相关关系的缺失数据的效果以及趋势。

资料和方法

1.资料来源

研究数据源于《蚌埠市2015年龙子湖区社区慢性病诊断调查》,选中问卷中的身高(163.50±8.02)cm和体重(65.70±15.15)kg这两个相关的指标作为本次研究的数据,且身高与体重的相关关系r=0.38。

2.方法

本研究利用上述调查数据中的变量(身高、体重),计算它们的均值和标准差,并构造相关系数分别为0.3、0.6和0.9,用R语言分别产生服从上述分布的样本量为10000的总体。从该总体中随机抽取1000个个体作为研究对象。按照10%的缺失比例随机从数据的记录中删除某个变量值,从而产生缺失数据,得到含有缺失数据的1000个个体;用上述四种方法分别进行填补处理,用填补后的数据与原始数据比较,用相对误差((真值-填补值)/真值)及它们的标准误作为方法优劣的评判标准。重复试验10000次。同样,以20%、30%、40%和50%的缺失比例重复上述步骤,比较四种方法得到结果的优劣。

3.缺失值处理方法

成组删除法[4]:是一种简单的缺失数据处理方法,也称为完全记录分析,即删除关键变量中有缺失的观察对象,只保留无缺失的观察对象进行分析的方法。

均值填补法[5]:是指用关键变量的非缺失数据的均值作为缺失数据的替代值,在填补缺失值过程中只产生一个缺失值的替代值。

回归填补法[6]:该方法是通过拟合一个回归方程,建立缺失数据对关联变量的非缺失数据的回归方程并以预测值作为缺失数据的填补值。

多重填补法[7]:MI法是从缺失数据集出发,通过多次填补产生若干个完整数据集,对产生的完整数据集均用完整数据统计分析方法进行分析,做出综合分析和统计推断,最终确定最合适的填补结果,作为缺失替代值。该方法可反映出由于数据缺失造成的统计推断结果的不确定性以及变量间的相关性。

模拟实验结果

Monte Carlo 模拟结果表明当缺失比例为10%时,四种处理缺失值的均值和相关系数的效果一致。回归填补法的均值和相关系数的标准误都较小,且相关系数比真值稍高;成组删除法的相关系数的相对误差较小;MI的均值和相关系数的标准误最小,但优势不明显。当缺失比例为20%时,均值填补法的相关系数比真值有所下降,且相关系数的相对误差也较大;成组删除法、MI和回归填补法的效果基本一致,回归填补法的相关系数及其相对误差与缺失10%时相比稍微增大。缺失30%时,成组删除法和MI的效果一致且最优,表现出了稳健性,回归填补法效果较好,均值填补法效果最差。当缺失40%时,均值的处理效果与真值一致,相关系数的处理效果中MI的效果最接近真值。MI与其他三种方法比较,在均值和相关系数的处理效果上体现出了优势。当数据缺失50%时,四种方法处理后,均值比较接近,但是相关系数处理效果差异较大,MI处理的效果最接近于真实数据。见表1、表2和表3。

随着缺失比例的增加，四种处理方法的准确度均呈下降趋势,并且MI的准确性最高;基于随机缺失模式下,填补后均值的效果基本一致;相关系数的处理效果不同,随着缺失比例的增加,均值填补法的相关系数逐渐减小,而且减小的幅度比较大,回归填补法的相关性逐渐增强;在缺失比例大于30%后,MI的稳定性和准确性优势明显;回归填补法在低缺失比例下,与MI效果基本一致;总体而言,均值填补法的处理效果最差。

由表1、表2和表3可见随着相关系数的增加，成组删除法处理后的准确性和标准误很稳定且呈现出稳定性;均值填补法处理后,均值填补效果基本一致,相关系数的相对误差逐渐降低,均值的相对误差逐渐增大,在缺失比例较大时更明显;回归填补法处理后,均值处理效果的标准误逐渐降低,相关系数标准误偏小,且有减小趋势,但相关系数的相对误差偏高而且随缺失比例增加呈增加趋势,随着相关系数的增加相对误差会相应减小;MI处理缺失值的效果,随着相关系数的增加呈现标准误和相对误差的相应增加,但是变化不大,呈现出稳定性。

表1 相关系数为0.3时不同缺失比例下不同处理方法效果比较

表2 相关系数为0.6时不同缺失比例下不同处理方法效果比较

表3 相关系数为0.9时不同缺失比例下不同处理方法效果比较

讨论

现在研究处理缺失值的方法很多,但是对于从事医学一线现场工作者来说,简单有效的处理缺失数据显得尤为重要。许多现场研究的定量资料有相关性,本次研究就基于这样的条件下进行了模拟分析。在处理有相关关系的缺失数据时,四种方法处理的效果各有特点。

在缺失比例较低时(10%～20%),四种方法均可以作为较好的处理方法,成组删除法和回归填补法的效果较好且易于实现,但删除法会降低统计效率,所以建议选择回归填补法;MI此时优势不明显,且填补过程复杂;均值填补法会降低变量间的相关性。在缺失比例较高时(30%～50%),四种方法处理缺失值的效果均不佳,此时MI的处理效果最接近真实值,相比其他三种方法优势明显,MI是高缺失比例数据的最佳选择。

随着相关系数的增大,回归填补法在缺失值填补过程中相关系数的相对误差逐渐减小,相较于均值填补法,优势明显,但是会稍微增加相关变量的相关系数,如果有相关性很强的完整变量且缺失比例不高,基于回归填补方法操作简便,回归填补法可以作为处理缺失值的选择。另外,MI随着相关系数的增加表现出很高的稳定性,特别是在高缺失比例下,我们仍然建议使用MI处理缺失数据。

在处理缺失值时,寻找与含缺失值变量有相关关系的变量是本研究的前提。在医学研究中,许多变量间存在着关联,很容易找到这样的变量,关键是选择合适的缺失值处理方法。本研究建议低缺失比例下采用回归填补法，高缺失比例下采用MI，不失为处理缺失数据的比较好的选择。