元分析常见问题及解决方法

2014-01-23孔博丹许惠芳孔博鉴

心理技术与应用 2014年1期

孔博丹?许惠芳?孔博鉴

摘要：元分析是心理学研究中的重要手段。国内元分析常出现发表性偏倚缺失以及误用随机效应模型和固定效应模型的问题。本文通过整理相关文献，指出研究者应当遵循漏斗图以及相关统计的指标研究、识别并处理发表性偏倚，遵循假设以及异质性检验的结果来选取适合的模型合并单个研究指标。

关键词：元分析；发表性偏倚；随机效应模型；固定效应模型；异质性检验

一、元分析常见问题

元分析是对已有的同类课题的研究进行综合评价、分析，整合独立研究的成果，以获得普遍性、概括性结论的方法。元分析的优势有两点，一是将哲学中的批判思想转变成为可操作的方法，二是填补了定量分析方法与定性分析方法的鸿沟。在心理学界，元分析被越来越多地应用于分析某领域研究的趋势，整合不统一的研究结论，探寻新的研究方向。近年来，国内介绍、应用元分析的论文逐渐增多。但是，同国外的元分析论文相比，国内元分析论文普遍存在两方面的问题：一是发表性偏倚过程的缺失，发表性偏倚在元分析过程中是一个较为重要的步骤，但是国内的元分析文献中较少涉及此过程；二是随机效应模型和固定效应模型选择标准误用。上述两个问题如果处理不好均有可能影响元分析结果的准确性，甚至有可能得到相反的结果。为此，本研究整理分析有关这两个问题的文献，期待通过对文献的梳理，解决上述两个问题。

二、发表性偏倚的识别及解决办法

（一）如何识别发表性偏倚

发表性偏倚是指由于研究者不能完全占有相关领域的资料而造成元分析结果存在偏倚。发表性偏倚常被称为“文件柜问题”，缘其类似于研究者没有将结果不显著的文献用于分析，就像把它们放在文件柜里（Rosenthal，1979）[1]。造成偏倚的原因有二：一是元分析者很难收集到相关研究领域的所有文献，很多没有公开发表的文献是不易获取的；二是已经发表的文献中，证实了研究假设的居多，而有悖于研究假设的很少，同时元分析者也易将结果显著的研究纳入元分析中（Rosenthal，2001） [2]。偏倚一般体现为结果偏向于研究者的原假设。常用的评定方法有两类：直观的观察法和统计的方法。

直观的观察法常用漏斗图法（funnel plot），它由Light和Pillemer于1984年提出。漏斗图将各个研究表示为直角坐标系里的散点图。一般来说，X轴是效应量值，Y轴是样本量。各个研究表示为坐标系内的点。漏斗图的理论依据是样本量越大，其对效应量值的估计也就越准确，样本量越小，其误差也越大。具体表现为漏斗图里样本量大的研究集中在图的上方，平均效应量值周围；样本量小的研究散落在图的底部，离平均效应量值较远。元分析者通过观察图形的形状来确定偏倚是否存在。如果没有，各个点应该是成堆的、对称的，聚集在平均效应量周围，就像一个倒着的漏斗一样；如果有，图形会有缺角。漏斗图很直观，且方便，易于操作，但是它的主观性很强。而且漏斗图只能够提供定性的结论，并不能说明偏倚的程度有多大，以及在多大程度上对元分析结果造成影响。针对这些缺点，研究者提出了统计的方法。常见的统计方法包有Fail-safe N、Egger回归系数、Trim and Fill。

（二）Fail-safe N法

罗森塔尔（Rosenthal，1979）提出了Fail-safe N法[3]。他指出，由于证实原假设的文章易发表，就造成了元分析的结果有偏倚。发表性偏倚的原因就是缺乏结论不显著的文章。要确定这些文章的数量，可以通过计算需要合并多少个这些并未纳入元分析的研究从而使原来元分析显著的p值变为不显著来实现。具体做法为：假定缺失的研究显著性水平不足0.05，它们的效应量值为0，计算出Z值，将这些Z值用特殊的方法合并到原来的结果中去，得出总效应量的Z值。将合并后的Z值与p值为0.05的Z值相比较，计算出使前者小于后者需要的研究个数。

有研究者对Fail-safe N提出了批评：一是罗森塔尔所说的显著，仅是局限于统计学意义上的显著，而没有从数量上说明；二是罗森塔尔的模型假定缺失的效应量值均为0，然而缺失的研究的效应量值并不总为0，另外研究的样本量也未被考虑；三是显著性水平p是联合研究后计算出来的，而现在的元分析则是直接计算出p值（B.J.Becker，2005） [4]。

针对以上的这些缺陷，后来的一些研究者提出了改进了的Fail-safe N法。如奥温（Orwin，1983）提出的另一种计算方法[5]，在基本思路上仍然沿袭罗森塔尔，即确定需要多少研究才能使得结果的显著性发生变化。与之不同的是，针对罗森塔尔方法中将缺失研究的效应量值定义为0这个缺陷，奥温则将缺失研究的效应量值扩展为一定的数值，即计算出需要多少个效应量值为某一确定值的研究才能够使原先的效应量值的显著性水平发生变化。奥温的方法好处在于研究者可以自己确定出缺失效应量值的最低水平。罗森塔尔（1991）则进一步提出了Fail-safe N法的评定标准，当N值大于5k+10时就不存在发表性偏倚[6]。

（三）回归系数

埃格尔（Egger，1997）提出可以利用回归方程中的截距是否为0来推测发表性偏倚是否存在[7]。这种方法基于漏斗图，将每个研究表示成效应量值的Z分数（θi/vi）为标准误倒数的回归的形式。

Zi为效应量值对应的Z分数，vi为标准误。

如果没有偏倚，漏斗图是对称的，那么直线就应该穿过标准正态分布图形的原点，也就是β0为0。研究者应该报告β0=0时双尾检验的p值。

埃格尔则认为Z值以1/vi的形式加权是缺乏理论支持的，因此，他又提出了未加权的方法。埃格尔认为上一种方法仅考虑将各个研究的方差的倒数作为权重，这种情形只适用于固定效应模型。在随机效应模型中，方差被区分为被试内方差vi和被试间方差τ2，会造成偏差。采用τ2和vi加权能适用于两种模型，因为在固定效应模型中τ2为0。

（四）Trim and Fill法

Trim and Fill法由杜瓦尔（Duval）和特威迪（Twe-edie）提出。这种方法同样是基于漏斗图。其基本思路为：如果漏斗图是不对称的，那么在左边或者右边就会有一些多余的散点，如果将这些散点删去，那么漏斗图又会变得对称。Trim and Fill法采用迭代的方法将这些研究一个个去掉，直到图形对称了以后，再重新计算出效应量值的无偏估计。由于去掉了一部分研究以后，会影响原来样本的方差，使置信区间变小。因此还需采用一定的算法将删去的研究还原，重新计算出样本的方差。

（五）如何处理发表性偏倚

缘其究竟，发表性偏倚是由数据缺失造成的。因此，对发表性偏倚问题的处理等同于对缺失数据的处理。罗宾（Rubin，1976）将缺失数据划分为三种类型：完全随机缺失（missing completely at random）、随机缺失（missing at random）、非随机缺失（not missing at random）[8]。其中，完全随机缺失数据和随机缺失数据是正态分布，非随机缺失数据是偏态分布的。不同的方法适用于不同的缺失值类型。

三、随机效应模型和固定效应模型的原理及

选择

元分析的核心是效应量值，因此确定效应量值的真实值θ以及确定其置信区间是最为重要的步骤。随机效应模型和固定效应模型提供了两种不同的计算方式，其原理大同小异，均是分别对样本的效应量值和方差进行估计。但是，由于两种模型对误差的定义不同，造成了最终的结果有所区别。

（一）固定效应模型（Fixed-Effects Model）

固定效应模型由赫奇斯（Hedges）于1982年提出[9]。他认为，固定效应模型中各个参数是固定的，需要采用一定的方法将这些参数估算出来。当所纳入的研究属于同一分布时，各个研究中均包含有相同的真值（true effect size）。固定效应模型中假定真值θ是由效应量值的观测值和误差共同决定。用公式表达为：

确定真值θ需要估计两个值：一个是平均效应量值的观测值Ti，另一个是误差εi。在对平均效应量值估计之前，首先需要确定权重。元分析中各个研究的被试个数差别可能特别大，所以就不能单纯采取算术平均数，或者是以各研究被试个数来加权。权重的最佳估计值是各研究方差的倒数，记为wi：

wi为各个研究的权重，vi为各个研究的方差。

采用最大似然比法估计出平均效应量值的观测值T.为：

wi为个研究权重，Ti为各研究效应量值。

下一步，需要估计样本的方差。由于权重等于方差的倒数。那么，样本的方差计算方法为：

权重是每个研究方差的倒数，样本方差的直接计算方法为：

其中，σ2为各个研究的标准误，k是研究个数，n为各项研究的被试个数。

在得到了平均效应量值的估计值和方差的估计值以后，就可以推断置信区间。采用Z分数进行推断，显著性水平α通常设定为5%或者1%，可以得到置信区间为：

（二）随机效应模型（Random-Effects Model）

赫奇斯于1983年提出了随机效应模型[10]。当所纳入研究变化超过了预想的范围，那么他们就不属于同一分布。每一个研究均有一个真值，但是这些真值是各不相同的，对真值不能作准确的估算。也就是说，在随机效应模型中，平均效应量值是可变的，不是固定的。总体的变异被区分为两个部分，一部分是来自各个研究的变异，另一部分是来自平均效应量值的变异。观测值表示为：

Ti为效应量值的观测值，μ为随机效应模型中的效应量值的真值，而变异则被划分为来自效应量值真值的变异ξi和来自各个研究的变异εi。

由于方差的不同，导致随机效应模型和固定效应模型有两点区别：一是权重不同，会影响到平均效应量值的不同；二是方差的估计不同，导致置信区间不一致。

随机效应模型中同样采用最大似然比法对平均数进行估计：

由于随机效应模型引进了来自效应量值真值的变异ξi，所以总体方差就被区分成了两个部分，表示为：

v*i是样本方差，vi为各个研究的方差，τ2为效应量值真值的方差。这种表述形式类似于方差分析，所以τ2常被称为被试间方差（Qw），vi常被称为被试内方差（Qb）。

τ2的计算方法为：

其中c和Q分别为：

由此可以推算出效应量值的标准误SEM为：

计算出平均数和标准差之后，显著性水平α下的置信区间为：

（三）异质性检验（Heterogeneity）

异质性检验是单个研究的效应量值合成整体效应量值中的关键步骤，其实质为检验各个研究是否属于同一分布。常用的判别方法有两种：Q检验和I2检验。

1.Q检验

Q检验实际上是检验理论变异和观测变异是否有区别，也就是Q和df在统计上是否有区别。统计量Q表示的是观测变异，df表示的是理论变异。这两者的差值服从χ2分布。

Q值的计算方法是：

wi为各个研究的权重，Xi为各效应量值，X为平均效应量值。Q实际上是加权平方和，表示观测量的变异。

联系Q和τ2的计算方法，我们可以看出Q检验的实质是检验真实变异的方差τ2是否为0。在固定效应模型中，效应量值在所有研究中均是相同的，故τ2为0；在随机效应模型中，效应量值在所有研究中不同，故τ2不为0。

2.I2检验

Q检验是检验τ2是否为0，它与研究数量的关系密切，因此也会出现偏差。例如，杰斐逊（Jefferson，2002）做的一项元分析[11]，纳入了8个药物有效率的研究，有效率从16%变化至93%，这表明这几项研究已经是异质的。但是Q检验的结果显示p值为0.09，表明这几项研究还是同质的（Higgins，2003）[12]。针对Q检验的弊端，希金斯（Higgins，2003）提出了I2。I2检验真实变异占总变异的百分比，避免了对df的依赖。I2的计算方法为：

变异由方差表示，故I2的计算方法也可以写成：

I2的变化范围是0～1。不同的I2表示纳入研究的不一致程度。希金斯（2003）将I2区分为25%、50%、75%，分别代表变异为低、中等、高。高的I2表示纳入研究一致性高，需要采用例如回归分析、子群分析来分析变异的原因（Borenstein & Hedges，2009） [13]；低的I2表示一致性低，没有必要对这些研究作进一步的分析。

（四）固定效应模型和随机效应模型的选择

赫奇斯（1982，1983）指出，两种模型的选择取决于异质性检验的结果[14，15]。如果异质性检验的结果为显著，所有研究不属于同一分布，采用随机效应模型；如果异质性检验结果为不显著，所有研究属于同一分布，采用固定效应模型。

赫奇斯和维瓦于1998年指出随机效应模型和固定效应模型的选择应当取决于元分析者所做的推论过程，异质性检验只起到补充说明的作用[16]。从他们将研究的推论过程区分为条件推论（conditional inference）和非条件推论（unconditional inference）。条件推论是指元分析者试图将结论应用到与所纳入研究相同的群体，例如被试的背景（如年龄、受教育程度、来源），干预实验的程序等均相同。此时应该采用固定效应模型。非条件推论是指元分析者试图将结论应用到不同的研究背景，例如将初中生的结果推论及高中生，将一种实验程序的结果推论及其他实验程序。此时则应该采用随机效应模型。

四、结论和建议

元分析中，研究者为了获取更精确的研究结果需要严格筛选源文献，处理发表性偏倚是其中一个重要的环节，研究者应当遵循漏斗图以及相关统计的指标，判别自己的研究是否存在发表性偏倚。随机效应模型和固定效应模型的选取则应当遵循研究假设以及异质性检验的结果来选取。

[1][3]Rosenthal R.The “File Drawer Problem” and tolerance for null results[J].Psychological Bulletin， 1979，86：638-641.

[2]Rosenthal R， DiMatteo M R.Meta-Analysis： Recent developments in quantitative methods for literature reviews[J].Annual Review of Psychology， 2001，52：59-82.

[4]Becker B J. Failsafe N or file-drawer number[M]// Rothstein H R， Sutton A J， Borenstein M （Eds.）， Publication bias in meta-analysis： Prevention， assessment and adjustments. Chichester， West Sussex， England： Wiley.2005. 111–125.

[5]Orwin R G. A fail-safe N for effect size in meta-analysis[J].Journal of educational statistics， 1983，8：157-159.

[6]Rosenthal R.Meta-analytic procedures for social research[J].Journal of educational statistics， 1983，8：157-159.

[7]Egger M， Smith G D， Schneider M， Minder C. Bias in meta-analysis detected by a simple， graphical test[J]. Bmj， 1997，315（7109）： 629-634.

[8]Rubin D B. Inference and missing data[J]. Biometrika，1976， 63（3）： 581-592.

[9][14] Hedges L V. Estimation of effect size from a series of independen experiments[J]. Psychological Bulletin， 1982，92：490-499.

[10] [15]Hedges L V.A random effects model for effect size[J]. Psychological Bulletin， 1983， 93：388-395.

[11]Jefferson T， Demicheli V， Di Pietrantonj C， Rivetti D. Amantadine and rimantadine for influenza A in adults[J]. Cochrane Database Syst Rev， 2006.

[12] Higgins J P T， Thompson S G， Deeks J J， Altman D G. Measuring inconsistency in mata-analyses[J]. Education and debate， 2003，327：557-560.

[13]Borenstein M， Hedges L V， Higgins J， Rothstein H R. Fixed‐effect versus random‐effects models[J]. Introduction to Meta-analysis， 2009： 77-86.

[16]Hedges L V， Vevea J L. Fixed- and random-effects model in meta-analysis[J]. Psychological Methods， 1998，3：486-504.

栏目编辑 / 王晶晶.终校 / 任玉丹