Meta分析发表偏倚诊断方法研究*
2011-05-23南昌大学公共卫生学院卫生统计教研室330006俞慧强郑辉烈
南昌大学公共卫生学院卫生统计教研室(330006) 俞慧强 郑辉烈 李 悦 刘 勇
Meta分析是一种定量综合文献资料的统计学分析方法,其以同一研究的多项独立研究的结果为研究对象,在严格设计的基础上,运用适当的统计学方法对多个研究结果进行系统、客观、定量的综合分析。随着循证医学在医学领域的迅速兴起,Meta分析研究的结论在有关疾病或医学健康问题的预防、治疗和病因研究方面越来越受到重视。由于Meta分析的研究对象是已发表的文献,即使采用最完备的文献检索策略,其研究结论也易受到发表偏倚的影响。所以,对于Meta分析研究,识别其纳入文献是否存在发表偏倚是一项重要的基础工作。目前,诊断发表偏倚的常用方法有〔1-6〕:漏斗图法、Egger回归法、Begg 秩相关法、Macaskill回归法、Richy法等方法,这些方法均是利用研究的效应尺度与其误差信息之间的关系所提供的信息,对Meta分析是否存在发表偏倚做出判断。本研究拟利用文献的发表时间顺序和效应尺度间的关系构建一种新的Meta分析发表偏倚诊断方法,并与传统的Egger回归法和Begg秩相关法的诊断效果进行比较。
原理与方法
1.方法原理与方法构建
在Meta分析中,其分析对象为同一研究的多个相互独立的研究结果,每一个独立研究称为子研究。子研究的结果效应(Y)围绕其总体效应(μY)随机波动,且这种波动与子研究(文献)的发表时间顺序(T)无关。利用这一规律,如以Meta分析研究子研究的发表时间顺序(T)为横坐标,以研究效应(Y)为纵坐标绘制散点图,则散点随着发表时间顺序以直线Y=μY(μY=总体效应)为中心上下随机波动,两者相互独立,子研究效应量随着发表时间顺序的变化呈随机分布,没有趋势性(图1)。
基于此,我们构建一种新的诊断发表偏倚的方法,称为发表时间顺序与效应尺度回归模型法,以下简称新方法。具体为:以文献发表时间顺序(T)为自变量,以子研究效应(Y)为应变量建立线性回归模型E(Y)=A+βT,若无发表偏倚,则总体回归系数β=0,反之若存在发表偏倚,则总体回归系数β≠0。故新方法实际是通过对总体回归系数β是否为零的检验,做出某Meta分析是否存在发表偏倚的诊断。
图1 不存在发表偏倚时效应尺度随着发表时间顺序的分布图
2.产生评价新方法诊断准确度的模拟数据
新方法诊断准确度的评价,需要大量的存在和不存在发表偏倚的Meta分析数据。本研究拟通过模拟得到研究数据。
(1)模拟数据的要求
本研究Meta分析效应量选用病例对照设计的Ln(OR)。故每个模拟的子研究数据应包含如下信息:病例组、对照组的样本例数,本研究假定两组例数相等均用n表示;病例组的暴露例数a;对照组的暴露例数c;发表的时间顺序t。
(2)模拟数据的产生
第一步:产生包含子研究的样本例数n和发表时间顺序t的模拟数据
一般来说,随着时间的推移,同一科学问题的研究一般会出现样本含量逐渐增加的趋势,故本研究分13个时段产生子研究样本例数。假定每个时段样本例数均服从正态分布 n~N(μK,σ2)(k=1,2,…,13),每个时段分别模拟产生 1500、1700、1900、2100、2300、2500、2300、1700、1500、1300、1100、1100、1100 个子研究,故13个时段共产生22100个子研究。并记录每个子研究模拟产生的先后次序为该子研究的发表顺序t。如此即得到了22100个子研究,每个子研究包含ni和ti(i=1,2,…,22100)信息的模拟数据。上述模拟数据的产生利用Matlab软件的normrnd函数完成。
第二步:产生包含病例组暴露例数a与对照组暴露例数c的模拟数据
假定病例组和对照组的总体暴露率分别为πa和πc,利用第一步产生的 ni,则有 ai~ B(ni,πa)(i=1,2,…,22100),ci~ B(ni,πc)(i=1,2,…,22100)。以此参数设置分别调用Matlab软件的Binornd函数,即得ai和ci,同时记录其产生的次序为ti。重复上述过程22100次,即得22100个包含ai,ci,ti的子研究模拟数据。
第三步:无发表偏倚模拟数据抽样框的产生
将第一步和第二步产生的模拟数据集按ti匹配合并得 22100 个含 ni,ai,ci,ti信息的子研究数据集,此即研究所用无发表偏倚数据抽样框。
第四步:有发表偏倚模拟数据抽样框的产生
对无发表偏倚数据抽样框中的22100个子研究均进行H0:OR=1(α=0.05)的假设检验,依其是否拒绝H0可将22100个子研究分成两部分。一部分为拒绝H0的子研究,即所谓阳性结果数据集,另一部分为不拒绝H0的子研究,即所谓的阴性结果数据集。由于发表偏倚产生的最主要原因就是阳性结果较阴性结果有更高的发表比例。故通过设置阳性数据集和阴性数据集不同的发表比例即可得到有发表偏倚数据集。本过程利用Matlab软件的unifrnd函数完成。由于研究是分13个时段产生模拟数据,故阳性数据集和阴性数据集也是分13个时段设置发表比例,具体发表比例设置为:
阳性数据集:0.90,0.90,0.90,0.92,0.92,0.92,0.94,0.94,0.94,0.96,0.96,0.96,0.96
阴性数据集:0.10,0.10,0.10,0.20,0.20,0.20,0.30,0.30,0.30,0.40,0.40,0.40,0.40
第五步:抽样产生Meta分析模拟数据
获得无偏和有偏Meta分析模拟数据抽样框后,利用unifrnd函数,从抽样框中进行有返回的抽样,获得包含k个子研究的无发表偏倚或有发表偏倚的Meta分析模拟数据。
(3)参数设置
不同的参数设置,将得到不同的模拟数据。本研究变动参数设置见表1。
表1 研究变动参数设置
结 果
1.模拟数据抽样框的评价
为考察模拟获得的有发表偏倚数据抽样框是否有效,本研究分析了13个时段样本例数总体均数为(20,40,60,80,100,120,140,160,180,200,220,240,260)标准差等于15时,有偏和无偏模拟数据抽样框中效应值平均数和假设检验P值的平均数大小,结果见表2。
表2 有偏和无偏抽样框子研究ln(OR)值的平均值及P值均值比较
结果显示,无偏抽样框的子研究ln(OR)值的平均值与总体值非常接近,而有偏抽样框的子研究ln(OR)值的平均值与总体值则相差较大;相对于无偏抽样框,有偏抽样框中子研究的P值的平均值更小。由此可见,本研究模拟获得的有发表偏倚数据抽样框是存在发表偏倚的。
2.总体ln(OR)的不同取值条件下的灵敏度和特异度分析
由参数设置可知,样本例数总体均数有3种设置、标准差有3种设置、子研究个数有5种设置,共得45种参数组合。病例组与暴露组5种不同的总体暴露率,对应总体 ln(OR)取值分别为 0,0.1633,0.3272,0.4922,0.6590。固定总体ln(OR),对上述45种参数组合,每种组合模拟抽样1000次,共得45000个Meta分析模拟数据进行准确度分析,详见表3。表中灵敏度分析用有发表偏倚模拟数据,特异度分析用无发表偏倚模拟数据(下同)。结果显示新方法除在ln(OR)取值较小的情况下灵敏度高于传统方法外,其余情况灵敏度、特异度均低于传统方法。
表3 ln(OR)的不同取值条件下的灵敏度和特异度分析
3.样本例数总体均数不同取值条件下的灵敏度和特异度分析
由参数设置可知,总体ln(OR)有5种设置、样本例数标准差有3种设置、子研究个数有5种设置,共得75种参数组合。固定样本例数总体均数,对上述75种参数组合,每种组合模拟抽样1000次,共得75000个Meta分析模拟数据进行准确度分析,详见表4。结果显示新方法灵敏度与传统方法相近,特异度低于传统方法。
表4 样本例数总体均数不同取值条件下的灵敏度和特异度分析
4.样本例数标准差不同取值条件下的灵敏度和特异度分析
由参数设置可知,总体ln(OR)有5种设置、样本例数总体均数有3种设置、子研究个数有5种设置,共得75种参数组合。固定样本标准差,对上述75种参数组合,每种组合模拟抽样1000次,共得75000个Meta分析模拟数据进行准确度分析,详见表5。结果显示新方法灵敏度与传统方法相近,特异度低于传统方法。
5.子研究个数不同取值条件下的灵敏度和特异度分析
由参数设置可知,总体ln(OR)有5种设置、样本例数总体均数有3种设置、样本标准差有3种设置,共得45种参数组合。固定子研究个数,对上述45种参数组合,每种组合模拟抽样1000次,共得45000个Meta分析模拟数据进行准确度分析,详见表6。结果显示新方法灵敏度与传统方法相近,特异度低于传统方法。
表5 样本例数标准差不同取值条件下的灵敏度和特异度分析
表6 子研究个数不同取值条件下的灵敏度和特异度分析
讨 论
Meta分析是循证医学研究中重要的数量化分析工具,发表偏倚是Meta分析最常见的偏倚之一,故发表偏倚的诊断在Meta分析中占有重要地位。常用的诊断发表偏倚的漏斗图法、Egger法、Begg法均是以效应量与其误差信息之间的关系判断是否存在发表偏倚。
本研究利用发表时间顺序和效应尺度间的关系构建一种新的Meta分析发表偏倚诊断方法,通过对模拟数据分析显示,新方法具有一定的诊断发表偏倚的能力,但与传统方法相比,新方法除在OR值较小的参数条件下灵敏度优于传统方法外,其余参数条件下诊断准确度均低于传统方法。
本方法首次将文献发表时间顺序参数引入发表偏倚诊断模型,分析原理与传统方法有较大差别,这就为研究发表偏倚的诊断方法提供了一种新的研究思路。总体来看,新方法的诊断准确度相对于传统方法没有提高,但由于新方法与传统方法诊断“发表偏倚”的理论基础不同,故将两者进行联合诊断有可能改善目前新旧方法诊断发表偏倚灵敏度均较低的现状。另新方法原理简单易理解,计算较简便,利于推广使用。
由于本研究是利用模拟数据进行分析,故产生模拟数据的参数设置对分析结果有较大影响。由于本研究参数设置组合并不完全,如有偏数据产生过程中各时段发表比例的设置、不同的Meta分析效应量的设置均无给予过多考虑,故本研究结果只是新方法诊断价值的初步结论。如需最终评价新方法的诊断价值,还需完善参数设置组合进一步深入研究。
1.Light RJ,Pillemer DB.Summing Up:The Science of Reviewing Research.Cambridge MA:Harvard University Press,1984.
2.Egger M,Smith GD,Schneider M,et al.Bias in meta-analysis detected by a simple,graphical test.British Medical Journal,1997,315:629-634.
3.Begg CB,Mazumdar M.Operating characteristics of a rank correlation test for publication bias.Biometrics,1994,50:1088-1101.
4.Macaskill P,Walter SD,Irwig L.A comparison of methods to detect publication bias in meta-analysis.Stat Med,2001,20:641-654.
5.Richy F,Reginster JY.A simple method for detecting and adjusting meta-analyses for publication bias.The Internet Journal of Epidemiology,2006,3(2).
6.王珍,张永红,徐巧巧.几种发表性偏倚评估方法介绍.中国卫生统计,2009,26(5):539-541.