Meta分析中缺失标准差换算与标准化均数差估计方法简介

2016-03-07许杨鹏喻亚宇付文杰陶圆吴君怡何倩张超

中国循证心血管医学杂志 2016年12期

许杨鹏，喻亚宇，付文杰，陶圆，吴君怡，何倩，张超

· 循证理论与实践 ·

许杨鹏1,2，喻亚宇1,2，付文杰1,2，陶圆1,3，吴君怡1,2，何倩1,2，张超1

系统评价/Meta分析通过合并多个相似研究来扩大样本量及提高统计学精度，从而给出更为可靠的结果与结论，然而往往由于原始研究文献结果报告之间差异性与不规范性，致使相关的原始数据存在不同类型的缺失，其中以连续性资料数据中标准差缺失较为常见。标准差对连续性资料中标准化均数差合并是不可或缺的，当前，方法学家就标准差缺失给出了相应估算方法，如P值、四分位数及样本量转换因子等方法均较为常见。本文就连续性资料标准差与标准化均数差估计方法作简要汇总。

Meta分析；连续性资料；标准差；标准化均数差；转换因子

在系统评价中，对于研究通常用效应量（effect size，ES）衡量干预大小。Meta分析基于效应量汇总效益风险来指导证据的科学使用，该统计方法理论上基于多个样本的汇总形式来增大统计精度，得出更为可靠准确的结果。然而，随着纳入研究的报道形式的差异性或多样化导致了部分研究可能存在一定的结果报道缺失，如连续性资料中标准差（standard deviation，SD）较为常见。基于系统评价/Meta分析基本原理，本文将通过实例来演示多种方法对于缺失SD的估计，以求获取更大样本量研究来增大合并结果可靠性与精度。

1 通过转换因子估算SD与标准均数差（SMD）

效应量SMD的算法如下：

通过下面的公式ES的标准误[1]（standard error，SE）能够被计算出来。

N1和N2分别是试验组和对照组的样本量ES和它的95%置信区间（confidence interval，CI）能够被得到为：ES -1.96SE到ES +1.96SE。

下面要介绍的这个方法基于观测到的范围分布是试验样本量的函数。尤其当样本量变得很大的时候，更加极限的值被观测到有更大的可能性，相应的被期望的值的范围也增长了。如果能假设数据的潜在分布，就能通过样本量和SD[2]的函数计算出被期望的值的范围。尤其是当数据被假定为正常分布时，可以通过被制成表格的转换因子f根据观测到的范围转换出相对应的被估算的SD。通过下面的公式：

1925年Tippett首先把通过样本量为N且正常分布的数据估算出来的SD的范围计算了出来并制成了表格。大量关于1/f的表格是可以使用的，包括Pearson和Hartley给出的样本量的范围从2到1000的详细的结果。表1显示了一些f的值。当样本量很大时，如果被期望的样本量的范围增长了，那么相对应的f的值就会减小。当样本量很小时，转换因子f的变化就很快了。对于大的样本量，没有被明确的制成表格，这时需要插入或者制作更加精确的表格。尽管样本量的范围没有直接提供SD的信息，但是可以通过前面的方法很好的估算出来，在统计学上很接近最大似然估计[3]的SD，特别是当样本量很小时。

表1 基于样本量的转换因子估计

表2给出了报道在Hill等[4]的研究中的3个临床相关结果，其中总结出了被观测的样本量的范围，因此可以通过上面的方法得出SD的大约值。在该研究中，对照组的24个周关节指标的范围为58，基于一个样本量NC为42。表1中没有关于这个特别的数字的值，但是在40和50之间通过线性的插入得出了大约值为：0.231-(0.231-0.222) ×2÷10=0.229。因此在对照组中被评估的SD的值大约为0.229×58=13.282。对于试验组的SD的估算使用相似的方法即可，基于它的样本量NE=38。然后通过公式ES=(XE-XC)/SDpooled可以算出SMD=-0.188，它的95%CI为（-0.641，0.265），对于其他两个临床结果的ES值被显示在表2中，通过相同的方法即可导出。

在Weber等[5]的研究中，作者报道了10到12个月CD4的中值和临床结果的范围：干预组中值为407.5，范围为95到1796，样本量NC为25。在进行对数转换后，中值为6.01而范围为5.31到6.86。对照组相对应的中值为6.19，范围为4.55到7.49。在原始数据中，中值离被观测值的最小值比离被观测值的最大值更近，被观测的数据分布有歪斜。相比之下，被对数转换的值离它的最大值和最小值差距差不多相同，显示被转换的数据分布更对称。因此，我们在这里视被转换的中值为大约的平均数，在使用公式计算ES时，用它们代替原始数据中的平均数。例如之前的，我们用线性插入获得f和相关联的ES值。

2 通过P值、t值、可信区间计算SD与SMD

若原始研究仅提供了组间均数差（mean difference，MD）以及SE、可信区间、t值或P值，也可以换算出SD。此时，需假设各组的SE相等，且进行Meta分析时计算出的SE将被同时应用到试验组和对照组，即输入的两组的SE是同一个值。其方法如下：

2.1 通过P值计算SD需要3步第一步通过P值计算t值[6]。若已知P值和各组样本量（NE，实验组；NC，对照组），则t值可以利用在Excel表格中输入“=tinv（概率，自由度）”获得，其中概率即为P值，自由度=（NE+NC-2）[7]。有时，研究并未报告具体的P值，而是报告P＜0.05或0.01，此时可用P值的上限做概率估计，即P=0.05或0.01；但须注意的是，若组间差异无统计学意义，即仅报告P＞0.05或0.01时，但未报告具体的P值此时则无法计算t值。第二步通过t值计算SE。将上一步计算出的t值带入公式，计算出SE。第三步通过SE计算SD。将上一步计算出的SE代入组间SD的计算公式，计算出SD。

2.2 通过t值计算SD若研究中直接报告了t值，则重复方法二中的第二步和第三步，就可以计算出SD。

2.3 通过可信区间计算SD若试验组和对照组的样本量大，则，其中CI2和CI1分别是可信区间的上下限（此处默认为95%可信区间，N=NE+Nc）。

若为90%可信区间，则将3.92换为3.29；若为99%可信区间，则将3.92换为5.15。如试验组和对照组样本量较小，则；t值可以利用在Excel表格中输入“=tinv（概率，自由度）”获得，其中概率=1-0.95（当为95%可信区间时），自由度=（NE+Nc-2）。

表2 关于根据报告的样本量范围计算效应量的值的例子

3 通过样本量及可信区间估算SD与SMD

利用均数的可信区间计算SD，但须注意的是此处的可信区间是指试验组或对照组组内均数的可信区间。一般而言，可信区间通常是指95%可信区间。若数据符合正态分布，即均值与可信区间下限的差值近似于可信区间上限与均数的差值，则可以使用以下方法计算SD：

若数据不符合正态分布，则需要考虑进行数据转换[8]（如计算原始数据的对数值）；若转换后的数据符合正态分布，则可考虑用上述方法进行转换。

4 通过类似研究估算SD与SMD

通过模拟在抗抑郁药上的疗效的相关Meta分析，在此提出两种估算法。系统评价很适合这个目的，因为Hamilton Rating Scale For Depression（HRSD）[9]实际上在症状评估是标准的而且被用在很多被鉴定的抑郁试验中。

4.1 从过去的Meta分析中估算在调查抗抑郁类药物疗效比较[10]的研究时，通常会采用HRSD（包括17条目或21条目）来进行抗抑郁药物评价，且往往其评分变化的SD无法获取，但当回顾既往类似的Meta分析时，我们发现相关研究已经得出对应部分SD，为了提供更为充足可靠的SD，此时可采用相应部分的SD结果来估算合并的SD值。具体公式，如下：

基于1732个患者的6个研究，合并的SD对于17条的HRSD是7.6。基于八个研究中2129个受试者，其21条HRSD对应的SD是8.2。

4.2 从相同的Meta分析中估算我们模拟一个在小样本量试验中，Meta分析估算缺失的SD在所有其他研究在相同的Meta分析中通过“leaving-oneout”法[11]。换句话说，通过计算合并的SD为每一个试验估算SD在相同的且使用了相同的HRSD的Meta分析中（例如17和21条），然后使用Meta分析分析这些被估算的效应量。

应用这两种估算法到一个综合的关于弗洛汀的Meta分析中，最广泛规定的可选择的血清素再摄取的抗抑郁药抑制剂[12]，一个经典的抗抑郁药阿米替林[13]，在实际值和估算值之间做了下面的比较。

单独的RCT中第j个的SMD被下面的公式计算出：

Meancj是对照组的HRSD的端点平均值，Meanaj是试验组的HRSD的端点平均值。合并的SMD取决于随机效应模型[14,15]。使用ANOVA同类相关系数（intracity correlation coefficient，ICC）[16]可以检查单个的SMD之间的一致性。利用Cochrane Collaboration的Meta分析软件Review Manager 4.2[17]可以计算出随机效应模型的SMD。也可以通过固定效应模型合并估算SMDs，其结果几乎是一样的，我们在此报告的结果只取决于随机效应模型。

当有缺失SDs的RCTs的数量小而且总的RCTs的数量大的时候，从所有其他可利用的RCTs的相同的Meta分析中去使用合并的SDs。通过比较那些已经报告了SDs的试验的SMDs相对于基于估算的SDs的相同试验假设的SMDs，它是可行的而且在这里被推荐去检测估算的合适性。当有缺失SDs的RCTs的数量大或者当所有的RCTs的数量小时，从过去的系统评价中借用SDs。因为小的样本量可能容许偶然的偏差。在这个例子中Meta分析的发现的可信性是不安全的。

5 通过中位数或四分位数估算SD

有相关研究报告中位数和四分位数间距[18]，而不是直接报告均数和SD。在这种情况下，若是数据符合正态分布，则中位数和均数非常接近，可以直接用中位数代替均数进行Meta分析；但如果数据呈非正态分布，则中位数和均数相差很大，就不能用中位数代替均数。须注意的是，大多数情况下，若原始研究中采用中位数描述数据的均值，通常提示数据呈非正态分布。

四分位数间距（interquartile range，IQR）是指上四分位数和下四分位数的差值，IQR反映偏态分布数据的离散程度，类似于正态分布数据的标准差。若原始研究中采用IQR数据的离散程度，通常表明数据呈偏态分布。若研究的样本量很大且数据分布接近正态分布，则IQR≈1.35× SD，通过此公式可以计算出SD；若不满足上述条件，则无法通过IQR计算SD。

6 结论

基于不同的SD缺失情形，可选取不同方法来进行效应量SMD获取。第一种方法在数据呈正态分布时，且报告了样本量范围和数据的最大值就可以通过转换因子求得相对应的SD，且样本量越服从正态分布精确度相对越高。第二种方法需假设各组的SE相等，且进行Meta分析时计算出的SE将被同时应用到试验组和对照组，即输入的两组的SE是同一个值，此时可通过P值或t值或可信区间来计算单个研究的SD。第三种方法利用均数的可信区间计算SD，但须注意的是此处的可信区间是指试验组或对照组组内均数的可信区间，当数据服从正态分布时此法很方便。第四种方法需要借助HRSD量表，在抑郁病相关的某些研究中可以使用这个方法。第五种方法需要中位数和四分位数间距，在数据呈正态分布且样本量大时精确度越高。上述方法各具优缺点，但正确使用仍需操作者依据不同的情形来进行方法学择选。

[1] Barde Mohini P,Barde Prajakt J. What to use to express the variability of data: Standard deviation or standard error of mean?[J]. Perspect ClinRes,2012,3(3):113-6.

[2] George A Kelley,Kristi S Kelley. Statistical methods for meta-analysis: A brief tutorial[J]. World J Methodol,2014,2(4):27-32.

[3] Kung TL,Parhi KK. Optimized joint timing synchronization and channel estimation for communications systems with multiple transmit antennas[J]. Eurasip Journal on Advances in Signal Processing,2013, 2013(1):1-12.

[4] Hill J,Bird H,Johnson S. Effect of patient education on adherence to drug treatment for rheumatoid arthritis: a randomised controlled trial[J]. Ann Rheum Dis,2001,60(9):869-75.

[5] Weber R,Christen L,Christen S,et al. Effect of individual cognitive behaviour intervention on adherence to antiretroviral therapy: prospective randomized trial. Antivir Ther,2004,9(1):85-95.

[6] Maggio S,Sawilowsky SS. A New Maximum Test via the Dependent Samples t-Test and the Wilcoxon Signed-Ranks Test[J]. Applied Mathematics,2014,5(01):110-4.

[7] Ponton JW. Degrees of freedom analysis in process control[J]. Chemical Engineering Science,1994, 49(13):2089-95.

[8] Tu X,Zhang JJ,Shults J,et al. Power analyses for longitudinal study designs with missing data[J]. Statistics in Medicine,2007,26(15):2958-81.

[9] Knapskog AB,Barca ML,Engedal K. A comparison of the cornell scale for depression in dementia and the Montgomery-Aasberg depression rating scale in a memory clinic population[J]. Dementia & Geriatric Cognitive Disorders,2013,35(5-6):256-65.

[10] Joffe R,Sokolov S,Streiner D. Antidepressant treatment of depression: a metaanalysis[J]. Canadian Journal of Psychiatry Revue Canadienne De Psychiatrie,1997,41(10):613-6.

[11] Feng D,Chen F,Xu W. Efficient Leave-One-Out Strategy for Supervised Feature Selection[J]. Tsinghua Science & Technology,2013, 18(6):629-35.

[12] Cipriani A,Brambilla P,Barbui C,et al. Fluoxetine versus other types of pharmacotherapy for depression[J]. Cochrane Database of Systematic Reviews,2005,7(4):CD004185-CD004185.

[13] Guaiana G,Barbui C,Hotopf M,et al. Amitriptyline versus other types of pharmacotherapy for depression (Cochrane Review)[J]. Cochrane Database Syst Rev,2003,(2):CD004186.

[14] DerSimonian R,Laird N. Meta-analysis in clinical trials[J]. Control Clin Trials,1986,7(3):177-88.

[15] Furukawa TA,Guyatt GH,Grifith LE,et al. Can we individualize the number needed to treat , An empirical study of summary effect measures in meta-analyses[J]. Int J Epidemiol,2002,31(1):74-6.

[16] Gaddis ML. Statistical methodology: IV. Analysis of variance, analysis of covariance, and multivariate analysis of variance[J]. Acad Emerg Med,1998,5(3):258-65.

[17] 徐世侠,汤先华,陈海青,等. Meta分析及RevMan软件介绍[J]. 中华医学图书情报杂志,2009, 8(13):62-4.

[18] 钟振宇,蒋佩英. 中位值和稳健四分位数间距的直观应用[J]. 中国科技投资,2013,(17):123-4.

本文编辑：姚雪莉

Introduction of methods for estimating standardized mean difference when missing standard deviation conversion in Meta-analysis

XU Yang-peng*, YU Ya-yu, FU Wun-jie, TAO Yuan, WU Jun-yi, HE Qian, ZHANG Chao.*Center for Evidence-Based Medicine and Clinical Research, Taihe Hospital, Hubei University of Medicine, Shiyan 442000, China. Corresponding author: ZHANG Chao, E-mail: zhangchao0803@126.com

System review/Meta-analysis get more reliable results and conclusions through combining multiple similar studies to enlarge the sample size and improve the accuracy of statistics. However, difference and non-normative among original research result documents result in the absence of different types of raw data, in which the most common absence is missing of standard deviation in continuous data. Standard deviation is necessary for pooling the standard deviation in continuous data. At present, as to the lack of the standard deviation, methodologists have provided relevant estimate methods, such as methods of P values, quartile and sample size conversion factors. In this paper, a brief summary of estimate methods for standard deviation and standardized mean differences in continuous data were made.

Meta-analysis; Continuous data; Standard deviation; Standardized mean difference; Conversion factors

1674-4055(2016)12-1412-04

十堰市太和医院院级项目课题(2016JJXM070)

1442000 十堰,十堰市太和医院(湖北医药学院附属)循证医学中心;2442000 十堰,湖北医药学院口腔医学院12级;3442000十堰,湖北医药学院影像医学院12级

共同第一作者：许杨鹏,喻亚宇

张超,E-mail:zhangchao0803@126.com

10.3969/j.issn.1674-4055.2016.12.02