基于检验效能的诊断性试验Meta分析及系统评价方法

2015-11-30冯巧灵顾海涛

转化医学杂志 2015年1期

刘鸿，周洁，冯巧灵，顾海涛

·综述·

刘鸿，周洁，冯巧灵，顾海涛

本研究提供一种基于检验效能的诊断性试验Meta分析及系统评价的方法，其特征在于以检验效能为主线贯穿于以诊断性试验Meta分析为主体的系统综述评价中，实现检验效能与传统Meta分析中纳入研究的质量评估、总效应量合并、敏感性分析以及Meta分析后效评价的一体化整合。该方法实现了对纳入研究质量评估从定性到定量的转变，弥补了基于样本量权衡合并效应量导致的不足，是检验效能在循证医学领域的拓展和延伸，也有利于诊断性试验Meta分析更加科学规范化、精确具体化和综合全面化。

检验效能；Meta分析；循证医学；诊断试验

诊断性试验是指应用实验、仪器设备手段检查就诊者，从而诊断疾病的检测方法，主要包括各种实验室检查(生物化学、免疫学、微生物学、寄生虫学、病理学等)、影像学(超声波、CT、X线及MRI等)、仪器检查(心电图、脑电图、核素扫描及内镜等)以及询问病史、查体等，其主要目的是将患者与可疑有病但实际无病的人区别，以便对确诊的患者予以相应的临床干预[1]。但卫生健康资源有限，加之临床上常因病种、患者依从性及伦理道德等限制，故诸多诊断手段不可能逐一地实施及研究对象的数量不可能无限的增加，鉴于此，诊断性试验的Meta分析应运而生，以期借助于循证医学的证据，基于临床实践，遴选出简便易行、经济廉价、安全无创的检查方式，从而将有限的医疗资源合理地运用在那些已经在适当设计的评估中表现出有效的卫生健康服务的方式上[2]。

在当前诊断性试验Meta分析及系统评价过程中，对纳入研究质量的评估主要是基于研究者借助于国内外既定的惯例通过对纳入研究进行定性评估，在评估过程中因研究者主观臆断往往造成额外的偏倚，并且在质量评估时因缺乏具体的量化指标因而研究者间的争议也很难统一，极大地降低了Meta分析的统计学功效[3]。现有的Meta分析在合并总效应量时，常以纳入研究的样本量或给予样本量而衍生的标准差等为权重对象，虽然加权样本量可在一定程度上使大样本的研究获得较大的权重，可较正确地估计整体效应的大小，但却忽视权重质量较高的研究，从而造成了权重偏倚；尤其当纳入的临床诊断试验的研究为阴性结果时，若仅仅依赖于样本量的权重，很难判定研究的阴性结果是源于检验效能的不足还是临床试验本身的无差异，从而影响诊断性试验Meta分析的科学性和可靠性[4]。近年来Meta分析的数量逐年递增，但因尚未有专门针对Meta分析本身质量评估的量化标准，Meta质量却参差不齐且有泛滥之势，造成了循证医学资源的极大浪费，很难确保Meta分析结果的真实性和可重复性，降低了Meta分析的论证强度和公信力，严重制约着循证医学的发展[5]。为此作者提出并探讨一种基于检验效能的诊断性试验Meta分析及系统评价的方法。

1 原理与方法

1.1 检验效能在实施诊断性试验Meta分析及系统评价之前，应先确定适用于该诊断性试验的检验效能公式。作者采用国际公认的诊断性试验效能[6]。

P＝(1－β)，其中β＝(1－NORMSDIST(Zβ))∗2

式中，P为检验效能，β为Ⅱ型错误，Zβ为标准正态分布曲线下单侧尾部面积，Zα/2为标准正态分布曲线下双侧尾部面积，a、b、c、d及n的临床意义见表1。通常依据国际统计学及临床实践惯例的不同Ⅰ型错误(α)取值也不同[1]。

表1 诊断试验的四格表及相关参数(例)

1.2 质量评估在Meta分析对纳入研究的质量评估过程中，基于传统定性评估纳入研究质量体系，增加以检验效能为参考标准对纳入Meta分析的每个研究逐一个体化评价，凭借精确的量化得分以判断纳入研究质量的高低，若纳入研究的检验效能P为1.0则说明该研究样本量有足够的效能达到甄别诊断试验与金标准检查两者间差异，定义为完全效能(perfect)；若检验效能P为0.8～1.0之间，则可认为该研究样本量能高效地甄别两者间差异，定义为高度效能(very high)；若检验效能P为0.6～0.8之间，则可认为该研究样本量能有效地甄别两者间差异，定义为中度高效(medium high)；若检验效能P为0.4～0.6之间，则可认为该研究样本量在一定程度上尚可甄别两者间差异，定义为中度效能(medium)；若检验效能P为0.2～0.4之间，则可认为该研究样本量很难甄别两者间差异，定义为中度低效(medium low)；若检验效能P为低于0.2，则可认为该研究样本量尚未能达到甄别两者间差异的效能，定义为非常低效(very low)。通过检验效能对每个研究的量化，可有效控制因研究者主观因素所导致的评价偏倚[7]。

1.3 效应量合并在Meta分析对所纳入研究的总效应量合并过程中，以基于纳入研究的检验效能替代单纯基于样本量大小作为合并总效应量的权重依据而分析量效关系。在诊断性试验的Meta分析中，主要合并的统计学效应尺度为敏感性Sen＝a/(a＋c)，特异性Spe＝d/(b＋d)，诊断比值比(diagnostic odds ratio，DOR)＝(a/c)/(b/d)。其效应量的合并步骤:设Meta分析中所纳入研究的总个数为k(k≥2)，第i项研究结果为敏感性Seni＝ai/(ai＋ci)、特异性Spei＝di/(bi＋di)、诊断比值比DORi＝(ai/ci)/ (bi/di)，将其自然对数化为ySeni＝In(Seni)、ySpei＝In(Spei)、yDORi＝In(Spei)；令μi和ei分别表示第i个研究ySeni、ySpei及yDORi总体效应和随机效应，则随机效应模型为ySeni＝μSeni＋eSeni、ySpei＝μSpei＋eSpei、yDORi＝μDORi＋eDORi；加权均数ySenw、ySpew、yDORw及其方差(SySen)2、(SySpe)2和(SyDOR)2的拟合公式为:

式中，wi为第i个研究的权重系数，由各个研究的检验效能计算，公式为:

式中，Pi为每个纳入研究的检验效能；对于固定效应模型，k项研究合并估计的效应量及其95%可信区间(confidence interval，CI)分别为:Senf＝exp (ySenw)及其95%CI为exp(ySenw±1.96SySen)；Spef＝exp(ySpew)及其 95%CI为 exp(ySpew± 1.96SySpe)；DORf＝exp(yDORw)及其95%CI为exp(yDORw±1.96 SyDOR)。

对于随机效应模型，权重系数wi校正为wi′。

式中，(Sμ)2为μi(i＝1，2，3，…，k)的估计方差。

加权均数yw′＝∑wi′yi/∑wi′，(Sy′)2＝(∑wi′)－1；同理，k项研究合并估计的效应量及其95%CI分别为:Senr＝exp(ySenw′)及其95%CI为exp(ySenw′± 1.96SySen′)；Sper＝exp(ySpew′)及其95%CI为exp (ySpew′±1.96SySpe′)；DORr＝exp(yDORw′)及其95%CI为exp(yDORw′±1.96SyDOR′)。

基于检验效能的总效应量合并，有效规避了因临床试验结果的假阴性而被排除的风险，可提供更科学的效应量估计和增加统计效能[4]。

1.4 敏感性分析在Meta分析的敏感性分析过程中，依次排除检验效能P低于1.0、0.9及0.75的研究后，重新估计合并效应量，并与未排除前的Meta分析结果相比较，观察排除前后研究结果对合并效应量及异质性影响程度，从而判断研究结果的稳健性和可靠性。若排除后结果未发生大的变化，说明敏感性低，结果较为稳健可信；相反，若排除后得到差别较大甚至截然相反结论，说明敏感性较高，结果的稳健性较低，在解释结果和下结论的时候应非常慎重，提示存在与诊断效果相关的、重要的、潜在的偏倚因素，需进一步明确争议的来源[7]。

1.5 后效评价在完成Meta分析之后，将传统仅应用于单一临床诊断试验的检验效能引入到系统综述的评价中，作为后效评价Meta分析质量高低的重要参考标准。其检验效能公式为:

式中:

但式中a、b、c及d变为Meta分析中纳入研究相对应条目的总和，其临床意义同表1。其中，Ⅰ型错误(α)取值可以设定为0.01，据此可实现对Meta分析质量评估从定性评价到定量评价的转变[8]。其实施的具体流程见图1。

2 实例

为了评估超声心动图用于胎儿先天性心脏病的产前诊断价值、探讨人口统计学因素、超声心动图的检查路径以及先天性心脏病的临床因素在诊断中的作用，作者检索Cochrane图书馆、PubMed、OVID、Springer数据库、中国知网期刊全文数据库、万方数据库知识服务平台和中国生物医学文献数据库截止到2014年4月的文献，按照诊断试验的严格纳入标准筛选文献，提取纳入文献的特征信息[9]。采用STATA 10.0软件进行Meta分析，检验异质性，并根据异质性结果选择相应的效应模型。对所有文献予以加权定量合并，计算敏感性、特异性及其95%CI。绘制汇总受试者工作特征曲线，并计算曲线下面积，最后进行敏感性分析。结果共纳入文献42篇包含58个对比研究，涵盖胎儿329 965例。通过全文阅读，每篇文献的真阳性、假阳性、真阴性及假阴性被提取出来，利用上述方法计算每个对比研究的检验效能，然后依次排除检验效能P低于1.0、0.8、0.6、0.4及0.2的研究后，重新估计合并效应量，并与未排除前的Meta分析结果相比较，观察排除前后研究结果对合并效应量及异质性影响程度(图2)。从中可以看出，随着纳入研究检验效能的提高，总的合并效应量值中除特异性呈上升趋势外，敏感性和DOR均呈下降趋势，提示纳入了大量的较低效能的检验效能的研究后，可能夸大了超声心动图在胎儿先天性心脏病的产前诊断的敏感性和诊断价值而掩盖了其真实的特异性。

图1 基于检验效能的诊断性试验Meta分析及系统评价方法的流程

3 讨论

基于检验效能的Meta分析及系统评价的方法，其特征在于以检验效能为主线贯穿于以诊断性试验Meta分析为主体的系统综述评价中，实现了检验效能与传统Meta分析中纳入研究的质量评估、总效应量合并、敏感性分析以及Meta分析的后效检验的一体化整合。在Meta分析对纳入研究的质量评估过程中，以检验效能作为评价研究质量的参考依据，基于检验效能对纳入的每个研究量化评分，克服了因传统基于样本量大小作为判断研究质量高低的缺陷[10]。在Meta分析对所纳入研究的总效应量合并过程中，以检验效能作为合并效应量的权重依据，降低了因单纯依赖样本量大小作为权重依据合并总效应量而造成的系统误差[11]。在Meta分析的敏感性分析中，以不同的检验效能作为重新合并效应量的参考标准，基于总效应量及异质性的变化程度判定其结果的稳健性，提高了与检验效能相关偏倚的检出率[12]。在传统Meta分析完成之后，以检验效能作为对Meta分析质量后效评价的衡量标准，增强了对诊断性试验系统综述评价的科学性和全面性。

基于检验效能的Meta分析及系统评价的方法，从纳入研究质量的评价、总效应量的合并、敏感性分析到Meta分析的后效评价，实现了从传统的定性到以定性与定量有机结合为特征的个体化评估的跨越，弥补了基于样本量大小权衡合并效应量导致的不足，强化了敏感性分析引入检验效能的可行性，还开创了对Meta分析本身质量评估的先例。检验效能与Meta分析的一体化整合，是对检验效能在循证医学领域的拓展和创新，也是对现有Meta分析的发展和完善，有利于使诊断性试验Meta分析更加科学规范化、精确具体化和综合全面化。

[1]李晓松.医学统计学[M].2版.北京:高等教育出版社，2008:261-273.

[2]Onwuegbuzie AJ，Leech NL.Post hoc power:a concept whose time has come[J].Understanding Statistics，2004，3 (4):201-230.

[3]Hempel S，Miles JN，Booth MJ，et al.Risk of bias:a simulation study of power to detect study-level moderator effects in meta-analysis[J].Syst Rev，2013，2:107.

[4]Levine M，Ensom MH.Post hoc power analysis:an idea whose time has passed?[J].Pharmacotherapy，2001，21 (4):405-409.

[5]Cohen J.Statistical power analysis for the behavioral sciences[M].2nd ed.Hillsdale，NJ:Routledge，1988.

[6]Sahai H，Khurshid A.Formulas and tables for the determination of sample sizes and power in clinical trials for testing differences inproportions for the matched pair design: a review[J].Fundam Clin Pharmacol，1996，10(6):554-563.

[7]García García J，Ortega Campos E，De la Fuente Sánchez L.The use of the effect size in JCR Spanish journals of psychology:from theory to fact[J].Span J Psychol，2011，14(2):1050-1055.

[8]Hajian-Tilaki K.Sample size estimation in diagnostic test studies of biomedical informatics[J].J Biomed Inform，2014，48:193-204.

[9]Liu H，Zhou J，Feng QL，et al.Fetal echocardiography for congenital heart disease diagnosis:a meta-analysis，power analysis and missing data analysis[J].Eur J Prev Cardiol，2014[Epub ahead of print].

[10]Gibson E，Fenster A，Ward AD.The impact of registration accuracy on imaging validation study design:a novel statistical power calculation[J].Med Image Anal，2013，17 (7):805-815.

[11]Chakraborty DP.Prediction accuracy of a sample-size estimation method for ROC studies[J].Acad Radiol，2010，17 (5):628-638.

[12]Qiu SF，Tang NS，Tang ML，et al.Sample size for testing difference between two proportions for the bilateral-sample design[J].J Biopharm Stat，2009，19(5):857-871.

Method of power-based meta-analysis for diagnostic accuracy test

LIU Hong1，ZHOU Jie2，FENG Qiaoling3，GU Haitao1
(1.Department of Cardiothoracic Surgery，First Affiliated Hospital of Nanjing Medical University，Nanjing Jiangsu 210039，China；2.Department of Diagnostic Ultrasound，First Affiliated Hospital of Nanjing Medical University，Nanjing Jiangsu 210039，China；3.Key Laboratory of Diagnostic Medicine of Education Ministry，Institute of Laboratory Medicine，Chongqing Medical University，Chongqing 400016，China)

This study puts forward a method for power-based meta-analysis of diagnostic accuracy test and systematic review，which is characterized by the familiar integration of power and diagnostic accuracy test for meta-analysis.The advantage of of the method is that it contributes to integration of quality assessment of studies included，the pooling of effect size，sensitivity analysis and reevaluation in the process of meta-analysis.The method contributes to improve the quality assessment of studies included from qualitative analysis to quantitative analysis，makes up for the shortage from the sample size-based pooling of effect size，which results in not only the development and extension of power analysis in the field of evidence-based medicine，but also in scientization and standardization，preciseness and quantification，and comprehension.

Power analysis；Meta-analysis；Evidence-based medicine；Diagnostic accuracy test

R44；R195

2095-3097(2015)01-0051-05

10.3969/j.issn.2095-3097.2015.01.014

2014-08-05 本文编辑:徐海琴)

国家知识产权局发明专利项目(ZL201403116404)；江苏省普通高校研究生实践创新计划项目(SJZZ-2014-0118)；南京市专利专项基金项目(NJ-14-KJZX6404)

210039江苏南京，南京医科大学第一附属医院胸心外科(刘鸿，顾海涛)，超声诊断科(周洁)；400016重庆，重庆医科大学检验医学院教育部临床检验诊断学重点实验室(冯巧灵)