Meta分析系列之七：非随机实验性研究、诊断性试验及动物实验的质量评价工具

2012-09-02曾宪涛庄丽萍杨宗国董圣杰

中国循证心血管医学杂志 2012年6期

曾宪涛，庄丽萍，杨宗国，董圣杰

非随机实验性研究（non-randomized experimental study）和诊断准确性试验的Meta分析是临床研究重要组成部分，而临床前的动物实验的Meta分析也日渐得到重视，其结论已成为循证决策的依据之一。在前面的章节中，我们已对随机对照试验[1]及观察性研究[2]的质量评价工具进行了简介，现对较为常用的或推荐使用的非随机实验性研究、诊断准确性试验及动物实验的评价工具进行简介。

1 非随机实验性研究

1.1 MINORS条目非随机对照试验方法学评价指标（methodological index for non-randomized studies，MINORS）[3]是由法国外科医师Slim等在2007年全面回顾文献及专家共识的基础上制定的临床干预研究的质量评价工具，特别适用于外科非随机对照干预性研究（non-randomized surgical studies）质量的评价。评价指标共12条，每一条分为0～2分。前8条针对无对照组的研究，最高分为16分；后4条与前8条一起针对有对照组的研究，最高分共24分。0分表示未报道；1分表示报道了但信息不充分；2分表示报道了且提供了充分的信息（表1）。

1.2 Reisch评价工具 1988年，为了促进临床药物治疗性研究质量的评价，美国德克萨斯大学医学部的Reisch等[4]制作了相应的评价工具，即Reisch评价工具。该工具以公认的标准和清单为基础，归纳了12个类别共57个条目，其中包括设计、样本量、随机化和对照组的相关内容。清单的主要作用是评价研究的设计和绩效而不是数据的分析。该工具的每个条目都是以确定的问题形式出现，回答方式包括“是”，“否”，“不知道或不清楚”或“没有合适的答案”。

Reisch评价工具主要是针对临床药物治疗质量的评价，因此很多条目具有明显的临床药物特殊性。该工具对于非随机实验性研究的质量评价可用度较高，但需结合实际的研究做一些调整以发挥该工具的评价功能。现被Cochrane肠道炎症疾病小组使用，因其条目繁多，使用耗时，易用性不强，在此不作详细介绍。

1.3 TREND声明 TREND（the Transparent Reporting of Evaluations with Nonrandomized Designs）声明[5]是美国疾病预防控制中心（Centers for Disease Control and Prevention，CDC）HIV/AIDS综合防治研究（PRS）小组为提高对艾滋病防治行为干预研究的综合能力，于2003年7月在亚特兰大召开的CDC下属期刊编辑会议上达成的共识。与会者认为更清晰和标准的研究评价报告不应只包括随机设计，还要扩展到非随机对照设计，由此提出非随机对照设计报告规范（TREND），会议等具体内容可参阅官网http://www.cdc.gov/trendstatement/。自然，这一规范可以用来非随机实验性研究的质量，因此不是专用工具，在此不作详细列出。

2 诊断性研究

诊断性研究一般而言可以分为两类：一是评价运用诊断试验后对改善患者的治疗/预后效果，多采用随机对照设计，此时质量评价方法与随机对照试验相同[1]；二是评价诊断试验的准确性，此种最为常见及熟知。

2.1 QUADAS工具 QUADAS（Quality Assessment of Diagnostic Accuracy Studies）是由英国约克大学Whiting等遵照Delphi法于2003年制定的专用于系统评价中评价诊断准确性试验质量的工具[6-7]。QUADAS工具是目前唯一一个经过严格评价和验证的诊断准确性试验质量评价标准，共14个条目，每一条目采用“是”、“否”或“不确定”评价（表2）。2008年，Cochrane协作网推荐QUADAS作为Cochrane诊断性试验准确性系统评价中质量评价的标准，并根据协作网的筛查和诊断性研究方法学组的意见，将QUADAS的第3条、第8条和第9条列入非必须评价条目，故Cochrane诊断性试验准确性系统评价中质量评价的标准最终为11条[8]。

2.2 Cochrane DTA工作组标准 Cochrane DTA工作组（Cochrane Diagnostic Test Accuracy Working Group）除了将上述QUADAS工具作为推荐使用的评价工具外，还在此基础上针对特定的研究设计制定了附加质量评价条目[9]。特定的研究主要包括延迟验证（需要对研究对象进行纵向随访）研究和诊断比较（避免选择性偏差和独立的多重测试评估），可能附加的质量条目如下：①是否在研究开始前已确定了临界值（cut-off value）？②研究开始后试验的技术指标是否未发生改变？③研究是否提供了阳性结果的清晰定义？④试验操作者是否接受了适当的培训？⑤治疗是否在测试指标和参考标准执行后停止？⑥是否报告了观察者间差异（observer variation）的数据，以及是否在可接受的范围内？⑦是否报告了仪器间差异（instrument variation）的数据，以及是否在可接受的范围内？⑧目标是否是先行指明的？⑨研究是否未受商业资助？

表1 MINORS评价条目

表2 QUADAS条目

2.3 CASP清单英国牛津循证医学中心文献严格评价项目（critical appraisal skill program，CASP，2004）制定了多种规范，除了前述介绍的针对随机对照试验[1]和分析性研究[2]的质量评价工具之外，还制定了针对诊断性试验的质量评价清单[10]（表3）。对于诊断试验，CASP采用了12个条目，仍然分为3个部分，1～2条为筛选问题，3～12条为细节问题，1～6和9～11均采用“是”、“否”及“不知道”判定。

2.4 STARD声明 STARD（the Standards for Reporting of Diagnostic Accuracy）声明[11]是由荷兰阿姆斯特丹大学的Bossuyt等组成的诊断准确性研究报告标准（STARD）筹委会在2000年9月荷兰阿姆斯特丹举行的共识会议上，为了改进诊断准确性研究报告质量而形成的一个由25项条目组成的清单。如前所述，STARD也可以用来评价诊断性研究的质量，本处不做详细列出。

3 动物实验

3.1 STAIR清单 STAIR（the initial Stroke Therapy Academic Industry Roundtable）清单最早发表于1999年，由美国马萨诸塞大学医学院的Fisher M领头成立的STAIR小组制定[12]。2009年，小组对STAIR进行了更新，制定了美国“确保高质量科学研究的推荐意见（Recommendations for Ensuring Good Scientific Inquiry）”，其清单的7条内容可以作为评价动物实验质量的标准[13]：①样本量计算，②纳入与排除标准，③随机序列产生，④隐藏实验动物分组方案，⑤报道将动物排除分析的原因，⑥结局的盲法评价，⑦声明潜在的利益冲突及研究资助。

3.2 CAMARADES清单 CAMARADES（Collaborative Approach to Meta Analysis and Review of Animal Data from Experimental Stroke）清单是目前缺血性卒中动物试验Meta分析中最常用的质量评价清单，其官方网站为http://www.camarades.info/，评价内容包括10条，其他动物实验的评价标准多数是在此标准基础上修订的[14,15]（表4）。

表3 CASP清单

表4 CAMARADES清单

3.3 ARRIV指南 ARRIV（Animals in Research: Reporting In Vivo Experiments）指南是在国际实验动物3R中心（National Centre for the Replacement，Refinement and Reduction of Animals in Research，NC3Rs）的资助下，由Kilkenny领头制定的动物实验研究报告指南[16]。ARRIV是在充分借鉴CONSORT声明[17]的基础上，结合动物实验的特殊性制定的，共包括6大部分20个条目。其不仅可以用来作为报告动物实验的规范，还可以用来评价动物实验的质量，此处亦不做详细介绍。

4 小结

在实际中，常提的非随机化研究包括了非随机实验性研究及观察性研究[18]，因此，常产生将观察性研究的质量评价标准应用于评价非随机实验性研究的情况（多为NOS）。我们认为，这是不妥当的。针对非随机实验性研究，我们推荐使用MINORS条目评价质量，因为其包括了有对照组和无对照组两部分，且可通过条目10判定对照组的设置类型。对于诊断准确性试验，早期推荐使用的还有贝叶斯图书馆（Bayes Library）评价指标[19]，此标准较为繁琐，且随着贝叶斯图书馆合并到Cochrane图书馆中及其成员成为Cochrane DTA工作组的一部分，后期未再更新及推荐；现Cochrane协作网等推荐使用的是QUADAS工具，Cochrane DTA工作组并根据特定的研究需求制定了补充的标准[9]；CASP在动物实验方面，尚无得到公认的质量评价标准，Cochrane协作网亦无相关推荐及工具，当前应用较多的是Macleod等[14]自行开发并经多次修订完善的CAMARADES清单，使用者可以根据研究实际进行调整。

[1]曾宪涛, 包翠萍, 曹世义, 等. Meta分析系列之三: 随机对照试验的质量评价工具[J]. 中国循证心血管医学杂志,2012,4(3):183-5.

[2]曾宪涛, 刘慧, 陈曦, 等. Meta分析系列之四: 观察性研究的质量评价工具[J]. 中国循证心血管医学杂志,2012,4(4):297-9.

[3]Slim K,Nini E,Forestier D,et al. Methodological index for nonrandomized studies(minors):development and validation of a new instrument[J]. ANZ J Surg,2003,73(9):712-6.

[4]Reisch JS,Tyson JE,Mize SG. Aid to the evaluation of therapeutic studies[J]. Pediatrics,1989,84(5):815-27.

[5]Des Jarlais DC,Lyles C,Crepaz N,TREND Group. Improving the reporting quality of nonrandomized evaluations of behavioral and public health interventions:the TREND statement[J]. Am J Public Health,2004,94(3):361-6.

[6]Whiting P,Rutjes AW,Reitsma JB,et al. The development of QUADAS:a tool for the quality assessment of studies of diagnostic accuracy included in systematic reviews[J]. BMC Med Res Methodol,2003,3:25.

[7]Whiting P,Rutjes AW,Dinnes J,et al. Development and validation of methods for assessing the quality of diagnostic accuracy studies[J].Health Technol Assess,2004,8(25):iii,1-234.

[8]Higgins JPT,Green S. Cochrane Handbook for Systematic Reviews of Interventions Version 5.1.0 [updated March 2011]. The Cochrane Collaboration,2011[J]. http://www.cochrane-handbook.org.

[9]Deeks JJ,Bossuyt PM,Gatsonis C. Cochrane Handbook for Systematic Reviews of Diagnostic Test Accuracy Version 1.0.0. The Cochrane Collaboration,2009[J]. http://srdta.cochrane.org.

[10]CASP(Critical Skills Appraisal Programme)[EB/OL]. [2012-10-01].http://www.casp-uk.net/wp-content/uploads/2011/11/CASP_Diagno stic_Appraisal_Checklist_14oct10.pdf.

[11]Bossuyt PM,Reitsma JB,Bruns DE,et al. The STARD statement for reporting studies of diagnostic accuracy: explanation and elaboration[J]. Ann Intern Med,2003,138(1):W1-12.

[12]Stroke therapy academic industry roundtable(Fisher M,Chair).Recommendations for standards regarding preclinical neuroprotective and restorative drug development [J]. Stroke,1999,30(12):2752-8.

[13]Fisher M,Feuerstein G,Howells DW,et al. Update of the stroke therapy academic industry roundtable preclinical recommendations[J]. Stroke,2009, 40(6):2244-50.

[14]Macleod MR,O'Collins T,Howells DW,et al. Pooling of animal experimental data reveals influence of study design and publication bias [J]. Stroke,2004,35(5):1203-8.

[15]Crossley NA,Sena E,Goehler J,et al. Empirical evidence of bias in the design of experimental stroke studies: a metaepidemiologic approach[J]. Stroke,2008,39(3):929-34.

[16]Kilkenny C,Browne WJ,Cuthill IC,et al. Improving bioscience research reporting:the ARRIVE guidelines for reporting animal research [J]. PLoS Biol,2010,8(6):e1000412.

[17]Schulz KF,Altman DG,Moher D,et al. CONSORT 2010 statement:updated guidelines for reporting parallel group randomised trials [J].Int J Surg,2011,9(8):672-7.

[18]Britton A,McKee M,Black N,et al. Choosing between randomised and non-randomised studies:a systematic review [J]. Health Technol Assess,1998,2(13):i-iv,1-124.

[19]Battaglia M,Bucher H,Egger M,et al. The Bayes Library of Diagnostic Studies and Reviews [M]. 2ndedition,2002.