系统评价方法学质量评价工具AMSTAR 2解读

2018-03-06张方圆沈傲梅曾宪涛强万敏靳英辉

中国循证心血管医学杂志 2018年1期

张方圆，沈傲梅，曾宪涛，强万敏，靳英辉

高质量的系统评价是医疗决策的重要依据，对系统评价进行质量评价尤为重要。来自荷兰、加拿大研究机构的临床流行病学、循证医学专家于2007年制定并发表了系统评价方法学质量评价工具AMSTAR（A Measure Tool to Assess Systematic Reviews）[1]，在随后的10年间，AMSTAR成为国际认可，应用最为广泛的评价工具[2-6]。随后大量应用AMSTAR工具的相关文献出现，研究显示AMSTAR的使用对规范系统评价制作与报告，促进高级别证据的产生和传播起到了积极的促进作用。2010年国内学者对AMSTAR进行了翻译和解读，将其正式引入国内[7]。在AMSTAR的使用过程中有研究者指出其存在一些问题，如有些条目较难理解或解释不清、评价选项不合适等，从而影响了评价结果的准确性[8-12]。2017年，由原研发小组专家成员联合非随机干预研究领域专家、医学统计学家、工具评价制定方法学家，在综合相关评论性文章、网站反馈意见和自身实践经验的基础上，对AMSTAR进行修订和更新，并在2017年9月推出AMSTAR 2[13]，其英文版可从http://amstar.ca/docs/AMSTAR-2.pdf上免费获取。本文旨在对AMSTAR 2进行解读，以期为研究者更清晰地理解和更科学地使用AMSTAR 2提供参考。

1 AMSTAR 2基本情况

1.1 AMSTAR 2适应范围 AMSTAR 2的适应范围包括基于随机对照研究（RCTs）或非随机干预研究（NRSI）或两者都有的系统评价。但不包括诊断性试验系统评价、网状meta分析、单个病例数据的meta分析、概况性评价和现实主义评价。

1.2 AMSTAR 2条目所做更改与AMSTAR相比，AMSTAR 2保留了原来的十项内容，但做了相应文字的修改，增加了四项新的内容分别是“研究问题和纳入标准是否遵循了PICO原则？”，“是否在纳入标准中对研究类型的选择进行了说明？”，“meta分析时是否评估了纳入研究的偏倚风险对meta分析结果或其它证据综合结果可能产生的影响？”，“是否对研究结果的异质性进行了合理的解释和讨论？”。其中有关异质性的条目在AMSTAR中是作为解释说明的内容放在条目9“合成纳入研究结果的方法是否恰当？”中的。原评价中的“是否说明相关利益冲突？”拆分为两个。

1.3 AMSTAR 2评价选项 AMSTAR 2在第一版的基础上删除了“不清楚”和“不适应”评价选项，并且根据评价标准的满足程度评价为“是”、“部分是”和“否”；完全满足评价标准时，评价为“是”；部分满足标准时，评价为“部分是”；当系统评价中没有报告相关信息时，评价为“否”。各条目评价选项具体的更改情况见表1。

1.4 AMSTAR 2评分原则 AMSTAR 2并不是根据每个条目的评价结果提供一个总分，因为高得分可能会掩盖一些非常严重的方法学缺陷，如系统评价中存在文献检索不全面或没有对纳入的研究进行偏倚风险评估。因此，AMSTAR 2研发团队推荐重点考虑关键的条目是否存在方法学缺陷，并据此评价系统评价的总体质量即对总的评价结果进行“信心（Overall Confidence）”分级，见表2。尽管系统评价的每个步骤都非常重要，AMSTAR 2研究团队遴选出影响系统评价制作及其结果效度关键的7个条目，分别为条目2、4、7、9、11、13和15。需要注意的是，关键条目的选取可以根据特定的情况进行调整。

2 AMSTAR 2条目解读

条目1指出研究问题和纳入标准应遵循PICO原则。研究者需在系统评价中明确具体的PICO，确保评价者能够判断纳入的研究是否合理及是否存在异质性，也有助于判断研究结果的适用性，必要时补充随访期限。评价者需从摘要、引言、方法学部分提取PICO信息。

条目2要求研究者在系统评价中详细说明具有前期设计方案，当与计划书出现偏离时，要进行报告和解释。制作系统评价前制定详尽的研究计划书非常必要，遵循计划书能够降低系统评价制作过程中的偏倚风险。研究者可通过注册（如PROSPERO、Cochrane协作网）、公开发表（如BMJ Open）、提交科研办公室或伦理委员会对计划书进行审核。当能够获取计划书时，评价者还应将系统评价与计划书进行对比，当全文内容与计划书存在不一致时，作者应进行说明和解释。

条目3强调在纳入标准中需要对研究类型的选择进行说明。系统评价中对纳入研究类型的选择应该谨慎。仅纳入RCT时，需要考虑是否会导致纳入的研究不够全面，如当没有相关的RCT存在、纳入的RCT缺少不良反应等不利结局指标、统计效能不足、RCT纳入人群存在局限性、干预/对照措施缺乏代表性；出现以上情况时，为了对研究问题的文献基础获得更全面的总结，可以同时纳入RCTs和NRSI。当RCT不能提供必须的结果数据时，或已制作完成RCT部分的系统评价时可以仅纳入NRSI。无论纳入或排除NRSI，作者都应予以说明。当同时纳入RCT和NRSI时，进行定量合成则应该按照研究设计的不同分别进行。

条目4要求研究者采用系统的检索策略。至少应检索两种电子数据库，检索报告应该包括年份及数据库，如Central、EMBASE和MEDLINE等，及采用的关键词和/或主题词和全部的检索策略。还应通过检索综述、专业注册库，咨询特定领域的专家以及检索纳入研究的参考文献进行补充。应检索所有相关语种的文献，当有语种限制时应进行说明。灰色文献在政策报告或项目评价方面有时是非常重要的资源，需要检索灰色文献时，应检索试验注册库、会议摘要、学位论文以及个人网站上未发表的报告等资源。

条目5要求文献的筛选具有可重复性。文献的筛选流程包括根据题目和摘要进行初筛，再通过阅读全文确定纳入的文献。要求至少应有两名评价者独立进行文献的筛选，意见不统一时，应通过共识过程达成一致。如果一名评价者负责文献筛选时，要求其与另一名评价者先选取文献样本，从中筛选符合纳入标准的文献且取得良好的一致性，kappa相关系数应达到80%或以上。

条目6要求数据的提取具有可重复性。同样要求至少有两名评价者独立进行数据提取，基本要求与条目5类似。

条目7要求研究者提供排除文献清单并说明排除的原因。排除文献的原因有很多，包括研究人群、干预措施或对照组与研究问题不相符或不相关。研究者需要提供潜在相关又不符合纳入标准的文献清单，并标注排除文献的原因。需要注意的是不应该根据偏倚风险排除文献。

条目8强调应对纳入的研究进行详细的描述。应详细描述纳入研究的研究对象、干预措施、结局指标、研究类型和研究场所等信息。这些信息有助于评价者根据PICO原则判断纳入的研究是否恰当，也有助于评价者根据研究对象和干预措施判断该系统评价是否与自身的实践或政策制定相关。此外，这些信息也有助于判断研究间是否存在临床异质性。

条目9指出应采用合适的评价工具对纳入研究的偏倚风险进行评估。这是系统评价方法学质量评价过程中至关重要的一个步骤，尤其是当纳入NRSI时。评价者需要分析系统评价的作者是否合理的评估了纳入研究在避免、减小或控制基线的混杂、选择性偏倚、实施偏倚、测量偏倚、不完整报道数据及选择性报告结果等方面所做的工作。推荐使用Cochrane handbook相关工具，RoB for RCT（http://training.cochrane.org/handbook）和ROBINS-I[14]。第二版RCT偏倚风险评估工具也已经发布，将来AMSTAR 2也会推荐应用。纳入研

究的作者可能采用不同的评价工具进行纳入研究的方法学评价，系统评价者需考虑所用工具是否可以全面评价原始研究的方法学质量，有无需要补充的评价项目。评价者仍需注意，评价工具里提到的偏倚是最常见的几种，深入的评价所有可能的偏倚来源需要相关方法学专家的介入。

表1 AMSTAR 2评价清单

条目描述及评价标准评价选项1 1 作m e t a分析时，系统评价作者是否采用了合适的统计方法合并研究结果？R C T s：“是”：□作m e t a分析时，说明合并数据的理由□是□且采用合适的加权方法合并研究结果；当存在异质性时予以调整 □否□且对异质性的原因进行分析 □未进行m e t a分析N R S I：“是”：□作m e t a分析时，说明了合并数据的理由□是□且采用合适的加权方法合并研究结果；当存在异质性时予以调整 □否□且将混杂因素调整后再合并N R S I的效应估计，并非合并原始数据；当调整效应估计未被提供时，需说明原始数据合并的理由□未进行m e t a分析□且当纳入R C T s和N R S I时，需分别报告R C T s合并效应估计和N R S I合并效应估计1 2 作m e t a分析时，系统评价作者是否评估了每个纳入研究的偏倚风险对m e t a分析结果或其它证据综合结果潜在的影响？“是”：□是□仅纳入偏倚风险低的R C T s □否□或当合并效应估计是基于不同等级偏倚风险的R C T s和/或N R S I研究时，应分析偏倚风险对总效应估计可能产生的影响□未进行m e t a分析1 3 系统评价作者解释或讨论每个研究结果时是否考虑纳入研究的偏倚风险？“是”：□仅纳入偏倚风险低的R C T s □是□或R C T s存在中度或重度偏倚风险或纳入非随机研究时，讨论偏倚风险对研究结果可能产生的影响 □否1 4 系统评价作者是否对研究结果的任何异质性进行合理的解释和讨论？“是”：□研究结果不存在有统计学意义的异质性□是□或存在异质性时，分析其来源并讨论其对研究结果的影响 □否1 5 如果系统评价作者进行定量合并，是否对发表偏倚（小样本研究偏倚）进行充分的调查，并讨论其对结果可能的影响？“是”： □是□采用图表检验或统计学检验评估发表偏倚，并讨论发表偏倚存在的可能性及其影响的严重程度 □否□未进行m e t a分析1 6 系统评价作者是否报告了所有潜在利益冲突的来源，包括所接受的任何用于制作系统评价的资助？“是”：□是□报告不存在任何利益冲突，或描述资助的来源以及如何处理潜在的利益冲突 □否

表2 系统评价质量4个等级的含义

条目10要求研究者报告纳入研究的资助来源。商业资助的研究项目更易出现倾向资助方产品的结果。研究者需要报告纳入研究的资助来源或描述纳入研究没有报告资助来源的情况，进而根据资助来源情况对纳入研究的结果进行分析。

条目11强调进行meta分析时，研究者应采用合适的统计方法合并研究结果。在制定系统评价计划书时，研究者就应该详细的陈述其进行meta分析时遵循的原则，包括获取单一效应量（如纳入研究具有同质性，但效能低下时），以及根据异质性的大小判断是否进行数据合并。对RCTs进行meta分析时，需解释采用随机效应模型或固定效应模型的原因，及异质性分析的方法。研究者需根据研究的类型对合并效应量分别进行报告，如合并了RCT和NRSI，合并效应量倾向于样本量大的研究，NRSI的样本量可能会较大，但NRSI的偏倚也常常高于RCT，NRSI的纳入也会带来异质性的增加。且合并了RCT和NRSI的研究，其合并效应量通常也比较精确，因为在进行置信区间计算时是默认无偏倚的，而实则NRSI可能存在较大偏倚，故对纳入NRSI的置信区间的解释应谨慎。对NRSI研究结果进行合并时，需对调整效应量而不是原始数据进行统计合并；此外，当调整效应量不可行时，需验证原始数据合并的合理性。

条目12要求研究者进行meta分析时，需要评估纳入研究的偏倚风险对meta分析结果或其它证据综合结果可能产生的影响。仅纳入高质量的RCTs时，偏倚风险对结果的影响较小；当纳入的RCTs质量参差不齐时，需要采用回归分析评估其对研究结果的影响，或者仅对低偏倚风险的研究结果进行效应量合并。对纳入的NRSI，应估计低度或中度偏倚风险和/或仅估计低偏倚风险研究的合并效应量。进行定性分析时，同样需要讨论偏倚风险对单个研究结果可能产生的影响。

条目13指出对研究结果进行解释或讨论时需要考虑纳入研究的偏倚风险。即便是没有进行meta分析也需要在结果分析时对偏倚风险的影响进行讨论，尤其是纳入的研究质量高低不同，或纳入了NRSI时。既要讨论RoB对合并效应量的影响，也要讨论和解释是否RoB的不同是纳入研究不同效应量的原因。当制定可能会改变临床照护或政策的推荐意见时，一定要对纳入研究的偏倚风险进行充分考虑。

条目14要求研究者对研究结果的异质性进行合理的解释和讨论。异质性的来源很多，包括研究设计、分析方法、人群和干预强度等方面的差异，需根据PICO原则及偏倚的来源进行分析。研究者需要验证异质性存在的可能性，以及就异质性对研究结论和推荐意见产生的影响进行讨论。

条目15指出研究者进行定量分析时，应对发表偏倚进行合理的分析，并讨论其对结果可能产生的影响。可以采用统计学检验或图表辅助评估是否存在发表偏倚，但其敏感性不高，阴性结果同样可能存在发表偏倚。某种程度上来说，发表偏倚的严重程度取决于研究的背景，如医药公司资助的研究更可能受到发表偏倚的影响。因此，研究者需要开展更深层次、更全面的文献检索，在结果分析和讨论部分需要考虑发表偏倚的影响，并进行敏感性分析。

条目16强调对所有潜在利益冲突来源进行报告，包括在制作系统评价过程中所接受的任何资助。医药公司资助的系统评价较无资助的研究，得出干预有效的可能性更高，研究者需报告系统评价制作的直接资助来源；即便未接受资助，若研究者与系统评价中涉及产品的公司存在关系时，也应进行报告。此外，研究者专业利益冲突也应给予重视，尤其是当研究者在该领域发表了大量原始研究且被纳入到系统评价的制作中时。

3 小结

AMSTAR 2是在第一版的基础上，综合多方的意见，经过严格的修订程序而形成的。与第一版相比，AMSTAR 2细化了各条目的评价标准，完善了评价选项，并提供了系统评价质量等级的评价标准。此外，AMSTAR 2还纳入了评价NRSI的内容，丰富了评价工具的适用范围。经研发小组验证，AMSTAR 2具有较好的评价者间一致性和实用性，是一种值得推荐的系统评价方法学质量评价工具。但是，关于AMSTAR 2的信效度还有待进一步的验证。作为新发布的评价工具，还需要时间和实践去不断完善，希望大家在使用过程中能够提出宝贵的意见。

致谢：感谢武汉大学循证与转化医学中心郭毅教授在本文翻译过程中给予的校订与建议。

[1]Shea BJ,Grimshaw JM,Wells GA,et al. Development of AMSTAR: a measurement tool to assess the methodological quality of systematic reviews[J]. BMC Med Res Methodol,2007,7:10.

[2]Pussegoda K,Turner L,Garritty C,et al. Systematic review adherence to methodological or reporting quality[J]. Systematic Reviews,2017,6(1):131.

[3]Seo H,Kim KU. Quality assessment of systematic reviews or metaanalyses of nursing interventions conducted by Korean reviewers[J].BMC Med Res Methodol, 2012,12(1):129.

[4]Lichtner V,Dowding D,Esterhuizen P,et al. Pain assessment for people with dementia:a systematic review of systematic reviews of pain assessment tools[J]. BMC Geriatr,2014,14:138.

[5]Zeng X,Zhang Y,Kwong JSW,et al. The methodological quality assessment tools for preclinical and clinical studies, systematic review and meta-analysis, and clinical practice guideline:a systematic review[J]. Journal of evidence-based medicine,2015,8(1):2.

[6]Jin YH,Wang GH,Sun YR,et al. A critical appraisal of the methodology and quality of evidence of systematic reviews and meta-analyses of traditional Chinese medical nursing interventions:a systematic review of reviews[J]. Bmj Open,2016,6(11):e011514.

[7]熊俊,陈日新. 系统评价/Meta分析方法学质量的评价工具AMSTAR[J]. 中国循证医学杂志,2011(09):1084-9.

[8]Faggion CM. Critical appraisal of AMSTAR:challenges,limitations,and potential solutions from the perspective of an assessor[J]. BMC Medical Research Methodology,2015,15(1):63.

[9]Wegewitz U,Weikert B,Fishta A,et al. Resuming the discussion of AMSTAR:What can (should) be made better?[J]. BMC Medical Research Methodology,2016,16(1):111.

[10]Pieper D,Mathes T,Eikermann M. Can AMSTAR also be applied to systematic reviews of non-randomized studies?[J]. BMC Res Notes,2014,7:609.

[11]Burda BU,Holmer HK,Norris SL. Limitations of A Measurement Tool to Assess Systematic Reviews (AMSTAR) and suggestions for improvement[J]. Systematic Reviews,2016,5(1):58.

[12]Kung J,Chiappelli F,Cajulis OO,et al. From Systematic Reviews to Clinical Recommendations for Evidence-Based Health Care:Validation of Revised Assessment of Multiple Systematic Reviews(R-AMSTAR) for Grading of Clinical Relevance[J]. Open Dent J,2010,4:84-91.

[13]Shea BJ,Reeves BC,Wells G,et al. AMSTAR 2:a critical appraisal tool for systematic reviews that include randomised or non-randomised studies of healthcare interventions,or both[J]. BMJ,2017:j4008.

[14]Sterne JA,Hernan MA,Reeves BC,et al. ROBINS-I:a tool for assessing risk of bias in non-randomised studies of interventions[J].BMJ,2016,355:i4919.