系统评价与Meta分析再评价方法的更新及展望

2018-11-09倪萍时景璞

中国循证心血管医学杂志 2018年10期

倪萍，时景璞

系统评价与Meta分析是循证医学中重要的研究方法，也是最佳证据的重要来源，其结果可用于评价临床疗效、制定临床指南及规范[1]。但是只有高质量的系统评价与Meta分析才能为临床医务工作者、患者及决策者等提供科学的证据支持，因此进行有效的质量评价是正确使用系统评价及Meta分析，以及谨慎对待其研究结果的重要环节[2]。传统评价方法主要从真实性、重要性、适用性角度来评价。目前国内外最常用的Meta分析方法学质量评价工具为2007年发表的AMSTAR量表[3,4]，2017年9月发布了其更新版本AMSTAR2评价工具[5]，增加了对非随机对照研究的评价等四个方面的内容，改变了评价方式等。此外，在过去的系统评价及Meta分析中忽略了对临床实用性的关注，缺少对干预措施的详细描述，他人无法利用这些干预措施[6]。针对这一问题，专家组提出了“系统评价及Meta分析设计、实施以及结果报告过程中改进干预信息的推荐意见”。

本文主要介绍AMSTAR评价工具这一常用的质量评价工具及AMSTAR 2评价工具中的更新及变化之处[4,5]，并介绍干预措施详细报告的推荐意见[7,8]。

1 AMSTAR评价工具

AMSTAR（A Measurement Tool to Assess Systematic Review）评价工具于2007年正式发布[4]，包括有11个条目，从文献检索、偏倚及统计分析评估等方面对系统评价及Meta分析进行综合评价。AMSTAR评价工具的具体内容见表1 。在每个条目下有“是”、“否”、“不能回答”及“不适用”四个选项，选择“是”得1分并计算总分用以评价系统评价及Meta分析的质量[9]。得分越高则认为系统评价及Meta分析的质量越好。 0～4分认为是低质量，5～8分认为是中等质量，9～11分认为是高质量[10]。

AMSTAR评价工具是一个值得推荐使用的评价工具，它不仅继承了早期开发出的具有代表性测量工具的优点，而且还吸收了方法学研究领域的实证性证据，通过执行严格的编制和考验程序而形成的[2]。对AMSTAR评价工具的进一步研究应关注其重现性及结构效度，在确定和量化发表偏倚上有待提高[4]。

表1 AMSTAR评价工具的质量评价清单

2 AMSTAR 2评价工具的变化

随着AMSTAR评价工具的广泛应用，发现其存在有不足之处，表现在评价内容及应用范围上有局限性，评价方法不够科学。AMSTRA评价工具一个主要的缺点是其严重依赖报告质量和偏倚风险而不是方法学质量；评价范围局限于随机对照试验的系统综述与Meta分析；由于各要素的重要程度不同，计算总分的评价方式可能会掩盖重要的优势或劣势等[11-13]。由原始作者及各方面专家组成的专家组于加拿大渥太华举行为期一天的会议，综合相关评论性文献、使用者调查结果、AMSTAR评价工具网站的反馈等结果，并发布对原始版本的评论。专家组采用名义群体技术（nominal group technique，NGT）确定将要修改的条目并就草案达成一致，由一个亚组改进条目措辞，并形成文书草案进行测试，经过小组成员测试及2015年、2016年在Cochrane学术讨论会研讨，进一步修改反馈意见重新起草文书。AMSTAR 2评价工具于2017年9月正式发布[5]。

AMSTAR 2评价工具将原来的11条改为了16条，保留原始版本中的十个方面，增加了4个方面的内容。其中两个新增加的条目直接来自于Cochrane偏倚风险评估工具（ROBINS-I）[14]，即“对PICO各要素的阐述”，以及“在证据合成过程中处理偏倚风险的方式”。另一个是增加“对异质性产生的可能原因的讨论”，这是对原始AMSTAR评价工具中内容的精化。还有一个新增加的条目是“对纳入研究设计类型的解释”，这是AMSTAR 2评价工具可以适应非随机设计研究的部分。此外原始版本中“纳入研究的选择和数据提取的是否具有可重复性？”条目在新版本中分为“研究筛选的可重复性”和“数据提取的可重复性”两个条目分别评价。原始版本中“利益冲突”评价条目在新版本中分为“纳入研究的资金来源”以及“系统评价与Meta分析的资金来源”两个条目分别评价。此外将原始版本中单独的对不同类型文献的检索合并在是否使用了全面文献检索策略条目中综合评价，简化了条目但评价内容不变。AMSTAR 2评价工具的具体条目及简要说明见表2。

AMSTAR 2评价工具的评价方法也发生了改变。在AMSTAR 2评价工具中每个问题只有一个“Yes”选项来表示积极的结果，部分条目提供了“Partial Yes”，认为是部分遵守标准，去掉了原始版本中 “不适用”和“不能回答”的选项。在原始版本中，通过计算总分来评价系统评价与Meta分析的质量。其他质量评价工具如OQAQ（overview quality assessment questionnaire）量表，涉及9个方面共10个条目，前9个条目采用定性的方式进行评估，第十个条目是根据前9个条目对整个文献质量进行1～7分打分[15,16]；《PRISMA声明》（Preferred Reporting Items for Systematic Reviews and Meta-Analyses）则是为作者报告系统评价/Meta分析提供了结构化的指导[17]。而AMSTAR 2评价工具不再计算总体分数，而是以基于关键条目（条目2、4、7、9、11、13和15或根据情况适当调整）来划分的“信心”分级的形式做出总体质量评价。新的评价方式避免了可能由高分掩盖的关键弱点，如文献检索不充分，或者纳入未能评估偏倚风险（risk of bias，ROB）的个体研究。而总体评价重要的是要考虑关键领域的缺陷[5]。

3 对研究中干预措施的描述

在临床研究中，干预措施是很重要的一部分，如果没有对干预措施的完整报告，医务人员和患者就无法可靠地实施这些有用的干预，科研人员也无法复制或建立研究结果。为了规范研究中对干预措施的报告，提高干预描述的完整性，实现干预的可重复性，2013年组成了国际专家小组于牛津大学召开为期两天的会议，采用调整的德尔菲法制定出干预描述和复制模板（Template of Intervention Description and Replication，TIDieR）清单和指南，于2014年正式发表[7]。TIDieR是对CONSORT 2010和SPIRIT 2013的扩展，有助于作者对干预措施的记录，评论者及编辑对干预的评估以及读者对信息的利用。该清单包括12项内容，具体内容及简要说明如下：

（1）简要名称：给出干预的准确名称或简要描述有利于识别干预的类型，促进与其他相同干预报道的联系。

（2）理由：介绍干预的理论基础、目标及干预的组成部分有助于读者了解哪些干预要素是必要的。

表2 AMSTAR 2评价工具质量评价清单及简要说明

（3）材料：一个完整的干预描述应包括所涉及的物理或信息相关材料，这些材料与干预成分同样重要。

（4）过程：对干预实施的具体过程进行描述，包括干预过程、活动及程序进行描述，还包括干预可能需要的额外支持活动。

（5）实施者：介绍参与干预实施人员的基本特点，包括实施者的数量、学科背景、涉及到的专业技能、是否需要特定的培训等信息。干预实施者的差异可能会对干预的效果产生影响。

（6）干预方式：介绍干预实施方式，如面对面、电话或互联网等形式，受试对象是单独接受干预还是以小组的形式接受干预，并介绍小组的组成大小，此外还包括其他可能影响干预效果的干预特征。

（7）地点：介绍干预实施的地点，受试者是被召集在一起或是在家、医院等指定地点，以及这些地点的特点、状况及需要的仪器设备。这些信息可能会影响干预的可行性和受试者的依从性。

（8）时间及剂量：描述干预的次数、间隔时间及强度或剂量。特别是药物干预试验及多阶段干预试验等，时间安排非常重要。

（9）定制干预：在量身定制的干预中，不是所有的受试者都接受相同的干预，因此，应该提供一个简短的理论依据和指导。

（10）修改：如果在干预研究过程中干预发生了调整，则需对干预的修改进行描述，这样可以帮助重复干预者避免发生不必要的错误。

（11）计划情况：描述对干预依从性及保真度的评估，及是否有保证或提高干预真实性的措施。

（12）实施情况：如果评估了干预的依从性及保真度，那么要描述干预按照计划实施的程度。

TIDieR中所定义的干预不只局限于干预组，对照组及联合干预的描述也是同样重要的，应作相同的描述。作者不仅要介绍不同组别的干预，还要介绍干预的合理变化。在论文中，基于TIDieR报告干预时，无需分条叙述，可以将几个条目用一句话合并描述。此外，由于期刊版面及文章长度的限制，在文章中对干预的详细描述可能会被排除，那么这些信息可以在文章以外，以附件链接的形式在网站上发表或是公布其研究方案[7]。

TIDieR可以便于作者结构化报告干预措施，审稿人和编辑评估干预措施的描述，读者利用信息。同时作者可以在系统评价中以TIDieR为指导描述干预措施。在提交随机试验报告时建议时将TIDieR与CONSORT清单结合使用，即在完成CONSORT清单的第5项时，插入“参考TIDieR清单”并提供单独完整的TIDieR清单。同样，提交试验方案在处理SPIRIT 2013检查清单第11项时可参考TIDieR清单。有一点不同之处在于TIDieR项目10和12在研究完成之前无法完成，故不适用于方案中的干预报告[7]。

除规范原始研究中对干预措施的描述外，系统评价与Meta分析作为医务人员更常用的指导工具，也应完整报告干预措施。而目前的系统评价与Meta分析中缺少对于干预细节的描述，使他人无法重复使用干预措施。因此系统评价与Meta分析作者对干预措施细节的全面描述可能有助于减少卫生研究中可避免的浪费，增加系统评价与Meta分析的临床使用价值。

就这一问题，2016年9月，由各方面专家组成专家组于牛津大学举行会议，基于TIDieR清单和指南，针对系统评价与Meta分析的特点，讨论形成了“系统评价与Meta分析设计、实施以及结果报告过程中改进干预信息的推荐意见”，并于2017年正式发表。该意见从系统评价与Meta分析的设计、实施及结果报告的三个方面对干预措施的考虑及报告提出八点建议[8]。

（1）在设计阶段：①问题构建时根据TIDieR条目来确定将要在系统评价与Meta分析中将要回答的重要干预细节，包括：干预的时间、剂量、干预方式及有效成分等。②在系统评价与Meta分析研究设计方案中要认真考虑并描述有关干预措施的主要有效成分及基本特征，包括：背景、目的、合格标准、排除标准、缺失信息、统计分析等。

（2）在实施阶段：①在提取数据阶段，作者应以TIDieR条目为指导从每一个纳入研究中提取干预措施的具体细节。②若原文献中缺少对干预措施的描述，应向原作者寻求干预措施细节。③在进行统计分析、亚组分析及异质性探索时，充足的干预措施信息也是十分重要的。

（3）结果报告阶段：①基于TIDieR条目，将每项研究的干预措施细节以汇总表的形式报告出来。②如果可以收集到其他相关干预材料，应在被允许的情况下在系统评价与Meta分析的干预汇总表中共享。这些资料是影响干预效果的重要因素，但是通常都缺少对他们的描述。③系统评价与Meta分析的作者应对未来研究的影响进行描述。在汇总中提示了在目前研究中存在着重要差距，如没有或少有使用某一特定成分、剂量及干预方式等，则应在系统评价与Meta分析中指出其为未来研究的部分。此外，如果分析表明干预措施的某些特征或组成部分与（或不与）效果显著相关，这也可以为未来的研究提供信息。

4 展望

系统评价与Meta分析是产生最佳证据的重要手段，是临床指南形成的重要依据，是临床医务工作者做出临床决策不可或缺的重要资源。因此，对系统评价与Meta分析研究的质量评价必须引起高度的重视，不可以随意发表，更不能盲目应用，应谨慎对待，并及时跟进研究的发展变化。

1999年发布了系统评价与Meta分析的报告指南《QUOROM声明》（Quality of Report of Metaanalyses），系统评价与Meta分析的报告质量有所提高，但仍不够理想。2009年，又发布了《PRISMA声明》用于医疗保健干预的系统评价与Meta分析的报告。作者可以使用这些规范来报告系统评价与Meta分析。对于系统评价与Meta分析质量的评价，二十几年来国际上发表了多种评价工具。1991年，发表的OQAQ用于评价方法学质量；到2007年AMSTAR评价工具发表，关注实施过程的质量，从真实性、重要性、适用性角度来评价，对系统评价与Meta分析的质量进行更加全面的评估，成为最常用的工具。随着系统评价与Meta分析的不断发展，在使用过程中不断发现其存在的缺陷，2017年对AMSTAR评价工具进行了更新增加了对非随机对照研究的评价等内容，改变了评价方式。2017年又有专家从实用性角度对系统评价与Meta分析提出了新的指导意见，在系统评价与Meta分析中规范干预措施细节的全面描述。这些都充分说明，系统评价与Meta分析的评价工具一直在发展变化之中。

自2007年AMSTAR评价工具发表以后，系统评价与Meta分析的质量有了明显的提高，但仍存在不同程度的问题。如在方法学及报告的质量上依然存在缺陷；目前还缺少对诊断试验Meta分析、网络Meta分析及单病例数据系统评价的质量评价；中文系统评价与Meta分析质量低于英文[18]等。因此，系统评价与Meta分析的研究者应提高对系统评价与Meta分析重要性的认识，明确研究和报告的规范性，应用者可以根据质量评价的条目从设计、实施到报告的整个过程进行评价使用。这样会不断提高系统评价与Meta分析的研究质量。

随着循证医学的不断深入发展，人们会越来越重视系统评价与Meta分析研究，针对系统评价与Meta分析的再评价工具和新的评价内容也可能会发生变化，也许未来会设计出更加全面完整的指南用以指导系统评价与Meta分析的制作。

5 小结

作为循证医学的最高等级证据，系统评价和Meta分析的结果更可能影响到指南的制定和临床决策的产生，已经成为指导医务工作提供的重要工具，高质量的系统评价与Meta分析有助于提高医疗水平。AMSTAR评价工具自2007年发布以来，作为最常用的评价工具存在着许多不足之处。2017年更新版本AMSTAR 2评价工具增加了对非随机对照研究的评价等内容，调整了部分条目结构，改变的评价方式，有效弥补了原始版本中存在的缺陷，使评价更为科学合理。然而，目前对系统评价与Meta分析质量的评价依旧局限于文献检索、质量评价、偏倚风险以及统计分析方面的评价。而研究中对干预详细的描述是影响试验的可重复性及临床使用价值的重要因素。全面的干预描述有助于临床工作者、科研人员等对干预的重复试验及深入的研究，可有效避免研究资源的浪费。因此，将对干预描述的质量也纳入到对系统评价与Meta分析质量评价中可以使质量评价更加完善，提高系统评价与Meta分析的应用实用价值。随着循证医学的不断发展，针对系统评价与Meta分析的再评价工具和新的评价内容也可能会发生变化。