证据合成领域下的综述类型

2024-03-13王浙吴才志赖鸿皓阮建华罗雅婷尤佳腾胡凯燕丁奉兴刘晨易少威杨莉娟李朝霞谢广妹马彬

医学新知 2024年2期

关键词：伞状综述证据

王浙，吴才志，赖鸿皓，阮建华，罗雅婷，尤佳腾，胡凯燕，丁奉兴，刘晨，易少威，杨莉娟，李朝霞，谢广妹，马彬

1.兰州大学基础医学院循证医学中心（兰州730000）

2.兰州大学第一临床医学院（兰州730000）

3.兰州大学公共卫生学院社会医学与卫生事业管理研究所（兰州730000）

4.兰州大学第二临床医学院（兰州730000）

5.兰州大学护理学院（兰州730000）

6.甘肃省第二人民医院科研与研究生科（兰州730000）

7.西北民族大学临床医学院（兰州730030）

8.甘肃省妇幼保健院第二生殖医学中心（兰州730050）

9.甘肃省中心医院第二生殖医学中心（兰州730050）

原始研究的开展应建立在对现有知识的综合和评价基础之上，这是所有学术研究的基石[1]。在原始研究正式开始之前，进行综述研究应该成为所有学者的优先任务，这也是综述研究出现时间几乎与学术起源一样长远的原因[1]。然而1990 年以前的综述文章，通常是不系统的，其定义更多地依赖于不同学科和领域的传统和习惯，并无统一或官方的标准，甚至缺乏正确的统计方法，导致这类文章往往存在着偏倚或错误的结论[2]。为了改变这一现状，证据合成（evidence synthesis）这一概念在1990 年被首次提出[3]。证据合成作为一种有效的方法，能够帮助研究者系统地搜集、评估和综合文献证据[4]。随着人们逐渐认识到证据合成这一研究方法的重要性，2001 年首届循证图书馆和信息实践会议上，与会专家对曾经概念模糊的综述进行了重新定义，即“重新审视、评估或分析”（To view, inspect, or examine a second time or again），该定义最大的优势是概括了目前存在的所有综述类型，包容范围较广，但也正是由于该定义的广泛性，造成了当前不同类型综述之间概念和使用方法的混淆，导致研究者难以选择最合适的方法来回答特定的研究问题[5]。如研究者试图探究类风湿关节炎患者发生心血管疾病的危险因素方面的证据时，若选择范围综述这一方法，其呈现内容则是对原始文献的主题、目标、结论等的概括，不涉及对文献质量的评价或结果的统计分析，这使得研究者难以从文献的可靠性和量性层面获得与心血管疾病相关的正确危险因素；再者，当研究者预探究类风湿关节炎患者发生心血管疾病的研究进展时，若选择系统评价这一方法，其呈现内容则是对有限文献（限定了PICOS 的原始研究）的综合分析，然而，这可能会忽略一些与问题无关但与研究主题相关的内容，如概念界定、研究现状等信息，继而导致不能全面地展示相关主题的研究现状和发展趋势。正如上述两个例子，综述类型的非精准使用不仅会导致证据合成的结果不够准确、全面和可靠，甚至有可能影响决策的质量和效果[6]。因此，国内外学者对各类综述的应用方法进行了不断地探索，旨在为选择与撰写不同综述时提供科学参考。其中Grant 等分别对14 种综述类型的定义、使用方法以及各类综述的优缺点进行了汇总[3]，但该研究为2009 年发布，其后新增许多新的综述类型如动态系统评价等并未纳入其中，且分类较为匮乏；而Sutton 则将综述分为7 大类，其下共包括48 种综述类型，综述分类更加全面[1]，但需要强调的是，该研究并未对不同综述类型的制作方法进行指导。

因此，为帮助研究者更好地了解不同类型综述研究方法的适用范围，并指导后续的科学撰写与规范报告。本文将在前人研究的基础上，对综述文献类型进行更新并重新归类，系统梳理证据合成领域下的各种综述类型起源、分类、定义和适用范围，并详细列出不同综述类型的实施步骤以及报告规范，以期为研究者在开展某种具体综述类型时提供清晰和明确的指导。

1 综述研究的分类

基于Sutton等的综述分类方法[1]，同时参考健康系统证据（health system evidence）、社会系统证据（social system evidence）等数据库收录的最新证据合成研究类型，本文将综述研究分为9 种不同的类型，即传统综述（traditional review）、混合性研究综述（mixed studies review）、系统评价（systematic review）、快速证据综合（rapid evidence synthesis）、证据图谱（evidence map）、伞状评价（umbrella review）、范围综述（scoping review）、元研究（Meta-research）及动态系统评价（living systematic review）（表1）。其中，就传统综述而言，主要包括叙述性综述、前沿性综述、批判性综述以及整合性综述；就快速证据综合而言，主要包括快速证据评估与快速现实主义综述；就系统评价而言，根据研究目的和数据类型又可分为不同的具体类型（图1）。

表1 各类综述的定义、适用范围及优缺点Table 1. Definition, scope of application and advantages and disadvantages of varias types of review

图1 综述的分类Figure 1. Classification of review

2 不同综述类型研究的起源与发展

如图2 所示，各类综述的出现经历了漫长的演变，并随着时代的需求而不断产生新的变化与分类，本研究将按照时间顺序对不同类型综述研究的起源与发展进行全面介绍。

图2 各类综述研究的起源时间轴Figure 2. Timeline of the origins of various review studies

2.1 传统综述

在所有研究正式开始之前，研究者将不可避免地对研究领域现有知识的理论以及进展进行了解，因此，传统综述出现时间几乎与学术起源一样长远[1]。此后，随着传统综述的发展，方法学专家为了满足研究者对不同研究内容与研究目的的需求，逐渐延伸出了各种综述类型，以弥补传统综述的不足。

2.2 混合性研究综述

混合性研究综述是另一种分类范式，其纳入了定量、定性和（或）混合方法设计的原始研究，以更全面地探索研究问题[7]。1959 年，Webb、Campbell 等发展了三角互证的概念，形成了多元操作主义，这标志着混合方法研究的正式出现[8]。然而，在此基础上形成和发展的混合性研究综述直到2014 年才被概念化[7]。此后，这种新兴的文献综述形式为复杂的公共卫生干预措施和项目提供了丰富而实用的证据。

2.3 系统评价

随着科学技术的进步，各个领域的研究成果日益增多，信息量呈指数级增长，单靠传统文献综述已经无法满足对海量信息进行正确的处理和分析[9]。因此，1976 年，Chalmers 等人提出了“系统评价”的概念[10]。但此时合成的文献主要以定量数据为主，为了在实践过程中为证据决策者提供更全面和实用性更强的信息，定性的系统评价应运而生。1996 年Dixon 等人应用扎根理论方法制作并发表了第一篇关于患病儿童父母体验研究的系统评价[11]。

2.4 快速证据综合与动态系统评价

传统系统评价虽然是循证医学的金标准，但其却具有耗时长、成本高等缺点[12]。为了快速适应当前信息爆炸和证据更新迅速的时代，快速证据综合与动态系统评价应运而生。1997 年Best 等人首次采用快速证据综合的方法开展了一项卫生技术评估项目[13]。此后，快速证据综合逐渐脱离卫生技术评估领域，常被用于各高层决策机构的决策过程中。而动态系统评价的概念则由Elliott在2014 年提出[14]，随后在2015 年，第一篇动态系统评价在JournalofNeurotrauma在线发表，目前已进行了5 次更新，累积纳入21 项新研究，促进了欧洲外伤性脑损伤流行病学数据的更新与整合[15]。

2.5 伞状评价

随着医疗卫生保健领域对系统评价需求的不断增加，其发表的文献数量也呈现出逐年增长的趋势，但其发表质量却面临着良莠不齐的困境，导致了同一研究主题下研究结论不尽相同甚至相反的混乱情境，给临床医生的医疗决策带来了极大困难[16]。因此，2000 年第8 届Cochrane 年会正式提出了有关伞状评价的概念，并首先对普通感冒的预防措施、精神分裂症的药物治疗和与戒烟有关的系统评价进行了再评价[17]，为该领域提供了更全面、更高质量、更具临床实用性的研究证据，极大推动了知识转化和证据的传播与应用。

2.6 证据图谱与范围综述

系统评价侧重于回答某一具体的科学问题，但当研究人员试图探索研究领域存在的差距以及更广泛的主题时，则不能很好的达到目的，由此，2000 年美国耶鲁大学预防研究中心发表了一种可靠且可重复的9 步骤审查模型，即证据图谱[18]。2005 年，Arksey 则首次提出范围综述的概念并给出了其基本研究框架[19]。此后，证据图谱与范围综述类文献发表数量逐渐增多，弥补了系统评价研究范围过小的不足，促进了不同领域证据缺口的发现以及概念的澄清。

2.7 元研究

元研究的目的是了解和改进不同领域执行、沟通、验证、评估和奖励研究的方式[20]，因此当研究者开始反思与改善研究过程时，元研究的历史就开始了。循证研究者亦在综述领域不断开展着元研究，如各种类型综述方法学与报告规范的制定，不同研究领域方法学或报告质量汇总的研究等。但元研究这一概念直至2015 年，才被Ioannidis 在其文献中首次定义，并在该研究中定义了元研究学科中应包含的内容[21]。

3 不同综述类型研究的定义、适用范围及优缺点

表1 总结了9 种不同综述研究类型的定义、适用范围以及优缺点。各类综述的定义都是基于已有文献的综合分析方法，但不同综述的应用范围和优缺点既有一致又存在一定差异，比如，系统评价与传统综述均可以对某一领域或专题的文献进行综合分析，但传统综述往往受限于专家个人的知识和信念，缺乏客观的方法，而系统评价则强调全面地收集、筛选、评价和合成相关文献。有必要根据不同综述类型的定义、适用范围及优缺点进行全面的介绍与对比，以帮助研究者根据自身的研究目的选择恰当的研究类型。

传统文献综述、范围综述以及证据图谱均可以提供当前领域的发展趋势并为未来研究提供方向，更适合描述范围宏大的主题，但这几种研究类型在发展趋势适用范围这一层面，仍存在细微的差别[22-24]。传统文献综述不限制发展趋势的描述时段，而范围综述与证据图谱则更强调现有证据差距，为未来研究提供方向。在优缺点方面，上述研究类型均可以帮助读者或政策制定者了解一个主题或领域的基本情况，但传统的文献综述则可能因为缺乏系统性和规范性的程序而导致结果存在偏倚或误差。

系统评价、伞状评价以及混合性研究综述，则适用于探究具体的研究问题，提高研究结果的可信度[8,25-26]。系统评价与伞状评价通过严格的方法学流程来提高结果的可靠性，但系统评价综合的是原始研究的结果，而伞状评价则更偏向在系统评价研究结果的基础上，得出更高纬度证据。混合性研究综述则是通过定量与定性结合的方法提高研究结果的可靠性。在优缺点层面，上述研究类型均在不同阶段或环节进行了结果的整合，而系统评价和伞状评价均对纳入的研究进行了严格的质量评估，混合性研究综述虽没有明确的评估流程，但其质性与量性结合的特点，弥补了单一方法的不足，提高了研究的广度和深度[8,25-26]。但上述研究类型均具有耗时长、技术要求高的缺点，且对于系统评价和伞状评价来说，其研究质量极大地受限于所纳入文献的质量、可获取性、一致性和完整性，而混合性研究综述则更可能存在数据整合的困难[8,25-26]。

对于快速证据综合以及动态系统评价而言，均可以在证据不足或不确定的领域中，为决策者提供初步的证据支持。但快速证据综合更适合紧急或突发情况下的应用，因此，可以减去更多系统化流程，而对于动态系统评价则更强调持续更新的证据支持，以提高证据的时效性和可用性[14,27]。因此在优缺点方面，快速证据综合虽然具有研究周期较短的优势，但其方法的标准化和透明化亦可能受到影响，而对研究结果产生偏倚。动态系统评价虽然具有减少重复发表、提高证据时效性等优势，但现有的期刊很少有适合动态系统评价发表的平台，且这种交予单一团队更新系统评价的趋势一旦形成，则会赋予此类团队或所发表期刊过多的权威性，而限制了更多有关该领域二次研究的讨论。

不同于其它综述类型，元研究的内容包括研究领域的方法、报告、可重复性、评估和奖励机制五个方面[20]。因此元研究具有提高研究透明度、可重复性和可信度等优势，但由于其批判性的特征，可能会受到较多的外部干扰，如发表压力、利益冲突等情况。

4 不同综述类型研究的制作流程与报告规范

根据研究目的选择恰当的综述研究类型后，研究者需根据不同的综述研究类型进行科学的制作及规范的报告。掌握科学正确的制作和报告方法，对于研究者而言可以帮助其有效地分析、整合和呈现综述的结果，避免偏倚或误导，提高综述的可靠性和透明度。表2 概括性地将不同综述类型研究的制作流程分为文献检索、文献评价、证据合成和证据分析四大部分，并提供相关的报告规范，以帮助读者更好地呈现综述内容。

表2 各类综述的制作流程及报告规范Table 2. The production process and reporting guidelines of various reviews

4.1 文献检索

在检索层面，除传统综述以及混合性研究综述外，其余综述类型均需制定系统的检索策略[8,22]。上述研究类型在检索最终纳入的文献层面，也存在差异，如传统综述不限制最终纳入的文献类型[22]，各类系统评价则要求纳入的研究为原始研究[28]，伞状评价要求纳入的研究类型为系统评价[29]，范围综述要求同时纳入原始研究和二次研究[24]，混合性研究综述和证据图谱则需要根据研究目的，选择纳入的研究类型[8,23]。

4.2 文献评价

传统综述、范围综述和证据图谱均不强制对纳入的文献进行质量评价[22-24]，而各类系统评价、伞状评价以及混合性研究综述，则需要根据纳入的文献类型，对文献的方法质量或偏倚风险进行评估[8,26,28]。

4.3 证据合成

传统综述、定性的系统评价以及快速证据综合多采用叙述的形式进行证据的合成[22,27-28]，而定量的系统评价、范围综述、证据图谱、动态系统评价、伞状评价多采用表格和图片的方式进行证据的合成，而混合性研究综述则不限制证据合成的方法。

4.4 证据分析

系统评价、伞状评价以及动态系统评价，均可从当前已知内容、对当前实践的建议以及对未来研究的建议层面进行分析，而快速证据综合由于具有在紧急突发情况中辅助决策的作用，因此仅需分析对当前实践的建议即可[27]。传统综述由于其广泛的适用范围，因此在分析时，应根据不同的研究目的进行描述。而证据图谱与范围综述均可从文献的数量分布以及与其他研究差距层面进行分析[8,23]。

需要强调的是，元研究的文献检索、文献评价、证据合成以及分析过程均需根据具体的研究内容进行。如，同为元研究类型的两篇文献，一项研究为手术干预系统评价注册和报告质量的元研究[30]，另一项为SYRCLE 对动物实验方法质量的影响[31]，其文献检索纳入的研究类型分别为系统评价和原始研究；评估标准依据分别为PRISMA 和SYRCLE；证据合成结果分别为图表和文字叙述；证据分析则均从当前已知内容、对当前实践的建议和对未来研究的建议层面陈述。

4.5 报告规范

当前已有一些综述类型的报告规范发布，如定量、定性的系统评价、范围综述、伞状评价和混合性研究综述等的报告规范，其中有些报告规范以传统的PRISMA 报告规范为模板进行了扩展，如范围综述的报告规范——PRISMA-ScR[32]、诊断性系统评价的报告规范——PRISMA for DTA[33]等。由于混合性研究的综述包含了多种研究类型，因此其报告规范可根据纳入的研究类型进行选择，如JARS-Mixed 是专门针对心理学领域混合方法研究的报告规范[34]，而ASSESS 是专门针对混合性研究综述结果呈现而设定的报告规范[35]。但目前仍有一些综述类型，如快速证据综合、证据图谱以及动态系统评价等尚未形成国际公认的报告规范，还有待于进一步开发[36-38]。

5 讨论

本研究根据不同综述类型，共分为9 大类，并对9 种综述类型的定义、适用范围以及优缺点进行了介绍，以辅助读者根据不同研究目的与研究问题选择合适的综述类型，详细介绍了不同综述类型的制作流程，提供相关的报告指南或有关报告指南的最新信息以供读者参考。

但需要强调的是：①对于部分研究类型的撰写流程，不同学者的看法尚未达成一致，如对于伞状评价，目前主流观点认为将检索类型限制在系统评价即可[39]，但刘海霞等最新研究认为，即使是伞状评价，也应检索最新的单个研究，以避免发表偏倚和其他偏倚[40]。②Meta 流行病学的同义词为方法学系统评价[41]，虽然其按照研究目的的分类属于系统评价，但其主要研究目的为识别和量化潜在偏倚特征的影响，与传统系统评价以及伞状评价的主要研究目的存在差异。③本研究将“各类综述研究的起源时间轴”绘制日期截止到了2015 年，这是因为在2015 年后尚未出现概念明确、制作流程清晰以及被广泛传播使用的新的证据合成类型。④虽然在2015 年后并未出现新的证据合成类型，但循证研究领域下却出现了一些新的概念，其中具有较大影响力的就是“证据生态系统”，该概念在2017 年的全球循证高峰论坛中被首次提出，其出现推动了证据在原始研究的研究者、证据合成的研究者、证据传播和证据应用的专业实践者之间的无缝转化[42]。

此外，就报告规范的制定而言，由于动态系统评价、证据图谱、快速证据综合、伞状评价的发展时间过短，导致该领域并无相关的报告规范指南，但随着循证方法学的快速发展，上述综述类型的报告规范均已有所进展。如针对快速证据综合的报告规范已经在2015 年启动，并在EQUATOR 网站发布了计划书[36]；证据图谱和动态系统评价的报告规范已经分别于2021 年和2022年在PRISMA 平台进行了注册[37-38]；而对于伞状系统评价，Gates 团队于2022 年在BMJ 杂志发布了医疗保健领域干预性伞状评价的报告规范[43]。同年，为了弥补该报告规范在横断面、病例对照和队列研究层面信息缺失，Marco 团队发布了流行病学领域伞状评价报告规范实施方案预印本[44]。

综上，证据合成下的“综述”定义具有广泛性的优势，但也造成了当前不同类型综述之间概念和使用方法的混淆。为解决上述问题，本文将综述分为了9 种类型，并提供了9 种综述类型的定义、分类、适用范围、优缺点、制作流程、相关报告指南或有关报告指南的最新信息，以期为未来研究者在选择综述类型以及进行综述撰写时提供参考。然而当前部分研究类型的撰写流程尚未达成一致，报告规范亦未制定完成，亟需更多“元研究”发表，为使用者尽快提供更多一致的科学规范。