正确理解、制订和使用临床实践指南

2018-07-27陈耀龙杨克虎

协和医学杂志 2018年4期

陈耀龙，杨克虎

兰州大学循证医学中心/兰州大学基础医学院甘肃省循证医学与临床转化重点实验室 WHO指南实施与知识转化合作中心 GRADE中国中心，兰州 730000

近年来，随着临床实践指南数量的不断增长和影响力的不断扩大，医务人员对指南的关注度也越来越高。国内相继发表了很多指南方法学相关论文，主要可分为两类：一是应用AGREE (Appraisal of Guidelines for Research & Evaluation)或AGREE Ⅱ工具评价国内外指南的质量；二是探讨指南制订过程中存在的主要问题或面临的挑战。然而，除了发现和提出问题，更重要的是分析和解决问题。因指南的制订和实施从来都不是相互独立的，指南制订者面临的误区其实也是指南使用者在应用过程中会遇到的困惑；而指南报告规范既可协助制订者更加全面、清晰和透明地报告指南，也有助于使用者快速理解、评价和应用指南。笔者基于制订不同国家、不同学科和领域指南的经验，结合我国临床指南的实际情况，首次既从指南制订者的角度，就指南制订过程中存在的3大普遍误区进行深入探讨；亦从指南使用者的角度，就如何利用指南报告规范指导现有指南的实施进行分析，旨在为指南制订者和使用者互通架起一座桥梁。

1 临床实践指南的定义和发展

1990年，美国医学科学院(Institute of Medicine, IOM)首次将临床实践指南(clinical practice guidelines, CPGs，以下简称指南)定义为“针对特定的临床情况，系统制订的帮助医务人员和患者作出恰当处理决定的指导建议(推荐意见)”[1- 2]，该定义很快被全球广泛认可和接受。1993年“实践指南(Practice Guidelines)”被MEDLINE数据库收录为主题词，并于2008年更新[3]。2011年，随着循证医学的发展及其对指南的影响，IOM对指南定义进行了更新：“指南是基于系统评价的证据和平衡了不同干预措施的利弊，在此基础上形成的能为患者提供最佳保健服务的推荐意见”[4]。IOM同时发布了制订指南应遵循的6大原则：(1)指南应基于当前可得证据的系统评价；(2)指南制订小组应由多学科专家组成，小组成员应纳入与指南有关的团体或机构代表；(3)指南应恰当考虑不同的亚组患者，以及患者的意愿和价值观；(4)指南制订过程应清晰透明，最大程度减少偏倚与利益冲突；(5)指南应详述干预措施和健康结局之间的关系，以及对证据质量和推荐强度进行分级；(6)当有新的研究证据出现时，应及时对指南进行更新[4]。

当前我国中文期刊发表的指南数量增长迅速(图1)，其范围不仅仅局限于临床医学，已扩展到包括护理、药学、中医等整个卫生系统，以及其他非医学领域[5- 7]。在同一领域，不同国家和组织制订了大量相似或相关的指南，但这些指南的质量往往参差不齐，部分推荐意见也大相径庭。例如，2017年美国心脏协会(American Heart Association，AHA)发表了新版指南[8]，高血压被重新定义为130/80 mm Hg(1mm Hg=0.133KPa)。国内外对此新定义存在争议，已经定稿的《中国高血压防治指南(2017年修订版)》，将高血压仍然定义为140/90 mm Hg[9- 11]。2018年美国医师协会(American College of Physicians，ACP)发布的指南推荐，对于绝大多数2型糖尿病患者而言，糖化血红蛋白应控制在7%～8%之间[12]，不同于美国糖尿病学会(American Diabetes Association，ADA)、美国临床内分泌医师协会(American Association of Clinical Endocrinologists，AACE)指南[13- 14]推荐的≤6.5%，以及中国推荐的<7%[15]，由此引起了学术界和临床关于血糖值的争议与辩论[16- 17]。如何循证地制订指南，以及合理解读和应用指南，是医务人员亟须解决的重要问题。

2 制订临床实践指南的常见误区

2.1 误区一：一部指南的内容应尽可能系统、全面

对于大部分指南制订者而言，希望指南能够涵盖尽可能广泛的主题和内容。从结构上，要先写明疾病的定义、发病机制、病理生理、诊断、鉴别诊断、基础治疗、药物治疗、非药物治疗、预后、康复等各个方面，类似大综述或教科书。仅在药物治疗方面，也希望尽可能涵盖当前所有相关的药物，类似浓缩版的药典。该类指南由于过度追求大而全，一方面受限于人力、经费和时间，无法把每一部分真正写细写好；另一方面，对于指南的使用者而言，由于此类指南无法解决其具体临床问题，故实用性往往有限。高质量的指南，首先要做的是对临床一线医师进行深入调研，收集其普遍关心和关注的临床问题，在此基础上优选出最重要的一部分问题进行回答。一部指南的好坏，与其篇幅大小无直接关系，而是与其能否针对性回答临床医生的问题有关。例如，《2016中国痛风诊疗指南》[18]，该指南制订小组调查了全国101家医院的285名风湿免疫科医师，收集到125个临床问题，最终回答了12个最重要的临床问题，并形成12条推荐意见。该版指南中未涵盖的临床问题，会在后期更新时再纳入；2018年ACP发布的痛风指南[19]，仅包含了4条推荐意见。

图11993至2016年我国中文期刊发表的指南数量(n=664)

2.2 误区二：只有高质量证据才能制订出高质量指南

国内指南制订领域普遍存在的一个误区，即只有高质量证据，特别是有大量随机对照试验证据存在的情况下，才能够制订出高质量的指南，否则只能制订专家共识甚或连共识都无法制订。事实上，指南质量的高低与其纳入证据质量的高低并无直接关系，而是与其制订过程的透明性和规范性，以及推荐意见的独立性和清晰性有关[20]。国际上公认的评价指南制订质量的AGREE Ⅱ标准[21]里，尚无一条关于“因纳入低质量的证据而影响了指南质量”的判断。多学科制订小组(特别是有循证医学方法学家参与)、明确的证据搜集和评价过程以及恰当的利益冲突管理才是决定指南质量高低的决定性因素。然而，这几点往往被国内指南制订者所忽略。

目前国内大量出现的专家共识，被视为级别次于临床实践指南的一种行业规范，但专家共识这一术语本质上代表了一种为了达成指南中的推荐意见而采纳的方法或途径。任何指南均需要参与专家“集体共识”的过程，因为研究证据不可能自动转化为推荐意见，必须基于专家对证据以及影响推荐意见的其他因素的综合评估和判断，才能产生推荐的内容。相对的，任何专家共识，也均需要当前可得证据的支撑，无论其质量高低。大部分情况下，指南制订者们所谓的缺乏证据，主要指缺乏高质量的直接证据，但大量观察性研究或间接证据，也可为指南提供重要的信息。故从此角度而言，凡可制订专家共识的组织，均可制订临床指南。事实上，高质量证据在国内外所占的比例均较少。欧美大部分循证指南，如仔细分析，很多推荐意见所基于的证据质量，仅居于中低，甚至极低水平。例如，2016年发表的“New WHO Recommendations on Preoperative Measures for Surgi-cal Site Infection Prevention: an Evidence-Based Global Perspective”[22]，共13条推荐意见，其中8条基于中等质量的证据，2条基于低质量证据，3条基于极低质量证据，无1条基于高质量证据；2017年由循证医学创始人、GRADE工作组主席Gordon Guyatt教授等专家制订的“Guideline for Opioid Therapy and Chronic Noncancer Pain”[23]，共10条推荐意见，其中6条基于低质量证据，4条基于中等质量证据，无1条基于高质量证据；2018年发表的“Evidence-based Guidelines for Supportive Care of Patients with Ebola Virus Disease”[24]，共8条推荐意见，其中3条基于低质量证据，4条基于中等质量证据，仅1条基于高质量证据。

2.3 误区三：系统评价和Meta分析对指南的意义不大

国内医学界对系统评价和Meta分析存在不同程度的误解。部分观点认为其仅仅是快速发表论文的一种取巧途径。不可否认，近年来出现了大量低质量系统评价和Meta分析，但同样出现了大量低质量的观察性研究甚至随机对照试验[25]。有调查显示中国随机对照试验9成不合格[26]。误用和滥用研究方法与研究方法本身有错误不能混为一谈。

系统评价和Meta分析本身是一种非常重要的研究方法。一方面，在开展新的原始研究之前，理论上必须先作针对该问题的系统评价[27]，以避免研究的重复和浪费。另一方面，IOM对指南新的定义和要求明确指出，指南的推荐意见必须基于对当前研究证据的系统评价。即系统评价是制订指南的基石。国内部分指南制订者引用文献时，在同时有系统评价和随机对照试验的情况下，优先选择随机对照试验，理由是系统评价属于“回顾性研究”，论证强度不及前瞻性随机对照试验。但这恰恰是对系统评价的误解。针对某个临床问题，如果不进行系统评价，就无法对该问题的所有证据有全面的了解。引用某个或某几个杂志发表的阳性随机对照试验，有可能会漏掉其他杂志发表的阴性结果，当把这些证据重新纳入分析的时候，其结果可能与此前对该问题的认识有很大差异。例如，2017年在JAMA发表的一项系统评价[28]发现，无论是补充钙剂、维生素D还是钙剂/维生素D联合补充均不能降低50岁以上社区中老年人骨折的发生率，甚至大剂量补充维生素D还增加了骨折发生的风险。这一结果很可能会改变国内外相关指南的推荐意见，而仅靠单个随机对照试验很难得出类似确切的结论。

此外，累积Meta分析在指南制订中发挥了更加重要的作用。1992年JAMA发表的一项累积Meta分析显示，早在1978年，即有累积证据显示心肌梗死后使用利多卡因会增加死亡风险，但此后20年间，临床仍然在继续推荐使用利多卡因[29]。2018年Lancet发表的另一项对比腰椎穿刺微创针(atraumatic needle)和传统腰椎穿刺针(conventional needle)的研究[30]，通过累积Meta分析发现，从1991年起腰椎穿刺微创针相对于传统腰椎穿刺针发生腰椎穿刺后头痛结局风险低(RR=0.39，95% CI：0.19～0.82)，且此后该结果一直显示有效，仅可信区间范围变窄而已。但从1992至2017年间，全球先后有88个随机对照试验共11 774人被随机分配至传统腰椎穿刺针组进行试验。目前推荐腰椎穿刺微创针作为诊断性腰椎穿刺首选的仅有2017年发布的比利时指南[31]。中国的《腰椎穿刺针(YY/T 1148- 2009)》行业标准[32]中推荐的仍是传统腰椎穿刺针。此外，2016年的一项回顾性研究显示，仅8.0%的医生在临床上使用腰椎穿刺微创针[33]。

网状Meta分析也可为指南制订者提供间接比较的证据，在同类干预措施中优选出最佳治疗方式[34]。例如，在抗高血压药物降低心血管疾病发病率和病死率方面，一线药物有α-受体阻滞剂、血管紧张素转换酶抑制剂、β-受体阻滞剂、血管紧张素受体阻滞剂、钙通道阻滞剂和低剂量利尿剂。网状Meta分析结果显示，低剂量利尿剂是预防所有不良心血管结局(冠状动脉粥样硬化性心脏病、充血性心力衰竭、卒中、心血管疾病事件和心血管疾病死亡)最有效的药物[35]，为临床实践指南的制订提供了重要证据支撑。近年来，网状Meta分析已在包括英国国家卫生与临床优化研究所(The National Institute for Health and Care Excellence，NICE)在内的机构制订指南过程中发挥了越来越重要的作用[36]。

3 基于RIGHT标准快速评估与应用临床实践指南

国内外任何行业或机构发布的指南，医务人员均应采用批判的态度和科学的方法对其进行解读，并选择性应用。并非所有欧美指南均优于我国发布的指南，亦非所有指南均优于专家共识。甚至一部指南或专家共识中，并非所有的推荐意见均基于当前可得的最佳证据，适用于实际的临床情境。除目前国际上用于评价指南方法学质量的常见工具AGREE Ⅱ之外，本文推荐另外一种能够帮助读者快速理解和应用指南的工具——RIGHT(Reporting Items for Practice Guidelines in Healthcare)标准[37]。

作为全新研发的国际实践指南报告规范，RIGHT旨在为系统、全面地报告指南提供结构化的清单，母文件于2017年1月在AnnInternMed发表，同时被国外学者翻译并发表为中文[38]、德语[39]和意大利语[40]，法语、俄语、日语、韩语等其他语种的版本正在陆续翻译中。RIGHT目前被国际知名的报告规范数据库EQUATOR(Enhancing the Quality and Transparency of Health Research)收录，并在首页推荐为全球最重要的15个报告规范之一[41]。RIGHT清单共包括22个条目，本文将其凝练为以下需重点关注的7个方面，以帮助临床工作者通过掌握该方法来判断和使用指南。

3.1 标题与制订机构

3.1.1 标题中是否包含指南的制订或发布年份

一部指南的有效期约为3～5年[42]，对于心血管或肿瘤的某些疾病，证据更新速度频繁，指南中的部分推荐意见可能1年后即过期。读者对于5年以上的指南，在应用时需仔细核查有无更新版本，若无，则对其中的推荐意见和证据需深入探析其有效性和对临床的指导价值。

3.1.2 标题中是否包含对指南分类的描述

对指南分类的描述即该指南属于筛查、诊断、治疗、管理、预防或其他的哪一类，是否包含了自己想要关注的内容。

3.1.3 指南发布的机构

一般情况下，政府、行业学会、协会制订的指南，相对于某些专家组或课题组，其权威性更高，影响力更大。

3.2 背景与环境

3.2.1 是否阐述了指南制订的理由

制订此指南是因为之前指南的版本已经过期，还是本领域出现了新的技术和药物，还是其他方面的原因。

3.2.2 是否与同类指南作比较和分析

该指南中是否阐述了与国内外相关指南的异同，以及对现有同类指南是否做了质量评价和推荐意见的对比分析。

3.2.3 是否阐述了指南的适用对象

指南的适用对象包括目标人群、使用者和使用环境，这些信息与自己所在医院和患者人群的差异性有多大。

3.3 方法学

3.3.1 指南是否注册，是否有计划书发表[43]。

3.3.2 指南制订小组构成是否合理，分工是否明确，特别是有无纳入指南方法学家。

3.3.3 指南是否交代了遴选临床问题的方法和结局指标重要性评级的方法，是通过问卷调查，还是通过文献调研或者专家组讨论确定。

3.4 证据

3.4.1 指南是否基于系统评价的证据

该系统评价为指南小组重新制定的系统评价，包括委托其他机构制定、利用已有的系统评价制定或二者兼有。如果是利用已有的系统评价，其是否交代了遴选、评价或更新系统评价的方法。如果未基于系统评价，是否解释和说明了原因。在利用其他证据支持指南的推荐意见时，是否交代了检索、遴选和评价证据的方法。

3.4.2 是否描述了对证据质量进行分级的方法

包括对该分级方法的出处是否进行了交代，比如是自主研发还是使用其他机构的标准。

3.5 推荐意见

3.5.1 是否有推荐意见总结，该总结可列在正文之前、之中或之后，帮助读者快速概览所有推荐的要点。

3.5.2 是否针对特殊人群单独撰写了推荐意见，比如高龄、肥胖、传染病患者或具有肝肾等基础疾病的患者。

3.5.3 是否对推荐意见的强度进行分级。

3.5.4 是否阐述了形成推荐意见的方法，比如采用了面对面专家共识，还是德尔菲法等。

3.5.5 在形成推荐意见时，是否考虑了患者意愿、价值观、成本、公平性、可行性和可接受性等其他因素[44]。

3.6 评审和质量控制

3.6.1 指南正式发表之前，是否送审了国内外专业同行、方法学家、指南使用者或患者代表，征求了反馈意见。

3.6.2 是否有高一级的组织或机构，对其进行独立评审或质量监控。

3.7 资助与利益冲突管理

3.7.1 是否阐述了制订该指南各个阶段的资金来源，以及这些资金与指南的关系。

3.7.2 是否阐述了该指南制订小组成员在专业或学术上的利益冲突。例如某外科领域专家主导的指南，是否在指南中推荐了该专家发明或偏好的手术方式，但并未给出强有力的证据来支持。

此外，需要特别注意的是，由于期刊发表的指南篇幅有限，大量有助于判断指南的信息可能以附件形式存在，比如指南如何纳入临床问题、证据的检索策略与结果、指南小组专家的利益冲突声明文件等。因此，可通过寻找和研读附件，结合指南全文评估，以更好地掌握整部指南的精髓。

4 小结

虽然近年来，精准医学[45]、大数据研究[46]、真实世界研究[47]、人工智能[48]等对医疗行业的影响越来越大，但指南仍是当前指导临床实践最重要的工具，是医务人员进行决策的准则和规范。高质量的循证指南可对促进患者健康、提升医疗质量和节约医疗费用起到重要作用[49]。医务人员一方面需对获取的指南仔细甄别和判断，特别是注意其内容的科学性和客观性，以及制订者在学术利益和商业利益方面对指南的影响；另一方面，更要积极参与到高质量指南的制订、传播和实施工作中去，包括开展高质量的临床研究和系统评价研究，为指南制订提供证据支持，对已发表的指南进行评价、解读和反馈[50- 51]，并在自我医疗实践中恰当、合理应用指南的推荐意见，以及将指南作为重要的信息来源，对患者进行健康教育。