临床实践指南制订方法<br/>——形成推荐意见的共识方法学

临床实践指南制订方法
——形成推荐意见的共识方法学

2019-07-18范曼如申泉王丹琦张菁靳英辉

中国循证心血管医学杂志 2019年6期

范曼如，申泉，王丹琦，张菁，靳英辉

随着指南制订方法学的不断发展、成熟，证据与推荐意见的关系从最初的相互独立、绝对对应（高质量证据推荐强度也高），发展成相互影响又相互制约的关系（高质量证据推荐强度不一定高）[1]。越来越多的学者意识到，推荐意见的形成不能单考虑证据质量这一个因素。因此，在临床实践指南制订过程中，基于前期的证据检索、证据综合、证据分级，指南制订者还需通过一次或多次的共识过程，综合考虑利弊平衡、资源、价值观和偏好等因素，最终形成一致的推荐意见。国际指南网（GIN）指出，指南制订过程是一个涉及群体共识的过程，需要通过共识来选择和解释证据，将证据转化为推荐意见，并确定当缺乏证据来回答重要的临床问题时该如何处理[2]。本文总结陈述了在临床实践指南制订手册中的共识方法，旨在为指南制订者在使用共识方法时提供参考。

1 共识方法的必要性

通过共识达成推荐意见的过程中，除证据质量外，指南制订者还需考虑多个其他因素，大部分手册提及利弊平衡（The balance of benefits and harms）的考虑[3-24]，对于每一项推荐意见，指南制订者需考虑有益因素（有益的健康指标、节省成本、减轻患者和工作人员负担）和不良影响间的关系[14]。利与弊的影响差别越大，越可能形成强有力的推荐意见；差别越小，推荐意见强度较弱的可能性越大[19]。美国医学科学院在2011年发布的指南制订六大原则中强调指南应恰当考虑不同的亚组患者以及患者偏好[25,26]。此外，资源利用、问题的优先级、人权平等、可接受性、可行性等因素对推荐意见的形成均存在不同程度的影响[3]，故共识方法可在这些方面发挥作用。

严谨、科学及尽力减少制作过程中的偏倚是保证临床实践指南效度的根本[27]。通过科学的共识过程，能减少推荐意见形成过程中的偏倚，实现证据到推荐意见的转化[28]。国际糖尿病联盟（IDF）指出可通过使用共识方法减少个人观点所产生的偏倚[29]。美国临床肿瘤学会正式的共识指南（ASCO）[30]指出需在证据基础上采用共识方法来形成最终的推荐意见。加拿大医学会（CMA）[31]指南制订手册也提及指南制订者需要选择一种共识方法来就推荐意见达成共识。新西兰临床实践指南组（NZGG）也指出推荐意见的拟定通常是由共识达成的[9]。由此可知，共识是临床实践指南制订中必不可少的一环，需通过科学的共识法来形成最终的推荐意见。

2 共识方法简介

共识法（Consensus Method，CM）即达成共识的方法，是指采用某种形式，通过一定的方法集合不同个体提出的多种建议或意见，并最终达成共识[32]，大体上分为非正式共识法和正式共识法两种[33]。非正式共识指的是没有正式达成共识的程序和流程，专家们通过自由讨论达成对一个问题的共识。正式共识法指的是除了可以讨论外，还事先制订了大家认同并需要遵守的正式原则和程序[35]。目前，绝大部门临床实践指南手册中都

描述了正式共识法[2,5-8,13,15,17,18,20,22,29,30,36-41]，仅有部分指南手册提及非正式共识法[2,5,41,42]。接下来本文将具体介绍非正式共识法和正式共识法，以便指南制订者针对具体问题选用合适的共识法。

2.1 非正式共识法20世纪初，医疗保健领域的绝大多数群体决策都是通过非正式共识法制订的，非正式共识法没有正式的组织规则或程序，是一些小组成员表达他们的意见，并进行充分讨论，最后共同制订推荐意见的方法[5]。这种小组讨论，有时被称为“自由讨论”、“自由互动”或简单的“共识”小组，即召集一群人讨论一个问题，以达成一致。他们通常没有得到如何达成共识的指导，但可能会得到一些简单的指示，例如不要批评其他成员等[33]。当共识过程中没有过多细节描述时（如仅提及“讨论”），即可判定为非正式的共识过程[34]。非正式共识法过程简单，形式自由[34]；所有成员参与讨论，集思广益，找到解决方案[5]。同时非正式共识法也存在一定的局限性，当进行群体决策以达成共识时，个体可能会因为多种原因趋向于遵从他人的判断，如某些个体对讨论的主题不够熟悉、对表达与别人不一致的言论会存在真实的或感觉上的压力、难以平衡自身的思想与行动等，此时易受到他人影响而不能保持自己的想法[33]。

2.2 正式共识法直至20世纪50年代，卫生部门才开始采用正式的共识方法[33]。国际指南网（GIN）指明，非正式共识过程是非结构化的共识过程，相比而言，正式共识法所产生的偏倚更小，基于证据的过程更多[2]。同时在某些情况下，正式共识法相较于非正式共识法对于促进推荐意见以达成共识更为有效。这些情况包括：①现有文献在数量和/或质量方面非常有限，但仍有必要形成推荐意见时；②希望多领域人员参与推荐意见的制订；③证据限于非比较性研究数据（如回顾性或前瞻性病例系列和Ⅰ期和Ⅱ期临床试验）[38]。此外，相较于非正式共识法“自由互动”的特性，正式共识法更为完善与正式，其特点如下：①人多保险，与一个人相比，一群人做出错误决定的可能性更小；②权威性，经过挑选的一群人更具权威；③合理性，通过对假设提出质疑，可使推荐意见更为完善；④过程可控，通过结构化讨论，可消除群体决策的负面影响；⑤科学可信度，正式的共识方法满足科学方法的要求[33]。目前临床医学实践中常用的正式共识法主要包括德尔菲法、名义群体法（NGT）、共识形成会议法（CDC），改良版德尔菲法。

2.2.1 德尔菲法德尔菲法是Delphi的中文译名，我国称为“专家评分法”或“专家咨询法[42]”。20世纪50年代，美国兰德（RAND）公司研究出一种收集专家经验并进行定性定量分析统计的方法，并以“Delphi”命名[43]。德尔菲法最早用于战争预测，后来逐渐用于医疗卫生领域[44]。其定义为通过多次反复的结构化的方式搜集参与者意见。即向参与者发送一系列问卷，询问他们的观点；在完成每份问卷后，要求参与者根据小组反馈给出进一步的意见，直到小组达到预定的一致水平[7]。主要特点为：设立主持人或主席，结构化流程具有可控性，参与者可独立、匿名发表意见，并可得到反馈，但过程复杂，耗时较长[35]。通常以上过程都是通过邮件进行[33]，小组成员没有机会直接进行面对面讨论。其优点为：①避免了权威干扰结果，反映成员的真实想法；②集思广益，准确性高；③节约成本，无地域限制。缺点为：①无法进行面对面交流，可能无法产生创造性想法；②个人在理解调查问卷时可能存在偏差；③花费时间较长，不明确的问题难以在几轮之内形成共识。

其基本流程包括：①专家的遴选，根据研究主题制订专家遴选标准，专家人数以10～20人为宜；②专家调查问卷的制订：依据德尔菲法的基本原则和特点，同时根据需要形成共识的主题，制订调查问卷；③通过匿名方式，多为通过邮件发送问卷，征询参与者意见，并应用统计学汇总整理，再次将新汇总的材料发送至参与者，供其再次分析判断并提出新的意见。④重复第三步，一般实施2～4轮。⑤经过统计分析，最终得到比较一致且可靠性大的结论或方案[35,45]。

2.2.2 名义群体法20世纪60年代，名义群体法开始用于指南制订[46]，是指在决策过程中对群体成员的讨论和人际沟通加以限制，群体成员可独立思考。与传统会议的不同点在于虽然所有人均出席会议，但群体成员会首先进行个体决策。主要特点在于：每位成员可平等参与，避免讨论产生的冲突，能尽可能多地搜集观点，节省时间，但在同时解决多个问题上缺乏灵活性，需较长时间[35]。优点：将产生观点与讨论分开，利于群体共同思考；每位成员可平等参与，充分表达自己的观点。缺点：在同时解决多个问题上缺乏灵活性；需较长时间；且不能排除有些参与者话语权较大，影响其他人决策。

基本流程包括：①针对临床问题，每个成员依次提出想法，直到所有的想法都被提出；②依次对想法进行讨论；③每个成员分别对每个想法进行评价，或对所有想法进行排序；④经过多次讨论，汇总评级或排名，就问题的解决方法达成共识[35,46]。

2.2.3 共识形成会议法美国国立卫生研究院（NIH）于20世纪70年代将共识形成会议法引入医学领域[47]，即遴选一组人（10人左右）参加会议，就某问题根据呈现的证据达成共识。主要特点：通过面对面讨论与交流可产生更多的建议，形式灵活，内容丰富，经济方便，可实现快速决策[35]。优点为：多领域专家参与，专家组组建覆盖面广；面对面交流，利于创造性意见的提出；经济方便，利于快速决策。缺点为专家间存在相互影响；群体意见的综合分析方法不明确[48]。

基本流程包括：①会议成员遴选；②会议主要议程：会议分两个部分，即公开讨论会和委员会；③会议讨论范围应预设若干问题作为议题，在会前使所有与会者对这些问题都熟知；④由各相关专家、群体、代表等以投票、排序、公开讨论等非结构化的互动方法，评估由外部专家提供的证据，再将这些多元化的决议整合出最重要的指导建议[35]。

2.2.4 改良版的德尔菲法改良版的德尔菲法由美国兰德（RAND）公司于20世纪70～80年代研发而成，成为指南制订过程中最常用的正式共识法[33]。改良版的德尔菲法联合应用了德尔菲法和名义群体法，在多个指南手册中均有提及[6,15,30,36,38,39]。改良版的德尔菲法通过优势互补发挥两者的优点，有效克服了Delphi法中专家不谋面以致对有争议的问题难以取得共识和名义组法参与者意见过于分散的缺点[49]。主要特点：改良版的德尔菲法提供了一个高度结构化和透明化的流程来获取匿名反馈，且允许参与者根据过程中收到的反馈信息，在建议被修改时可重新评估自己的判断。同时还可收集定量数据，以便应用和报告统计分析[44]。优点：结合德尔菲法和名义群体法的优势；匿名评分结合面对面讨论。缺点：过程复杂，费时[49]。

基本流程包括：①起草待共识的列表清单和议题，拟成调查表；②邮寄调查表进行第一轮共识；③收回整理调查表，调整形成二轮调查表；④召集专家会议，专家先独自填写问卷，然后面对面讨论，讨论后允许专家修改；⑤统计结果，按已定规则判断是否达成共识。如未达成，则重复第4步，直至达成共识。同意率（又名已定规则或共识阈值），是指表示同意或非常同意的评分者人数除以这轮投票的评分者总数，需注意分母中不包括未反馈调查问卷的人。大部分临床实践指南都将此阈值定义为同意率75%，而美国胸科医师学会（Chest）[11]、美国感染病学会（IDSA）[12]、美国神经病学会（AAN）[39]指南手册将此定义为80%。若同意率≥阈值，则表明达成支持建议的共识。相反若同意率＜阈值，则未达成共识，此时可进行再一轮共识或直接记录为“无法达成共识”。

改良版的德尔菲法在ASCO[30]、安大略癌症护理中心（CCO）[38]指南手册中均有详细叙述，而ASCO采用CCO改良版的德尔菲法并对其进行更为具体的拓充，本文以ASCO为例，翻译解释了ASCO指南手册中改良版的德尔菲的共识过程，其具体步骤见表1。

下述为ASCO共识过程进一步的具体介绍：

（1）形成推荐意见通过进行系统的文献检索、综合证据、临床考虑，形成推荐意见草案；召开专家小组会议；进行推荐意见的第一轮评价。具体流程如下： ASCO工作人员向共识小组成员发送了推荐意见的草案和评价表（表2），要求共识组成员按照Likert5级评分法（“1”对应“非常同意”，“5”对应“非常不同意”）对每项推荐意见的一致性进行评分，此外还应包括评分解释框，鼓励评分者提供反馈。

（2）评级数据的收集和汇编ASCO工作人员将推荐意见草案、相关考虑因素、评级表格和相关信息材料均通过电子邮件发送给共识小组的每位成员。由ASCO的工作人员回收并汇编评级数据以保持机密性，计算每个问题的同意率、中位数和总体应答率（表3），再将共识小组成员的意见按照问题组织汇编成一份新文件。

（3）共识评估 ①第一轮：综合各项评级在共识小组完成第一轮评级后，指南的指导委员会通过开会讨论结果，处理意见，并修订不符合已定规则的推荐意见。根据所需的修订，指导委员会可选择向指南制订小组征求意见；②第二轮：推荐意见的分级在指导委员会对推荐意见进行修订之后，再请共识小组成员评价他们是否同意经修订后的建议草案（表4），需向共识小组成员提供：修订版的推荐意见、评级分布和先前的推荐意见。在上轮评级中达成共识的项目无需重新判断。③第二轮：综合各项评级指导委员会再次开会讨论共识小组评级的结果。此时，指导委员会成员要么修订尚未达成共识的其余推荐意见，要么说明已无法达成共识。若已无法达成共识，则在指南中报告，并且不提供任何推荐意见。如果作出修订，则需再进行下一轮协商。

表1 ASCO[8]指南手册中改良版德尔菲法的共识过程

表2 ASCO指南手册中第一轮调研评级表格示例

表3 结果：ASCO指南手册中第一轮调研

表4 ASCO指南手册中后续轮次*评级表格示例

2.3 五种共识方法学的对比实际上，正式共识法与非正式共识法间的分界并不明确。虽然正式共识法遵循商定的程序，但其中也可能会包含非正式、自由互动的过程[33]。这些方法的主要区别归结为以下五点：①是否邮寄调查问卷；②共识过程中个人是否独立完成决策；③临时的小组建议是否会在审议过程中反馈给与会者重新审议；④小组成员间是否有面对面接触；⑤用于整合成员观点的方法[33]（表5）。

2.4 其他正式共识方法①统计分析小组，是指仅通过统计学方法整合专家个人独立的观点，适用于不需要深度分析的简单问题[33]；②社会判断分析（SJA），取自社会判断理论（该理论认为个体判断的差异是由于个体对信息的重视度的差异以及将信息与判断相联系的方式不同），着重关注于参与者的反馈，这种方法本质上是一种反馈方式，而不是一种全面的共识。在对于回答“为什么某一主题不能达成共识”有重要意义，可用于医疗保健领域的干预措施适当性的评判[33]。

还有一些方法可能侧重于团体间的交流互动，另一些方法通过指导者的直接参与来确保讨论以系统的方式进行，如分析问题、生成替代解决方案、评估替代解决方案，此外还有其他方法通过为小组成员提供详细指导，如避免争论自己的排名，不要为避免冲突而随意改变自己的主意等。

2.5 GRADE网格在进行推荐意见共识时应制订推荐意见表，共识小组成员通过完成推荐意见表，使共识过程更加透明化，最终得出推荐意见的方向及强度的结论。Jaeschke，Guyatt等提出使用GRADE网络以达成共识[50]。欧洲肿瘤医学协会（ESMO）[14]指南手册指出如果投票结果没有被陈述，或者对某项建议的同意率低于75%，或在会议期间达成了20%的分歧，则应通过填写评分表格（GRADE网格）（表6）来达成会后共识。2015年《中国万古霉素治疗药物监测指南的制订》[51]采用了这一方法进行推荐意见的共识，可根据情况进行3～4轮投票。达成共识的规则如下：若除了“0”以外的任何一格票数超过50%，则视为达成，可直接确定推荐意见方向及强度；若“0”某一侧两格总票数超过70%，亦视为达成共识，可确定推荐方向，推荐强度则直接定为“弱”；其余情况视为未达成共识，推荐意见进入下一轮投票。

表5 五种共识方法的基本特征

表6 制订指南时记录专家意见的GRADE网格[50]

2.6 共识强度的界定除上文所说的GRADE网格外，还可通过推荐意见的同意率进行推荐意见共识。以欧洲临床营养与代谢学会（ESPEN）[2]为例。指南手册中提及的共识过程包括两轮网上投票和最后的共识会议。若在第二轮网上投票中获得75%以上同意的建议，则无须在共识小组会议上进行额外表决。所有同意率低于75%的建议，均需再次投票，并可根据小组成员的意见作出修改，以达到更高度的共识。在最终的共识会议或第二轮网上投票中，同意率超过75%的建议被定义为最终推荐意见。同意率低于50%的建议为未达成共识。同意率50%～75%的建议，代表大多数人同意，但这会导致共识强度降级。指南手册中具体共识强度的分类见表7。而美国胸科医师学会（Chest）[11]要求所有投票均须有至少75%的合格参与者参与。“非常同意”或“同意”需要至少80%的同意率；同意率仅为67%～79%的推荐意见可以在的附录发表，允许那些持有少数意见的人表达他们的观点；同意率低于67%的推荐意见为未达成共识，不发表。

需要注意的是，确定共识强度时应持保守原则。欧洲心胸外科学会（EACTS）[9]指南手册指出，如缺乏共识，或实际投票轮数超过预先确定的投票轮数，需将这类推荐归为“弱”。血管外科学会（SVS）[22]指南手册指出如果某项推荐意见在方向（赞成vs. 反对）上达成共识但在强度（弱vs. 强）上没有达成共识，此项推荐意见仍被评级为“弱”。

表7 ESPEN指南手册的共识强度的分类[18]

2.7 共识的其他要求第一，在临床实践指南制订过程中，应事先确定好共识方法，也应审议所有委员会成员的意见[5]。无论采用哪种共识方法，均应详细记录其过程，并在指南（附录）或网站上进行刊登，以确保指南制订的透明公开性[6]。若此项推荐意见是通过专家共识所确立的，应在指南中标明：“此项推荐意见来自专家共识”。第二，共识过程中，共识小组成员应完成利益冲突（COIs）审查[2,5-9,15,30,31,36,38,40,41,52,53]，欧洲心胸外科学会（EACTS）[36]指南手册、美国心脏病学会基金会，美国心脏病学会（ACCF/AHA）[41]指南手册中对参与者的业界关系（RWI）也有要求。第三，正式投票时的要求：①投票过程必须保密，且有书面记录；②已确定有关RWI的个人可参加讨论，但在表决时必须回避；③主席必须审查所有投票，以确保所有该回避的成员准确地回避[15]。投票流程在预先设定的停止标准（轮数、达成共识的成果、结果的稳定性）之后终止。

3 共识方法学的报告

卫生保健实践指南报告清单（RIGHT）声明报道，从证据到推荐的转化中，应详细描述指南制订工作组的决策过程和方法，特别是形成推荐意见的方法（例如何确定和达成共识、是否进行投票等），以及在形成推荐意见的原理说明及理由上应描述在形成推荐意见时，应考虑目标人群的偏好和价值观、成本及资源利用、公平性、可行性及可接受性等相关因素[54]。目前对世界卫生组织指南评审委员会从2008～2013年批准的133部WHO指南分析发现，有35部（26%）指南报告了通过共识形成推荐意见，其中31部（23%）通过会议达成共识，其余4部未提及详细的共识方法[55,56]。另有研究调查了至2013年12月中国大陆期刊发表的426部临床实践指南，其中仅49部（12%）报告了共识方法，3部采用专家共识会议，2部采用德尔菲法，其余均为非正式的小组会议或讨论[34]。

指南研究与评价工具（AGREE Ⅱ）[57]在领域三（制订的严谨性）中也提及应详细阐述形成推荐意见的方法，即非正式或正式的共识法（如德尔菲法），还应明确指出就推荐意见达成共识过程中存在争议的部分以及相应解决方法。总之，指南中应详细描述推荐意见以及达成共识的过程、方法和结果。

所有指南在制订过程中都须通过共识法来达成最终的推荐意见，或解决指南制订过程中存在的某些问题（如主题的选择或评议）。当有强有力的证据存在时，无需过多讨论就可达成共识。然而，指南制订小组必须认真审议这些推荐意见是否适用于某一具体领域。例基于在70岁及以下的患者进行试验得出的特定治疗推荐不能推广到70岁以上的患者。在不确定性较大的领域，明确和透明的正式共识法可更好地为指南推荐意见提供信息。在共识过程中，我们应注意：第一，为了确保最终推荐意见的客观和公正，应努力限制权威过度影响结果的可能性；同时个人因素（如一般特征或专业程度）也会对共识达成产生影响，所以参与者间的同质性是应该被予以考虑，例一个异质共识小组（包括来自所有相关专业的足够数量的从业者），可最大限度减少个别因素的影响；第二，指南制订中的共识过程应在指南中详细叙述，若篇幅过长可以用附件形式呈现。