《针对单一结局和所有结局效应估计总体证据可信度评价》文献解读
2021-03-12刘建平
刘建平
1 主要内容介绍
GRADE证据体中对疗效可信度评估的5个降级因素(偏倚风险[1]、不精确性[2]、不一致性[3]、间接性[4]以及发表偏倚[5])和3个升级因素(呈现出大的效应量、呈现出剂量效应关系以及可能的混杂因素受到有效的控制)[6],此外还需要考虑决策者可使用的资源。本文解读着重于讨论:①如何针对关键或重要的单项结局指标疗效的可信度开展综合性评估;②如何针对所有关键结局疗效的可信度进行评估。
1.1 针对单个结局疗效评价的可信度评估 有别于传统的证据分级体系,GRADE证据是针对某一结局的证据集合,也就是证据体的概念,根据不同的维度(domain)有升降级的体系,是否降级取决于上述5个降级因素,而升级则取决于上述3个升级因素。对这些维度的理解和使用相对比较容易操作,也能够增加方法学的透明度。在应用这些体系时,需要注意两点,一是避免机械刻板地套用而不考虑应用的场景;二是要注意各个维度指标之间的关联性。这也是在应用GRADE体系当中经常容易犯的错误。比如,对某单一维度的疗效评价结果与针对某结局疗效评价的总体评估不相吻合。当出现这样的情况时,需要对整体评估的结果进行适当的调整。
9项类黄酮治疗痔疮的Meta分析[7],以症状的持续存在(症状无改善)作为结局指标,以相对危险度(RR)的合并效应值作为疗效指标,所得到的分析结果为:RR=0.42 (95%CI:0.28~0.61)。该效应值表明,经过类黄酮治疗约58%的患者痔疮症状得到缓解。表1呈现了纳入研究的5个降级维度的评估结果。
表1 9项类黄酮治疗痔疮症状持续的RCT证据质量及解读
从表1和表2的结果看,5个降级维度中3个维度(偏倚风险、不一致性、发表偏倚)可能导致降级,也就是对疗效估计的信心减低。然而,分析干预措施的疗效,可见疗效的效应中等偏大,症状持续的相对风险(RR=0.42)<0.5,该效应量可能提升对干预的疗效信心。如果评估者较为慷慨,更倾向于支持干预措施,那么对类黄酮研究的证据体的总体质量评价可能视为高质量(不对研究的质量进行降级处理)。如果评估者严厉,可能会对证据质量进行降级处理,而不太看重干预措施的效果,甚至达到极低质量证据(very low confidence)的层次。对于两种极端的评估者来说,虽然依据同样的评价标准进行判断,评价的结果却可能天壤之别,显然不能准确捕捉干预措施效果的可信度。
表2 9项类黄酮治疗痔疮RCT症状持续效应概要
上述案例的解读反映了不同的评价者对每个维度(条目)的判断可能存在差异,原因在于各个维度之间并非有截然的边界,而是一种连续性演变,跨越了较少的局限性到非常严重的局限性。当针对某一特定维度证据体处于中间水平时,围绕降级或升级的阈值上下的决策判断都可能比较主观。面对这种情形,最理想的做法是对做出的决定提供充分的判断依据。
以类黄酮治疗痔疮为例,2种评估者(对单个维度判断采取慷慨或严厉的态度)也许都应当对证据以更为宽广的眼光看待问题,认可总体质量位于中等质量证据到低质量证据的边界范围,这也是该系统评价作者结论所做出的判断[7]。基于该案例的情况,评估者可以从局限性的3个维度(偏倚风险、不一致性或发表偏倚)中挑选1或2个维度来解释判断依据。例如,相关的解释可能类似于如下表述:“我们对发表偏倚进行降级。尽管也存在高偏倚风险和不一致性的担忧,我们并没有进一步降低对疗效估计的信心,因为后面2个维度中的每一个维度并没有达到降低一个层级的水平”。类似这样的陈述反映了对证据体总体或完整性评估的观点。对证据概貌的介绍(表1和表2)中,对证据体的最终判断是中等质量的证据,判断的依据是对发表偏倚维度进行了降级。
虽然证据质量是一个连续的变量,但是GRADE体系将其分类为4个等级:高、中、低、极低质量。上述案例中的情况可以判断为中等质量证据,也可能判断为低质量证据,在判断中存在的难度在于总体证据质量是一个连续性变量,因此,除了提到的5个降级维度之外,还需要考虑其他场景因素(contextual factors),尤其是当判断处于2个分类阈值不相上下的情景。此时,评估者无论做出中等或低质量证据的判断,都是可以接受的。
本解读文章的原作者强调应当鼓励系统评价的作者或指南制定者在碰到类似情景时要更加明确,依据1个或多个维度做出的边界性决策,应加以特别说明。如同本文表1和表2所呈现的证据概览及注释所做的说明。
虽然将证据质量连续性特点人为划分成分类变量的做法存在一定的局限性,但对待每个维度的升降级作为一种离散的分类判断,实际上增加了过程的透明性。
文章列举的案例再次体现了GRADE体系的优越性,并不仅仅是确保判断具有可重复性,而且实现了明确、透明的判断。但必须承认,证据评估者不可避免地在对单个维度或总体维度的升降级判断中存在差异。当判断的阈值接近于两个临近的分类(如中等或低质量证据)时,该阈值特指在降级与不降级之间的判断阈值,判断的不一致则可能发生。然而,对系统评价人员或指南制定者来说,也不必过于担心,当证据质量评价作为连续性变量考虑时,这种判断的不一致性并非想象中那么突出,也可以通过协商达成一致性判断。
1.2 针对所有结局疗效评价的可信度评估 GRADE在全球率先提出规范的证据质量分级体系,强调根据不同结局研究质量会有差异,因此,使用GRADE的前提是对结局进行分类,按照不同结局查找相关证据,再评价结局相关的证据质量。由于系统评价研究本身不涉及对干预措施的推荐,所以不要求对所有结局进行总体证据质量的评价,而是建议针对每一个重要结局进行证据质量评价。系统评价的目的之一是为指南的制定提供决策依据,这种决策主要涉及对干预措施疗效的可信度进行总体评估。决策的过程原则上应当是明确的、符合逻辑的,对疗效的总体评估不应高于任何关键决策结局的效应的最低可信度。因此,GRADE工作组建议采用关键结局的最低可信度评估,作为此关键结局推荐建议相关的总体可信度。这就要求区分结局的重要性,通常分为关键结局(critical outcome)、重要结局(important outcome)和非关键结局(not critical outcome)。
在一项采用胰十二指肠切除术治疗胰腺癌替代策略的系统评价中[8],有2种术式可供选择,一种是保留幽门及其附件,二是标准手术不保留幽门及附件。该系统评价中针对不同结局的证据质量出现明显差异,从中等质量到极低证据质量(表3)。面对这样的情景,指南制定者需要明确该手术治疗带来的不良后果是否是重要的结局,是否是关键的结局,如果是重要的结局,对最佳治疗策略的决策就不能成为关键性的影响因素。如果用于决策的某一关键性结局是基于低质量的证据,那么,总体的证据质量评级就应当反映出来基于低质量证据。如果一项重要而非关键性结局基于较低可信度证据,那么针对关键性结局的总体证据评级应当反映出疗效估计具有较高的可信度。
根据表3中的案例,如果形成推荐建议的专家认为胃排空是一项关键性结局,那么对疗效估计的总体可信度评级就会非常低。如果认为胃排空是一个重要而非关键性结局,总体可信度评估则为低级别。尽管5年生存率的证据级别为中等质量,根据围手术期死亡结局(显然是一个关键性结局)低级别证据的结果,胃排空的总体级别则被认为是低级别证据。
表3 胰腺癌不同术式策略与不同结局的不同证据质量相关
1.3 评估结局的重要性取决于证据的强度 在指南制定过程的初期,对疗效总体可信度评估并非只考虑关键的结局,换句话说,判断结局是否关键,是随着评价的结果而变化的。例如,某一特定的不良事件(比如严重的恶心和呕吐)在初始阶段可能被认为是关键性结局。然而,当评价结果表明该事件的发生率较低,比如,<3%的患者会发生这样的结局,因此,最终的判断可能是,该不良反应是重要的,但不是关键性结局。
同样,以类黄酮治疗痔疮的系统评价为例[7]。症状持续作为主要结局指标与之相关的偏倚风险(随机隐藏不明确、问卷缺乏信效度测评)和发表偏倚,而不良反应的结局除了这2方面的问题之外,还存在精确度不高的问题。由此,无论对症状持续的可信度判断如何,对于不良反应结局的判断将会是较低质量的证据(可信度较低)。然而,当判断不良反应结局效应的可信区间上限的最大值,大约是安慰剂对照组的2倍,即便如此,不良反应事件的发生率也并不高(约6.3%),而且属于轻度不良反应。出于上述考虑,可能做出效应总体证据质量的判断为低级别证据(可信度低),而另一些评价者则可能持不同的观点,对效应的总体评价为中等级别证据。可见,在综合各个维度及效应大小之后做出的判断仍然存在一定的差异。
另外一个案例是,面对未确诊的冠心病但属于高危风险(>60岁的男性吸烟者伴有高血压、高胆固醇而无意通过饮食控制的,或者伴有糖尿病和冠心病家族史)的人群时,应当如何做出治疗选择,是否应当使用他汀类药物来降低心血管事件的风险?一项针对高质量RCT的Meta分析表明,使用他汀类药物可带来持续性的、且具有显著统计学意义的主要心血管事件和中风的减低,但是对于心血管死亡的降低则不显著[9]。治疗中偶见严重的不良反应,但所有不良反应在停药后很快逆转至正常。指南制定者在面对这样的结果时需作出是否对心血管高危人群推荐他汀类药物治疗的选择。此时,需要确定上述提及的4种结局(心血管死亡、心肌梗死、中风和不良反应)是关键性结局。在对证据的评价之后,上述4种结局当中的3个结局(心肌梗死、中风和不良反应)证据属于高级别证据(可信度高),而心血管死亡的结局由于存在不精确性,证据评级为中等级别。接下来的问题是,综合上述4种结局的总体证据应当评价为高还是中等?从系统评价报告来看,开始做出的判断为中等级别的证据。然而,大多数患者启用他汀类治疗后中风和主要心血管事件的发生风险显著减低,因此,有充分的理由推荐使用他汀类药物治疗。显然,心血管死亡风险是否降低与该项判断和决策不具有相关性,反之,他汀类药物增加心血管死亡风险概率几乎不太可能出现。基于此,对总体证据的判断最恰当的选择应该是高级别证据(充分的信心)。
总之,对总体证据的判断原则是,当可信度高的证据支持某些关键性结局用于推荐干预措施时,人们不需要对支持同样推荐建议的其他关键性结局中的较低可信度证据进行降级。因为,针对这些关键性结局的干预措施所带来的获益远超过其负面效应,而且有高质量证据支撑。
2 重要观点
2.1 GRADE体系要求对单个结局的疗效评价可信度(证据质量)进行评估 指南制定的前期步骤要求系统地梳理临床问题,尤其是关注疾病的结局,并在初始阶段对结局进行分类,优先排列出与疾病相关的关键性、重要和不重要的结局。之后是针对临床问题开展文献的系统评价,为干预措施的疗效和安全性提供可信的证据。GRADE体系会按照不同类型的结局对干预措施的效应大小进行评估,同时对支撑该效应的证据质量进行评价,这些证据质量决定了对效应认可的信心或可信度(confidence),根据可信度证据的质量分为高、中、低和极低4个等级。
2.2 证据可信度评估要求同时兼顾8个维度的评价(5个降级维度,3个升级维度) 当针对某一具体结局的多项研究(证据体)进行综合概括时,针对上述8个维度的要素决定总体证据的最终级别。
2.3 采用GRADE体系制定指南需要考虑推荐建议形成中相关的所有结局的总体疗效可信度评估 除了对单个结局证据体的质量评价之外,也需要对所有结局的综合证据质量进行评估,以便形成对干预措施疗效估计值的可信度结果,从而影响推荐建议的决策。理论上讲,高级别证据(可信度高)通常形成强推荐的建议,而中等或低质量证据(可信度低)形成弱推荐,极低质量证据则不形成推荐建议。但有时中等级别证据也可能形成强推荐,尤其在综合考虑利弊权衡、资源利用度、可及性、适宜性等因素之后。
2.4 合理使用GRADE促进指南制定中关键决策过程的充分和透明化 指南制定过程涉及诸多判断,对证据的评级决定了对干预措施疗效的可信程度,进而影响推荐建议的形成。在应用证据评级的5个降级维度当中,存在一定的判断误差或边际效应,需要结合具体临床情景加以灵活应用,并通过充分讨论达成共识。所作出的判断应当具有相关支撑材料和判断依据,从而使决策过程充分、透明,更具有可信度和说服力。
3 结论
GRADE体系明确界定了针对某一结局疗效估计中的可信度评级,这些评级标准可以供系统评价者和指南制定者使用,也就是对干预措施效应评估当中针对特定结局所作出的可信度评价,即总体证据质量的评价(高、中、低、极低4个等级)。尽管该系统采用了分类等级来评价证据的可信度,但是效应评估的可信度实际应当按照连续性变量来对待。在使用该评价系统时,不应生搬硬套,而是应当基于对干预措施推荐的场景来灵活掌握。不同的结局、效应大小以及总体的可信度是判断的关键要素。原则上是以关键性结局对效应的评估提供最低可接受的可信证据作为决策依据。