《评价结局指标重要程度或者价值与偏好相关证据体的把握度:不一致性、不精确性、其他因素》文献解读
2021-03-27刘海波
夏 君 刘海波 刘 欣 张 渊
1 主要内容介绍
在做卫生决策时需要对结局指标的重要性进行评估,需要探索人们对研究者试图影响的那些结局指标的关注程度如何。例如,慢性阻塞性肺病(COPD)患者表示愿意付出13.46美金的代价来避免轻度不良事件的发生,而愿意付出67.51美金的代价来获得症状的缓解。这个例子说明COPD患者的价值偏好中更注重“症状缓解”,换言之,患者赋予“症状缓解”这个临床结局更高的价值或权重。本文关注如何用GRADE方法来判断结局指标的相对重要性类研究证据的把握度。
对结局指标重要性的把握度也会影响到证据产生决策的过程,结局指标之间的重要程度差异会影响到对干预措施所致获益和损害的权衡判断。
1.1 不一致性 根据GRADE方法,评估者如果发现证据体中存在无法解释的不一致性,则可对其进行降级。然而,结局指标重要性相关证据体的不一致性评价存在以下几处挑战:①目前的系统评价或者卫生技术评估对结局指标重要性缺乏明确、统一的定义,并且对其重要性评估的工具也很多样化[1-3]。因此很难判断观察到的结局指标之间重要程度的差异是因测量工具还是其他潜在的因素而致。②关于结局指标重要程度的定量研究很罕见。③某些结局(例如支付意愿)有相关研究时也往往仅有单个研究,而无法进行整合分析。但是这种情况不一致性评估相对容易,因为不一致性的问题对单个研究不适用。
无论研究结果是否合并估计,当评估不一致性时,GRADE工作组建议均遵循以下步骤:①判断不一致性是否存在;②如发现不一致性,则对纳入研究进行异质性探索,如果异质性可以被合理的原因(如临床因素或方法学因素等)解释,则无须对不一致性降级;③有亚组差异时,需要确认该差异的可信度。
有一些信号可以对异质性大小或程度起到提示作用,例如,目测森林图中各个研究效应值可信区间的重叠程度,I2值和s2值[4,5]。如上述均不存在重要的异质性,则不一致性无须降级。反之,就需要对异质性的来源进行探索,评价者应对各个纳入研究的人群特征、干预措施、对照措施、结局指标、方法学(如偏倚风险)的特征逐一进行比对。当发现亚组差异时,评价者需要确认该差异的可信度,但目前还没有可以用来评价结局指标重要程度相关的亚组分析的评价标准,可以参考使用对亚组之间干预效应差异可信度评价的方法。
对于同类的信息,系统评价人员和指南专家组可以有不同的应用方式。系统评价人员通常在研究之间足够同质的情况下才考虑整合分析,合并后如果发现异质性,则需按前面提到的步骤进行探索,例如按人群、干预、对照、结局、方法等特征做亚组分析,并将探索结果进行描述性总结,阐明发现的差异。上述各个亚组此时就形成了不同重要程度的多个结局指标。指南专家组可以根据各个结局指标之间重要程度的差异来分别作出推荐意见,或者针对所有的结局指标作出弱推荐(或有条件推荐),但此时需强调各个结局指标重要程度的差异对推荐意见实施时的影响。当探讨与结局指标重要程度相关的不一致性以及异质性时,尽量避免使用“差异(variability)”的表达方式, 因为研究之间真实存在的差异有另外的方法进行评价。
1.2 不精确性 对结局指标重要程度进行不精确性评价时需要同时参考证据体的样本量和效应值的可信区间。有关这一问题定量分析的系统评价也是非常罕见的[6]。
当评估不精确性时,GRADE工作组建议遵循以下步骤: ①评价结局指标相对重要程度的可信区间。系统评价人员应明确阐述其评价标准,如对可信区间有一个明确的取值范围作为决策阈值。但这个取值范围通常受各种研究因素的影响,例如干预措施的类型或者资源占用程度等因素,因此从中截取决策阈值并非易事。研究设计的差异、测量工具的多样化、结局指标呈现方式的不同等因素都会导致可信区间不可获。此时,不精确性评价可以依据研究的样本量来判断。
指南专家组评价不精确性时可以依据结局指标相对重要程度的可信区间是否跨越了预先设定的决策阈值。当结局指标的重要程度结合干预效果绝对效应值显示的获益明显大于受损时,不精确性无须降级。
在此过程中,系统评价人员和指南专家组均需考虑证据体的样本量,可以引用系统评价信息量(review information size)作为决策阈值[7]。指南的推荐意见产生过程中,当某结局指标的获益和受损差异近似时,推荐方向可以参考55%的决策阈值结合可信区间大于50%的过半数原则 (即>55%的患者会作出同样的选择,误差<5%)[8,9]。要求每个单组的样本量达到380人,才能可靠地估计上述55%的决策阈值伴随95%的把握度(95% CI: 50%~60%)和5%的精准度[8]。可以理解为,在用GRADE方法对关于结局指标重要程度的证据体进行精准性评价时,样本量达到380人是一个通用的经验法则。 当数据显示较大的临床净获益,而需要对此判断推荐强度时,GRADE工作组建议采纳80% 或者90%的决策阈值(即80%或90%的患者均会作出同样的选择)[8,9]。评价来自选择实验(direct choice study)的研究证据时,达到上述80%或90%的决策阈值分别需要246和139人的样本量。如果用经验法则延伸一下,可以理解为当证据体的样本量达到250或者140人时,通常可以认为是精准的。
在对结局指标重要程度做不精确性评价时选择实验比较罕见,所以系统评价通常是基于每个结局指标来做评价。此时,建议预先设置可接受的可信区间范围,同时采用上述精准度评价阈值(原文中有案例进一步说明上述理论,读者可阅读原文加深理解)。
1.3 发表偏倚 发表偏倚对结局指标重要程度评价很重要。不同于干预性研究,常见的导致发表偏倚的原因是延迟发表或者未发表的研究,很可能会提供与既往研究不同的结果。但是还没有可靠的方法可以准确地评估这个领域的发表偏倚,因此通常只会在有确凿证据的情况下对发表偏倚进行降级。
1.4 证据体质量升级 在这方面的研究证据是很有限的,常用的3个升级标准[10]在此处不一定适用。探索性地提出几点参考建议:①评价纳入研究是否存在重要的偏倚风险,继而导致研究结果偏离真实值。如果这种偏倚不存在,或者影响结果的风险极小,则可以考虑将证据体升级。在研究COPD患者如何判断对各个结局指标价值偏好的系统评价中,EQ-5D(一个测量工具)测量后的数据整合结果显示患者对轻、中、重、非常严重COPD的判断值分别为0.85(95%CI:0.84~0.86)、 0.80(95%CI:0.79~ 0.80)、0.72(95%CI:0.72~0.73)和0.68(95%CI:0.67~0.69)。 虽然纳入研究之间在价值偏好方面体现了一定程度的不一致性,但同时,数据也呈现了疾病进展期间负效用发生明显的梯度变化。这一现象提示有信心地认为健康状态呈现的效用梯度,可以降低对不一致性可能造成的影响的顾虑,因此可以考虑不对证据体质量降级,或者不用降整个的一级。当两个健康状态在结局指标重要程度上呈现很大的差异,差异足够促成决策时,认为也是可信的证据体质量升级的因素。当然,前提条件是上述的差异是精准的,并且研究和数据没有重要的偏倚。实施评价时,如果量表的测量范围为0~1时,可以参考结局指标相对重要程度的最小重要差异值(minimal important difference),如0.05~0.07。
2 总结与展望
GRADE在结局指标重要程度的评价领域是一个创新性的尝试[11]。这些探索性的评价方法对系统评价、卫生技术评估、决策模型以及临床实践指南都很有用。这个领域主要的挑战之一是证据的多样化导致异质性,并影响Meta分析的可行性。Meta分析结果的缺失对不一致性和不精确性的影响尤其大。另一个难点是原始研究分析和报道数据时不注意区分患者对主要结局指标价值偏好的差异,而将其混合到不一致性和不精确性评价中。这篇文章对解决上述问题,以及对GRADE EtD过程中的“价值偏好”的评价提供了重要的参考信息[12-17]。