《评估预后因素证据：对绝对风险不同患者组的分级》文献解读

2021-03-12陈耀龙

中国循证儿科杂志 2021年6期

陈耀龙杨楠周奇

1 主要内容介绍

预后因素在不同研究和研究内部之间的结果不一致，因此需要对每个预后因素与结局风险的估计值进行单独分级。预后因素应用分为2类，1类与研究设计和分析相关，包括分层随机、调整风险分析和预后模型，可以称之为“非情景化”；另1类是直接用于患者的医生临床决策，称之为“情景化”。

预后因素证据质量定义为预后因素对患者群体未来某事件发生风险估计值的确定性，根据对预后因素相关的风险变化(有或无预后因素者未来事件发生概率)接近估计值的信心程度将预后因素的证据质量分为高、中、低和极低。然后通过以下方式制定本指导：①系统性调查已发表的预后因素系统评价和Meta分析；②与其他成员协商讨论和收集反馈意见；③在GRADE工作组例会上介绍和讨论。

由于预后因素的最佳证据通常为观察性研究(队列研究、登记或数据库链接研究等)，因此无论是观察性研究还是RCT，预后因素研究的起始证据质量均为高，先考虑降级领域，再考虑升级领域。

1.1 降级领域降级领域包含偏倚风险、不一致性、间接性、不精确性和发表偏倚等5个领域。

1.1.1 偏倚风险评估单个预后研究的偏倚风险，主要关注研究设计和实施中可能导致高估或低估真实风险比(RR)、危险比(HR)、比值比(OR)。预后研究的质量(QUality In Prognosis Studies，QUIPS)评价工具专用于评估针对预后因素研究的偏倚风险[1]。其他偏倚风险工具，如预测模型偏倚风险评估工具(PROBAST)[2]和纽卡斯尔-渥太华量表(NOS)[3]也可用于评估预后研究。

预后因素在很多情况下存在关联，单独考虑1个因素的预测结果存在误导，因此研究者在同时考虑多个因素时，需要通过多变量分析进行调整，找出独立的预后因素，生成调整后的估计值。如果证据中主要是一些未调整或只调整部分主要预后因素的研究，就需要对偏倚风险领域进行降级。

不同研究的结果也可影响偏倚风险的判断，如果证据体同时包含高和低偏倚风险的研究，两者的结果不一致，则应只选择低偏倚风险研究的结果进行合并，不对偏倚风险领域进行降级。如果高偏倚风险和低偏倚风险的研究结果基本一致，则可以合并所有研究的结果，高偏倚风险研究在合并结果中的权重高可考虑降级，权重低可考虑不降级。

1.1.2 不一致性分为3个层次，分别是点估计值的变异性、可信区间的重叠程度、绝对风险的点估计值与临床决策阈值的关系。由于预后研究的样本量通常很大，可信区间比较窄，常规的统计学异质性的评估方法(如I2值)很容易提示显著的异质性，因此对不一致性领域的降级需慎重。

在非情景化评估时，当点估计值的可信区间均位于无效线(RR、HR或OR=1.0)一侧时，无论估计值大小不同或是存在统计学异质性，都不需要降级。即使存在异质性，如果通过研究假设可以解释不一致的结果，或敏感性分析显示不一致的研究在合并结果中权重较低，也不需要降级。

1.1.3 间接性是由于目标人群所提供的管理方式与待评估的系统评价中所包含的研究人群的管理方式存在较大差异。在非情景化应用时，目标人群可能是纳入临床试验的受试者，观察性研究中受干预影响的人群或是临床决策指南的潜在目标人群。在情景化应用时，目标人群直接为临床决策的目标患者。如果研究的结局不能完全代表所关注的结局，也可考虑对间接性领域进行降级。

1.1.4 不精确性鉴于预后研究的样本量通常较大，因此无需先判断样本量是否满足最优信息样本量。在非情景化应用时，可直接根据合并结果的可信区间是否跨越无效线，若跨越则认为结果不精确，需要对不精确性领域进行降级。

在情景化应用时，需要结合可信区间和临床决策阈值关系进行评估。由于基线风险的不同，相同的点估计值具有不同的绝对风险，因此需要将其转化为绝对风险的差异。如果点估计值处在可信区间的上下界时，绝对风险差异都不改变临床决策时，不论可信区间宽窄或是跨越无效线，均不需要对不精确性领域降级(图1)。

图1 基于预后因素的不精确性降级考虑

1.1.5 发表偏倚预后因素的发表偏倚比较常见，特别是对于一些重要的预后因素。漏斗图是最为常用的非量化发表偏倚的检测方式，如果漏斗图左右不对称或提示存在研究缺失，则可能存在发表偏倚。根据量化检验方法(如Begg检验、Debray检验、Peter检验和Egger检验等)的显著性检测结果可直接判断是否存在发表偏倚风险。

1.2 升级领域升级领域包含大的效应值、剂量效应关系和反向混杂。作者暂未发现预后因素系统评价升级的例子，但在非情景化应用时，观察到强的关联(RR>5或<0.2)，并且在偏倚风险和不精确性领域未降级，则有必要在大的效应值领域升1级，对于非常强的关联(RR>5或<0.2)最多可升2级[4]。

注意事项：①RCT通常对纳入人群严格限制，部分符合条件的患者可能拒绝参加，如果拒绝参加的原因与预后存在相关，则可能存在偏倚风险，需要进行降级。②在极少见的情况下，医生仅评估1个易测量的预后因素，但该因素与其他众多次要预后因素有关，几乎与包括所有因素的整体模型预测效果一样。例如，考虑到临床医生评估D-二聚体正常患者在3个月随访期内预计有98.9%的概率不会出现血栓，几乎与Wells临床预测模型(考虑7个预后因素)得分≤1的患者98.6%的预测概率相同。在这种情况下，对于D-二聚体正常的患者，未经调整的估计值与包括所有相关变量的模型提供的信息水平基本相同，无需对偏倚风险领域进行降级。③对于系统评价作者和指南制定人员，决策的风险阈值可能不同，导致对不精确性的判断也不同。指南制定人员依赖系统评价的数据，系统评价可提供有无预后因素的绝对风险，也有助于研究不同决策阈值的影响。

2 建议

为进一步推动GRADE在预后因素评估中的应用，本文提出以下建议。

2.1 根据不同的研究目标开展更多预后因素研究可分为3种类型：①总体预后研究，旨在建立广泛定义人群中的典型风险；②预后因素研究，旨在确立特定患者特征如何影响风险；③结局(或风险)预测模型，旨在开发一个完整的预后模型，同时考虑一些预后因素将患者划分为不同的风险等级[5]。

2.2 提高预后研究报告的完整性预后研究的GRADE分级依赖更多的信息，例如研究人群特征、多因素分析方法等。建议研究者在报告预后研究时可参考加强流行病学观察性研究的报告(STROBE)声明[6]和对个人预后或诊断的多变量预测模型的透明化报告(TRIPOD)声明[7]等报告规范，保证提供全面的分级信息。

2.3 培训预后因素的GRADE分级方法建议针对已掌握干预类研究GRADE分级方法人员进行培训，快速增加掌握预后因素分级的专业人员，以适应GRADE方法快速更新的现状[8]。