《评估检验准确性的证据确定性》文献解读

2021-03-12梁小妞罗剑锋

中国循证儿科杂志 2021年6期

梁小妞罗剑锋

GRADE Guidance 31这篇文章可以分为两节。第1节介绍比较检验准确性的概念、主要的比较研究设计类型，第2节重点介绍如何对比较检验准确性的证据确定性的每个维度进行评级，及每个维度降低或提高证据确定性的理由。

1 比较检验准确性的概念、主要的比较研究设计类型

研究间比较是研究间进行比较，并且每个研究只评估比较检验中的一个检验(例如图1中单个检验的评估)。GRADE Guidance 31指南比较两个或更多检验的准确性，即比较检验准确性。比较两个或更多待测标准(index test)的目的在于估计待测标准之间绝对或相对准确度差异。比较检验准确性应用中最常见的是2种检验(两种都不是金标准)中哪一种检验具有更高的准确性。和GRADE文章一致，以用于筛查宫颈上皮内瘤变(CIN)2～3级病变的人乳头瘤病毒(HPV)检验和醋酸染色肉眼观察(VIA)检验，并以有活检的阴道镜检验作为金标准[1]进行举例说明(图1)。

理想情况下，比较检验准确性需要进行比较检验准确性研究，即在同一个研究中评估不同的待测标准，图1显示，每个妇女接受2种待测标准和金标准检验，此类研究可能很少或不存在[2,3]。当每个研究仅评估单个待测标准，研究间(也称为间接比较)的检验准确性比较能提供一个检验比另一个检验更准确的证据，但常导致证据评级降低。

无论什么研究设计，比较检验准确性证据的初始GRADE具有高确定性。在有效的比较检验准确性研究中，每个参与者都要接受所有指标检验和金标准(完全配对设计)，例如图1中每个妇女接受2种待测标准和金标准检验。或者，参与者被随机分配到一个待测标准，然后用金标准进行验证(随机化设计)[4,5]，例如图1中每个妇女接受2种待测标准中的1种。这些设计考虑了每个待测标准准确性的有效估计值，以及待测标准之间的绝对或相对准确性差异。虽然这2种设计最常见，但可以使用不需要对所有参与者进行验证的替代设计，可以提供有效的比较检验准确性估计值。没有随机分组的未配对或部分配对设计开始就具有高确定性，但可能因为偏倚风险而被降级。

图1 单个检验和比较检验准确性的证据间的差异

2 比较检验准确性的证据确定性的5个维度评级，及每个维度降低或提高证据确定性的理由

5个维度对比较检验准确性证据的确定性有影响，即偏倚风险、间接性、不一致性、不精确、发表偏倚。在评估确定性之前，需要定义界值或范围来选择证据确定性评级的目标[7]，因为界值或范围将影响GRADE 5个维度的评级[8,9]。

2.1 偏倚风险(研究设计和实施的局限性) QUADAS-C(QUADAS-2的扩展[10])可用于评估比较检验准确性研究的偏倚风险[6]。理想情况下，应在同一研究中比较不同待测标准，即比较检验准确性研究。如果缺乏比较检验准确性研究，也可考虑对评估单个检验的研究进行研究间比较；然而，这通常会因为间接性而被降级。

除了考虑单个检验准确性研究的适当设计特征，比较检验准确性研究应确保参与者与影响检验准确性的因素具有可比性。例如，图1中如果每个妇女都进行了HPV检验和VIA检验，或者通过将妇女适当地随机分配到HPV检验和VIA检验中的一种检验并分配隐藏；HPV检验的结果应在不知道比较检验结果的情况下进行解读；如果HPV检验、VIA检验用在同一个妇女身上，那么它们之间的结果不能互相有影响。此外，应使用相同的金标准(即有活检的阴道镜检验)验证HPV检验和VIA检验的结果。如果这些条件中有一个或多个未满足，则偏倚风险可能比较高。

所有研究设计均以高级别开始，但可能因以下原因而被降级：

(1)研究设计和实施中可能存在影响HPV检验或者VIA检验准确性的缺陷，可以将评级下调一个级别；

(2)存在于特定的检验比较的其他缺陷，例如：①进行HPV检验和VIA检验的妇女在影响检验准确性的因素(例如疾病严重程度，既有CIN 2级和CIN 3级病变，也有CIN 1级病变)方面不太可能具有可比性。如果在一项研究中对未配对、非随机化的组进行比较，GRADE建议降低一个或者两个等级，②HPV检验可能受VIA检验的结果影响，③HPV检验和VIA检验的结果通过不同的金标准进行验证。

2.2 间接性间接性是指从不同的研究中获得每项检验的准确性估计值并进行比较，例如图1中单个检验的评估部分，VIA准确性研究中的VIA检验与HPV准确性研究中的HPV检验的比较。虽然不同证据的偏倚风险可以单独表示，但由于不同研究的特征或金标准的差异导致间接比较(类似于干预的间接比较)有潜在混杂。因此，研究间比较通常会导致评级降低。比较检验准确性的间接性与单个检验准确度研究的标准相同。

间接性会降低证据级别：

(1)研究人群、干预检验(待测标准)、比较检验(参比检验)和结局指标(由金标准检测)与医疗保健问题有很大的不同。①如果与感兴趣的人群相比，研究人群中检验准确性的绝对或相对差异显著不同，则可以下调人群的间接性评级。就HPV与VIA而言，当大多数研究的研究对象是高收入国家的妇女、而不是中低收入国家的妇女时，则需要下调间接性评级。②例如，如果HPV检验是简易检验，而不是临床实践中常见的制造和标准化检验。③如果结局指标(由金标准检验)与医疗保健问题规定的结局指标不同，结果可能是间接性。例如，在HPV与VIA综述中，如果结局指标包括CIN 1级病变，与CIN 2级和CIN 3级病变一起，就会有间接性问题。

(2)不同研究(研究间或间接比较)对所比较的待测标准进行评估，GRADE建议对间接比较评级降低1～2个级别。

2.3 不一致性 GRADE方法学解释性文件21中，不一致性的评级基于点估计的相似性、置信区间的重叠程度以及量化不明原因异质性程度的统计量[11]。如果特定研究的估计值位于事先定义界值的任意一侧，就会降低不一致性的评级。

当对比较检验准确性的不一致性和不精确性进行评级时，研究结果和界值最好表示为检验准确性的差值或者比值，而不是每个待测标准的准确性。当将重点放在每个检验使用特定截断值的研究，用灵敏度和特异度来表示检验准确性。灵敏度和特异度的比较可以表示为绝对差值、比率或比值比[12]，例如：灵敏度差值=灵敏度A-灵敏度B，特异度差值=特异度A-特异度B；灵敏度比=灵敏度A/灵敏度B，特异度比=特异度A/特异度B；灵敏度比值比=(灵敏度A/(1-灵敏度A))/(灵敏度B/(1-灵敏度B))，特异度比值比=(特异度A/(1-特异度A))/(特异度B/(1-特异度B))。图1例子使用了绝对差值，因为解释起来比较简单，特别是用频率表示时。图1中如果选择的界值为无差别界值(例如绝对差值等于0)，则不一致和不精确的评级是很简单的。如果与VIA检验相比，HPV检验具有更高的灵敏度和特异度，并且使用HPV检验在直接危害、成本、可行性和与VIA检验相关的其它因素方面没有缺点，则无差别界值可以是指南的合理阈值[7,13]。

比较检验准确性中无法解释的不一致性会降低证据的级别。

2.4 不精确不精确的估计值(例如总估计值宽的置信区间)会降低证据的确定性[11]。多宽的置信区间会降低确定性取决于使用的界值[7,13]。当比较检验准确性的置信区间包含预先设定的界值或范围时，会因不精确性而降低评级。然而，如果总估计值的宽置信区间明显是由于研究间的异质性引起的，则可以选择降低不一致性而不是不精确性。

图2显示，使用推荐HPV检验而不是VIA检验的界值时，决定灵敏度至少增加17%、特异度降低不超过10%。平均灵敏度差异的置信区间为11%～41%，这导致将真阳性和假阴性评级降低1级(总体判断：严重的不精确性)。虽然平均特异度差异的置信区间(-15%～8%)足够宽可以包含界值，但这可以用不一致性来解释。因此，没有降低真阴性和假阳性的评级(总体判断：没有严重的不精确性)。

图2 HPV检验与VIA检验综述的森林图和偏倚风险判断[6]

2.5 发表偏倚比较检验准确性研究中，很少有关于发表偏倚的研究。比较有效性研究的选择性不发表情况也可以应用于比较检验准确性研究。例如，相对于VIA检验，比较HPV检验的优效性时，新检验的开发人员可能不愿意公布阴性结果。对比较检验准确性的发表偏倚进一步研究之前，评估者应该选择先前的GRADE方法学解释性文件21来判断发表偏倚[11]。

高度怀疑发表偏倚会降低证据的级别：①营利性目的；②未发表研究；③仅有小样本量研究，且结果的准确度差异很大；④漏斗图不对称和效应值小的检验，但这些检验尚未在比较检验准确性研究中得到验证。

2.6 提升证据确定性的理由

(1)大的效应值：例如，在考虑所有GRADE 证据决策标准后，与VIA相比，HPV灵敏度和特异度的精确度和一致度提高10%，这足以进一步缓解偏倚风险或间接性问题，从而支持该推荐。然而，与干预研究类似，评估者对具有较大偏倚效应的研究评级时应谨慎。

(2)合理控制混杂因素或其他偏倚可以增加对估计效应的把握度：有明确方向的混杂或偏倚可提高级别。例如，在不利的情况下将新检验(HPV检验)与现有检验(VIA检验)进行比较，会低估HPV检验的灵敏度。如果与VIA检验相比，HPV检验的灵敏度仍然更高，则更有把握认为HPV检验占优。

(3)剂量-反应关系[11]：是否以及如何应用于比较检验准确性问题尚不清楚，需要进一步研究。

上述这些原则应用于比较检验准确性证据需要进一步研究。

2.7 比较检验准确性研究和研究间比较组成的证据比较检验准确性问题的系统评价通常包括比较检验准确性研究(即比较性研究)和研究间比较[15, 16]。①建议评估者分别评估比较性研究和研究间比较的证据的级别。②如果比较性研究构成高级别证据，则不需要进行研究间比较。③如果比较性研究的证据具有中等级别或更低的级别，建议评估研究间比较的级别，并选择最高的级别证据作为推荐(尽管由于间接性问题，研究间比较型证据最多能提供中等级别证据)。

3 解读

3.1 研究间(间接)比较和比较检验准确性的考虑因素研究间比较的方法存在偏倚风险、间接性和不一致性问题。

研究间比较的偏倚风险和间接性：理想情况下，应使用专门设计的偏倚风险工具来确定研究间的偏倚，但这些工具目前不可用；例如，QUADAS-C是为比较检验准确性研究而设计的。在研究间比较中，区分了两类偏倚相关问题：①由于研究设计和执行的缺陷而导致的问题，即偏倚问题；②在综合性证据方面，不同研究之间的比较存在缺陷而出现的问题，即间接性问题。

研究间比较的不一致性：用于研究间比较的研究只能估计单个检验的准确性，无法直接观察到比较检验准确性估计值的不一致性。如果观察到1个或2个检验有不一致性，则比较时不一致的概率更大(注意这不能直接观察，只能推断)，估计者应该考虑对这个方面的评级下调。建议采用两步法来评估研究间比较的不一致性：第一步，使用已知标准对每个待测标准的不一致性进行评级[11]，第二步，推断研究间比较的不一致性。

3.2 比较检验准确性证据的级别评级方法与单个检验准确性证据的评估方法既有相似之处，也有重要区别最显著的差异在于研究设计的选择、偏倚风险的评估以及检验准确性的比较方法的使用。

此外，比较检验准确性研究和研究间比较组成的证据：虽然结合定性或定量的比较性研究和研究间比较的做法很常见[16]，但是这些类型的证据是否、何时以及如何整合需要进一步的研究。

3.3 无论研究设计如何，比较检验准确性证据的初始为高级别证据文中主要描述了降低比较检验准确性证据级别的5个维度的情况。当有增加证据级别的理由出现时：①可以在进行降低5个维度级别的基础上进行提高证据级别；②如果5个维度级别没有任何降级，那么维持比较检验准确性证据的初始高级别证据。