《诊断准确性研究证据质量评价：不一致性、不精确性、发表偏倚以及其他》文献解读

2021-03-12彭晓霞刘雅莉

中国循证儿科杂志 2021年6期

彭晓霞刘雅莉

1 主要内容介绍

从不一致性、不精确性和发表偏倚等维度，对诊断准确性评价证据的确定性进行评级，与干预、预测或其他研究的证据评级遵循相同的基本逻辑，但在操作层面上存在不同。

除了证据之间的不一致性、不精确性和发表偏倚对证据确定性评级的影响外，诊断准确性评价证据的确定性是否可以升级，还取决于诊断试验结果是否与其对应的临床结局(如：患病可能性或疾病的严重程度)存在较强的相关性。例如，随着肌钙蛋白T水平升高，急性心肌梗死的可能性显著增加，而不仅仅是因为选择不同诊断截断值(cut-off point)所导致的敏感度或特异度在数字上的增加，这样的证据将增强对该诊断试验的信心。然而，与针对干预性研究证据确定性评级方法不同，诊断准确性评价证据确定性升级还需要进一步的理论和实践研究，因为，针对是否以及如何将剂量效应关系纳入诊断准确性评价的证据确定性分级，至今尚未达成共识。

需要特别注意的是，诊断准确性评价的确定性评级与诊断准确性高低(即敏感度与特异度)常常并不一致。有时，系统综述纳入的诊断准确性评价研究都是设计周密、实施严谨的研究；而且系统综述作者进行了调查研究，可以解释纳入独立研究之间的不一致性；此外，几乎没有理由怀疑发表偏倚的存在。但是，系统综述的作者仍然认为敏感度的95%CI过宽而将敏感度评为中等确定性，将特异度评为高度确定性。

诊断准确性评价的证据概要展示形式不同于治疗或干预效果评价等研究。GRADE建议采用3级分层形式来描述证据概要，并可以在GRADE的官方APP(GRADEpro)中进行开发：①采用简单的总结表和证据摘要来描述研究发现，仅提供诊断准确性相关信息(如：患病率、敏感度、特异度、假阳性率与假阴性率等)；②用表格呈现有助于制定决策的其他特征信息，如在诊断准确性评价过程中获得与诊断试验直接相关的并发症(如：造影剂导致的急性肾功能损伤或静脉炎等)；③在提出决策建议的过程中，提供患者相关的重要结果信息，同时对与诊断试验相关的有益和无益的健康影响做出的明确判断对决策制定也是非常有用的。在证据概要中清晰展示以上信息将有助于确保决策的透明性。

2 重要观点及解读

诊断试验准确性评价是指以当前公认的疾病诊断标准(如疾病诊断的金标准)为参考，来评价新的诊断测试的诊断准确性，主要指标为敏感度(真阳性率)与特异度(真阴性率)，但在实际决策过程中，还要关注假阳性率与假阴性率对后续治疗决策的影响以及对疾病最终预后的影响，以及在特定医疗环境下某种疾病在就诊患者中所占的比例[1]。与治疗或干预效果评价一样，诊断试验准确性评价的系统综述也是进行临床决策的最高级别证据，因为在完成系统综述过程中，作者会分析每项独立研究的偏倚风险，筛选低偏倚风险的研究纳入系统综述，从而确保系统综述结果的真实性。但是，基于诊断准确性评价的系统综述证据体进行临床决策时，还需要进一步评价证据是否具有不确定性，以及针对不确定性是否能找到合理的解释，从而做出相应的证据升级或降级处理，提高决策的透明性。

相对于原始诊断试验准确性评价研究的偏倚风险，人们对诊断准确性证据体的确定性评价并不熟悉，本文将重点解读如何基于研究证据之间的不一致性、不精确性及发表偏倚做出证据确定性升级或降级的判断。

2.1证据确定性评价的主要维度

2.1.1 不一致性诊断试验准确性评价证据之间是否存在不一致性，以及针对不一致性是否能找到合理解释是影响该证据确定性是否被降级的重要依据。诊断试验准确性评价证据的不一致性评价与干预效果评价不同，后者可以通过效应指标点估计的相似程度，点估计值95%CI重叠的程度，各独立研究效应值大小的异质性检验结果，以及在Meta分析时随机效应估计的方差估计等对已有研究证据之间的一致性进行评价；但是，诊断试验准确性评价则需分别评价各独立研究获得的敏感度与特异度估计值之间是否不一致。以2014年发表的心脏MR诊断肺动脉高压准确性评价的Meta分析为例[2]，图1显示不同研究的敏感度点估计值0.81～0.98，特异度点估计值0.69～0.89，特异度异质性检验I2=0，敏感度异质性检验I2=47.2%，虽然<50%，但仍需对Hagger等的研究[3]进行分析，发现该研究在MR与右心导管(金标准诊断)检查之间的间隔时间为30 d，明显长于其他4项研究。在诊断试验中，诊断测试与金标准检查之间的时间间隔原则上应尽可能短，但考虑到肺动脉高压患者的心室质量指数在30 d之内不会发生太大变化，因此决定不对该研究“不一致性”进行降级处理。相反，如果各独立研究之间的敏感度或特异度的95%CI出现互不重叠的现象，又无法找到可以解释的导致不一致性的原因时，可能要考虑对该证据的“不一致性”进行降级处理。

图1 心脏MR心室质量指数预测肺动脉高压的敏感度与特异度[3]

2.1.2 不精确性诊断准确性评价指标除敏感度(真阳性率)、特异度(真阴性率)外，还有假阳性率、假阴性率、诊断比值比(DOR)等，以上参数的95%CI较宽时，均会降低证据的确定性评级。然而，95%CI多宽时应降级，则需要根据具体研究信息加以判断。众所周知，CI的宽窄取决于样本量及结局事件数的大小。因此，当临床决策在特定情境下，需要权衡敏感度、特异度、假阳性率与假阴性率之间的相互影响，以及决策导致的结果时，应预先设定可以反映临床意义的CI阈值。当CI的上下限值包含了可以导致不同决策的值时，应考虑将证据的确定性给予降级。例如，当系统综述作者或指南开发团队将0.8作为某一特定情境下可接受的最低敏感度时，那么，敏感度95%CI为0.72～0.88时，对于该决策需求都可能太宽了，从而无法判断采用该诊断结果是否能带来更多的临床获益。相反，如果敏感度的95%CI在0.82～0.92，下限>0.8，因此，可以支持综述作者或指南开发团队做出决策，这时，可以认为该95%CI足够窄。对于决策制定者而言，应该将敏感度和特异度估计值及其95%CI转化为在设定患病率下的真阳性、假阳性、真阴性及假阴性的绝对值及其95%CI。接下来，根据临床决策需求，判断哪一个指标是临床决策最关注的指标，如果这个指标的95%CI较窄，及时其他指标95%CI较宽，也没有必要对该证据进行降级处理。

2.1.3 发表偏倚总的来说，诊断试验准确性评价证据的确定性评级与治疗性研究一样，对发表偏倚进行评估，包括：存在利益风险的研究，样本量较小但准确性高且估计精确度也高的研究，以及已完成但未发表的研究。尽管对发表偏倚的高度质疑会导致人们对诊断试验准确性评价证据的确定性给予降级，但事实上，对于是否存在发表偏倚，知之甚少。广泛用于检测发表偏倚的方法是绘制漏斗图及其不对称性检验，如Egger's 或 Begg's 检验，但这种方法会不恰当地增加降级的可能，因为样本量大小常常与诊断试验准确性评价研究的患者结局或特征有关，而不是与发表偏倚相关。

事实上，Deeks'检验或剪补法(the trim and fill method)更适用于检验诊断试验准确性评价的发表偏倚。尤其是剪补法，其优点在于提供无偏的诊断准确性估计值和直观的视图显示，基于观察研究和模拟研究，允许作者通过纳入模拟研究，目测诊断准确性的变化程度。如果这一变化微不足道，那么就没有必要因发表偏倚对证据确定性进行降级。但无论哪种统计方法，都存在局限性。其实，确认发表偏倚最好的方法是了解哪些已经完成的研究没有发表。但是，在尚无实现诊断准确性评价研究注册的标准方法时，这些信息并不容易获取。

2.2 决定证据确定性升级或降级的其他因素

2.2.1 诊断准确性评价的剂量效应关系在因果判断中有一条非常重要的标准，即暴露因素(或干预因素)与研究效应之间是否存在剂量效应关系，如果存在，则会增强因果判断的强度。如，在吸烟与肺癌发生风险之间的相对危险度(RR)>1的前提下，如果随着吸烟暴露水平的升级，RR值也相应升高，那么，这种剂量反应关系会进一步增强人们对吸烟导致肺癌这一因果判断的信心。对于诊断准确性评价而言，大家对是否以及如何根据剂量反应关系来支持证据确定性的升级或降级尚未达成共识，因为诊断准确性评价的“剂量水平”体现在诊断截点值上，对于测量值高于诊断截点值即为诊断阳性的案例来说，诊断截点值的升高，一定会表现为敏感度的降低与特异度的升高，但这些数字上的改变并没有真正的临床意义，真正的临床意义最终要取决于敏感度或特异度的改变是否切实影响了疾病结局。但针对诊断试验对疾病转归应用的RCT并不像干预效果评价那般常见。

2.2.2 其他考虑是否对诊断准确性评价证据进行降级，在很多时候需要根据具体问题做出特殊考量。例如：敏感度高意味着假阳性(漏诊)低，特异度高意味着假阴性(误诊)低，首先根据诊断对目标疾病的影响大小，即误诊产生的影响更大，还是漏诊产生的影响更大，来判断证据分级时更侧重于哪个指标；另一方面，在同一项诊断准确性评价证据中，敏感度与特异度的估计精确度并不完全一致，如果敏感度更重要，而敏感度的95%CI却相对较宽时，作者可能会考虑降级处理。

2.3 证据概要和GRADE分级结果汇总表虽然证据概要和调查结果汇总表的展示对决策透明性至关重要，但是，学习诊断准确性评价证据体的证据概要和调查结果汇总其实是一种挑战。

GRADE在GRADEpro中提供了研究结果汇总(Summary of findings, SOF)模板，在该模板中，除了可以展示诊断准确性评价的系统综述基本特征(包括纳入研究个数、样本例数、研究设计类型)和证据确定性影响因素(包括偏倚风险、间接性、不一致性、不精确性及发表偏倚等)外，还可以呈现目标疾病患病率，诊断试验的敏感度、特异度、假阳性率与假阴性率及其95%CI，并展示每1 000名疑似患者在使用该诊断试验后，在不同先验患病率条件下，获得的真阳性、假阳性、真阴性及假阴性病例数及其95%CI。以上信息的展示虽然看起来有点复杂，但GRADEpro的用户测试表明，当前的格式有助于总结系统综述的研究结果，给指南小组提供透明性较好的展示。

3 主要启示和展望

从研究者发现一项有潜在诊断价值的诊断试验(diagnostic test)，到采用目标疾病金标准对该诊断试验进行准确性评价，并不是诊断试验可以直接向临床转化应用的最直接证据，还需要对该诊断试验在临床应用后是否会改善临床结局进行评价，但这一认识并未在我国临床研究中达成共识。GRADE证据评价不仅重视原始研究的真实性，更重视该证据临床转化的意义与直接性。因此，GRADE证据评价首先可以推动我国临床研究者对诊断试验研究有更全面、更系统的认识，提高我国诊断试验研究的质量。

在诊断准确性评价的系统综述基础上，评价证据的间接性、不一致性、不精确性与发表偏倚对证据确定性的影响并不容易理解，虽然在本次解读过程中，尽量采用了简单的案例加以说明，但在实际应用中，还需要有专业团队的指导与帮助。

推荐大家采用GRADEpro提供的研究结果汇总模板呈现诊断试验准确性评价的GRADE证据分级结果，这对指南开发小组准确把握GRADE指南的诊断准确性证据评级方法、提高循证决策的透明性是至关重要的。