临床实践指南制订方法
——GRADE在观察性系统评价中的应用
2019-04-26邓通汪洋王云云李炳辉靳英辉任学群王行环
邓通,汪洋,王云云,李炳辉,靳英辉,任学群,王行环
GRADE证据系统的推出突破了以往单纯按照研究设计划分证据质量等级的局限性,综合考虑系统评价纳入研究的偏倚风险、发表偏倚、不一致性、间接性、不精确性、效应量大小、剂量-反应关系以及混杂因素等。观察性研究(observational study)又称非实验性研究(nonexperimental study),是指没有加入研究人员的任何干预(试验或其他方面)措施,允许事件自然发展的研究过程[1],其中主要包括的类型有队列研究、病例对照研究和横断面研究等。医学研究中很大部分是观察性研究,多用于评估教育项目或研究可能造成疾病或损害的危险因素,由于人的内在特点或实施条件涉及医学伦理等原因,这类研究通常不能实现随机化。因此,与随机对照试验相比,观察性研究更易受到偏倚风险的影响,发生选择性偏倚的风险大于实验性研究[2]。所以GRADE一般将来自观察性研究的证据定位低质量证据。但某些特定情况下,观察性研究所提供的证据也能升级为中等甚至高质量的证据。
观察性研究能够提供许多极为重要的信息,在医学研究中占很大比例,因此,观察性研究的Meta分析具有重要意义[3]:①对观察性研究进行定量分析,以确定某因素是否为危险因素;②增加统计效能,分析量效关系;③分析不同研究间的异质性;④总结各单个研究的结果;⑤研究稀有暴露因素及其相互作用;⑥研究稀少疾病的危险因素。近年来观察性研究的Meta分析大量涌现,并呈逐年增多的趋势,已成为循证医学中的重要部分。
已发表在《中国循证心血管医学杂志》上的系列文章[4]和待发表的文章分别介绍了GRADE方法的理论部分和GRADEpro GDT在干预性系统评价中的应用,本文主要讲述观察性系统评价在进行质量分级时需要考虑的三个证据质量升级因素的基本原理及在GRADEpro GDT中的结果呈现。
1 证据质量升级因素的基本原理
运用GRADE方法进行证据质量分级,一般将观察性研究的证据定为低质量。但有时我们对一些研究的效应估计有较高的把握度[5]。因此,GRADE提出了观察性研究证据质量升级的方法。证据质量升级的三个因素:①存在很大的效应量:当方法学严谨的观察性研究表明效果显著,相对风险度至少降低或增加2倍时,GRADE建议考虑将证据质量升高1级;当效果非常显著,如相对风险度至少降低或增加5倍时,考虑将证据质量升高2级。②存在剂量-反应关系:这种关系的存在可能会增加研究者对观察性研究结果的信心,从而提高其证据质量。③所有合理的混杂或其它偏倚增加我们对估计效应的把握度时,即影响观察性研究的偏倚不是夸大而是减小其暴露效果时,可以提高证据质量。
另外,在很多情况下,观察性研究被认为仅能提供低质量证据的原因是其无法在分析中校正未测量或未知的对结局有影响的因素,而这些因素往往可能造成暴露组和非暴露组间分布不均衡。但当某些严谨的观察性研究精确测量与关注结局相关的预后因素,同时也对这些因素在两组组间分布的差异进行分析以校正其效应时,则可考虑升高证据质量的级别[6]。系统评价及Meta分析的方法学质量评价工具AMSTAR于2017年进行了更新,AMSTAR 2适用于随机对照研究(RCTs)或非随机干预研究(NRSI)或两者都有的系统评价,其条目第11条强调对非随机干预研究(如观察性研究)结果进行合并时,需要对调整效应量而不是原始数据进行统计合并;此外,当调整效应量不可行时,需要验证原始数据合并的合理性[7]。要对一篇观察性系统评价进行升级,首先要评价其方法学质量,只有当它的方法学合理,严谨和质量高时,才会考虑进行证据质量升级。故笔者认为如果纳入的原始研究未对可能的混杂因素进行校正或系统评价未对调整效应量进行合并或者未验证原始数据合并的合理性,即若证据评价者认为原始研究的方法学质量或待评价的系统评价的方法学质量存在重要缺陷时,则不适合进行升级因素的分析,即纳入研究及系统评价方法学的严谨性是进行升级因素考虑的先决条件。
同时在考虑升高证据质量的理由之前,也必须考虑到GRADE的其他降级因素,若观察性研究在不精确性、不一致性、间接性和发表偏倚中的任何一方面存在严重的缺陷,则很少会做出升级的决定。
1.1 效应量大证据质量升级的最常见原因就是效应量大(最常见的效应量为RR和OR)。当医生对于一些临床治疗方案(如髋关节置换术用于减轻严重骨关节炎的疼痛和功能限制,肾上腺素用于预防过敏反应死亡,胰岛素用于预防糖尿病酮症酸中毒死亡等)有绝对信心时,可在应用GRADE证据质量分级时,认为这些治疗方案的证据是高质量证据,即便这些证据来自观察性研究或非系统的临床观察[5]。例如20世纪与肺癌吸烟有关的一项系统评价表明吸烟与不吸烟发生肺癌的风险比(RR)=8.43,95%CI:7.63~9.31[8]。这个例子最显著的特点是效应量大。虽然治疗或干预效果来自观察性研究或公共卫生干预的研究,但其较大的效应量及其他基于人群的流行病学证据值得将证据质量升高至少1级。
此外,如果因效应量大而升高证据质量时,还需考虑与效应量大小有关的因素包括起效迅速、潜在的疾病(状态)趋势。例如,当我们认为髋关节置换术的效应量大时,其实不仅是因为治疗反应的大小,还因为髋关节骨性关节炎的自然史是逐步恶化,但通过手术能够迅速、无一例外地逆转这一趋势。与已知疾病趋势相比,对治疗的迅速反应也可被视为效应量大[9]。但需注意如果观察的结局为主观指标时(如在骨科的手术后管理中,疼痛评分是一个重要的结局指标,但这个指标受到患者和护士主观影响较大或者对于精神科患者进行精神状态等的评分时,都会在很大程度上受到患者本身和评价者的主观影响),这时即使效应量很大,系统评价作者和指南制定者在做出因果推断时也应谨慎[10]。
1.2 剂量-反应关系流行病学研究中,通常需要了解某种暴露(干预)水平的变化与结局指标发生风险的潜在关系,从而达到对该结局进行有效预防或干预的目的,这种关系即剂量-反应关系[11]。例如,研究发现蔬菜水果的消费量的增加与全因死亡率降低风险显著相关,HR=0.95,95%CI:0.92~0.98,我们观察到大约在每日五份水果蔬菜之前,全因死亡率会随着水果蔬菜份数的增加而降低[12],虽然在达到五份之后全因死亡率不再随着水果蔬菜的增加而减少,但还是可以认为全因死亡率与水果蔬菜的摄入在达到阈值前是存在剂量-反应关系的(图1)。研究显示抗菌素使用的及时性与出现败血症间存在明显剂量-反应关系(图2)[13]。这一剂量-反应关系使我们有理由相信干预措施对死亡率的效果(每延迟1 h,死亡率的绝对增加明显)是真实而显著的,故有充分理由进行升级。
图1 水果和蔬菜消费之间的剂量-反应关系和所有原因死亡率的风险
图2 感染性休克相关低血压发生后开始使用抗菌剂的累积效果及相关生存情况
1.3 合理的混杂偏倚混杂偏倚是由于一个或多个外来因素的存在,掩盖或夸大了研究因素与疾病(或事件)之间的联系,从而部分或全部歪曲了两者之间的真实联系。引起混杂偏倚的外来因素称为混杂因素(confounder)。混杂因素必须具有下述特点:①与所研究疾病的发生有关,即混杂因素是该疾病的危险因素或保护因素之一;②与所研究的暴露因素有关;③不是所研究的暴露因素与疾病病因链上的中间环节或中间步骤[14]。混杂偏倚可分为正混杂和负混杂。正混杂导致过高地估计暴露与疾病的联系强度,负混杂导致过低地估计暴露与疾病的联系强度。当影响观察性研究的偏倚不是夸大,而可能是低估效果时,或当偏倚是夸大,高估结果时,而结果不存在关联时都可以考虑提高证据的质量,合理的混杂可增加估计效应的可信度。一般来说严谨的观察性研究会精确测量与关注结局相关的预后因素,也会对这些因素在干预组与对照组间分布的差异进行分析以校正其效应。不过在一些特殊情况下,我们是无法将其中的混杂因素校正,但能明显看出这些混杂因素可能使我们低估了干预措施显而易见的疗效。
引用现代流行病学方法与应用书中的一个例子[15],例子中涉及到的公式不再作详细的说明,如果有兴趣的可以查找原文献。对某单位45~54岁年龄组男女各1000名健康工人观察3年,以了解锻炼气功对发生冠心病有无保护作用,其中男工300人,女工100人坚持锻炼气功,各自分别有30人和5人在观察期间患了冠心病。又知其余不锻炼气功的男、女工人中分别有140人和90人在同期患了冠心病。
在研究气功锻炼与冠心病的关系时,假定气功可减少冠心病的发生,因而可以作为一个保护因素。而根据已有的专业知识,已知性别与冠心病有关,且男性比女性患冠心病的机会要大。通过计算可看出粗的未分层的RR>RR男(或RR女),因此性别在此项研究中产生的偏倚是负混杂。负混杂的产生是因为练功组中男性的比例75%(300/400)远比非练功组的44%(700/1600)高得多,而男性性别是患冠心病的危险因素。在未分层的粗资料中,练功组发病率中因男性而发病的比例要比非练功组大,使描述气功预防冠心病的真实效应被减小。如果当我们遇到这种研究的系统评价,降级因素考虑没有问题,我们可考虑对此结局进行升级。
当观察性研究未能证实关联时也存在类似情况。例如来源于1998年发表于《柳叶刀》上面的一篇关于疫苗接种和孤独症之间关联的研究,该研究指出接种疫苗可能会导致孤独症(目前该文章因其利益冲突和研究方法的科学性已在2010年被杂志撤稿)[16]。但随后的观察性研究中却未能证明两者间具有关联性[17,18]。与该文章(证明有关联)[16]发表前诊断的孤独症儿童的父母相比,文章发表后诊断的孤独症儿童的父母可能更易回忆起孩子接种经历或者说更偏向认为他们的孩子接种过疫苗,即便如此,仍被证明这两者之间无关联,可以推测,非孤独症儿童的父母与之相比,情况也是如此。尽管在研究中存在回忆偏倚的情况,而且这种偏倚在一定程度上是使实验结果更加接近于有关联,不过即使在这种情况下后续研究结果仍旧为阴性结果或者说即使校正了这个偏倚得到的结果也一定会是阴性结果,我们就可以对后续无关联结果的研究中的“阴性结果”建议升高证据质量。
以Stark和Mantel对新生儿Down's综合征的研究为例,人群监测资料提示孩子出生顺次(同一母亲所生孩子的出生顺序)与Down's综合征存在联系,随着出生顺次的上升,Down's综合征患病率也在上升(例如,第二胎比第一胎的患病率要高,第三胎比第二胎的患病率高,依次提升),似乎出生顺次是Down's综合征的危险因素。但进一步研究发现随着分娩年龄的增加,Down's综合征的发病率也逐渐上升。如按不同分娩年龄组分层后,可发现“控制了母亲分娩年龄这一混杂因素后,出生顺次与Down's综合征发病率无关”。所以这个混杂因素夸大了研究结果,导致研究认为出生顺次是Down's综合征发病率的危险因素,这个研究的证据质量就不能升级[14]。
2 结果呈现
2.1 案例来源本案例来源于2010年中国肺癌杂志的《肺癌家族聚集性的系统评价》的一篇文章[19]。
2.2 案例结果与结论案例共纳入28项研究,纳入的一般特征和方法学质量见原文。我们将原文中肺癌家族聚集性的森林图列出(图3)。本案例经过AMSTAR 2方法学质量评价工具的评价,具体评价过程在这里不再详细介绍。
图3 肺癌家族聚集性的森林图
2.3 案例在GRADEpro GDT中的呈现在上一篇文章中,详细介绍了干预性系统评价在GRADEpro GDT中在从注册到完成质量分级的整个过程,因为大部分过程是一样的,主要讲述一下在结果录入部分的具体操作。
在结果录入界面之前操作都一样,需建立项目,然后建立临床问题,录入结局指标到达结果录入界面(图4)。本文以证据概要表(GRADE Evidence Profile)的页面为例进行结果数据的输入。首先需输入研究纳入的数量,然后点击“Study design”下方空白栏,选择研究类型;点击后需选择观察性研究或随机对照试验,如果选择观察性研究会出现第2个选择项,里面是观察性研究的不同类型,选择上面案例的研究类型病例对照研究;下面还会出现一个勾选的方框,是用来判断研究是否经过ROBINS-I评价。
接下来就是通过五个降级因素和三个升级因素进行证据的质量评估,三个升级因素的选择在“Other considerations”选项下(图5),然后根据上面介绍的内容进行文献质量升级的判断。
图4 结果录入界面
图5 三个升级因素的选择
进行证据质量评估之后,需要进行数据的录入,依据上面案例的森林图,将OR值,病例组样本的发生数,对照组样本的发生数和对照组的发病率输入之后(不同的研究设计类型输入干预组和对照组的数据会不一样,需自行判断每一种类型需要输入什么数据)(图6),然后表格会自动计算出证据的绝对效应量。在这需要注意的是,“Low”、“Moderate”、“High”三个选项分别代表在纳入的研究中最低的对照组发病率,最高的对照组发病率和中位对照组发病率,如果纳入样本的对照组发病率呈正态分布则我们可用总样本中对照组的发病率替代,若不是正态分布则需要纳入研究中的中位对照组发病率,可同时选择三个选项输出三个绝对效应量,但通常选择“Moderate”来作为最后呈现的绝对效应量(图7)。
在观察性研究中经常会出现的数据类型中包括生存分析,而在GRADEpro GDT中的数据类型选择有生存分析的选项,选择后会出现一个选择框,可以选择“An event(e.g.death,exacerbation)”和“An non-event (commonly event-free survival)”(图8)。选择之后,证据的类型/数量/质量的评估都和干预性及观察性研究一样。最后的数据输入和观察性研究的输入方式一样,对照组的事件发生率也是纳入研究的中位对照组事件发生率。
图6 病例组和对照组的数据输入
图7 数据输入
图8 GRADEpro GDT的生存分析事件的选择
在这里需要我们注意的是,一部分的观察性研究的系统评价可能在文中没有报告具体的暴露组和非暴露组的事件发生数,需要到原始文献中去寻找或者通过邮件联系作者得到原始数据,否则没有办法在GRADEpro GDT中呈现最后证据的绝对效应量。结果录入完毕之后,可按照前文中的办法导出所需要的表格。
与原来的许多证据分级标准一样,GRADE方法仍以强调临床有效性证据为主。且GRADE方法并没有完善,也存在许多的不足,但不可否认的是其代表了当前对研究证据进行分类分级的国际最高水平,意义和影响重大,可看做是对其他领域证据分级和推荐强度的示范标准[20]。
系统评价者可应用GRADE方法和GRADEpro GDT对自己或他人的SR/MA的证据质量进行评定。指南的制定者、决策者可采用GRADE方法对已有的GRADE证据质量等级给出推荐级别,对那些没有GRADE证据质量的则可先行证据质量评定后再给出推荐级别。在这一过程中,GRADEpro GDT软件起着重要作用。虽然这个软件操作简单,但却需要使用者具备一定的循证医学知识和对GRADE方法的了解。在后续文章中,我们将会介绍诊断性研究的系统评价以及它在GRADEpro GDT中的应用。
虽然观察性研究的初始证据质量处于低等级,但也能在特定情况下进行升级。但必须强调的是对于观察性研究的升级首先要考虑研究方法的科学和严谨,并且要考虑五个降级因素的影响,在此基础上再着重考虑升级。后续文章中,将会介绍诊断性研究的系统评价及它在GRADEpro GDT中的应用。