动物实验系统评价中应用GRADE系统的实例解读
2019-12-27赵冰姜彦彪尚志忠张哲文张婷耿劲松李博马彬
赵冰,姜彦彪,尚志忠,张哲文,张婷,耿劲松,李博,马彬
对动物实验进行系统评价,不仅可降低其结果向临床转化时的风险[1,2],且有利于基础研究领域的资源整合,尤其当研究问题涉及无预期益处的潜在危害时(如毒理学、环境流行病学)[3,4],进行实验动物可能是提供唯一相关数据的证据来源。但需注意证据体的总体质量是影响决策的关键因素[5-7],2019年笔者团队基于GRADE工作组的动物实验小组的理论,对GRADE在动物实验系统评价中的应用原则进行详细说明[8,9],目前越来越多发表的动物实验系统评价开始使用GRADE方法对其证据质量进行分级[10-12]。
因此,为使读者更加深刻理解和使用GRADE-animal的工具在动物研究系统评价中的应用。本文以一篇干预性研究《脑肠肽对心力衰竭状态下小/大鼠病死率和心血管结局的影响:动物实验系统评价》[10]为例,对GRADE系统在动物实验系统评价中应用进行详细解读。
1 评估原则和内容
GRADE系统在临床前动物实验系统评价中的应用原则依然遵循GRADE系统的基本原则,但又存在一定差异[8,9]。
一般而言,动物随机对照实验的起始证据级别为“高”,5个降级因素包括:①偏倚风险;②不一致性;③不精确性;④发表偏倚;⑤间接性。动物观察性研究的起始证据级别为“低”,但何时升级或如何确定升级因素,目前尚存在争议,仍需今后进一步研究[13-15]。如在不同物种间得到的效应的方向和大小一致,则可升级;此外,在环境健康领域,如动物种属和模型的结果一致时,也可考虑升级。但在考虑升高证据质量理由之前,必须先考虑所有降低证据质量的标准,若上述任一方面存在严重局限性,很少进行升级。
2 评估步骤和过程
本文示例文献[10]纳入的动物实验类型为“随机对照试验”,因此,本文将以其主要结局指标“病死率”为例,详细解读如何实施和考虑5个降级因素。
2.1 偏倚风险SYRCLE动物实验偏倚风险评估工具,是目前公认的用于动物实验内在真实性评估的工具,其具体内容和解读请参见相关研究[16-18]。
示例文献以表格形式呈现其偏倚风险评估结果,共纳入4篇研究。偏倚风险评估结果如图1所示,就“病死率”而言,考虑到盲法、动物安置随机化和随机化结果评估对其影响较小,且实验组间基线特征的相似性较好,数据报告完整。因此,可考虑在不一致性方面不降级。
2.2 不一致性在不一致性方面,动物实验系统评价同临床试验系统评价基本一致,可通过可信区间的重叠程度,所纳入研究的效应量大小及方向、P值和I2值进行描述[19,20]。但由于动物实验属于探索性实验,异质性可被预期。加之部分异质性可能被实验人员刻意引入,在这种情况下,鉴于这部分异质性可解释,在评估一致性时可不考虑。因此,动物实验系统评价中,对不一致性评价的核心,首先:①如何归纳和解释异质性;②如何解释I2值。其次,异质性可能源于种属,应注意来自物种内和物种间两方面的不一致。如当分析中所有种属动物都显示出相同的效应方向时,那么不同物种间(包括人)的干预效应更加有力。在这种情况下,即使结果总体上有异质性,也不会降低一致性。
示例文献中,“病死率”Meta分析结果如图2所示,共纳入4个研究,研究间异质性结果为P=0.31,I2=15%,异质性较低,研究对象均为大鼠,且各纳入研究显示出相同的效应方向。因此,在不一致性方面不考虑降级。
2.3 不精确性动物实验系统评价对证据体的不精确性评估也主要考虑:①纳入研究的样本是否达到最优信息样本量(OIS);②可信区间的宽窄程度两个方面[20]。在解释临床前动物实验研究结果时,通常认为效应量的方向比其大小更为重要。因此,对于精确性的判断主要基于可信区间是否包含了无效值。对于效应量的大小可考虑进行分级,如SMD<0.2为小,0.2~0.5为中,>0.8为大。目前还没有严格、清晰的判断标准,建议如果可信区间包含了两个或多个级别,则可考虑降级,同时需要给出合理的解释。
示例文献中,如图2所示:病死率的合并RR=0.83,95%可信区间较宽[0.46,1.47],且4个研究共纳入实验动物,总样本量较小(4个实验,共121只实验动物),且单个研究样本量介于9-29间,故针对该指标而言,其不精确性方面需降级。
2.4 发表偏倚是否对发表偏倚进行科学评估,对解读动物实验系统评价结果的可信度具有重要意义[21-23]。在保证动物实验系统评价检索策略广泛而全面的前提下,除可借鉴漏斗图、Egger's检验、Begg's检验等用于发表偏倚的评估外[24],还需要对一些特殊情况进行有效评估,笔者和Laman等的研究对此进行具体补充说明[8,25,26]。
示例文献中,并为对发表偏倚进行评估。对“病死率”而言,纳入实验数量仅为4个,且究均为阳性小样本研究。此外,该研究并未检索Embase、BIOSIS Preview等数据库,由于检索的不充分不全面,无疑会增加发表偏倚的可能[27]。因此,综合考虑需降级。
2.5 间接性GRADE系统中对动物实验系统评价提出了两个层面的间接性:第一层面是从临床前动物实验向临床前PICO的间接性,第二层间接性是从动物模型(临床前动物实验)到人类(临床PICO)的间接性,这也称为可转化性[28]。
示例文献中的间接性主要源于:①研究纳入了不同品系的大鼠,研究对象间因种间差异而使间接性增加;②纳入的动物在诱导心衰模型过程中,所采用的方式略有差异;③纳入动物的饲养环境不同;④研究对象的给药周期与剂量存在差异;⑤在结局指标的测量时间亦存在差别;⑥在可转化性层面,啮齿类动物与人类的生理病理机制存在差异。综合以上结果,故考虑在间接性方面降级。
图1 SYRCLE偏倚风险评估结果(病死率)
图2 脑肠肽对心力衰竭动物模型病死率指标影响的森林图
3 小结
本文选取2015年发表的一篇干预性动物实验系统评价作为示例,使用GRADE系统对其进行证据体质量评价,5个降级因素中,就结局指标“病死率”进行分析,其在不精确性、发表偏倚和间接性方面需进行降级处理。因此,“病死率”指标的证据体级别为“极低”。
尽管GRADE工作小组和一些学者均已发表多篇文章[15,19,24,28-30]对GRADE系统存在的问题进行了详细说明和解读,但笔者认为对该示例文章证据质量评价时仍存在较大困难和争议,例如样本量大小和可信区间宽窄程度如何进行定量/分级描述;此外,针对连续型变量如何进行精确性的评价。因此,虽然推荐GRADE系统作为评估动物实验系统评价证据质量的工具,今后还需在一些条目的细则方面进行不断探索,例如如何计算OIS和定义临床相关阈值(不精确性);对于动物实验系统评价种内及种间的一致性(不一致性)该如何进行细化和规范;如何定义可转化性/间接性及规范升级标准等。今后有必要建立更为详尽的临床前干预性动物研究GRADE分级框架,以更好地解释动物研究系统评价结果,评估证据质量,从而降低动物实验结果向临床转化的风险。