《时间-事件(生存分析)结局的证据质量评价:干预性研究中数据缺失导致的偏倚》文献解读
2021-03-12王小钦
马 燕 王小钦,2
1 主要内容介绍
与二分类变量结局分析不同,时间-事件结局分析由于受试者随访数据的删失而存在局限性。时间-事件分析通常是指生存分析,其中生存时间是指到结局事件(如死亡)发生的时间。常用的分析方法包括Kaplan-Meier、Log-rank检验和Cox多因素风险回归模型。时间-事件结局通常指生存率,定义为到特定时间点受试者没有发生结局事件的概率。最常用的效应评价指标是风险比(HR),可以通过Cox多因素风险回归模型获得。
时间-事件分析一个核心的特点是需要考虑删失。如图1所示,一种是受试者随访结束时未观察到研究结局(独立删失,图1中的患者1和5);一种是受试者失访导致时间-事件结局的删失(非独立删失,图1中的患者3和4)。独立删失的受试者和余下的受试者有相同的发生结局事件的可能性,非独立删失的受试者则直接从研究中退出。
还需要考虑以下特殊情况:①由于干预措施的生理和心理不良反应使受试者撤回知情同意;②由于疾病进展更换了治疗方法而退出;③研究者无法联系上受试者。删失数据需要纳入分析,从而提高时间-事件分析的有效性。删失数据报道的不足会影响系统评价作者对研究的准确评估,报道的不足包括:研究结局的定义,随访的频率和持续时间,统计模型建立的细节等。作者经常没有对删失的发生和原因进行准确地说明,忽略了发生删失的受试者数量和未阐明发生删失的原因。
因此,对于时间-事件研究的报道内容有相应的要求,从而保证系统评价和指南制作者对研究可能存在的偏倚风险进行评估。
图1 删失的类型
独立删失数据会导致研究结果(如生存率)的高估或者低估,非独立删失数据会影响HR。建议通过以下方法来评估研究的风险偏倚:在评估前收集所有可以获得的删失原因;RCT中在两个试验组中保持一致的独立删失分布;在生存曲线中标出删失的时间,从而反映出是早期还是晚期删失。如果研究无法提供删失的时间分布、程度和原因,评估是无法完成的。
评估者建议遵循以下GRADE的原则进行风险偏倚的评估:①如果证据大部分来源于低风险偏倚的研究,则研究无严重局限性;②如果证据大部分来源于高风险偏倚的研究,则研究有严重的局限性;③如果证据大部分来源于极高风险偏倚的研究,则研究有极严重的局限性(证据级别下降2个水平);④如果研究的风险偏倚参差不齐,研究结果在风险低和风险高的研究间有差异,评估者需要基于低风险偏倚研究的最佳证据总结进行评估。特别是在相对大型的研究中,如果失访造成的潜在风险偏倚在各个研究间有差异,评估者首先需要进行敏感性分析,从而决定风险低和风险高的研究间是否有差异。如果确实有差异,评估者应当从低风险偏倚的研究中得出最佳预估。
如果审阅者和指南制作者对删失的原因、时间点和分布都不了解,则可能对证据质量的评价产生偏倚。如果删失的数量、原因和时间点都可以获取的话,审阅者和指南制作者可以通过GRADE方法学解释性文件4[1]和17[2]中二分类结果分析的方法进行证据质量评价(表1)。
例1:在一项比较肺癌患者通过网络介导的随访和常规方法随访的RCT中[3],主要研究终点为总生存率,定义为从随机分配后到死亡或者最后一次评估(如果患者出现删失)。两组之间的HR使用Cox比例风险模型计算。133例受试者被随机分组,随机后发现不合格的受试者12例剔除,最后60例和61例受试者分别在干预组(网络随访)和对照组(常规方法随访)中进行修改后的意向治疗分析(modified intention-to-treat analyses)。两组报告的死亡人数分别为11例和26例,复发人数为34例和36例,HR=0.32(95%CI:0.15~0.67),P=0.002。这项研究根据独立数据监测委员会的建议,在中期分析后提前结束。删失的程度在整个研究中没有报告,然而生存曲线结果显示干预组中受试者发生了更多的删失,尤其是在早期随访期间。尽管受试者是随机化的,但是由于两组失访删失存在严重不平衡,导致偏倚的高风险。假设失访的受试者比没有失访的受试者在研究终点后更快死亡,这项研究中风险比显示的生存获益可能被夸大,甚至可能不存在,这时会怀疑研究结果偏倚的风险很高。如果证据体中只有一项研究或者其他纳入的研究也有类似的不平衡,由于研究总体生存的局限性,我们会考虑将评级下调。
表1 如何评价删失引起的偏倚风险
例2:ExteNET研究是一项随机、双盲、安慰剂对照研究[4],HER2阳性乳腺癌患者接受标准的局部治疗、曲妥珠单抗和化疗后,比较采用来那替尼或安慰剂辅助治疗的疗效。主要研究终点为5年无进展生存期,定义为从随机化到首次发生侵袭性疾病和复发或全因死亡的时间,用Cox比例风险模型计算HR。删失定义为:当受试者在最后一次体检时未再次接受进一步随访,随访2年内未发生疾病复发。1 420例受试者被随机分入试验组(来那替尼)和安慰剂组,并纳入意向治疗分析。虽然研究报告中没有具体说明删失的比例和原因,但是生存曲线显示两组间删失的数量严重失衡(图2)。试验组删失的个体数量明显多于安慰剂组,尤其是在早期观察期。所以,本研究存在失访删失,因此判断存在高偏倚风险是合理的。假设证据体中只有上述一项研究结果,由于研究存在局限性,会考虑将评级下调。
图2 乳腺癌中来拿替尼和安慰剂比较的Kaplan-Meier生存曲线图
2 建议
为进一步推动GRADE在预后因素评估中的应用,本文提出以下建议。
2.1 根据不同的研究目标开展更多预后因素研究 可分为3种类型:①总体预后研究,旨在建立广泛定义人群中的典型风险;②预后因素研究,旨在确立特定患者特征如何影响风险;③结局(或风险)预测模型,旨在开发一个完整的预后模型,同时考虑一些预后因素将患者划分为不同的风险等级[1]。
2.2 提高预后研究报告的完整性 预后研究的GRADE分级依赖更多的信息,例如研究人群特征、多因素分析方法等。建议研究者在报告预后研究时参考加强流行病学观察性研究的报告(STROBE)声明[6]和对个人预后或诊断的多变量预测模型的透明化报告(TRIPOD)声明[7]等报告规范,保证提供全面的分级信息。
2.3 培训预后因素的GRADE分级方法 建议针对已掌握干预类研究GRADE分级方法人员进行培训,快速增加掌握预后因素分级的专业人员,以适应GRADE方法快速更新的现状[8]。