老年肺腺癌脑转移预后预测模型的构建
2021-03-08雷震王仕强漆新伟龙强友刘国栋张燕华罗翰生王德全
雷震 王仕强 漆新伟 龙强友 刘国栋 张燕华 罗翰生 王德全
(成都市第七人民医院天府医院(成都市肿瘤医院·成都医学院附属肿瘤医院·成都市癌症防治中心)神经外科,四川 成都 610213)
肺癌是老年人临床常见的恶性肿瘤,易发生脑转移,导致治疗失败。传统上将脑转移瘤(Brain Metastasis,BM)作为单一的疾病实体进行治疗,目前常用Karnofsky性能状态评分(Karnofsky Performance Status,KPS)、年龄、原发肿瘤状态、颅外转移和BM数量作为预后预测因素,而对于患者原发疾病相关因素关注较少[1-2]。
目前研究表明血清标志物、表皮生长因子受体状态(Epidermal growth factor receptor status,EGFR)、酪氨酸激酶抑制剂(Tyrosine kinase inhibitor,TKI)等是肺癌特异性预后实验室指标[3],但关于血清指标对肺腺癌脑转移患者预后预测价值方面的研究较少[4]。
在预后模型的建立过程中变量的选择是关键,一般说来综合更多因素可以更准确地拟合数据集中的模型,但过度拟合的模型反而不能准确预估患者的预后。多变量COX风险回归是最常用的预后因素分析方法,然而在涉及多种因素或非线性效应的情况下方差较高。而随机生存森林(Random survival forest,RSF)被认为对有删失的生存数据更准确。基于Bootstrap数据和个体决策树的大数据,RSF可以构建多个决策树来预测结果,并模拟非线性效应和因素间复杂的相互作用。本研究旨在采用RSF法构建老年患者肺腺癌脑转移预后的预测模型,现报道如下。
1 资料与方法
1.1 一般资料
选择2013年1月至2016年12月成都市第七人民医院接诊的195例肺癌患者进行回顾性分析。纳入标准:①符合《 2010中国肺癌临床指南》[5]的相关诊断,并病理证实的肺腺癌;②经影像学等检查证实为BM;③接受了血清CA125等实验室检查;④患者已获知情同意。排除标准:①合并其他恶性肿瘤的患者;②不愿意配合进行相关检测者。本研究已获我院医学伦理委员会审核通过。患者根据模型建立前后分为两组,模型建立前的142例患者为A组,模型建立后入组的53例患者为B组。
1.2 方法
1.2.1 变量选择
RSF分类器可以通过最小深度和变异重要性的因子(Variable Importance,VIMP)选择预后因素,最小深度越小则预测能力越强;VIMP则随着预测误差的增加而减小。
另外Akaike信息准则(Akaike Information Criterion,AIC)用于为开发模型逐步选择变量,AIC值较低表示质量较高且过度配合可能性较低,一致性指数(Concordance index,C-index)可用于指导开发具有较低过度拟合可能性和较高预后能力的潜在合格模型。
1.2.2 预后诺莫图的内部和外部验证
内部验证用于从可能符合条件的RSF模型中选择最佳模型,并将其与当前模型(改良RPA和肺-GPA)进行比较。除了C指数和AIC之外,还通过外包(Out-Of-Bag,OOB)误差进行比较以估计泛化误差。
1.3 统计学方法
采用R语言3.3.1软件进行数据分析,软件包包括PEC,RMS和Random Forest SRC,计量资料符合正态分布者以均数±标准差表示,不符合者以中位数表示,单因素分析行X2检验,以P <0.05被认为是显著水平。
2 结果
2.1 一般情况
单变量分析结果显示:患者特征在CA199、Cy211、CA125、早期肿瘤控制情况、颅外转移情况、治疗情况、BM和肺-GPA的不同差异均具有统计学意义(P<0.05),见表1和表2。
2.2 治疗结果
所有患者中158例患者接受化疗,99位患者接受了Varian 6-MV线性加速器的全脑放疗。在A组和B组中,69/142和27/53例患者检测到EGFR突变(外显子18-21)。
在接受的TKI治疗中,除单独接受TKI治疗(A组和B组分别为22/142和1/53)外,A组效果优于B组(P<0.05),见表1和表2。
2.3 生存和COX模型
截至2017年12月底,在A组和B组中,92/142和27/53例患者分别在0.5~33.4M(中位数为6.6 M)和0.6~30M(中位数为10M)内死亡。
Kaplan-Meier分析显示:处理方式是OS的独立性影响因素(X2= 6.474,P = 0.011),其他独立性影响因素包括BM,TKI疗法,EGFR(或EGFR-20),Cy211,Ca125和A组KPS(P<0.05)。在A组的多变量Cox回归中,EGFR和KPS是独立性影响因素(P<0.05),见表3和表4。
表1 一般资料
2.4 RSF模型
在最小深度阈值(4.6023)以下的变量中,9个变量具有正的VIMP评分,并进行进一步分析,根据AIC和C指数逐步选择变量,有三个模型(KECS,KSE125和KE125)被选出。
KECS模型(KPS,EGFR-20,Cy211和吸烟)是AIC确定模型,KE125模型(KPS,EGFR-20和CA125)是C指数较高的简单模型,KSE125模型(KPS,吸烟,EGFR-20和CA125)是C指数最高的(77.2%)。
表2 生化资料
2.5 模型评估与验证
模型验证显示:在A组中,KSE125模型的C-指数最高(77.4%),最低的OOB和AIC值(25.7%和28.6)。与其他模型相比,A组开发的KSE125模型在B组中表现良好,并且该模型具有更高的预测能力和更低的过度配合可能性,见图1。
3 讨论
本研究结果显示:NSCLC患者的生存与多种因素相关,除了改良RPA和肺-GPA模型外,其他因素还包括基因突变和实验室指标,但是所有因素都不能同时包含在过拟合的预后模型中。因此如何利用上述来开发具有高预测能力和低过度拟合模型成为问题[6]。过去多采用多变量Cox回归选择变量,但本研究在开发预后模型中回归比RSF预测效果差。Cox模型中无统计学意义的因素例如吸烟和CA125等,可以整合到RSF模型中并提高模型的预后能力,且不增加过度拟合的可能性。更重要的是基于RSF的逐步变量选择方法可用于开发预测模型,以更好地满足生存预测的要求。
此外本研究结果显示:变量选择方法可用于开发可靠的模型。使用该方法,我们确定了3个RSF模型,这些模型均被证实具有较高的预测能力和较低的过拟合可能性。尽管所有的RSF模型可用于预测患者的预后,KSE125模型略优于其他模型。此外,整合CA125(KSE125和KE125)的模型均略优于KECS模型,并表明CA125是患者的重要预后因素。应该注意的是,如在A组肺腺癌的诊断中,更多的患者已经患有BM并呈现颅外转移,而且A组患者中接受联合治疗的患者较少,这可能导致较低的局部控制率和较短的中位OS[7]。但是,选择偏差并未明显削弱B组的KSE125模型的表现。
本研究结果中KSE125模型优于其他模型其中的四个变量(KPS,吸烟,EGFR-20和CA125) 都是以前报道的肺腺癌患者的因素[8]。
表3 一般资料
然而,这并不意味着所有这四个因素在预测中都是最有力的独立预测因子。尽管治疗因素,就诊时已转移的BM和TKI治疗的预测效果也很强,但它们的组合的C指数其他因素在该队列患者中并不高。最重要的是KSE125模型的组合优于其他变量,尽管KSE125模型是在BM发病前没有接受过TKI治疗的患者开发的,它也可以应用于接受治疗的患者[16]。 根据相关研究,在BM之前接受TKI治疗的大多数患者中,EGFR的因子仍然在BM的Lung-molGPA模型中[9]。
另外,正如我们的结果研究结果所显示CA125具有较好的预后能力,目前越来越多的肿瘤标记物被整合到预测模型中,但是应该充分评估模型的过拟合可能性和泛化能力,并且要有足够的样本量[10]。考虑到肺腺癌患者中标记物的重要性,我们将来的研究将对其预后能力进行研究。
表4 生化资料
图1 两组肺腺癌脑转移模型对比