基于SEER数据库肺腺癌脑转移预测模型的构建及分析△
2022-10-17安梦霞崔晓娜孙继宏张瀚文洪嘉源王萍玉
安梦霞,崔晓娜,孙继宏,张瀚文,洪嘉源,王萍玉
滨州医学院公共卫生与管理学院,山东 烟台 264003
肺癌是全球最常见的肿瘤,约25%的肿瘤患者死于肺癌[1],其中非小细胞肺癌(non-small cell lung cancer,NSCLC)约占80%[2]。即使目前诊断筛查技术飞速发展,但大多数患者初诊时已处于晚期,出现肿瘤细胞向远处器官转移,其中脑转移是NSCLC最主要的死亡原因[3]。研究报道,肺腺癌(lung adenocarcinoma,LUAD)在NSCLC亚组中脑转移发生率最高[4-5],患者预后差,中位生存期缩短[6]。文献检索发现,目前国内外鲜有预测LUAD脑转移的临床模型。因此,本研究拟建立一个可视化LUAD脑转移风险概率的列线图预测模型,易于识别高风险患者,帮助临床医师采取个体化干预措施,降低患者脑转移率,提高其生存率,现报道如下。
1 资料与方法
1.1 资料筛选
本研究数据来源于美国国家癌症研究所(National Cancer Institute,NCI)监测、流行病学和最终结果(Surveillance,Epidemiology,and End Results,SEER)数据库。运用SEER*Stat 8.3.9.1软件对2010—2015年SEER数据库中LUAD数据进行筛选。纳入标准:①第一恶性肿瘤;②组织学类型为LUAD;③具有完整的临床资料。排除标准:①多原发性肿瘤;②病例通过尸检或死亡证明确诊;③来自临床诊断的病例;④死亡原因信息缺失;⑤生存时间<1个月;⑥临床资料信息不明确。最终筛选出58 928例LUAD患者,其中脑转移患者(脑转移组)7931例,非脑转移患者(非脑转移组)50 997例。
1.2 资料收集
提取患者的年龄、性别、种族、肿瘤部位、T分期、N分期、是否手术、是否放疗、是否化疗、肿瘤大小、淋巴结清扫数目、是否骨转移、是否肝转移、婚姻状况、生存时间以及生存状态。
1.3 统计学方法
采用R4.1.0软件进行数据分析及绘图。采用survminer包进行生存分析;采用caret包将数据分为训练集(70%)和验证集(30%);计数资料以例数及率(%)表示,组间比较采用tableone包的χ2检验;采用glmmet包进行Lasso回归分析对变量进行降维,筛选最优预测变量,将最优预测变量纳入多因素Logistic回归分析进一步筛选;采用rms包综合筛选后的预测变量建立LUAD脑转移风险概率的列线图模型;采用pROC包绘制训练集和验证集列线图模型的受试者工作特征(receiver operating characteristic,ROC)曲线验证模型区分度;采用1000次有放回重复采样的Boostrap绘制校正曲线并采用Brier评分验证模型的校准度;采用rmda包进行决策曲线分析(decision curve analysis,DCA),评价列线图模型的临床效能。以P<0.05为差异有统计学意义。
2 结果
2.1 临床特征
从SEER数据库中最终筛选出58 928例LUAD患者纳入本研究,按照7∶3比例随机分组,其中训练集41 250例,验证集17 678例。训练集和验证集患者的各临床特征比较,差异均无统计学意义(P>0.05),具有可比性。(表1)
表1 训练集与验证集患者临床特征的比较
2.2 生存分析
LUAD患者中位生存时间为24个月(95%CI:23.535~24.465),其中LUAD脑转移组患者的中位生存时间为7个月,非脑转移组患者中位生存时间为30个月。Kaplan-Meier分析结果显示,LUAD脑转移组患者的生存情况明显差于非脑转移组患者,差异有统计学意义(χ2=4684.881,P<0.01)。(图1)
图1 脑转移组(n=7931)与非脑转移组(n=50 997)LUAD患者的生存曲线
2.3 基于Lasso回归与多因素Logistic回归分析筛选预测变量
将训练集中14个变量纳入Lasso回归分析,通过Lasso回归分析对变量进行降维,以五折交叉法验证确定最佳惩罚系数(λ),筛选出对预测LUAD脑转移最有意义的特征变量。防止模型过度拟合,最后部分变量的回归系数被压缩为0(图2A)。本研究选择二项式偏差和Lasso回归对数(λ)曲线中右侧垂直虚线的λ值(λ=0.00567),筛选出9个最优预测变量,分别为年龄、T分期、N分期、肿瘤大小、淋巴结清扫数目、是否手术、是否放疗、是否骨转移、是否肝转移(图2B)。
图2 Lasso回归筛选LUAD脑转移的最佳预测变量
以是否发生脑转移为因变量,Lasso回归筛选出的9个预测变量为自变量,纳入多因素Logistic回归分析,结果显示:年龄、T分期、N分期、肿瘤大小、淋巴结清扫数目、是否手术、是否放疗、是否骨转移、是否肝转移均是LUAD患者发生脑转移的独立影响因素。(表2)
表2 LUAD患者发生脑转移影响因素的多因素Logistic回归分析
2.4 建立预测LUAD脑转移风险概率的列线图模型
基于Lasso回归和Logistic多因素回归分析筛选出9个预测变量。由于肿瘤大小、骨转移对应的回归系数较小,对模型预测结果影响也小,故仅纳入年龄、T分期、N分期、淋巴结清扫数目、手术、放疗、肝转移7个预测变量构建列线图。对应变量的右边刻度线段表示该变量的取值范围,每个变量的每个取值水平对应图中最上方的分值进行评分,然后再将所有评分相加对应图下方总分值,便可计算出LUAD脑转移的风险概率,列线图总分越高,发生脑转移概率也越大。(图3)
图3 预测LUAD患者脑转移风险概率的列线图
2.5 列线图预测模型的评估及验证
训练集列线图预测LUAD发生脑转移风险概率的曲线下面积(area under the curve,AUC)为0.853(95%CI:0.848~0.857),约登指数为0.556,最佳截断值为254;验证集列线图的AUC为0.851(95%CI:0.844~0.858),约登指数为0.557,最佳截断值为262,表明模型的区分度良好(表3、图4)。训练集与验证集实际预测曲线与模拟预测曲线接近重合,同时结果显示训练集与验证集Brier评分均为0.092,均接近0,表明该模型稳定性较强,有较好的校准能力(图5)。DCA曲线显示训练集和验证集的风险阈值为0.0~0.7时,基于列线图模型采取临床干预决策带来的净收益率高于未采取临床干预决策,表明该列线图预测模型的临床效能好(图6)。
图4 列线图模型预测LUAD脑转移风险概率的ROC曲线
图5 预测LUAD脑转移风险概率列线图模型的校准曲线
图6 预测LUAD脑转移风险概率列线图模型的DCA曲线
表3 列线图模型预测LUAD患者脑转移风险概率的效能
3 讨论
列线图作为新颖而简便的统计工具[7],可以对LUAD患者脑转移发生风险进行预测,识别高风险患者,为患者的个体化治疗提供科学依据,降低脑转移发生率。多项研究表明,NSCLC亚组中LUAD脑转移发生率最高[8-9],脑转移瘤损坏中枢神经系统,降低认知、运动、情感等高级活动功能[10]。LUAD脑转移患者中位总生存期明显短于非脑转移患者,预后差。目前,临床缺乏准确性高、适用范围广的有效预测模型。因此,本研究综合LUAD脑转移独立影响因素建立预测LUAD脑转移风险概率的列线图模型。
本研究的创新之处是应用Lasso回归分析筛选出最具代表性的预测变量构建列线图预测模型。相比于传统的Logistic回归、最优子集法、随机森林法,Lasso回归的另一个优势是可以对多重共线性的预测变量进行降维,筛选出最具代表性的预测变量,使模型更稳定,降低了模型的复杂度,防止模型过度拟合[11]。Lasso回归已被广泛用于医学领域[12],本研究基于Lasso回归模型对预测变量进行了筛选,结果从14个主要预测变量减少到9个,最终纳入了年龄、T分期、N分期、淋巴结清扫数目、是否手术、是否放疗、是否肝转移7个最优预测变量构建预测LUAD脑转移风险概率的列线图模型。模型在训练集(AUC=0.853)和验证集(AUC=0.851)中都具有良好的区分能力,校准曲线和Brier评分均显示模型预测准确度高,DCA显示该列线图预测模型的临床效能好。
LUAD患者发生脑转移风险因素分析如下:①年龄是LUAD患者发生脑转移的重要影响因素,年龄与LUAD患者发生脑转移风险呈负相关。年龄越小,脑血管血流阻力越低,脑组织代谢功能越强,脑血管血流量越充足,给肿瘤细胞转移提供良好的微环境[13],发生脑转移风险显著增加[14]。②肿瘤T分期、N分期是LUAD患者发生脑转移的影响因素,与发生脑转移风险呈正相关。T、N分期越高,肿瘤浸润生长范围越大[15],肿瘤细胞活跃及侵袭能力越强,更容易通过血行转移发生脑转移。③淋巴结清扫数目是LUAD患者的保护因素,多项研究表明,LUAD最常见的手术方式是淋巴结清扫,可以降低脑转移率[16-17],最佳淋巴结清扫数目为≥15,原因可能是淋巴结清扫数目多,一些手术前检测不到的微转移灶被清除,减少了术后微转移灶残留[18]。④文献报道,手术是LUAD首选治疗方式,是降低脑转移发生率的重要影响因素,治疗原则为根治性切除,延长患者总生存期[19-20]。本研究结果也显示,手术治疗与LUAD患者脑转移发生风险呈正相关,已采取手术治疗的患者脑转移发生风险降低,与其结果一致。本研究预测模型显示放疗患者发生脑转移风险是未放疗患者的1.84倍,是LUAD患者发生脑转移的危险因素。但一项Meta分析中,放疗是控制远处转移的重要治疗手段,可延长LUAD治疗过程中初次出现脑转移的时间[21],与本研究结果不一致。查阅大量文献,相关方面的研究有限,原因可能是SEER数据库化疗患者初诊时已处于晚期,临床症状严重,身体机能不能承受手术和药物治疗方式。⑤本研究还发现肝转移列线图评分越大,脑转移的发生率越高。LUAD晚期往往发生血行转移,首发的是肝转移,肿瘤细胞进入血液,随着体循环转移到脑部[22]。
本研究存在局限性,部分数据如患者的家族遗传史、吸烟情况、放化疗具体临床治疗信息等未输入SEER数据库,造成结果存在误差。本研究仍需收集多中心样本数据资料进行模型外部验证,完善预测模型。
综上所述,本研究构建的可视化LUAD患者脑转移预测模型,经AUC、校准曲线、Brier评分、DCA曲线分析验证了模型识别脑转移高危患者的准确度较高,以及预测模型在临床上有较好的实用价值,有助于临床医师识别脑转移高风险人群,提前制订个体化干预措施,提高患者生活质量,减轻社会疾病负担。