基于SEER数据库脊索瘤临床预测模型的建立及验证
2021-02-25李文乐胡朝晖王永辉高森刘鹤覃川
李文乐 胡朝晖 王永辉 高森 刘鹤 覃川
作者单位:530000南宁,广西中医药大学研究生院 (李文乐、高森);545000广西,柳州市人民医院脊柱外科(李文乐、胡朝晖、王永辉、覃川);541001广西,桂林医学院附属医院脊柱外科 (刘鹤)
脊索瘤 (chordoma) 是一种罕见且生长缓慢的间叶性肿瘤,起源于胚胎脊索残留物。整体发病率为万分之一,以男性为主 (2∶1,男∶女)[1-2],占所有骨恶性肿瘤的 1%~4%[3]。脊索瘤好发于中枢骨,最常见的部位是骶骨 (50%~60%)、蝶枕区(25%~30%)、颈椎 (10%) 和胸、腰椎 (5%)[4]。但是脊索瘤经常被误认为是一种低到中等级别、生长缓慢的肿瘤,这可能会导致人们错误地认为它们是相对良性的肿瘤,由于它们倾向于以破坏性和侵入性的方式生长,根治性切除即使对经验丰富的外科医生也具有挑战性[5]。脊索瘤有很强的局部复发倾向,但超过 30% 的脊索瘤患者发生转移通常发生在自然病程较晚的时间,10年相对生存率在 50%~60%[6-7]。
脊索瘤治疗的主要手段是根治性手术切除和辅助的放疗[8-10],一项 30年单机构的回顾性分析表明,采用手术切除和辅助放射治疗相结合的方法,可以使原发性的肿瘤或首次局部复发肿瘤的患者获得良好的总体生存率、局部无复发生存率和远处无复发生存率[11]。脊索瘤侵袭程度越大,预后越差,这可能使死亡或复发的风险增加约 5.1倍[12],根治性切除的患者与次全切除的患者相比,从手术到局部复发的时间差异有统计学意义[13]。目前研究认为,脊索瘤尚无有效的药物治疗方法,并且化疗并不适用于多数脊索瘤的治疗,仅适用于部分的去分化脊索瘤患者[9,14]。
就目前研究来看,预测单个患者的生存率依然存在困难,更准确的个体预测势在必行[12]。脊索瘤是一种非常罕见的疾病[1],评估预后因素的研究应该有相对较大的样本量,以确保足够的统计能力。然而,这通常很难从单个机构获得。SEER (the surveillance,epidemiology,and end results) 数据库由美国国家癌症研究所支持,自 1973年以来一直提供有关肿瘤病例的统计信息,为更好地了解脊索瘤提供了机会,它从 17个基于人群的癌症登记收集发病率和存活率数据,约占美国人口的 26%[15]。
Nomogram是一种图形工具,旨在快速近似复杂的计算,而不需要计算机或计算器,是 19世纪发明的,在计算器和计算机变得容易获得之前就蓬勃发展了[16]。相较于常规预后因素分析相比,如回归分析、相关性分析等,Nomogra通过综合各种重要因素,提供了对事件概率的个性化估计,因为它可以为临床医生预测生存率提供清晰的图像,从而可以在临床治疗过程中作出对于治疗更有价值的决策[17]。本研究基于 SEER数据库,构建脊索瘤的预测模型并进行验证,为临床医生和脊索瘤患者进行帮助。
资料与方法
一、数据来源
本研究基于 SEER数据库的脊索瘤患者临床数据。通过 SEER* Stat软件检索 SEER数据库中病理诊断为脊索瘤的患者,使用国际肿瘤学组织学分类第 3版 (ICD-O-3) 代码 9370~9372进行识别,其中包括未另行指定的脊索瘤、软骨样脊索瘤和去分化脊索瘤。
二、纳入标准与排除标准
1.纳入标准:(1) 2004~2015年,我院诊断为脊索瘤患者 (ICD-O-3/ WHO 2008形态学编码为 9370);(2) 临床资料完整者 (包括:诊断时的年龄、性别、种族、确诊年份、原发部位、肿瘤体积、肿瘤扩展情况、远处转移情况、肿瘤转移情况及相关资料信息等);(3) 随访资料完整者。
2.排除标准:(1) 随访资料不完整者;(2) 有其它原发肿瘤者;(3) 分化程度、分期、肿瘤直径、人种以及婚姻状态信息缺失者。
三、统计学处理
所有数据均来自 SEER数据库。利用 SEER数据库中使用患者数据不需经患者同意的特性,使用软件 SEER* STAT (8.3.5版) 提取 2004~2015年脊索瘤患者数据。
本研究使用统计软件 SPSS 21.0、Graph Pad Prism 8和 R version 4.02软件进行数据统计分析。
对入选病例进行生存分析:采用 Kaplan-Meier法计算生存率并绘制生存曲线,展示各个因素对于脊索瘤患者生存率的影响,偏差评定采用对数秩和检验。通过 R软件,以 7∶3的比例进行随机分组,建立建模组 (n=420) 与验证组 (n=177),采用单因素和多因素 Cox比例风险模型计算建模组的危险比 (HR) 和 95% 可信区间 (CI),并确定预后因素与生存率之间的关系。通过建模组构建了预测 3年和5年生存率的 Nomogram,并使用 C-index指数对其一致性进行了测试,验证组对其进行外部测试。患者年龄分为 3组:< 30岁组,30~60岁组,> 60岁组。手术类型编码由训练有素的编码员提取,用于对手术切除范围进行分类。手术被分为 3组:未手术组 (no surgery)、单纯切除组 (subtotal resection)、根治性切除组 (radical resection)。P值 < 0.05被认为差异有统计学意义。
结果
一、分组及特征
本研究共纳入 597例。通过 R软件进行随机拆分后,训练组n=420例,验证组n=177例,且P均 > 0.05,提示训练组与验证组差异无统计学意义。表 1显示了患者的人口学和临床病理特征。在患者年龄分布上,12.1% 的患者 < 30岁。在人种分布中,白人占了绝大多数,85% 以上。男性患者相较女性患者也更多。在肿瘤原发部位中,头面部以及盆腔和骶尾部较脊柱部位高,单发的肿瘤占了大多数,22% 的患者出现了远端转移。大部分患者都进行手术治疗,17% 左右的患者未进行手术治疗,使用放疗的患者占总数 12% 左右。
二、各因素对生存结果的影响
1.Kaplan-Meier分析:采用 Kaplan-Meier分析(图 1),脊索瘤患者在 3年和 5年生存率分别为81.8%、73.1%。经对数秩检验,年龄 (P< 0.001)、肿瘤分期 (T,P< 0.001;N,P< 0.001,M < 0.001)、是否放疗 (P< 0.0001)、肿瘤扩散范围 (P< 0.05)、肿瘤大小 (P< 0.0001)、种族 (P< 0.05)、原发肿瘤数量 (P< 0.05) 和部位 (P< 0.001) 及手术切除范围 (P<0.0001) 与生存率有关。创建 Kaplan-Meier曲线,对数秩检验表明,年龄 > 60岁、M1、肿瘤大小 ≥10 cm、远处转移、多发肿瘤、未手术切除与较差的生存预期有关。
图1 患者的生存率 Kaplan-Meier曲线 Kaplan-Meier根据年龄 (age)、是否放疗 (radiation)、肿瘤扩散范围 (extension)、种族(race)、肿瘤大小 (tumor size)、疾病分期 (TNM)、肿瘤发生数量 (Number of tumor origin)、肿瘤原发部位 (prima site) 和手术切除范围(surgery site) 来评估脊索瘤患者的存活率Fig.1 Kaplan-Meier curve of patients’ survival Kaplan-Meier was used to evaluate the survival rate of patients with chordoma based on age,radiation,extension,race,tumor size,TNM,number of tumor origin,primary site,and surgery site
2.单因素和多因素 Cox分析结果:采用 Cox回归模型进行单因素和多因素分析。对这些变量的初步分析结果汇总于表 2。单因素 Cox中P值若 <0.05,代表该因子与患者预后相关;多因素 Cox分析结果中,若P值 < 0.05时,代表该因子是影响患者预后的独立因素。
单因素 Cox分析显示,年龄 > 60岁 (P< 0.0001,HR 7.177,95%CI2.628~19.604)、原发肿瘤位于脊柱 (P< 0.01,HR 2.035,95%CI1.278~3.241)、肿瘤分期 T2 (P< 0.0001,HR 2.218,95%CI1.489~3.304),M1 (P< 0.0001,HR 5.616,95%CI2.714~11.619)、手术方式 (全切除,P< 0.0001,HR 0.241,95%CI0.167~0.396;根治性扩大切除,P< 0.0001,HR 0.257,95%CI0.15~0.385)、是否放疗 (P< 0.05,HR 0.605,95%CI0.411~0.88)、肿瘤 ≥ 10 cm (P<0.0001,HR 2.407,95%CI1.495~3.874)、远处转移(P< 0.05,HR 1.765,95%CI1.2~2.594) 和肿瘤原发的部位与数量 (P< 0.05,HR 1.647,95%CI1.112~2.441) 是影响脊柱脊索瘤患者生存率的预后因素。
进一步进行 Cox多因素分析用于评估这些变量对脊索瘤的影响,结果显示:年龄 > 60岁 (P<0.001,HR 5.723,95%CI1.988~16.474)、M1 (P<0.001,HR 4.121,95%CI1.834~9.257)、手术方式 (全切除,P< 0.01,HR 0.416,95%CI0.236~0.732;根治性扩大切除,P< 0.0001,HR 0.251,95%CI0.143~0.442是独立预后因素。
3.Nomogram分析及预测能力验证:最后,根据患者年龄、种族、原发部位及数量、肿瘤分期(TNM)、手术方式、是否放疗、肿瘤转移和肿瘤大小建立并解释了 Nomogram (图 2) 来预测患者 3年、5年的存活率。在使用 Nomgarm时,每位患者的分值位于每个变量轴上,向上画一条线来确定每个变量值的接收点数。这些数字的总和位于总分数点的数轴上,并向下绘制一条向下到生存轴的线,从而预测患者 3年和 5年生存的可能性。在建模组内部验证中,C指数为 0.774 (95%CI0.676~0.872),通过验证组进行外部验证,C指数为 0.778 (95%CI0.632~0.928),图 3~4曲线拟合度较好,说明模型具有较好的预测能力。本研究结果显示年龄 >60岁、白种人、肿瘤分期为 NX、M1以及未做手术是降低患者生存率的主要因素。
图2 预测 ES患者 3年、5年生存率 Nomogram预测脊索瘤患者生存率的 Nomogram。(在使用 Nomgarm时,单个患者的分值位于每个变量轴上,向上画一条线来确定每个变量值的接收点数。这些数字的总和位于总分数点的数轴上,并向下绘制一条向下到生存轴的线,从而预测患者 3年和 5年生存的可能性)Fig.2 3-year and 5-year survival rates of ES patients predicted by nomogram Nomogram predicting survival rates of chordoma patients (the individual score was on each variable axis,and a line was drawn upward to determine the number of receiving points for each variable value.The sum of these numbers was placed on the number line of the total score,and a line was drawn downward to the survival axis to predict the likelihood of survival at 3 and 5 years)
表1 患者人口统计和临床特征Tab.1 Demographic and clinical characteristics of patients
图3 C-index图用于预测患者 3年生存期的校准曲线。Nomogram-预测的总体生存概率是在 x轴上绘制的;实际的总体生存概率是在 y轴上绘制Fig.3 C-index Calibration curves predicting 3-yearsurvival rates.Nomogram:overall survival probability was plotted on the X-axis;actual overall probability of survival was plotted on the Y-axis
图4 C-index图用于预测患者 5年生存期的校准曲线。Nomogram-预测的总体生存概率是在 x轴上绘制的;实际的总体生存概率是在 y轴上绘制Fig.4 C-index Calibration curves predicting 5-yearsurvival rates.Nomogram:overall survival probability was plotted on the X-axis;actual overall probability of survival was plotted on the Y-axis
讨论
本研究建立了一个预后模型预测脊索瘤患者生存率。目前对于预测因子的筛选尚存在争议,主流筛选方式有:(1) 基于文献报道;(2) 基于统计学方法;(3) 基于医学认识[18]。笔者考虑到 Nomogram应更加便捷的服务于临床工作和数据可靠性,阅读脊索瘤相关文献以及临床报道,在 SEER数据库中筛选出数据较为完整且临床容易获得的相关预后因素,建立了共计 12个预后因素的 Nomogram,包括年龄、性别、种族、原发部位及数量、肿瘤分期(TNM)、手术方式、是否放疗、肿瘤转移和肿瘤大小。在模型中,≤ 60岁患者的预后明显好于 >60岁的患者。此外,手术切除可以显著改善预后。预测的总体生存概率是在 x轴上绘制的;实际的总体生存概率是在 y轴上绘制的。此外,临床医生还可以使用 Nomogram来预测每位患者的生存率,以进一步指导临床治疗。在使用 Nomogram时,每位患者的分值位于每个变量轴上,向上画一条线来确定每个变量值的接收点数。这些数字的总和的分数位于总分数轴上,并向下绘制一条向下到生存轴的线,以确定 3年、5年生存的可能性。本研究建立的Nomogram的 C指数为 0.778,说明该 Nomogram的校准是相对准确的。因此,该 Nomogram具有较高的预测患者生存时间的能力。通过验证组的 C-index曲线 (图 3~4) 显示实际存活率与预测存活率密切相关,说明本研究建立的 Nomogram具有比较强预测能力,可以准确预测存活率,该 Nomogram具有潜在的临床价值。相关研究发现,年龄 > 60岁的患者预后较差,与本研究结论一致[19]。对这些结果可能的解释是,基于年龄的因素,年龄较大的患者可能会有更多的并发症,临床医生更加倾向于保守的治疗方式。
表2 患者生存率的单因素和多因素 Cox回归分析Tab.2 Univariate and multivariate survival rates of Cox regression analysis
本研究中,是否手术也被确定为独立的预后因素。对于改善生存率而言,手术治疗优于非手术治疗,差异有统计学意义 (P< 0.0001)。在手术治疗方面,有多篇文献报道,与未接受手术的患者相比,接受手术切除的脊索瘤患者的存活率更高[20-22]。对于手术方式选择上,脊索瘤的位置通常毗邻血管和神经,这给宽切缘手术切除带来了极大的困难[12,16-17]。
鉴于肿瘤很难完全切除,本研究结果显示根治性切除组的生存率高于单纯切除组和未手术组。有报道手术切缘不足与局部复发有很强的关系,充分的手术切除可以显著提高生存率[20,23]。有相关研究证明切缘阴性的整块切除是长期预后的决定因素[24],更加彻底的手术对于患者长期疗效具有肯定的价值。大约1/ 4的脊索瘤病例在被发现时已经出现转移[25],本研究的结果 M1期出现远端转移及 NX期淋巴结无法评估对于患者预后有较差影响,佐证了这些研究表明远处转移与存活率降低有关[26-27]。本研究发现发生在脊柱的脊索瘤预后较差,此前也有相关研究报道,脊柱脊索瘤相对其它部位的患者存活率更低[26]。
在单因素及多因素 Cox分析中,检验甄别出的有统计学意义的影响因素存在差异,如原发部位、T2、放射治疗、肿瘤大小等。出现这种情况,最常见的因素有两点:(1) 多因素回归自变量个数太多,样本量不够,建模失败;(2) 存在着混杂变量。脊索瘤作为一种罕见的疾病,病例数据收集是比较困难的。既往的脊索瘤回顾性研究包括各种不同的原发性和复发性疾病患者,其相似而又不同的治疗方案,包括手术或放疗,考虑到单纯手术的局部控制率很低以及放疗研究中改善局部控制率的建议,在这些患者中提供辅助放疗似乎是合理的,这些研究认为骶骨脊索瘤在具有进行放疗似乎可以提高疾病的局部控制率[14,28-29]。但是,SEER数据库中并没有太多详细的放疗记录,本研究的结果显示是否放疗对患者预后影响有限,因此对于脊索瘤患者放疗的研究还需更加深入。
本研究有一定的局限性。首先,本研究是回顾性队列研究,可能会导致不可避免的选择和归因偏差。其次,SEER数据库只显示是否进行了手术或放疗,但没有提供切缘状况和术后肿瘤复发的情况。第三,SEER数据库遗漏了一些关于患者合并症和其它辅助化疗的详细信息。第四,SEER数据库基于北美人群收集,中国人种构成与之差异较大。第五,因为笔者无法访问其它数据来源,没有进行外部数据来验证测试本研究 Nomogram的校准。因此,在将该模型应用于临床之前,须进行正式的外部验证。在未来考虑收集国内的脊索瘤数据并加以更新本研究的 Nomogram。
该研究的 Nomogram可以更准确地预测脊索瘤患者的预后。本研究结果显示表明:年龄 > 60岁和不手术是显著缩短脊索瘤患者生存时间的主要危险因素。