基于SEER数据库构建腮腺鳞癌的生存预后模型
2022-08-19邹会会徐文光尹西腾韩伟江琳琳
邹会会 徐文光 尹西腾 韩伟 江琳琳
美国监测、流行病学、结果(the Surveillance, Epidemiology, and End Results database,SEER)数据库是由美国NCI在1973年建立的肿瘤公共数据库,其记录了癌症的发病率及生存相关的数据(如种族,年龄,性别,发病部位,组织学类型,肿瘤大小、生存时间和死亡原因等)[1]。每年从美国17 个不同地区的登记处收集数据,并按照严格的标准进行数据整理和更新。现在的SEER数据库已由当初的17 个登记处增加到21 个,覆盖范围约占美国人口的28%,包含约3百万的癌症病例信息,每年大约增加170 000 个新病例[2-3]。
腮腺鳞癌(parotid gland squamous cell carcinoma,SCC)是一种较罕见的恶性肿瘤,据报道其仅占腮腺恶性肿瘤的0.3%~6.9%,恶性程度高,浸润性极强,容易复发和区域淋巴结转移,患者5年生存率为33%~50%左右[2-3]。因此亟需进一步探索分析与腮腺SCC患者相关的独立预后因素,从而提高患者的生存率。然而回顾文献发现目前关于腮腺SCC的研究多是单中心研究,样本量少、数据不完整。SEER数据库人口覆盖广,数据完整性高,样本量大。基于SERR数据库的这些优点,本研究利用SEER数据库分析了腮腺鳞癌的独立预后因素,并在生存分析研究的基础上进一步构建腮腺SCC患者的列线图,其结果准确度和可信度较高从而更好地预测患者的生存预后。
1 材料与方法
1.1 数据来源
本研究中所有的腮腺SCC患者样本均是通过SEER*Stat软件(V8.3.5;https://seer.cancer.gov/seerstat/)从SEER数据库(https://seer.cancer.gov/)中下载所得。纳入标准:(1)病理学诊断为鳞状细胞癌(国际肿瘤疾病分类为ICD-O-8070、8071、8072、8073、8074、8075);(2)原发灶限于腮腺(C07.9-Parotid gland);(3)腮腺SCC为第一原发肿瘤;(4)诊断年份为2004~2015 年。排除标准:(1)种族未知;(2)组织学分级未知;(3)AJCC分期不明确;(4)生存时间小于1 月(图 1)。
图 1 腮腺SCC患者数据的纳入流程图
对符合纳入标准的826 例腮腺SCC的患者数据进行整理,利用R软件的caret包以7∶3的比例将其随机分为建模组(580 例)和验证组(246 例)。建模组用来建立风险预测模型并构建列线图,用验证组的数据进行模型的验证。
1.2 统计学处理
运用SPSS.25软件对腮腺SCC患者数据进行统计分析,首先采用Kaplan-Meier和Log-rank秩和检验单因素分析,确定与腮腺SCC患者生存预后相关的临床病理参数,运用Cox回归分析(逐步后退法)对单因素分析中有意义的参数进行多因素分析。两者均为双侧检验,P<0.05为具有统计学差异。
根据多因素分析确定了与患者生存预后相关的独立预后因素,运用R语言(v3.5.3)对多因素Cox模型中包含的因素构建列线图,从而对预测模型进行可视化。使用一致性指数(C-index)、校准曲线和决策曲线分析(decision curve analyses,DCAs)对列线图进行验证。一致性指数用于评价腮腺肿瘤患者预后模型的预测精度;校准曲线用以测试列线图的校准性,并运用DCA来评估新型列线图的临床实用性。用到的主要软件包为rms、survival和foreign包。
2 结 果
从SEER数据中提取符合条件的腮腺SCC患者826 例,所有患者的基本临床特征如表 1。腮腺SCC多发生于60 岁以上的男性患者(分别为82.41%,81.72%);其中绝大多数为白种人(94.66%);AJCC分期中IV期的患者约占一半(50.34%);肿瘤直径较大T3和T4分期的患者分别占31.72%、33.45%;初诊时有淋巴结转移的患者有390 例(47.21%);病程中发生远处转移患者很少(4.66%);多数患者接受了手术和颈部淋巴结清扫(89.48%,76.38%)。
表 1 SEER数据库中腮腺SCC患者建模和验证组的患者临床病理特征
在Kaplan-Meier单因素分析中,发现年龄、TNM分期、T分期、M分期、淋巴转移情况,是否手术,淋巴结清扫与患者的总体生存率具有相关性(P<0.001)。进一步构建多因素Cox模型分析,结果显示年龄、T分期、N分期、M分期和淋巴结清扫是腮腺SCC患者生存预后的独立影响因素。患者多发生于老年人,年龄越大患者的生存预后越差,60~70 岁的风险比(hazard ratio,HR)为1.16;70~80 岁之间的HR值为1.73;80 岁以上的HR值最高为3.08。T2分期的HR是T1的1.06 倍;T3分期的HR是T1分期的2.15 倍;T4的危险系数最高是T1分期2.76 倍。在N分期中,与N0相比较,N1、N2、N3的HR值分别为1.06,1.49,2.35。远处转移M1患者HR值为3.43。进行颈部淋巴结清扫是患者生存的保护因素(HR值为0.66)(图 2,表 2)。
表 2 单因素、多因素分析腮腺SCC患者的预后因素
图 2 Kaplan-Meier分析与患者相关的独立预后因素
预测模型以列线图的形式呈现并用验证组数据进行验证,根据特定患者的年龄、T分期、N分期、M分期、是否行颈淋巴结清扫,可以计算出该患者的3 年和5 年生存率。区分度检验结果显示这个新的列线图的C-index值为0.693(0.675-0.725),验证组的C-index值为0.671(0.628-0.714),说明这个模型达到一个较好的区分度;校准曲线中预测曲线和实际观测曲线很好地拟合,结果表明了临床实际3 年、 5 年生存率与列线图预测的3 年、 5 年生存率之间具有良好的一致性。此外,临床决策曲线显示在预测模型中在不同时间点的几乎所有阈值的净获益率都为一个较大的正值,表明预测模型具有理想的临床效果(图 3~5)。
图 3 腮腺SCC患者的列线图
3 讨 论
在本研究中,对美国SEER数据库中的腮腺SCC患者的数据进行了深入的分析,通过构建Cox模型和可视化的列线图,发现T分期是患者的独立预后因素,其中T分期越高,患者的预后越差。T分期越高肿瘤的直径越大,其浸润程度越深,可能损伤面神经和深部的血管,患者可能出现面瘫疼痛出血等症状[4-5]。甚至局部淋巴结的转移,导致患者的生存预后较差。T1相比较,T2、T3、T4的HR值逐渐增高, 这与Ying等[6]学者的报道是一致的。
图 4 建模组一致性检验和决策曲线
图 5 验证组一致性检验和决策曲线
颈部淋巴结的状态是腮腺鳞癌生存的重要预测指标,之前的研究对于cN0的原发性腮腺鳞癌的患者是否选择性颈部清扫一直存在分歧,而本研究表明选择性的颈部淋巴结的清扫可以提高患者的生存率,这与Michelle学者2014 例的腮腺SCC患者的报道一致[7]。先前的研究报道在腮腺SCC中隐匿性转移率为41%至60%,这表明选择性颈淋巴结清扫术的重要性[8-9]。
本研究通过单因素多和因素分析,筛选出了影响腮腺SCC患者生存预后的因素包括年龄、T分期、N分期、M分期,与之前的腮腺恶性肿瘤的预后研究一致[10-11];同时研究发现组织学分级并不是影响患者预后的重要研究,与之前的相关的恶性腮腺肿瘤不一致[5,12],提示,组织学分级在腮腺SCC中的预后价值需进一步研究。最后对各个因素对预后影响的能力通过列线图进行了量化,构建了一个较为系统完善的风险评价模型。本研究通过建模组和验证组分别进行了内部验证和外部验证,本研究构建的列线图的C指数分别为0.693和0.674,两组数据的校正曲线显示出了良好的拟合度,这也进一步证实了该列线图对腮腺SCC患者的3 年和5 年的生存预后方面具有优秀的预测价值。临床决策曲线表明,使用该列线图去腮腺鳞癌患者的预后,具有很好的净获益率,对于患者预后咨询与治疗方案的升级具有指导意义。
列线图被广泛用于癌症预后,主要是因为它们能够将统计预测模型简化为事件概率的单一数值估计,例如死亡或复发,这是针对个体患者的情况进行个性化的治疗方案[13-14]。2019 年Kelly等[15]利用诺模图预测121 例接受手术治疗的小肠神经内分泌肿瘤患者的生存率。Chen等[16]在2021 年通过与其他模型比较,表明诺模图对NK/T细胞淋巴瘤患者具有更好的预后评估;在本研究中,诺模图作为一种可视化的回归模型,将腮腺SCC患者的年龄,T分期,N分期,M分期及是否进行颈部淋巴结清扫每个变量赋予以后评分值,临床医生可以根据每个患者的评分计算出各个患者的最后的总分,从而可以评估出患者的3 年及5 年生存率,相较于传统的TNM分期,可以个体化的进行后期治疗方案的制定及生存预测。
虽然的研究构建列线图具有良好的预测能力,但仍存在以下几点不足,确诊腮腺鳞状细胞癌的原发灶之前,必须排除黏液表皮样癌和腮腺外扩散或转移(来自于同侧头颈部皮肤的SCC占50%)[17],Pfisterer等[18]和何家林[19]提出这通常需要靠临床资料和相关检查进行排除。Flymn等[20]报道了40 例腮腺SCC,仅有8 例是真正原发于腮腺的鳞癌。曾有文献报道皮肤的SCC可在原发灶切除5年后转移到腮腺部位[7,21]。另外,SEER数据库中缺乏切缘状态,面神经是否受侵等参数,由于腮腺SCC的浸润性极高,手术过程中切缘是否为阴性以及面神经是否保留对于患者的预后具有重大的意义,同时患者是否进行放化疗也是一个重要因素,这些因素并未被纳入到本次研究中,可能造成与之相关的偏倚。
综上所述,此研究探索了影响腮腺SCC生存预后的独立因素,并进一步构建的列线图具有良好预测精度,可以更好地预测患者的3年和5年生存率,有利于医师为患者制定净获益率较高的诊疗计划。