宫颈癌术后患者列线图预测模型及危险分层系统构建
2020-11-17罗山晖朱维培
罗山晖 朱维培
作者单位:215000 苏州 苏州大学附属第二医院妇科
宫颈癌是临床上常见的恶性肿瘤之一,我国每年新发宫颈癌病例数约为13.15万,占全世界新发病例数的28%,严重威胁女性生命健康[1-2]。目前手术是宫颈癌主要的治疗方式[3-4],其中常用术式为广泛子宫切除术加双侧盆腔淋巴结清扫术[5-6]。既往研究报道年龄、KPS评分、病理分期、分化程度、病理类型、治疗方案及淋巴结转移等是宫颈癌患者潜在的预后因素[7-9],但是对于宫颈癌术后患者预后的影响因素目前并不明确,也缺乏有效的预测模型指导其临床决策。近年来,越来越多的研究使用列线图构建预测模型,以期通过直观的图像明确个体患者危险度并指导治疗方式的选择[10]。SEER(Surveillance,Epidemiology,and End Results)数据库是美国最大的肿瘤登记数据库,可公开获取各类肿瘤患者临床资料[11-14]。本研究利用SEER数据库筛选宫颈癌术后患者,随机分为建模队列和内部验证队列,并选取2013—2018年于苏州大学附属第二医院接受宫颈癌手术的患者作为外部验证队列,构建宫颈癌术后患者列线图预测模型,同时基于列线图个体预测得分构建新型的危险分层系统,以区分高危患者,指导宫颈癌临床决策。
1 资料与方法
1.1 数据来源
通过 SEER*Stat软件(www.seer.cancer.gov/seerstat)从SEER数据库下载1973—2015年美国部分地区宫颈癌患者数据,提取的信息包括患者诊断年龄、人种、生存状态、存活时间、病理类型、组织学分级、T分期、N分期、手术信息、淋巴结清扫状况、肿瘤大小(最大径线)、肿瘤浸润深度、婚姻状况等。纳入标准:⑴组织病理诊断符合《国际疾病分类肿瘤学专辑》第三版(ICD-O-3)分类的原发性宫颈癌;⑵肿瘤原发部位为宫颈;⑶接受原发灶切除术;⑷临床信息准确、可靠。排除标准:⑴分化程度、临床分期、生存状态、存活时间、死亡原因等不明确;⑵远处转移。共筛选6 835例符合标准病例,通过简单随机化分为建模队列(n=4 787,70%)和内部验证队列(n=2 048,30%)。同时选取2013—2018年于苏州大学附属第二医院接受宫颈癌手术的120例患者为外部验证队列,并从电子病历库中收集相应临床信息,纳入与排除标准同上,本研究经医院伦理委员会批准。
首次手术结束后开始随访,随访截至2020年5月15日。主要通过电话进行随访,随访间隔为3个月,随访内容包括生存状态、术后治疗及复查情况,术后至因任何原因引起死亡的时间为总生存期(overall survival,OS),以 OS 为主要研究终点。
1.2 统计学方法
采用SPSS 22.0软件分析所有可能的预后因子,采用 R-3.6.3 软件(http://www.r-project.org)构建和验证列线图。在建模队列中,使用单因素的Cox回归筛选潜在的预后因子,将单因素分析中P<0.1的变量纳入多因素Cox回归分析,基于多因素Cox回归模型构建列线图模型。计算一致性指数(C-index)并绘制ROC曲线和校正曲线对列线图预测模型进行检验,C-index越大,校正曲线个体预测情况与实际生存情况越接近,模型的预测效果越好。同时,依据列线图模型预测个体得分采用递归分割分析(recursive partition analysis,RPA)法建立危险分层系统[15],并通过 2018年国际妇产科学联合会(FIGO)宫颈癌分期进行亚组分析,在每个分期内,采用Kaplan-Meier绘制生存曲线,并采用log-rank检验对生存曲线进行比较。双侧以P<0.05为差异有统计学意义。
2 结果
2.1 一般资料
筛选的6 835例患者中位随访时间为40个月,随机分为建模队列4 787例,其中死亡518例;内部验证队列2 048例,其中死亡196例。120例外部验证队列的中位随访时间为25个月,其中死亡37例,失访病例11例。各个队列的一般资料见表1。
表1 建模队列、内部验证队列和外部验证队列的一般资料Fig.1 Baseline characteristics of patients in the training,internal,and external validation cohorts
2.2 宫颈癌术后患者的预后因素分析
单因素分析显示,诊断年龄、人种、病理类型、组织学分级、T分期、N分期、淋巴结清扫状况、肿瘤大小、肿瘤浸润深度、婚姻状况是宫颈癌术后患者OS的潜在预测因素(均P<0.1)。将上述因素纳入多因素Cox回归分析,结果显示,诊断年龄、人种、组织学分级、T分期、N分期、淋巴结清扫状况、肿瘤大小、肿瘤浸深度是影响宫颈癌术后患者生存的独立因素(均P<0.05),见表 2。
2.3 列线图的构建及验证
原发性宫颈癌患者列线图显示,35~44岁年龄段的宫颈癌患者术后预后最好;与未清扫淋巴结患者比较,清扫1~3枚淋巴结组患者的危险程度更高;GradeⅣ级患者的危险程度较GradeⅢ级患者上升,见图1。此列线图在建模队列、内部验证队列及外部验证队列的 C-index分别为 0.824、0.814、0.730,ROC 曲线显示3年、5年AUC分别为0.827、0.787,见图2。根据个体预测情况与实际生存情况,绘制校准曲线,结果显示,无论在建模队列、内部验证队列和外部验证队列,列线图预测的3年和5年生存率与实际患者的生存曲线十分接近,见图3。以上结果说明该预测模型具有相对准确的预测能力。
图1 预测宫颈癌OS的列线图模型Fig.1 Nomogram to predict OS of cervical carcinoma
表2 影响OS的单因素与多因素Cox回归分析Tab.2 Univariable and multivariable Cox regression analysis for OS
图2 预测OS列线图的ROC曲线Fig.2 ROC curves of the nomogram to predict OS
图3 预测OS的列线图校准曲线Fig.3 Calibration curves of the nomogram to predict OS
2.4 危险分层系统的构建
通过列线图预测个体患者危险评分,采用递归分割分析以产生树型结构模型,树形算法在建模队列中展开,将所有患者分为4个危险分组:极低风险组(总分<105),低风险组(105≤总分<202),中风险组(202≤总分<341)与高风险组(总分≥341)。在不同FIGO分期中验证该危险分层系统,结果显示建模队列、内部验证队列和外部验证队列在每个分期内,风险分层系统均能对患者生存进行区分(均P<0.05),见图4。
图4 Nomogram模型在不同FIGO分期中的预测价值Fig.4 Predictive value of Nomogram model in different FIGO stages
3 讨论
列线图是建立在多因素回归分析的基础上,通过评分与结局事件发生概率之间的函数转换关系,从而计算出该个体结局事件的预测值,可将复杂的回归方程转变为可视化的图形,使预测模型的结果更具有可读性,方便对患者进行评估[16-18]。但是目前宫颈癌术后患者尚缺乏完整有效的列线图预测模型。既往有关研究纳入的样本量均较小,且预后指标有限,对临床指导意义也较局限。SEER数据库属于美国癌症统计数据库,建于1973年,该数据库具有收录病例数多,统计学效能高等优点[19-20]。为了获得大样本数据,本研究从SEER数据库获取宫颈癌术后患者资料,为分析其预后因素及建模提供基础数据。
本研究通过单因素与多因素Cox回归分析最终确定了8个独立预后指标,包括诊断年龄、人种、组织学分级、T分期、N分期、淋巴结清扫状况、肿瘤大小、肿瘤浸润深度,并纳入列线图预测模型,结果发现T分期对预后的影响最大,其次是肿瘤大小、Grade分级和诊断年龄。其中肿瘤直径大小>4 cm与宫颈癌患者术后预后不良密切相关,因此此类患者的手术风险可能大于获益,应该慎重考虑是否手术。既往文献报道,美国非洲裔宫颈癌患者预后更差[21-22],本研究同样证实这一结果;还发现淋巴结清扫数目也是影响预后的重要因素,其中当淋巴结清扫数目>4枚可以降低死亡风险,但值得注意的是,术中仅进行1~3枚淋巴结清扫较未行淋巴结清扫的死亡风险更大,因此建议适当增加淋巴结清扫数目,以降低术后不良预后风险。也有研究报道婚姻状态与软组织肉瘤、结直肠癌等患者预后相关[23],本研究中因不同病理类型和婚姻状况的宫颈癌术后患者预后无统计学意义,因此未纳入分析。
预测模型的区分度评价主要通过计算C-index并绘制ROC曲线对模型进行检验[24-25]。本研究基于以上8个独立预后指标预测宫颈癌术后患者预后的列线图预测模型,结果显示建模队列、内部验证队列和外部验证队列的C-index分别为0.824、0.814、0.730;3年和5年的AUC分别为0.827、0.787,说明该预测模型具有较高的区分度。此外,校准曲线显示,此列线图预测的3年、5年生存率与实际的患者生存率十分接近,亦说明该预测模型具有较好的预测能力。为验证预测模型的实用性,本研究借助递归分割分析[26],以列线图预测总分为基础,将总人群划分为4个危险分层。借助FIGO分期对患者进行分层分析,结果也证实列线图预测模型能区分不同FIGO分期患者预后状态。
本研究存在一定局限性:⑴资料均来自SEER数据库和苏州大学附属第二医院电子病例库,属于回顾性分析,借鉴意义有限;⑵校准曲线显示,建模队列和内部验证队列预测情况与实际生存状态一致性最好,而在外部验证队列中较差,这可能是由于国内患者样本较小,也可能由于SEER数据库收集的变量有限,一些变量分组与临床实际情况并非一致,同时也不能排除人种、地域、环境等因素的影响。因此,未来可尝试将我国多中心的宫颈癌术后患者资料与国外数据库资料进行整合分析,以进一步提高该模型的预测价值。
综上所述,本研究基于SEER数据库成功构建并验证了宫颈癌术后患者生存预测的列线图模型,该模型纳入指标方便获取,预测能力相对准确,且建立的危险分层系统也具有一定实用价值,有望指导宫颈癌术后患者个体化治疗。