直肠癌术后淋巴结转移Nomogram预测模型的构建:基于SEER数据库
2021-08-09刘小双史俊闫飞虎史晓辉
刘小双,史俊,闫飞虎,史晓辉△
1海军军医大学第一附属医院肛肠外科 上海200433
2上海中医药大学附属曙光医院普外科 上海200021
3江苏大学附属宜兴人民医院胃肠外科 江苏无锡214200
直肠癌术后淋巴结转移的预测一直是临床的难点,中国结直肠癌诊疗规范[1-2]、美国NCCN[3]、欧洲ESMO[4]等指南均推荐对于T3~4NxM0的患者进行术前新辅助放化疗。但通过MRI和CT对直肠癌淋巴结转移与否的判断不完全准确。目前的临床实践表明[5-6],仅通过影像学来判断淋巴结转移与否证据不足。因此术前较为精确地预测术后淋巴结转移的情况对直肠癌患者治疗方案的选择是极其重要的。列线图(Nomogram)目前广泛应用于临床[7-10],其通过对预测变量的评分,得出因变量大致的预测概率值,是较为精准的预测模型。本研究通过收集SEER数据库中2010年至2015年部分直肠癌病例的临床资料进行分析,得出直肠癌患者术后淋巴结转移Nomogram预测模型,为临床直肠癌的诊疗提供参考依据,现报告如下。
1 资料与方法
1.1 资料收集
收集SEER数据库2010年至2015年直肠癌患者的临床数据,通过筛选后共纳入3 405例直肠癌患者作为研究对象(见图1)。收集患者性别、年龄、种族、CEA水平、影像学淋巴结评估结果(cN)、肿瘤最大径、肿瘤分化程度、T分期、pN分期等临床资料。
图1 SEER数据库数据筛选流程图
1.2 纳入与排除标准
纳入标准:(1)病理诊断明确的直肠癌患者;(2)进行根治性手术;(3)纳入的临床信息均明确。排除标准:(1)未进行手术或仅局部切除的患者;(2)术前接受了放化疗的患者;(3)合并其他类型的恶性肿瘤。
1.3 数据分析
采用EXCEL表进行数据收集,使用SPSS 25.0和R 3.6.3进行统计分析和绘图。使用到的R语言程序包有glmnet,rms,ROCR,rmda,Hmisc等。首先,按7:3比例,将数据分为训练集和验证集,对训练集使用LASSO回归分析来筛选合适的临床因素。其次,使用多因素Logistic回归分析对上一步获得的临床因素进行验证,并将LASSO回归分析获得的所有临床因素构建Nomogram模型。再次,对模型进行内部评价获取C-index和校准图。最后通过外部验证集对模型进行验证,获取C-index和校准图。以P<0.05认为差异有统计学意义。
2 结果
2.1 一般资料
共纳入3 405例直肠癌患者作为研究对象,其中男性2 047例,女性1 358例;≤60岁1 353例,>60岁2 052例;种族:白种人2 753例,黑种人282例,其他370例;CEA水平:正常2 028例,升高1 377例;影像学淋巴结评估结果(cN分期):cN0期2 881例,cN+期524例;肿瘤分化程度:高+中分化2 945例,低+未分化460例;肿瘤最大径:≤5 cm 2 446例,>5 cm 959例;T分期:T1期331例,T2期876例,T3期1 888例,T4期310例;pN分期:pN0期1 894例,pN+期1 511例。
2.2 不同T分期的淋巴结转移情况
T1~4期淋巴结转移比例分别为17.2%、22.8%、56.0%和63.2%,淋巴结转移风险随T分期增加而增加,不同T分期之间淋巴结转移比例差异有统计学意义(χ2=412.271,P<0.001),见表1。随后通过R软件,按7:3比例,将所有患者分为训练集(2 375例)和验证集(1 030例),见表2。
表1 不同 T分期的淋巴结转移情况
表2 训练集和外部验证集临床信息
表2 (续)
2.3 变量的筛选
LASSO回归分析可以降低变量的复杂程度,提高模型的预测能力。通过LASSO回归分析筛选出5个临床变量,分别为:年龄、肿瘤分化程度、T分期、cN分期和CEA水平(图2);以pN分期为因变量,再次通过多因素Logistic回归分析对这5个变量进行验证(变量赋值:年龄≤60岁=1,年龄>60岁=2;男性=1,女性=2;白种人=1,黑种人=2,其他=3;CEA正常=1,CEA升高=2;cN0期=1,cN+期=2;肿瘤最大径≤5 cm=1,肿瘤最大径>5 cm=2;高+中分化=1,低+未分化=2;T1~2期=1,T3~4期=2,pN0期=1,pN+期=2),结果显示这5个变量差异均有统计学意义(均P<0.05)(表3)。
图2 LASSO回归筛选临床变量
表3 多因素Logistic回归分析结果
2.4 Nomogram预测模型的构建
将LASSO回归分析得到的年龄、肿瘤分化程度、T分期、cN分期和CEA水平等5个变量均纳入构建Nomogram预测模型,其C-index为0.761(95%CI:0.742~0.780),预测模型见图3。
图3 Nomogram预测模型
2.5 模型的评价
通过训练集数据进行校准曲线绘制,结果显示模型预测能力良好(图4A);通过验证集数据对构建的Nomogram预测模型进行验证,其C-index为0.758(95%CI:0.729~0.787) 曲线拟合良好图 (图4B)。用训练集和验证集分别绘制的校准曲线见图4。
图4 校正曲线
3 讨论
直肠癌术后淋巴结转移危险因素的研究一直是临床及科研的热点,尤其是对T1~T2期直肠癌淋巴结转移的预测。一方面,因为多个指南均建议对Ⅱ期及以上的非转移性直肠癌行术前新辅助放化疗;另一方面,对于T1N0期的低位直肠癌患者,甚至部分T2N0的患者,尤其是保肛意愿强烈或拒绝性行Miles等根治术的患者,局部切除也是个可选择的治疗方案,因此术前精准评估患者各方面状况从而预测是否会发生术后淋巴结转移尤其重要。
SEER(surveillance,epidemiology,and end results)[11]数据库是美国国立癌症研究所监测、流行病学和结果数据库,该数据库详细登记记录了美国部分州县1973年以来上百万名患者的发病、治疗、病理及预后等信息。该数据库最大的优势为庞大的患者资料信息,可用来进行分析的样本量较多。因此本研究使用该数据库的数据通过一系列的筛选条件,最终纳入3 405例直肠癌患者的临床资料进行分析。
为筛选更合适的临床预测变量,本研究采用LASSO回归分析模型进行筛选[12],LASSO回归分析模型的特点是在拟合广义线性模型的同时进行变量筛选和复杂度调整,其误差很小[13-14]。因此,本研究首先将初选的所有8个变量纳入LASSO回归分析模型,筛选出5个变量,并将该5个变量进一步纳入多因素Logistic回归分析模型进行筛选验证[15],结果显示5个变量差异均有统计学意义(均P<0.05),其C-index为0.761,验证集的C指数为0.758。
Nomogram预测模型现广泛应用于临床,在结直肠外科领域也有较多应用,尤其是应用于预后的研究[16-17]。该模型通过对每个变量进行打分,累积总分可以得到术后淋巴结转移的预测风险,分数越高,术后淋巴结转移风险越大。本研究进一步构建Nomogram预测模型,结果显示纳入的5个变量中cN分期、T分期得分较高,分别为100分和62分(图3)。通常情况下,肿瘤侵犯浸润的深度与范围越广,说明病程越长,越容易出现转移。既往的研究均表明,术后淋巴结转移和T分期关系密切[18-21]。有研究表明T1~T4期直肠癌患者淋巴结转移比例分别为14.3%[22]、23%[23]、65.7%和 78.8%[18],本文得到结果和其他研究者相近,直肠癌患者总体淋巴结转移率为44.4%,T1~4期分别为17.2%、22.8%、56.0%、63.2%。同时,Nomogram预测模型结果亦显示T分期对术后淋巴结转移的预测具有一定的价值。
影像学评估淋巴结是否转移是临床上获得直肠癌局部分期信息的主要方式。目前增强MRI作为评判直肠癌局部分期的首选检查方式[2,24]。尤其在淋巴结判断方面,其比CT具有明显优势。研究显示MRI的淋巴结是否转移的预测准确性高达80%[25],尤其是对淋巴结直径较大的,诊断准确率更高。当然也有研究显示其对于相对较小的淋巴结,尤其是对于直径<3 mm的淋巴结,其准确率偏低[24,26]。本研究显示通过影像学获得的临床分期,对预测术后淋巴结转移极其重要,所占比重最大。限于国内医院的影像学设备差异,患者自身或客观因素无法行MRI检查,以及不同医院影像科医师阅片能力的差异,目前临床上通过术前影像学评估淋巴结对术后淋巴结转移的预测还需不断改进完善。
85%以上的结直肠癌发生在55岁以后[27],主要为散发性结直肠癌,本研究根据既往的研究将年龄以60岁为标准分为两组。通过LASSO回归分析模型及多因素Logistic回归分析模型,其结果均显示年龄与术后淋巴结转移有关,差异有统计学意义。本研究结果显示,年龄<60岁的患者其更容易出现术后淋巴结转移的情况。这与中山大学附属第六医院的研究是一致的[28],但多项研究显示年龄与术后淋巴结转移不相关[17,29-31],这可能与纳入患者数量较少导致的偏移有关。
肿瘤分化对术后淋巴结转移的影响已经有较多的研究,肿瘤细胞分化程度越低往往恶性程度越高,对放化疗等治疗敏感性越差,总体治疗预后也越不理想。本研究结果和既往多数研究类似,证实了低分化和未分化组出现术后淋巴结转移的概率较高分化组和中分化组的高[28,32]。癌胚抗原(CEA)作为结直肠癌的肿瘤标志物,其在一定程度上可以为肿瘤的诊断、是否有转移、复发等提供判断依据,是临床上很重要的指标。本研究结果与既往研究相一致[29-30],CEA升高者术后淋巴结转移风险较正常的患者增加,这也与临床实际相一致。
虽然本研究纳入的数据量较大,结果较可靠,但仍有不足,如:(1)该研究为回顾性的研究;(2)SEER数据库的部分信息不全,如本研究中,因缺乏cT分期的数据,采用pT分期的数据替代,虽然目前cT分期结果与pT分期结果相差不大,但仍有一定差别,可能对结果造成影响。
综上所述,本研究筛选出的5个临床变量建立的直肠癌术后淋巴结转移的Nomogram预测模型,虽有不足,但验证结果表明本模型的预测能力是良好的,可以为临床预测术后淋巴结转移提供重要的筛选参考。