基于SEER数据库构建早发性直肠癌患者死亡风险预测模型的研究
2022-12-16仲建平王正兵张强黄晓
仲建平, 王正兵, 张强, 黄晓
(1.扬州大学附属医院胃肠外科, 江苏 扬州 225012;2. 扬州大学医学院, 江苏 扬州 225009)
0 引言
结直肠癌是世界上第三大常见恶性肿瘤, 其死亡率居于世界第二, 其中直肠癌约占所有结直肠恶性肿瘤的40%。近年直肠癌总发病率正在下降[1], 但与此同时年轻人群的直肠癌发病率却不成比例地增加了[2,3], 目前直肠癌已经成为年轻患者中最常见的结直肠恶性肿瘤[4]。研究显示直肠癌患者总体生存正在改善, 但对年轻患者而言并非如此;自1970以来, 年轻患者的直肠癌死亡率随着时间的推移而持续增加[5,6]。由于这个患者群体呈现出病理分化等级差, 淋巴结转移率高及总体分期相对比较晚等特点, 因此这一人群的生存特点也与其他人群存在较大的不同, 有必要对这一人群单独分析其生存特点。并且相较于老年人群, 年轻人群一旦确诊, 往往面临着更长的寿命损失, 对社会及经济方面造成更严重的影响[7,8]。因此, 为了进一步探求这一人群的生存特征, 及早对高危人群进行干预, 我们使用SEER数据库回顾性分析早发性直肠癌患者生存特征并构建死亡风险预测模型。
1 资料与方法
1.1 一般资料
选取SEER数据库2010-2017年确诊为直肠癌的患者共计24954例。提取变量包括年龄、性别、种族、确诊年份、肿瘤原发部位、分化程度、病理类型、TNM分期、肿瘤大小、检出淋巴结数(examined lymph node, ELN)、阳性淋巴结数(positive lymph node, PLN)、肿瘤沉积、周围神经侵犯( peripheral nerve invasion, PNI)、婚姻状况生存时间及生存状态。
1.2 病例筛选
纳入标准:①诊断时间是2010-2017年;②病理确诊为直肠腺癌, 并且为第一原发癌;③临床资料完整;④确诊时年龄在20~50岁。排除标准:①患者预后资料不完整;②临床资料不完整;③患者在一个月内死亡;④排除多原发癌;⑤非肿瘤因素死亡。
在种族中, 美洲印第安人/阿拉斯加土著或亚洲/太平洋岛民归为其他人种。TNM分期使用AJCC第七版TNM分期;根据X-tile软件选取LNR及肿瘤大小的最佳截断值转化为分类变量。本研究是在签署SEER数据使用协议的基础上开展。因SEER数据库的数据均为匿名且消除过识别信息, 本研究不需要伦理委员会的批准。
1.3 统计学分析
使用R语言工具提取人群基线数据, 对变量进行Cox单因素分析, 将单因素分析中有统计学意义的因素纳入多因素Cox回归分析, 确定早发性直肠癌预后的独立影响因素。对变量进行lasso回归, 压缩变量个数构建出精简的直肠癌列线图预测模型。计算列线图对应的C指数;计算每个病例的死亡风险评分, 绘制列线图预测模型ROC曲线及校准曲线评价其区分度、准确度。所有统计分析采用R软件4.1.3版本。P<0.05为差异有统计学意义。
2 结果
(1)通过逐步筛选后纳入(2010~2017年)4754例早发性直肠癌病人, 根据X-tile软件选取肿瘤大小最佳截断值为≤5.5cm、>5.5cm;LNR最佳截断值为≤0.07、0.07~0.36、>0.36。患者的基本特征见表1。
(2)使用Cox单因素回归进行分析, 年龄、性别、种族、分化程度、病理类型、TNM分期、肿瘤沉积、PNI、CEA、肿瘤大小、淋巴结采集数、LNR、化疗、婚姻状态是早发性直肠癌患者死亡相关因素(表1);将单因素分析中有统计学意义的变量纳入多因素分析, 多因素Cox逐步回归分析显示, 性别、分化程度、病理类型、TNM分期、肿瘤沉积、PNI、C E A、化疗、肿瘤大小、淋巴结采集数、LNR、婚姻状态是早发性直肠癌患者独立危险因素(表2)。
表2 COX多因素分析
(3)构建早发性直肠癌患者肿瘤相关死亡风险列线图:整合多因素分析结果中早发性直肠癌死亡风险因素, 由于变量数量较多, 使用lasso回归压缩变量数目, 经压缩后剩余变量为:分化程度、病理类型、T分期、M分期、LNR、肿瘤沉积、PNI。将压缩后的变量整合, 构建早发性直肠癌患者1, 3, 5年肿瘤相关死亡风险预测列线图(图1)。列线图显示, T分期对早发性直肠癌病人死亡风险影响最大, 其次是M分期、病理分化程度、LNR、病理类型、PNI, 影响最小的是肿瘤沉积。
图1
3 评价列线图预测模型
计算模型的C指数, 该列线图的C指数为0.7 97(95%CI:0.7 83~0.811)。使用患者一年生存率R O C曲线下面积的0.83(95%CI:0.87-0.78), 三年生存ROC曲线下面积:0.84(95%CI:0.85-0.82), 五年生存:0.83(95%CI:0.84-0.81)。(图2)表明良好的区分能力。校正曲线显示预测模型具有良好的准确性(图3)。
图2
图3
4 讨论
结直肠癌是20-49岁人群的第二大发病癌症和癌症死亡原因, 近年来年轻人结直肠癌的发病率和死亡率在增加[9]。其中主要表现为直肠癌的增加[10], 相比之下结肠癌升高的比例却并不明显。近年来相关研究揭示了早发性直肠癌的多种危险因素:全球饮食西化、红肉消费增加、应激、抗生素、合成食用色素、久坐行为和肠道微生物群。然而, EORC发病率呈上升趋势的根本原因仍然未知。这表明早发性直肠癌在发生发展上有其特殊之处。结肠和直肠除了在胚胎、解剖和生理上的差异外, 结肠癌和直肠癌在致癌方面似乎也不同。已有研究发现结肠癌和直肠癌之间存在不同的基因表达差异[11]。正因为结肠癌与直肠癌诸多的不同之处, 因此我们并未像之前的研究将结直肠癌合并分析, 而是单独分析早发性直肠癌这一特殊患者群体。EORC的症状出现晚, 容易出现诊断延误, 肿瘤恶性程度高、分期晚、可切除性差及术后远处复发风险高, 病理类型中, 黏液腺癌和印戒细胞腺癌等恶性程度类型占比明显增加, 印戒细胞癌占比可达 3%-13%[12]。
近年来直肠癌患者的治疗在包括病理检查、影像技术、新辅助治疗和外科手术的进步和标准化, 以及多学科决策的常规实施方法, 患者的生活质量和长期生存有了较大的提升。以往的关于早发性直肠癌预后的相关回顾性研究中已经不太适用于如今患者生存预测。并且随着肿瘤沉积与神经脉管浸润等对患者生存影响的揭示, seer数据库中也着手收录了更多的临床项目, 我们能够获得更多方面的资料内容用于研究。在我们的研究中除了纳入临床病理等基本特征外, 还纳入肿瘤沉积、PNI等变量, 并明确了它们在EORC患者长期生存中的独立预测价值, 与以往的研究相比内容更加丰富。在逐步多因素Cox回归分析中, 性别、分化程度、病理类型、TNM分期、肿瘤沉积、PNI、CEA、化疗、肿瘤大小、淋巴结采集数、LNR、婚姻状态是早发性直肠癌患者独立预后因素。在目前的国际指南中, 建议在结直肠癌切除术中淋巴结采集数为12枚或更高。较低的淋巴结采集数(小于12)与直肠癌预后意义存在争议[13], 我们的研究显示淋巴结采集数独立地影响患者的预后, 这需要更多的临床研究来阐明。
列线图在一定程度上可以反映出患者的长期生存情况, 为了使得列线图更加简洁, 利于使用, 我们使用lasso回归对变量进行压缩, 摒弃了一些对患者生存影响较小的变量, 剩余的变量为:分化程度、病理类型、T分期、M分期、LNR、肿瘤沉积、PNI, 将压缩后的变量整合后构建列线图。使用ROC评估模型, 显示构建的列线图模型具有良好的预测性能。列线图显示T分期对早发性直肠癌病人死亡风险影响最大, 其次是M分期、分化程度、LNR、病理类型、PNI, 影响最小的是肿瘤沉积。列线图肯定了TNM分期在患者生存分析中的“基石”作用, 也反映出远处转移是直肠癌治疗失败、患者长期生存威胁的主要原因。辅助化疗通常用于远处转移的控制, 尤其是应用于局部晚期直肠癌的治疗。然而, 并非所有患者都能从辅助化疗中受益, 特别是有些患者在治疗后甚至可能会出现更差的结果, 但是关于辅助化疗在直肠癌尤其是局部晚期直肠癌中的“不作为”行为的原因仍然存在争论[14]。LNR自出现以来就受到临床研究者的追捧, 是一项强有力的预测因素。在一项多中心回顾性研究中, LNR表现出比阳性淋巴结总数更可靠的预后价值[15]。PNI是结直肠癌患者预后的独立危险因素, PNI与肿瘤分化程度,淋巴结转移显著相关, 在预测患者预后方面发挥着重要作用[16]。我们的分析所涉及变量极易获取, 并且模型表现出不俗的区分度, 贴近临床实际工作需要。
与现有的预测模型相比, 我们的列线图整合了更多的预测变量, 如肿瘤沉积和周围神经侵犯, 为EORC患者提供了全面的预测。此外, 我们通过X-tile软件建立了一个具有最优截断值的风险分级系统, 该系统更加精确和可靠。构建的列线图预测模型的准确性由ROC曲线和C指数进行验证, ROC曲线、C指数及校准曲线显示出模型预测早发性直肠癌年死亡风险较为精准。
由于本研究是基于大数据库的回顾性分析研究, 存在一些局限性, 比如在数据库中未能提供详细的化疗方案和患者的生化指标等信息, 不能将患者个体的特殊性纳入考虑。但由于病例数的巨大, 个体差异造成的影响较小, 因此我们构建的预测模型仍能够在一定程度上预测早发性直肠癌死亡风险, 后续的研究依旧需要大样本临床队列研究或随机对照试验验证。
我们构建的列线图模型显示出很高的敏感性和准确性, 能有效预测年轻直肠癌病人1, 3, 5年内死亡风险, 对早发性直肠癌的预后干预具有临床指导意义, 是治疗决策的潜在工具。
续表1
续表2