首诊Ⅳ期乳腺癌生存预测模型建立并验证:一项基于机器算法的研究
2020-07-04谭钰洁何子凡余运芳姚和瑞
谭钰洁,何子凡,余运芳,姚和瑞
乳腺癌是全球女性最常见的恶性肿瘤,其发病率及死亡率均高居榜首。乳腺癌患者首诊即出现远处转移的患者约3%~10%[1]。首诊Ⅳ期乳腺癌患者接受原发灶手术否能改善总生存是当前临床的热点问题。既往基础实验结果显示手术切除乳腺癌原发灶会促进肿瘤的恶性进展[2,3];相反,大量回顾性研究却显示手术切除乳腺癌原发灶能改善患者的预后[4,5]。近年来发表的前瞻性研究对此具有争议[6,7]。因此,目前全球各大指南对于首诊Ⅳ期乳腺癌接受原发灶手术否能改善患者总生存缺乏一致定论[1,8,9]。
美国国立癌症研究所监测、流行病和结果数据库(Surveillance,Epidemiology,and End Results,SEER)记录了1973年以来美国部分州县癌症患者的发病、治疗、病理及预后等详细信息。本研究拟通过分析1973~2015年首诊Ⅳ期乳腺癌病例,探索首诊Ⅳ期乳腺癌患者能从切除局部原发灶手术获益的人群,并分析首诊Ⅳ期乳腺癌患者切除原发病灶对其生存的影响。
1 资料和方法
1.1 研究对象
通过SEER*Stat 8.3.5收集1973~2015年间首诊Ⅳ期乳腺癌患者。纳入标准:①确诊年龄为18~75岁;②病理诊断为浸润性乳腺癌的女性患者;③首诊为临床分期Ⅳ期的患者;④ECOG⁃PS评分:0~2。排除标准:①伴发其他部位肿瘤;②乳腺癌脑转移患者;③随访信息不全。
本研究已通过中山大学孙逸仙纪念医院医学伦理委员会审查(SYSEC⁃KY⁃KS⁃2018⁃018)。
1.2 方法
1.2.1 资料收集 详细收集SEER数据库符合纳入标准的首诊Ⅳ期乳腺癌患者的以下数据资料:年龄、肿瘤大小、病理类型、病理组织学分级、临床肿瘤分期、临床淋巴结分期、ER状态、PR状态、HER⁃2状态、分子分型、是否放疗、骨转移状态、肝转移状态、肺转移状态、淋巴结转移状态。
1.2.2 统计学方法 应用R 3.6.3软件对数据进行分析。采用Kaplan Meier法进行生存分析,采用log⁃rank检验分析比较生存率的差别。利用R语言的glmnet包的进行LASSO回归分析筛选出与患者预后相关的临床病理性特征,进一步利用多因素Cox回归分析建立预测模型及风险评分(risk score)方程,使用受试者工作特征曲线(ROC)曲线下面积AUC来评价模型的灵敏度和特异度,并使用一致性指数(index of concordance,C⁃index)评价生存模型的预测能力。检验水准α=0.05。
2 结果
2.1 入组患者临床病理学特征
本研究共纳入7379例首诊Ⅳ期乳腺癌患者,根据不同的治疗方案分为两组,手术组(2703例,36.6%),非手术组(4676例,63.4%)。两组患者在年龄、肿瘤大小、病理类型、病理组织学分级、临床肿瘤分期、临床淋巴结分期、ER状态、PR状态、HER⁃2状态、分子分型、是否放疗、骨转移状态、肝转移状态、肺转移状态、淋巴结转移状态的差异均有统计学意义(P<0.001),见表1。
表1 首诊Ⅳ期乳腺癌患者倾向性评分匹配前后临床病理学基线资料
2.2 临床病理学特征筛选
在纳入的7379例首诊Ⅳ期乳腺癌患者中,对纳入的7379例首诊Ⅳ期乳腺癌患者按6:4随机分配为训练组及验证组。在训练组中,对以下15个临床病理学特征:年龄、肿瘤大小、病理类型、病理组织学分级、病理肿瘤分期、病理淋巴结分期、ER状态、PR状态、HER⁃2状态、分子分型、是否放疗、骨转移状态、肝转移状态、肺转移状态、淋巴结转移状态进行LASSO回归筛选,见图1,并使用交叉验证,见图2。结果以下10个临床病理学特征纳入分析模型:年龄、病理类型、临床肿瘤分期、ER状态、PR状态、HER⁃2状态、骨转移状态、肝转移状态、肺转移状态、淋巴结转移状态。
图1 LASSO回归
图2 十折交叉验证
2.3 建立风险评分模型
对以上10个临床病理学特征进行多因素Cox回归分析,根据相应的回归系数,建立风险评分方程。Riskscore=0.94*年龄+0.94*病理类型+1.08*肿瘤分期+0.88*ER状态+0.88*PR状态+0.92Her⁃2状态+0.85*骨转移状态+1.00*肝转移状态+0.98*肺转移状态+0.98*淋巴结转移状态。根据上述结果,绘制基于10个临床病理学特征的预测首诊Ⅳ期乳腺癌患者生存的列线图,见图3。根据公式,计算每位患者的riskscore数值,并根据最佳的cutoff值,将患者分为高风险评分组(>360)、中风险评分组(243~360)和低风险评分组(<242),见图4。在训练组中,我们所构建的模型预测患者1年和3年生存率的ROC曲线下面积数值AUC分别为0.75、0.73,一致性指数(C⁃index)为0.700(95%CI:0.69⁃0.71)。在验证组组中,模型预测患者1年和3年生存率的ROC曲线下面积数值AUC分别为0.72、0.75,一致性指数(C⁃index)为0.690(95%CI:0.67⁃0.71),见图5。这表明模型具有良好的灵敏度和特异性。进一步分析高、中、低风险评分组患者的生存差异,发现在低、中危风险评分组的患者进行原发病灶手术切除能使其获得总生存的获益(低危风险评分组:训练组:HR=0.49,95%CI:0.42~0.57,P<0.001;验证组:HR=0.43,95%CI:0.34~0.55,P<0.001;中危风险评分组:训练组:HR=0.75,95%CI:0.65~0.86,P<0.001;验证组:HR=0.72,95%CI:0.57~0.90,P=0.003),而高危风险评分组的患者则不能从手术治疗中获得总生存获益(训练组:HR=0.65,95%CI:0.41~1.02,P=0.066;验证组:HR=0.83,95%CI:0.41~1.69,P=0.610),见图6~8。
图3 首诊Ⅳ期乳腺癌患者1年及3年总生存的Nomogram预后模型
3 讨论
图4 训练组及验证组低风险、中风险、高风险评分组间患者生存曲线比较
图5 训练组及验证组的风险预后模型的ROC曲线
图6 训练组及验证组中,低风险评分组患者间手术对比非手术的生存曲线比较
图7 训练组及验证组中,中风险评分组患者间手术对比非手术的生存曲线比较
图8 训练组及验证组中,高风险评分组患者间手术对比非手术的生存曲线比较
目前全球各大指南对于首诊Ⅳ期乳腺癌接受原发灶手术否能改善患者总生存尚未有定论。临床医生仅在患者肿瘤出现破溃、原发肿瘤情况不明的时候采取手术治疗以提高患者的生活质量或明确病情。
此外,前瞻性及回顾性临床研究对首诊Ⅳ期乳腺癌接受原发灶手术否能改善患者总生存结论不一[10-11]。既往回顾性临床研究认为,首诊Ⅳ期乳腺癌接受原发灶手术使患者有生存获益[12-14]。Harris E的回顾性临床研究纳入了28693例首诊Ⅳ期乳腺癌患者,其研究结果发现,手术切除原发病灶的患者3年总生存比非手术者高(手术组:40%vs非手术组:22%,OR=2.32,95%CI:2.08~2.6,P<0.001)[15]。同样,在前瞻性、多中心、随机临床研究MF07⁃01中,首诊Ⅳ期乳腺癌接受原发灶手术治疗能延长中位生存时间(手术组:46个月vs非手术组:37个月,HR=0.66,95%CI:0.49~0.88,P=0.005)[6]。然而,在另一个前瞻性、多中心、随机临床研究中却得到相反的结论。TATA研究发现,在首诊Ⅳ期乳腺癌患者中,接受原发病灶手术治疗未能改善总生存(中位生存时间:手术组:19.2个月[95%CI:15.98~22.46]vs非手术组:20.5个月[95%CI:16.96~23.98];HR=1.04,95%CI:0.81~1.34;P=0.79)[16]。
因此,本研究利用SEER数据库建立首个首诊Ⅳ期乳腺癌患者预后风险评分模型,更准确地筛选适合行原发病灶手术切除的患者。在本研究的风险评分模型中,在低、中危风险评分组的患者进行原发病灶手术切除能使其获得总生存的获益(低危风险评分组:训练组:HR=0.49,95%CI:0.42~0.57,P<0.001;验证组:HR=0.43,95%CI:0.34~0.55,P<0.001;中危风险评分组:训练组:HR=0.75,95%CI:0.65⁃0.86,P<0.001;验证组:HR=0.72,95%CI:0.57~0.90,P=0.003),而高危风险评分组的患者则不能从手术治疗中获得总生存获益(训练组:HR=0.65,95%CI:0.41~1.02,P=0.066;验证组:HR=0.83,95%CI:0.41~1.69,P=0.610)。
本研究仍存在一定的局限性。首先SEER数据库中缺少Ki⁃67、新辅助化疗方案、新辅助治疗与手术治疗的间隔时间的数据资料,因此导致本研究风险评估模型的准确性和可靠性下降。其次,该研究以人群为基础的研究,部分首诊Ⅳ期乳腺癌患者资料缺失而未能纳入,因此,本研究存在选择偏倚。最后,本研究样本量有限,下一步应需大规模、多中心、前瞻性临床研究分析首诊Ⅳ乳腺患者原发灶手术能否改善OS。
综上所述,本研究基于机器算法建立首诊Ⅳ期乳腺癌的风险评估模型,能有效区分首诊Ⅳ期乳腺癌低危风险、中危风险和高危风险患者,且不推荐高风险(评分>360)患者进行手术治疗。