黏液性乳腺癌的预后影响因素分析与预后模型构建
2022-02-23张明坤王哲杨柳侯兰张聚良
张明坤 王哲 杨柳 侯兰 张聚良
来自美国癌症中心的统计数据显示,每年美国有271 270例新发乳腺癌病人,其中约42 260例病人死于乳腺癌[1]。根据世界卫生组织(WHO)乳腺肿瘤组织学分类,黏液性乳腺癌(mucinous breast cancer,MBC)是一种特殊类型的乳腺癌,发病率较低,约占所有乳腺癌的1%~7%[2-3]。目前,多数研究表MBC是一种预后良好的肿瘤[4],但在中国MBC缺乏大样本的研究数据,如何对病人的危险因素进行综合考虑并预测预后,对改善MBC病人的生存有重要意义。“监测,流行病学和结果”(surveillance epidemiollgy and end results,SEER)数据库是北美最具代表性的大型肿瘤登记注册数据库之一,收集了大量循证医学的相关数据,覆盖了美国约三分之一的人口[5]。列线图是一种广泛用于肿瘤病人生存预测的工具,具有直观、准确可靠和实用等优点[6],已被广泛应用于口咽癌、胃癌、乳腺癌和肺癌等多种癌症的预后预测[7-10]。本研究综合分析了我院和SEER数据库中的数据,构建预测MBC病人总生存期(overall survival,OS)的列线图模型,辅助临床医生更加精确地预测病人的预后,为病人个体化管理提供依据。
对象与方法
一、对象
2004~2012年间我院收治的MBC病人101例,统计病人的临床病理特征及预后情况,随访方式为电话随访和门诊随访。通过SEER Stat version 8.3.5软件对SEER数据库中2007~2012年MBC病人的数据进行提取和筛选。纳入标准:(1)病理确诊为乳腺癌的病人,基于ICD-O-3的恶性行为;(2)病理分型为MBC;(3)有完整的临床病理及随访资料。排除标准:(1)随访信息不完整;(2)经过尸检或死亡证明确诊的病例;(3)分化程度、肿瘤分期、放化疗情况及雌激素受体(ER)、孕激素受体(PR)状态等重要信息缺失。根据纳入排除标准,逐步筛选出符合标准的病例(图1),最终纳入MBC病人5 671例。
图1 SEER病例筛选流程图
二、方法
对比我院和SEER数据库中的临床病理资料,包括年龄、是否放疗、是否化疗、分期、分化程度、偏侧性、肿瘤位置、是否第一原发肿瘤、手术情况、ER状态、PR状态、人类表皮生长因子受体2(Her-2)状态以及生存状态和时间等变量。以SEER数据库提取的5 671例病人数据作为建模集,分析MBC预后的独立影响因素并建立预测模型,以我院101例病人数据作为验证集,验证模型对于中国MBC病人的预测效果。
三、统计学分析
采用R软件(4.0.3)分析数据,采用χ2检验比较建模集和验证集的基线特征,其中对于肿瘤分期等等级资料进行秩和检验(Mann-whitney U检验),Kaplan-Meier法计算总体生存率,Log-rank检验评价各变量不同亚组生存差异的显著性,连续变量用中位数(范围)表示,分类变量用例数(%)表示。使用Cox单因素分析筛选有意义的变量;将单因素分析中P<0.1的变量纳入多因素Cox比例风险模型,以防止具有独立预测意义的变量遗漏。基于影响MBC预后的独立危险因素,使用 R 软件(4.0.3)中的rms、survival等程序包构建绘制列线图。在验证集中进行外部验证,并采用bootstrap法进行1 000次重抽样对列线图的预测性能进行内部验证。模型的区分度用C-index、ROC曲线及曲线下面积(AUC)进行评价,同时通过绘制校准曲线检测模型的校准度,以确保模型准确可靠,最后为模型绘制临床决策曲线(DCA)来检测模型的临床获益和应用价值。
结果
1.病人的基线特征:建模集随访时间0~119个月,中位随访时间72个月;验证集随访时间6~107个月,中位随访时间87个月。采用χ2检验及Mann-whitney U检验对比建模集和验证集的基线特征,结果显示,建模集和验证集的年龄(平均年龄67岁vs 56岁,P<0.01)有明显差异,是否放疗、是否化疗、是否第一原发肿瘤、临床分期、T分期及手术情况比较,差异有统计学意义(P<0.05)(表1)。
表1 MBC病人的基线特征(例,%)
2.各变量对MBC病人预后影响的分析:在建模集中对每个变量进行Cox单因素生存分析,其中年龄依据X-tile软件最佳截断值60岁分为二分类变量。结果显示:年龄、是否放疗、手术情况、T分期、N分期、M分期及ER状态等7个变量是MBC预后的影响因素(P<0.1)。将单因素Cox回归筛选的7个变量纳入多因素Cox回归模型,经向后法逐步回归AIC分析后结果显示,年龄、T分期、M分期、是否放疗及手术情况这5个变量是MBC预后的独立危险因素(P<0.05)(表2)。基于Kaplan-Meier和Log-rank检验方法,利用Cox风险模型绘制出各主要变量的生存曲线(图2)。
表2 影响MBC病人预后的单因素和多因素分析
图2 筛选变量对MBC病人OS影响的生存曲线分析
3.MBC的OS预后列线图的构建:基于建模集Cox多因素回归分析的结果(图3),将筛选出的5个变量用于构建MBC病人OS预后的列线图模型(图4),将所有的预测因子整合用列线图来预测MBC病人3年、5年及8年的生存期。将各个变量所得分值相加,得到的总分可预测MBC病人的3年、5年及8年生存率。
图3 MBC病人Cox多因素风险模型森林图
图4 MBC病人预后的列线图预测模型
4.列线图的内部及外部验证建模集:建模集建立模型的C-index为0.87,验证集进行外部验证C-index=0.71,bootstrap法内部验证C-index=0.81,显示模型无论对美国人群还是中国人群都具有良好的区分度。同时在建模集和验证集中绘制3年、5年及8年OS的ROC曲线,通过曲线下面积(AUC)进一步验证模型区分度(图5)。在建模集和验证集中,分别根据病人的3年、5年和8年生存情况绘制校准曲线,用于评价模型的校准度,结果显示所有的校正曲线均与理想曲线有较好的吻合度,提示模型预测有较好的准确性(图6)。
图5 建模集及验证集的3年、5年及8年OS的ROC曲线
图6 建模集及验证集的3年、5年及8年OS校准曲线(X轴为实际生存率,Y轴为预测生存率,对角线为理想曲线表示两者完全一致)
5.临床决策曲线分析:传统的诊断实验指标如敏感性、特异性及AUC等仅仅只能考虑模型的准确性,不能反应在临床实践中模型的实际临床效用有多少,而临床决策曲线分析(DCA)能够从临床决策的实际出发,将病人或决策者的偏好整合到分析中[11]。本研究针对建模集和验证集的3年、5年及8年的生存情况分别绘制DCA曲线,其中黑色横线代表所有样本都是阴性,获益为0,灰色斜线表示所有样本都是阳性,净获益为负值的反斜线,虚线为模型的净获益情况。结果显示,无论在建模集还是在验证集中,模型的3年、5年及8年临床净获益都较高,尤其在验证集中国人群中获益率更为明显,显示模型临床效能较好(图7)。
图7 建模集及验证集3年、5年及8年DCA曲线
讨论
乳腺癌的诊断和治疗的规范化对降低乳腺癌的死亡率和改善预后、延长生存期至关重要[12]。MBC临床上较为少见,但通常预后良好,生存率较高[13]。研究表明,MBC与非特殊类型乳腺癌相比,有独立的临床病理特征,但由于MBC相对少见,临床上极易忽视[14]。如何对MBC病人的预后进行评估,对MBC的综合治疗有重要意义。列线图是多因素预后模型的图形表现形式,可用来个体化预测特点时间点病人的生存情况[15]。列线图作为一种新型预测模型,与传统预测方法相比,准确性更高,适应性更广,并且易于推广[16]。由于我院MBC病人样本量较小,本研究利用SEER数据库的大量MBC病人数据构建列线图模型来预测MBC病人的OS,然后在中国人群中进行外部验证,并通过bootstrap方法(1 000次重抽样)进行内部验证,采用一致性指数(C-index)、ROC曲线和校正曲线评估模型的区分度和可靠性,最后通过临床决策曲线分析(DCA)来评价模型的临床获益和应用价值。结果显示,该列线图能准确预测MBC病人的预后,为临床的诊疗提供科学依据。
本研究结果显示,年龄、手术情况、放疗情况、T分期以及M分期是MBC预后的独立影响因素。本研究中,中国人群MBC病人的平均年龄56岁,年龄越大病人的死亡风险越高,这与El等[4]的研究结果类似。本研究中,来自中国人群的验证集保乳率为22.77%,远低于来自美国人群的建模集(62.07%),这与国外的报道相符合[17]。与未手术相比,无论是保乳还是乳房全切手术都能显著改善病人预后。多项研究表明,放疗能显著降低乳腺癌病人的局部复发率并提高生存率[18-19]。本研究显示,未接受放疗是MBC病人预后的独立危险因素。既往关于MBC的研究表明,MBC的预后与TNM分期相关[20-21],这与本研究的结果一致,本研究中,随着TNM分期的增高,病人的预后越差,T分期和M分期是MBC预后的独立影响因素。
综上所述,本研究基于SEER数据库及我院MBC病人数据建立预测模型,确立了年龄、T分期、M分期、是否放疗及手术情况是MBC病人预后的独立危险因素,预测模型能够准确有效地预测MBC病人3年、5年及8年OS,为MBC预后的预测提供有效的科学依据。但由于SEER数据库中数据的局限性,预测模型无法纳入如化疗方案、放疗方案、内分泌治疗方案等一些临床中的重要因素,可能需要进一步的研究对模型进行优化。此外,由于来自我院的MBC样本量较少,模型对中国人群的预测能力尚需进一步验证。