基于SEER数据库构建1~2枚淋巴结阳性且乳房全切的老年早期乳腺癌患者不同腋窝手术方式的生存预测模型
2021-06-04邵鑫鑫张能英陈星翰程晓明
曾 峰,李 丹,邵鑫鑫,张能英,陈星翰,程晓明
1.遵义医科大学第二附属医院甲状腺乳腺外科,贵州 遵义 563000;2.遵义医科大学第一附属医院甲状腺乳腺外科,贵州 遵义563000
乳腺癌发病率位居女性恶性肿瘤第一 位[1]。乳腺癌的手术经历了从“最大可耐受”到“最小最有效”的转变,多项临床研究已证实早期乳腺癌患者行乳房全切的疗效与保乳术联合全乳放疗相当[2-3]。对于临床腋窝淋巴结阴性的早期乳腺癌患者,指南推荐前哨淋巴结活检术(sentinel lymph node biopsy,SLNB)进行腋窝分期,如为T1-2期且1~2枚前哨淋巴结(sentinel lymph node,SLN)阳性,对于保乳及全乳放疗的患者,无需补充腋窝淋巴结清扫术(axillary lymph node dissection,ALND);而对于乳房全切术的患者,则应补充ALND,或者选择腋窝放疗作为ALND的替代治疗[4-5]。国内乳房全切率较高,1~2枚SLN阳性的全切患者常纠结于补充ALND还是放疗,而老年患者预期寿命较短且常伴随着多种基础疾病,对ALND的耐受性较年轻人差[2,6-7]。如果通过临床病理学特征能较准确地预测不同腋窝手术方式下的生存率,将有助于医师和患者制定个体化治疗方案。列线图(nomogram)是一种通过纳入多种预后影响因素预测患者生存概率的一种预测模型,广泛用于各种预后评估[8]。“肿瘤监测、流行病学和最终结果(Surveillance,Epidemiology,and End Results,SEER)”数据库是美国的多中心肿瘤登记数据库,可提供部分州肿瘤患者的临床病理学、治疗和生存信息[9]。本研究通过提取来自SEER数据库收录的2010—2015年病理学诊断为浸润性乳腺癌、1~2枚淋巴结阳性的乳房全切的老年患者资料,分析其预后影响因素并构建不同腋窝处理手术方式下的列线图生存预测模型,以期为临床实践提供参考。
1 资料和方法
1.1 资料来源
通过SEER*Stat v8.3.6软件提取SEER数据库中的乳腺癌患者病例资料。
1.2 纳入标准和排除标准
纳入2010—2015年病理学诊断为浸润性乳腺癌的初诊女性。纳入标准:①≥65岁;② 乳房全切;③T1-2期[第7版国际抗癌联盟(Union for International Cancer Control,UICC)/美国癌症联合会(American Joint Committee on Cancer,AJCC)的TNM分期系统];④ 1~2枚淋巴结阳性;⑤ ≥1枚淋巴结切除。排除标准:①临床病理学信息缺失;② 初诊时发生(骨、肺、肝、脑)远处转移;③多源性肿瘤;④ 随访时间小于3个月。
1.3 观察指标
提取患者诊断时年龄、种族、婚姻状况、肿瘤位置、肿瘤大小、阳性淋巴结个数、组织学分级、分子分型、治疗及生存信息等临床病理学信息。由于SEER数据库没有明确腋窝手术方式,基于AJCC指南对乳腺癌腋窝清扫的定义即至少切除6个淋巴结[10]并结合文献报 道[11-12],将1~5个淋巴结切除定义为SLNB,切除6个及以上淋巴结定义为ALND。
1.4 统计学处理
统计分析采用应用SPSS 25.0软件及R语言3.6.1。使用随机抽样函数将患者按3∶1随机划分为训练集和验证集。计量资料采用x±s表示,组间对比采用t检验或方差分析;计数资料采用率表示,组间对比采用χ2检验。采用COX风险比例模型分析影响训练集患者生存预后的因素,将单因素分析P<0.05的因素纳入多因素分析以确定最终的独立预后因子,使用R语言构建包含这些独立预后因子的列线图。分别在训练集和验证集进行内部和外部验证,采用C指数和校正曲线对模型预测能力进行评估。P<0.05为差异有统计学意义。
2 结果
2.1 纳入患者的临床病理学特征
共纳入4863 例患者,中位随访42个月(3~83个月),其中训练集3 647例,验证集1 216例。验证集和训练集的临床病理学特征见 表1,各变量在2组患者的分布差异均无统计学意义(P>0.05),符合简单随机分组,满足验证集和训练集的要求。
2.2 生存预后的影响因素
对训练集进行单因素分析,结果显示,总生存率与年龄、种族、婚姻状态、组织学分级、分子分型、T分期、腋窝手术方式及是否放化疗等9个因素有关(P<0.05);而与肿瘤方位、淋巴结阳性个数(1个或2个)无关(P>0.05,表2)。进一步多因素COX回归分析,结果显示,这9个因素依然是患者总生存的独立预后因子(P<0.05)。
2.3 构建预测总生存率的列线图
将上述多因素COX风险比例回归模型中有统计学意义的9个独立预后因子纳入,构建列线图预测患者3年和5年总生存率(图1)。根据每例患者的每一项临床病理学指标可以读出单项的得分,将各项得分相加即得到总分值,总分值越小,3年和5年生存率越高。
2.4 列线图的验证
训练集(即内部验证)和验证集(即外部验证)的C指数分别为0.710(95% CI:0.689~0.731)和0.728(95% CI:0.691~0.765),表明列线图具有良好的预测能力。采用bootstrap法(自抽样次数=1 000)绘制校准曲线分别进行内部和外部验证,结果显示,训练集和验证集的3年和5年总生存率的校正曲线均靠近45°参考线,即预测的生存率与实际观测的生存率之间具有良好的一致性(图2)。
3 讨 论
越来越多的早期乳腺癌得以确诊,腋窝淋巴结阴性行SLNB的患者逐年增多[7]。与西方国家高达80%的保乳率不同的是,中国乳腺癌患者较为保守,据统计保乳手术仅占全部早期乳腺癌手术的22%[7]。这意味着将会有很大一部分1~2枚SLN宏转移的乳房全切患者面临着是否补充ALND或腋窝放疗的问题,而老年乳腺癌患者常面临着疾病治疗和衰老过程相关的诸多健康问题[13],对ALND及其并发症的耐受性较差[14]。本研究基于SEER数据库,通过分析独立预后因素,构建了一个列线图生存预测模型,能够较为客观和准确地预测T1-2期、1~2枚淋巴结阳性且乳房全切的老年患者3年和5年的生存率。
表1 验证集和训练集的临床病理学特征比较结果Tab.1 Demographic and disease characteristics of patients in training set and validation set
表2 影响训练集3 647例乳腺癌患者总生存因素的单变量和多变量分析Tab.2 Univariate and multivariate Cox analyses of overall survival for patients in the training set (N=3 647)
图1 预测T1-2期1~2枚淋巴结阳性乳腺癌患者3年和5年总生存率的列线图Fig.1 Nomogram for predicting 3-and 5-year overall survival of T1-2 breast cancer patients with 1-2 positive nodes
图2 列线图的内部验证和外部验证的校正曲线 Fig.2 Calibration curves for internal and external validation
本研究通过多因素COX分析发现年龄、种族、婚姻状态、组织学分级、分子分型、T分期、腋窝手术方式、是否放化疗均是患者生存预后的影响因素。年龄是乳腺癌患者预后的一个重要影响因素,老年患者的年龄越大,合并基础疾病的可能性就越大,对放化疗和创伤较大的手术治疗的耐受性就越差,其生存预后往往不理 想[2,13]。不同种族之间的乳腺癌预后存在差异,通常在接受全乳切除手术的乳腺癌患者中,白人和黑人的肿瘤分期较晚,而其他人种如亚裔由于对肿瘤复发转移的惧怕,即使具备早期保乳条件也会倾向于选择全切手术[7,15-16],这可以解释本研究中乳房全切的黑人和白人的预后较亚裔等其他种族差的原因。离异或单身的老年乳腺癌患者在心理、社会和经济支持总体上不如已婚患者,对预后的影响不容忽视[17]。关于组织学分级和T分期对乳腺癌患者生存预后的影响的观点较为统一,乳腺癌组织学分级越高、分化程度越低、T分期越晚,生存预后越差[1,18]。就分子分型而言,三阴性乳腺癌预后较差,HR阳性乳腺癌经过内分泌治疗能有较好的生存获益,随着近来各种靶向药物在临床的应用,HER2阳性乳腺癌患者的生存率也得到了提高[1]。ALND能够对乳腺癌患者进行准确的腋窝分期,同时降低腋窝的肿瘤负荷,但由于其可能产生手臂淋巴水肿、疼痛、感觉异常等并发症[19],对于耐受性较差的老年患者来说还是应该谨慎选择。因此,本研究构建的包含腋窝手术方式的生存预测模型将有助于这部分患者制定合理的治疗方案。
本研究通过纳入多个独立预后影响因素构建生存预测模型,个体化考虑每个因素对生存的影响大小并将其进行量化,结果显示,该模型的预测值与实际观测值的一致性较好,具有较高的预测价值。但本研究仍存在一些不足:①SEER数据库没有具体登记腋窝手术是SLNB还是ALND,本研究根据AJCC指南[10]中对ALND的定义和文献报道[11-12],将切除1~5枚淋巴结定义为SLNB,切除6枚及以上淋巴结定义为ALND,而NCCN指南指出充分的ALND需至少切除10枚淋巴结[20],所以部分切除6枚及以上SLN的SLNB患者会被错分为ALND,从而导致ALND患者的生存率可能会被低估。但根据大型临床研究中[21-23]的报道,SLNB切除6枚及以上的比例极低,故对模型的准确性影响较小。② 患者自身心理家庭社会支持、伴随疾病、Ki-67增殖指数、基因检测、内分泌治疗和靶向治疗等信息不能从SEER数据库中获得。③SEER数据库中亚洲人群较少,因此该列线图预测模型在中国是否适用还有待验证。