基于贝叶斯网络构建晚期非小细胞肺癌生存预后模型
2021-10-28俞森权朱红叶高文仓
曹 莹 姚 成 陈 冬 俞森权 郑 健 朱红叶 高文仓
根据我国最新发布的全国癌症报告,无论是发病率还是死亡率,肺癌均居于所有恶性肿瘤之首,其中非小细胞肺癌(non-small cell lung cancer,NSCLC)占所有肺癌病例的80%左右。根据2020 年美国癌症协会发布的统计数据,高达57%的肺癌患者诊断时即为晚期,其5 年生存率仅5.8%[1]。因此,建立可信度高、预测效果好的NSCLC 预后预测评估模型,对于患者的个体化治疗、临床医师决策制定以及社会医疗资源的合理利用具有重要的指导意义。本研究通过大量文献阅读整理出可能有预测作用的因素,聚焦炎症指标、肿瘤指标、营养学指标这三方面血液学常规指标,利用贝叶斯网络模型建立一项经济实用、预测效果好的NSCLC 预后预测模型,为患者最终治疗方案的选择和预后的判断提供决策支持。
1 资料与方法
1.1 一般资料 采用回顾性研究方法,收集自2015年1 月1 日—2020 年10 月31 日浙江中医药大学附属第二医院肿瘤科收治的初治晚期NSCLC 患者88例。通过门诊或电话进行随访,以患者死亡为终点,随访截至2020 年10 月31 日。
1.2 纳入及排除标准 纳入标准:(1)细胞学或病理学检查结果明确诊断为NSCLC;(2)根据美国癌症协会第8 版的NSCLC TNM 分期标准为Ⅳ期;(3)临床资料完整,包括人口学、疾病诊治及血液学资料;(4)不合并其他恶性肿瘤。排除标准:(1)细胞学或病理学诊断不明确或非NSCLC;(2)TNM 分期不明确或Ⅰ~Ⅲ期;(3)合并其他恶性肿瘤;(4)生存时间<1 个月;(4)随访或病例资料不完整。
1.3 研究方法 收集患者性别、年龄、病理类型、基因情况、TNM 分期、转移情况、治疗经过、生存时间、死亡原因和初诊时血液学资料,包括血常规中的血小板(PLT)、中性粒细胞绝对值(NE)、淋巴细胞绝对值(LY)、单核细胞绝对值(MO)、血红蛋白(Hb),生化常规中的C-反应蛋白(ALB)、白蛋白(ALB)、低密度脂蛋白胆固醇(LDL-C)、高密度脂蛋白(HDL-C)、乳酸脱氢酶(LDH)、血钙(Ca),凝血功能中的D-二聚体(D-D)、纤维蛋白原(FIB)以及肿瘤指标中的鳞状上皮细胞癌抗原(SCC-A)、癌胚抗原(CEA)、细胞角蛋白19 片段(Cyfra21-1)、癌抗原125(CA125)。然后,根据记录的检验结果,计算中性粒细胞-淋巴细胞比值(NLR)、血小板-淋巴细胞比值(PLR)、淋巴细胞-单核细胞比值(LMR)、格拉斯哥预后评分(GPS)、营养预后指数(PNI)、C 反应蛋白-白蛋白比值(CRP/ALB ratio)等。其中,PNI 计算公式为血清白蛋白(g/L)+5×外周血淋巴细胞总数(×109/L)[2];GPS 评分,将CRP 升高合并低蛋白血症赋值2,只有一项异常赋值1,两项指标均正常赋值0[3]。
1.4 统计学方法 应用SPSS 21.0 软件进行数据分析,组间分类变量比较采用卡方检验。采用Kaplan-Meier 法计算生存率,生存率比较采用Log rank 检验。采用Cox 模型进行单因素和多因素分析,检验水准为α=0.05,P<0.05 认为差异有统计学意义。采用SPSS Moderler 软件进行贝叶斯网络模型的建立和评估。
2 结果
2.1 病理临床资料 本研究共纳入88 例患者,其中男57 例,女31 例,中位年龄75 岁;腺癌56例(70.9%)、鳞癌18例(22.8%)。88例中47例(53.41%)进行基因检测,其中驱动基因阴性14 例(15.91%),存在EGFR 突变27 例(30.70%),其他基因突变6 例(6.82%),包括ALK、ROS1、MEK、PD-L1高表达等。Ⅳ期初诊患者中,高达48.9%患者存在1个脏器转移,2、3 及≥4 个脏器转移比例分别为27.3%、17.0%和6.8%。最常见的转移部位依次是骨、肺、胸腔积液、淋巴结、肝、脑。系统治疗方面,未接受治疗27 例(30.70%),接受1、2 和≥3 线治疗的患者分别为22 例(25.00%)、18 例(20.45%)和21 例(23.86%)。另外,接受局部治疗24 例(27.27%),以放疗、胸腔灌注治疗为主。总体中位生存时间为11.4 个月,1、2、3 年累积生存率分别为47.73%、26.14%、13.64%。见图1。
图1 晚期非小细胞肺癌患者总体生存曲线
2.2 单因素和多因素生存分析 将性别、年龄、病理类型、基因突变情况、转移部位、转移数目、治疗线数、局部治疗情况、PLT、NE、LY、NLR、PLR、LMR、Hb、CRP、GPS、ALB、CRP/ALB、PNI、HDL-C、LDL-C、LDH、Ca、D-D、FIB、SCC、CEA、Cyfra21-1、CA125 纳入Cox 回归模型单因素分析,结果显示,性别、年龄、病理类型、肝脏转移、非基因突变或野生型、接受全身和局部治疗、NE、NLR、GPS、CRP、Hb、ALB、CRP/ALB、SCC 和Cyfra21-1 差异有统计学意义(P 均<0.05),见表1。进一步将单因素分析中对生存预后有影响的因素纳入Cox 回归模型多因素分析中,结果显示,仅肝脏转移、未接受全身治疗、NLR>5.23、SCC>1.3μg/L 是影响患者生存预后的独立危险因素(P<0.05),见表2。
表1 晚期非小细胞肺癌患者生存单因素分析
表2 晚期非小细胞肺癌患者生存多因素分析
2.3 贝叶斯网络建模及精确分析 除了以上4 个独立预后因素,结合临床,我们加入病理类型、年龄和转移数目参与建模。将总样本按3:2 随机分成训练集52 例,测试集36 例。先运用训练集,在SPSS Moderler 软件中采用贝叶斯网络建模功能和TAN 算法建立贝叶斯网络模型(见图2)。经过多次试验,我们发现当模型中同时包含图中5 个变量的时候预测准确性最高,达69.44%。这5 个参数分别是肝脏转移、治疗线数、SCC、年龄和NLR,对应的预测重要性分别为0.36、0.26、0.22、0.11 和0.05。
图2 晚期非小细胞肺癌患者预后生存贝叶斯网络模型
3 讨论
NSCLC 是高发病率、高死亡率的恶性肿瘤,目前尚无统一、高效的预后预测模型。既往研究多针对单一因素进行预后分析,如炎症指标、肿瘤指标、营养指标、临床特征等,或简单联合其中几类因素,且多围绕术后患者展开[4-6]。而本研究同时聚焦以上因素,对88 例晚期NSCLC 患者的临床资料和血液学资料进行回顾性分析,综合临床特征、治疗情况和常规血液学指标,建立经济实用的NSCLC 预后预测模型,旨在更好地为临床治疗和预后评价服务。
贝叶斯网络是目前不确定知识表达和推理领域最有效的理论模型之一。一项利用贝叶斯网络方法构建NSCLC 术后生存预测模型,主要收集了患者人口学特征和肿瘤临床病理资料等17 个研究变量,最终共纳入年龄、肿瘤大小、组织学分级、肿瘤分期和受累淋巴结比率5 个变量,预测准确率达72.87%[7]。另一项基于贝叶斯网络模型对不同严重程度肺癌患者生存能力的预测研究,主要涉及人口学特征、肿瘤临床病理特征、合并症、医疗花费等15 个研究变量,所得的生存能力预测模型在Ⅰ~Ⅳ期肺癌中调整R2 值分别达到93.57%、86.83%、67.22%和52.94%[8]。
炎症微环境已被认定为肿瘤十大特征之一。近年来,一系列反应机体炎症及免疫状态的指标被广大研究者从不同角度证实其与肿瘤的关系,包括PLT、NLR、PLR、LMR、CRP、GPS、FIB 等[9-12]。NLR 提示,炎症激活因子中性粒细胞和炎症调节因子淋巴细胞之间的平衡状态,NLR 越高则表明这种失衡越严重,即炎症反应越严重而集体的免疫抑制越强烈。PLR、LMR 与NLR 有着相似的肿瘤相关预后作用。
NSCLC 患者的预后与肿瘤分期密切相关,但是实际情况中肿瘤分期并不能满意地判断预后情况,而肿瘤微转移是导致这一现象的重要原因。因此,一些实验学指标被作为评估预后的参考指标,其中肿瘤标志物就是典型代表,与NSCLC 相关的主要有SCC、CEA、Cyfra21-1、CA125 等[13]。本研究中,单因素分析结果显示,基因突变状态与生存相关,而CEA水平则无显著性差异。虽然,最终的多因素分析中基因突变状态并非独立预后因素,但也侧面提示了基因突变状态对NSCLC 预后的影响,这还需要更大样本及前瞻性研究数据来证实。
与NSCLC 预后相关的指标还有营养相关代谢指标,包括营养预后指数、白蛋白、血红蛋白、前白蛋白、血钙、D-二聚体、乳酸脱氢酶、谷氨酞转移酶等[14-16]。
本研究发现,在单因素分析中,男性、年龄≥75岁、非腺癌、伴肝脏转移、非EGFR基因突变或野生型、未接受全身或局部治疗、NE>5.75×109/L、NLR>5.23、GPS ≥1 分、CRP >22.7mg/L、Hb ≤116mg/L、ALB ≤32.7g/L、CRP/ALB >0.67、SCC >1.3μg/L 和Cyfra21-1>8.37ng/mL 与不良的生存预后相关。而多因素分析显示,伴肝脏转移、未接受全身治疗、NLR>5.23、SCC>1.3μg/L 是影响患者生存预后的独立危险因素。
综上所述,本研究通过回顾性分析晚期NSCLC患者资料,建立贝叶斯网络生存预后模型,模型预测准确率达69.44%。模型中包含5 个参数,分别是肝脏转移、治疗线数、SCC、年龄和NLR,对应的预测重要性分别为0.36、0.26、0.22、0.11 和0.05。该模型同时兼顾了临床特点和血液学指标,所涉及参数可及性高,成本低,因而具有较高的可操作性,能够更好地为临床治疗和预后评价工作服务。本研究也存在一些缺陷,如样本量偏少、单中心数据、回顾性分析等。因此,今后还需收集更大样本数据进行验证分析,为晚期NSCLC 的决策制定提供更有价值的依据。