基于LASSO变量选择联合贝叶斯网络构建乳腺癌患者5年预后风险模型的建立与预测*
2024-02-23古丽努尔阿卜杜热合曼
闫 慈,古丽努尔·阿卜杜热合曼,张 旭,孙 刚
(新疆医科大学附属肿瘤医院信息管理与大数据中心,乌鲁木齐 830011)
据2020全球癌症统计显示,乳腺癌占总体癌症发病的11.7%,其发病率和病死率均位于女性癌症首位[1]。通过将数据挖掘技术应用于癌症领域,深刻挖掘乳腺癌的预后机制,对乳腺癌患者的生存具有重大现实意义。预后分析中广泛采用COX回归模型预测患者的生存率[2],该模型要求自变量间相互独立[3]。但在医学数据中,海量的临床数据间常呈现共线性和高冗余性[4],此时COX回归不再适用。贝叶斯网络通过构建有向无环图直观反映多因素间的潜在关系[5],利用条件概率分布反映关系强度[6]。最小绝对收缩和选择算法(the least absolute shrinkage and selection operator,LASSO)回归在处理多重共线性数据时具有明显优势[7]。因此,本研究利用LASSO回归和贝叶斯网络构建乳腺癌患者5年预后风险预测模型,以期探讨乳腺癌预后的因果联系并发现未知或潜在的危险因素,现报道如下。
1 资料与方法
1.1 一般资料
回顾性分析本院乳腺癌专病库系统中2010年1—12月17 104例患者的病例资料。纳入标准:(1)首诊为乳腺癌;(2)女性;(3)患者随访结局与基线信息完整。排除标准:(1)存在多原发肿瘤;(2)无5年随访结局。
1.2 方法
1.2.1LASSO回归
LASSO回归是一种处理复共线性数据的有偏估计[8]。它通过把一些不重要变量的回归系数压缩到零达到变量筛选的目的,进而获得更高的模型预测精度和概化能力[11],使得模型更易解释[9]。模型在lambda.1se时可得到1个具备优良性能但自变量个数最少的模型[10]。
1.2.2贝叶斯网络
贝叶斯网络通过构建有向无环图反映变量间的交互作用和概率依赖关系[13]。图的节点表示各变量,有向边表示变量间依赖关系。在以乳腺癌预后为目的的研究中,通过寻找与乳腺癌随访结局相关的变量及其变量间的相关关系达到辅助临床识别乳腺癌预后影响因素及相互作用关系的目的[14]。
1.2.3模型评价指标及验证
选取准确率、F值、曲线下面积(area under curve,AUC)、95%CI作为模型评价指标。此外,为了避免数据过拟合,模型更稳定可靠,研究将数据集按6∶2∶2比例划分为训练集、验证集、测试集,用训练集训练模型,验证集调节超参数,测试集评估模型的性能。
1.3 统计学处理
2 结 果
2.1 数据情况
以患者的年龄、婚姻状态等人口统计学指标,肿瘤分期、雌激素受体等病理、免疫组织化学指标,手术、放化疗等共75个指标为模型的自变量,患者5年的生存结局为因变量,变量的详细信息详见表1。在首诊的乳腺癌患者中生存14 598例,平均年龄(50.4±10.5)岁;死亡2 417例,平均年龄(52.5±12.8)岁;5年生存患者平均随访时间为(84.9±33.7)个月,死亡患者平均随访时间为(37.1±27.1)个月。
表1 基线表格
2.2 LASSO特征选择
LASSO回归结果显示,lambda.1se为0.412 7时,共筛选出与乳腺癌预后强相关的18个变量,分别是年龄、民族、初潮年龄、肿瘤分期、肿瘤家族史、是否绝经、手术分组、复发转移、组织学分级、雌激素受体状态、孕激素受体状态、Ki-67表达水平、HER2 Fish状态、放疗、化疗、靶向治疗、内分泌治疗、新辅助治疗,见图1。
上横坐标对应此时模型中非零系数的个数。
2.3 贝叶斯网络模型构建
按照LASSO回归筛选的变量构建含有18个节点、28条有向边的贝叶斯网络预测模型,并获得各节点的条件概率。各变量通过复杂的网络关系与乳腺癌生存结局建立联系,见图2。雌激素受体状态、孕激素受体状态、Ki-67表达水平与放疗、化疗等中间节点联系,间接影响乳腺癌患者预后情况的发生,Ki-67表达水平与HER2 Fish状态间接连接靶向治疗,而靶向治疗又是乳腺癌患者生存结局的父节点,提示Ki-67表达水平与HER2 Fish状态影响乳腺癌患者预后情况的发生。
图中数据均为百分数。
2.4 贝叶斯网络模型推理
贝叶斯网络图已知任意节点组合信息都可以通过上述贝叶斯模型估计乳腺癌生存预后情况发生的概率。如年龄<30岁、肿瘤Ⅰ期、保乳术、放疗后的乳腺癌患者发生死亡的概率为10.0%;年龄>50岁、肿瘤Ⅳ期、化疗后的乳腺癌患者预后死亡的概率为68.2%,见图3。
A:年龄<30岁、肿瘤Ⅰ期、保乳术、放疗后的乳腺癌患者复发转移、死亡概率预测;B:年龄>50岁、肿瘤Ⅳ期、化疗后的乳腺癌患者复发转移、死亡概率预测;图中数据均为百分数。
2.4 预测性能评价
贝叶斯网络模型性能显示,验证集的分类准确率为84.0%,AUC为0.841,测试集预测准确率为82.0%,AUC值为0.813,提示贝叶斯网络风险预测模型性能良好,见表2。
表2 乳腺癌患者风险预测模型评价
3 讨 论
尽管应用多种手段进行治疗,但乳腺癌患者的预后仍不令人满意[16]。因此,寻找乳腺癌预测指标至关重要。
医学数据常具有高维性、高冗余性和交互性[17],此时使用以变量独立性为条件的logistic回归模型分析时会因变量间的多重共线性问题而错误估计变量效应[18]。因此,如何在海量变量中筛选出性能最好的变量,又能避免模型过拟合是大数据分析的关键问题之一。LASSO回归的特点是在拟合广义估计方程的同时进行变量筛选,从而有效解决变量共线性问题并最终获得精简的统计模型[19]。本研究LASSO回归筛选出的与乳腺癌预后强相关的变量均在研究中得到证实[20-21]。
贝叶斯网络模型有助于揭示影响乳腺癌患者预后各危险因素之间复杂的网络关系[22]。本研究发现年龄、肿瘤分期是乳腺癌患者5年预后的上一级节点,说明乳腺癌患者5年预后与年龄、肿瘤分期密切相关,这与杜婧等[23]研究结果一致。雌激素受体状态、孕激素受体状态、Ki-67表达水平与放疗、化疗等中间节点联系,间接地影响乳腺癌5年生存预后情况的发生。同时,Ki-67表达水平与HER2 Fish状态间接连接靶向治疗,而靶向治疗又是乳腺癌生存结局的父节点,这提示Ki-67表达与乳腺癌患者5年不良预后的发生存在伴随关系。其原因可能为Ki-67表达水平可以反映肿瘤增殖能力[24],表达水平越高,乳腺癌恶性程度更高,容易导致患者治疗不彻底,治疗后肿瘤更易复发转移,进而影响预后[25]。
综上所述,乳腺癌预后影响因素众多且存在纷繁复杂的交互作用。年龄、肿瘤分期、手术方式、放疗、化疗、雌激素受体状态、雌激素受体状态、Ki-67表达水平与乳腺癌患者预后结局密切相关,或可作为评估乳腺癌患者5年预后的潜在指标。基于LASSO回归联合贝叶斯网络分析构建的乳腺癌患者预后风险预测模型在影响因素分析中更符合实际理论,在乳腺癌患者5年预后风险预测方面具有较好的临床应用价值。