基于机器学习算法的胃癌淋巴结转移预测模型研究
2024-03-01施昊旻乔梦梦杨惠莲
施昊旻, 燕 速, 乔梦梦, 杨惠莲
(1. 青海大学 医学部公共卫生系, 青海 西宁, 810001; 2. 青海大学附属医院 胃肠外科, 青海 西宁, 810001)
淋巴结转移是胃癌疾病进展的重要决定因素,且无远处转移的胃癌分期根据浸润深度和淋巴结转移程度而确定[1]。预防性淋巴结清扫可在一定程度上治愈胃癌,因此术前诊断淋巴结转移是制订胃癌患者手术治疗计划的重要步骤[2]。基于胃癌诊断影像判断淋巴结转移存在一定局限性,若淋巴结转移可从原发病变状态推断出来,则可能弥补诊断成像的不确定性。列线图能够根据患者概况进行个体风险评分,进而预测事件发生概率,有助于为临床决策提供参考信息[3], 已有研究[4]基于临床病理因素等构建列线图预测早期胃癌患者淋巴结转移的可能性。随着人工智能技术的不断进步,机器学习(ML)算法被越来越广泛地应用于医学领域,其能够处理医学领域中比较高维、复杂的数据,已成为近年来的研究热点[5]。LIU W C等[6]构建了随机森林(RF)ML模型,可准确预测甲状腺癌患者的骨转移风险。另有研究[7]比较6种ML算法后建立了最佳的XGBoost模型,可预测甲状腺乳头状癌患者中心淋巴结转移风险,从而更好地确定手术范围。ML算法的潜在能力是可以提高临床工作的效率和准确性,例如可在分析数百万个临床数据后构建出预后判断、筛查和诊断模型[8]。相关研究[9]显示, ML算法模型在预测早期结直肠癌淋巴结转移方面的表现优于传统方法。本研究分析并比较4种ML算法(逻辑回归、随机森林、K-邻近算法、支持向量机)对胃癌淋巴结转移的预测效能,筛选出适用于临床工作的最优算法构建风险预测模型,以期更好地指导临床诊断和治疗决策,现报告如下。
1 对象与方法
1.1 研究对象
选取青海大学附属医院2013年12月—2020年1月收治的胃癌患者作为研究对象。纳入标准: ① 接受胃癌标准D2根治术治疗者; ② 术后病理学检查证实胃癌,且未发生远处器官或腹膜转移者。排除标准: ① 术前接受放疗、化疗、内镜治疗者; ② 既往有胃大部切除术史者; ③ 合并其他恶性疾病者; ④ 残胃癌患者; ⑤ 术前1个月内有输血治疗史者。
1.2 研究方法
通过医院电子病历系统收集患者的临床信息: ① 基本资料,包括年龄、民族、体质量指数、高血压史、糖尿病史、白蛋白; ② 临床病理特征,包括肿瘤最大径、胃肿瘤位置、大体分型、分化程度、脉管侵犯、神经侵犯、肿瘤浸润深度; ③ 肿瘤标志物水平,包括癌胚抗原(CEA)、糖类抗原199(CA199)、糖类抗原125(CA125)和甲胎蛋白(AFP)。
1.3 统计学分析
2 结 果
2.1 临床资料分析
根据纳入标准和排除标准,本研究共收集531例患者的临床资料,按3∶1比例将患者随机分为训练集399例和测试集132例。训练集中, 216例患者出现淋巴结转移,转移率为54.1%; 测试集中, 72例患者出现淋巴结转移,转移率为54.5%。训练集与测试集患者的临床资料比较,差异无统计学意义(P>0.05), 见表1。
表1 训练集与测试集患者临床资料比较[n(%)][M(P25, P75)]
根据是否出现淋巴结转移,将531例患者分为淋巴结转移组288例与无淋巴结转移组243例。淋巴结转移组的CA125、大体分型、脉管侵犯、神经侵犯和T分期情况与无淋巴结组比较,差异均有统计学意义(P<0.05), 故将这5个指标作为特征选择变量,见表2。
表2 无淋巴结转移组与淋巴结转移组患者临床资料比较[n(%)][M(P25, P75)]
2.2 变量相关性分析和ML算法的训练与测试
采用Spearman相关性检验对5个特征选择变量进行分析,相关系数的绝对值>0.5表示存在强相关。热图结果显示,变量之间无显著相关性,不太可能存在多重共线性,见图1。训练集纳入特征选择变量用于构建模型,测试集用于验证模型,并采用10折交叉验证,以保持模型的稳定性。每种算法模型在训练集中的混淆矩阵和ROC曲线见图2,每种算法模型在测试集中的混淆矩阵和ROC曲线见图3。各算法模型的准确度、灵敏度和AUC见表3, 其中随机森林算法模型显示出最优的预测性能。
表3 不同机器学习算法模型在训练集和测试集中的预测效能
2.3 变量重要性排序
变量重要性排序结果显示,虽然4种ML算法模型的变量重要性排名不同,但脉管侵犯和T分期在各模型中均排名前列,提示其可能对胃癌淋巴结转移具有更重要的预测作用; 最优的随机森林模型中,重要性排序前3位的变量分别为CA125、脉管侵犯和T分期(T2分期),见图4。
2.4 列线图模型的构建与评价
将有无淋巴结转移作为因变量,将随机森林模型中变量重要性排名前3位的CA125、脉管侵犯和T分期作为自变量,构建列线图模型(图5),该列线图模型可简单直观地预测胃癌患者的淋巴结转移风险。
ROC曲线分析结果显示,列线图模型在训练集和测试集中预测胃癌患者淋巴结转移风险的AUC分别为0.721和0.776, 提示该模型具有良好的区分能力,见图6。校准曲线分析结果显示,列线图模型的校准能力(拟合效果)在训练集和测试集中均较好,见图7A、7B。决策曲线分析结果显示,当模型的阈值概率为20%~80%时,其超过了“全”和“无”线,提示该模型的净收益较好,表明该列线图模型可用于临床决策,见图7C、7D。
3 讨 论
2020年世界卫生组织全球癌症统计数据显示,胃癌的发病率和致死率分别在全球排名第5位和第4位,严重威胁人类身心健康[10]。手术是所有可切除胃癌的标准治疗方法,其中根治性胃切除术与淋巴结切除术是目前公认的最合适的手术治疗方法[11]。良好的筛查程序有利于早期确诊胃癌,而胃癌通过淋巴管向区域淋巴结扩散,因此淋巴结受累情况具有重要的预后价值[12-13]。
目前,胃癌淋巴结转移已被证实与肿瘤浸润深度、病理学类型、淋巴管侵犯、脉管侵犯相关[14]。本研究基于单因素分析,筛选出胃癌淋巴结转移的特征选择变量分别为CA125、大体病理分型、脉管侵犯、神经侵犯、T分期,与上述研究[14]结论基本一致。近年来有研究[15-16]基于早期胃癌患者发生淋巴结转移的危险因素(肿瘤大小、肿瘤分级、浸润深度、神经浸润和溃疡)建立预测模型,然而由于数据的复杂性和大规模以及模型计算方法之间的差异,这些因素在预测模型和预测性能中的重要性存在显著差异。本研究从年龄、民族、体质量指数、高血压史、糖尿病史、白蛋白、肿瘤直径、胃肿瘤位置、大体分型、分化程度、脉管侵犯、神经侵犯、肿瘤浸润深度、CEA、CA199、CA125和AFP等指标中筛选预测变量,这些指标来源于患者基本资料、肿瘤临床病理特征和实验室生物标志物,在临床实践中很容易收集。
传统的统计方法大多基于参数回归模型,该模型需假设变量与结果之间存在线性关系[17-18],然而大多数变量与结果之间不仅仅是线性相关的。随着人工智能技术的快速发展, ML算法在肿瘤诊断和预后评估中发挥着越来越重要的作用。ML算法具有许多优点,包括可防止过拟合和处理不平衡数据。本研究基于AUC、准确度、灵敏度、特异度等综合比较了4种ML算法模型的性能,最终确定随机森林模型为最优算法模型。随机森林由许多决策树组成,每棵决策树具有树状结构特征,该算法可处理具有许多预测变量的数据集,且预测性能较好,当用于预测建模时,其还可以获得变量的重要性排序[19]。本研究随机森林算法的变量重要性排序结果提示, CA125、脉管侵犯和较高的T分期是胃癌淋巴结转移的关键。CA125为肿瘤非特异性抗原,其表达水平与胃癌的TNM分期、肿瘤直径和淋巴结转移有关[20]。本研究通过纳入特征选择变量使ML算法的特征具备良好的差异性和较低的特征间相关性[21], 不仅可提升ML算法的性能,还可用最优算法构建出有价值的诊断模型,使其更具可解释性。与传统的统计方法相比,ML算法具有基于数据的适应能力和自我改进能力,能够更加准确地进行预测。在今后的研究中,研究者可将更多的因子组合纳入ML算法模型,从而为临床探寻疾病影响因素和设计ML算法预测模型提供新的解决思路。
综上所述,本研究基于真实世界临床数据构建4种ML算法模型,其中随机森林模型为最优ML算法模型,进一步基于随机森林模型中变量重要性排名构建列线图模型,该模型可良好地预测胃癌患者淋巴结转移风险,从而帮助临床医师更加准确及时地制订胃癌患者的手术及治疗计划。本研究局限性包括: ① 本研究纳入样本数量较少,导致ML算法存在一定局限性; ② 本研究为回顾性研究,样本选择可能存在偏差; ③ 本研究未区分早期及进展期胃癌患者,列线图模型对不同分期胃癌患者淋巴结转移风险的预测效能可能存在差异。