人工神经网络在胃癌预后预测中的应用
2021-05-10张斌刘弋胡宗举
张斌,刘弋,胡宗举
根据2019年国家癌症中心发布的最新数据显示,胃癌发病率居我国恶性肿瘤第2位,死亡率居第3位。国内的研究报告胃癌术后5年生存率普遍低于30%,远低于欧美及日本等发达国家。因此,明确胃癌术后预后的影响因素及通过各种影响因素对胃癌术后生存时间进行预测,有着重要的临床意义。本研究用人工神经网络技术(ANN)建立胃癌的预后模型对胃癌术后5年生存率进行预测,与传统logistic回归模型预测进行比较,寻求胃癌预后最佳预测方法。
1 材料与方法
1.1 一般资料 收集2011年1月至2016年12月阜阳市人民医院收治的胃癌病人的临床资料。纳入标准:经胃镜活检或术后病理证实为胃癌。排除标准:(1)临床资料不全者;(2)未行手术治疗者;(3)合并有严重心肺功能疾病者;(4)术后随访期内失访者(以及随访期未满5年且存活者)。剔除后共选取152例病例,其中,男性125例,女性27例,男女比为4.63:1,年龄62.4岁,年龄范围为22~82岁,>60岁占69.7%。术后随访方式为电话及门诊随诊,前2年每6个月随访1次,后每年随访1次,共随访5年,随访日期截至2019年12月。
1.2 筛选预后因素及量化数据 根据以往文献的报告,选取以下有可能影响胃癌预后的因素,包括性别、年龄、家族肿瘤史、血清癌胚抗原(CEA)水平、肿瘤发生部位、Borrmann分型、肿瘤最大直径、浸润深度(T分期)、淋巴结转移数量(N分期)、TNM分期、分化程度、手术方式、术后化疗、神经脉管浸润共14项观察指标。将以上14项可能影响胃癌预后的观察指标量化处理,转化成满足ANN和logistic回归数据分析输入参数要求的数据。
1.3 统计学方法 本资料单因素生存分析采用SPSS 24.0软件包进行分析,Kaplan-Meier法计算各组生存率,log-rank法比较各组间差异,P<0.05为差异有统计学意义。在Matlab2017b的环境下采用人工神经网络(ANN)和logistic回归对胃癌术后5年生存概率进行预测,其中人工神经网络使用Matlab神经网络工具箱中的BP神经网络。
2 结果
2.1 总体生存率 152例病人中,截止到5年随访期结束共存活45例,死亡107例,中位生存期33个月,术后1年、3年、5年生存率分别为82.89%、48.68%、29.61%。
2.2 单因素分析 将152例病人的临床及病理资料分组,其中13例行姑息性手术(内引流、造瘘或大网膜切除活检术),缺少Borrmann分型、肿瘤大小、浸润深度、淋巴结转移、分化程度、神经脉管浸润等资料。采用Kaplan-Meier法计算各组生存率,Logrank法比较各组间差异,结果显示:CEA水平、Bor‐rmann分型、浸润深度、淋巴结转移、分化程度、TNM分期、手术方式、神经脉管浸润共8项指标差异有统计学意义(P<0.05),见表1。
表1 影响胃癌预后的临床病理参数分析
续表1 影响胃癌预后的临床病理参数分析
设置神经网络训练的目标误差为10,最大迭代次数为500,学习率为0.01,a=3,k=15。当y≥0时,病例的预测结果为1,即是“5年死亡”,否则,病例的预测结果为0,即是“5年生存”。27例测试样本运算结果显示准确率85.19%(23/27),敏感度88.24%(15/17),特异度80%(8/10),如表2所示。为了更直观的展示预测效果,将预测结果与真实值进行比较,见图2。
图1 BP神经网络结构图
表2 ANN测试集预测结果/例
图2 测试集(27例随机样本)运算结果图
2.4 建立logistic回归预测模型 为了避免和ANN预测模型对比的人为误差,沿用ANN预测模型的112例训练样本和27例测试样本,将单因素生存分析中8项有统计学差异的指标纳入logistic回归预测作为分析的自变量。logistic回归模型如下:
设置初始参数θ=θ=…=θ=1,步长为0.01,损失精度为0.000 1。当y≥0.5时,病例的预测结果为1,即是“5年死亡”,否则,病例的预测结果为0,即是“5年生存”。预测结果为是否5年生存,结果提示27例测试样本预测准确率74.07%(20/27),敏感度82.35%(14/17),特异度60%(6/10),见表3。
表3 logistic回归测试集预测结果/例
2.5 ANN模型在不同TNM分期中的预测 为了研究ANN预测模型对于不同TNM分期病人是否适用,将139例病人根据TNM分期定义训练集和测试集。沿用上文ANN所设置的模型参数,将Ⅱ期和Ⅲ期病人共121例设为训练集学习预测模型,对18例I期病人(测试集)的5年生存率进行预测,结果显示预测准确率77.78%(14/168) ,敏感度7 40%(2/85),特异度92.31%(12/13),具体结果见图3、表4。
图3 测试集(I期病人)运算结果图
表4 ANN测试集预测结果/例
3 讨论
胃癌因起病隐匿、症状不典型、转移及复发几率高等特点,预后较差。在临床工作中,对于胃癌术后,其病人及家属不可避免的会问一个问题“我还能活多长时间?”。因影响胃癌预后的因素较为复杂,对于这个问题,临床医师往往根据自己的临床经验及主观因素给出一较模糊的答案。本研究通过分析152例胃癌术后的临床及病理资料,探索其影响胃癌预后的各种独立因素,分别用人工神经网络(BP神经网络)、logistic回归两种方法建立胃癌的预后模型对胃癌术后生存时间进行预测,寻求胃癌预后最佳的预测方法。
本研究的单因素生存分析显示,CEA水平、Bor‐rmann分型、浸润深度、淋巴结转移、分化程度、TNM分期、手术方式、神经脉管浸润8个因素与胃癌术后的总生存时间呈显著性相关(P<0.05)。CEA水平越高、TNM分期越晚、分化程度越差、存在神经脉管浸润的病人其生存时间越短、5年生存率越低,根治性手术病人明显要比姑息性手术病人生存时间长。本研究结果与国内外目前研究结果相一致,Hou等研究发现病理分化程度越高、TNM分期越早、淋巴结转移率越低的胃癌病人,其生存时间越长。Ueno等研究发现,以75岁为界限,75岁以上病人病理结果和术后并发症是其生存率的重要预后因素,而75岁以下则病理结果和术后化疗是其重要的预后因素。Katai等对日本118 367例胃癌病人进行统计,其中I期胃癌病人占总数的58.7%,总5年生存率达到71.1%,远远超过国内研究统计的5年生存率,本研究的总体5年生存率偏低(29.61%),考虑原因与此次研究资料以进展期胃癌为主、未排除Ⅳ期行姑息性手术病人且早期胃癌占总样本比例较小(I期胃癌仅占比11.8%)有关。因此深入研究影响胃癌预后的相关因素极其重要,对于降低胃癌术后复发转移率有着重要的意义。
ANN是模拟人类大脑的神经系统,对复杂信息进行综合处理的一种数学模型,因其智能化的自适应学习能力特点,被广泛应用在语音识别、图像识别、医学诊断与预测等各个专业领域。人工神经网络包括BP神经网络、概率神经网络、卷积神经网络等,其中BP神经网络应用较为广泛。Walczak等使用ANN方法对219例胰腺癌病人进行术后7个月的生存预测,结果发现ANN的敏感度在90%以上。郑骏明、高新研究发现通过人工神经网络建立去势抵抗性前列腺癌病人的预后预测模型跟传统COX比例风险模型相比具有更高的准确性。唐雯等发现对656例腹膜透析病人的预后构建预测模型,循环神经网络相比传统logistic回归有着明显的优越性。通过本研究结果可以观察到,在随机分配的ANN预测模型中,27例胃癌测试样本中BP神经网络的预测准确率(85.19%)、敏感度(88.24%)和特异度(80%)高于传统logistic回归模型预测(74.07%、82.35%、60%),结果与国内外的研究较为一致;在不同TNM分期构建的ANN预测模型中,根据Ⅱ期和Ⅲ期病人的临床数据构建的ANN预测模型对I期病人同样有着较高的预测准确度和特异度,说明了ANN预测模型的普适性,不受TNM分期的影响。但预测结果敏感度相对较低,不能排除测试样本的总阳性数量偏少所致,在以后的研究中可以增加研究样本数量以求得更精确的效果。
本研究的结论提示人工神经网络相比传统lo‐gistic回归在胃癌预后方面有着更好的的准确性,但在医学生存分析领域,并不能说明人工神经网络可以完全替代传统logistic回归、Cox回归等经典回归方法,但人工神经网络的优势在于处理复杂的非线性关系、较好的容错率、可学习性和适应性强等。故笔者认为,在目前的研究趋势中,人工神经网络方法可以和传统logistic回归、Cox回归等经典回归方法相互补充,进一步提高恶性肿瘤术后的预后预测。同时本研究中两种方法的预测准确率均未达到90%以上,考虑可能由于总样本样偏少、对胃癌预后分析所采用的影响因素不够完全等原因造成。在以后的研究中可以增加总样本量及增加多个可能影响胃癌预后的独立因素,以求达到更高的预测值,从而更好辅助临床进行决策及干预。