基于神经网络的上海市中老年人群胆囊结石风险预测模型研究
2021-12-15袁筱祺朱乐兰徐昕昕
袁筱祺,朱乐兰,高 玮,徐昕昕
(1.南京医科大学附属上海一院临床医学院,上海 20080;2.上海市第一人民医院医务处,上海 200080;3.黑龙江大学研究生院,黑龙江 哈尔滨 150000)
胆囊疾病是一种常见疾病,包括胆囊息肉、胆囊炎、胆囊壁毛糙、胆囊结石、胆囊壁胆固醇结晶等。最常见的疾病是胆囊结石,发病率达10%~15%[1]。彩色多普勒超声是诊断胆囊结石最常用的检查方式,对胆囊结石的诊断准确率可达95%以上[2],因此根据彩色多普勒超声检查结果将人群分为结石组和非结石组。本研究通过上海市中老年健康体检人群的基线资料、血脂指标、肝功能检查指标、胆囊结石患病情况,探讨影响胆囊结石患病的相关危险因素,建立基于多层感知器神经网络的胆囊结石风险预测模型,为胆囊结石的诊断与预防工作提供依据。
1 胆囊结石风险预测模型研究综述
1.1 胆囊结石预测模型相关研究
胆囊结石患病的机理复杂、相关风险因素较多,国内外胆囊结石的风险预测模型所纳入的风险因素具有显著性差异,胆囊结石预测模型的准确率还有待于进一步提高,其相关典型研究见表1。
表1 胆囊结石风险因素及预测模型相关研究
1.2 多层感知器神经网络建立流程
风险因素识别是建立预测模型的基础,早前研究大多根据病例相关检查或经验归纳筛选出风险因素。随着现代医疗的发展,医疗大数据的积聚,一些学者尝试利用医疗数据集资源开展相关研究,进一步完善胆囊结石风险因素识别。风险模型建立阶段,已有研究大多采用回归分析,难以规避变量之间的相关性问题,而机器学习人工智能等技术提供了新的解决方案。多层感知器神经网络模型可以将一组输入向量映射到一组输出向量,输入与输出之间可以多层加权连接。多层感知器的结构基本类似于一套级联的感知器,主要由输入层、隐藏层和输出层组成。多层感知器一般包含一个或多个隐藏层,并且每个隐藏层中均有数个并行的感知器神经元,这些隐藏层神经元能够从输入样本中逐步提取多种有用特征。在使用之前需要先对它进行训练,通过输入样本对神经网络进行训练,能够从数据样本中自动地学习并揭示样本中所蕴含的非线性关系,其对事物和环境具有很强的自学习、自适应、联想记忆、并行处理和非线性转换的能力[12]。鉴于胆囊结石风险因素复杂,加之数据集类型多元,重要风险因素有待于进一步挖掘。本研究采用神经网络中的多层感知器(MLP)完成建模,对数据进行合理分类,优于普通的ANN模型。对于胆囊结石风险因素的识别,本文参考胆囊结石风险因素相关文献,以及相关研究对胆囊结石影响的标准,通过多层感知器神经网络学习建模,以期提高胆囊结石预测准确率和普适性。
2 多层感知器神经网络模型特征选取
2.1 数据预处理
本研究基于上海市某三甲医院为期4年(2016-2019年)的患有与未患有胆囊结石中老年健康体检者数据,总计3560条,变量的详细相关信息见表2。
表2 数据集变量的相关信息
数据集针对电子病历和检验结果等非结构化数据所存在的标准不规范、数据缺失、数据噪声,以及结构化数据所存在的字段复杂和系统偏差等问题,本研究采取数据清洗、集成和降维等数据预处理操作。丢弃和强制替换缺失值较多以及明显不合理的数据。对变量中的血脂指标和肝功能指标用样本平均值填充连续性变量缺失数据,并采用最大最小值法进行归一化处理,主要是对总胆固醇、甘油三酯、高密度脂蛋白、低密度脂蛋白、γ谷氨酰转肽酶、碱性磷酸酶、丙氨酸氨基转移酶、天冬氨酶氨基转移酶进行数据的进一步处理,最终获得有效数据3462条。其定性变量的描述统计信息见表3。
表3 定性变量的描述统计信息
2.2 基于单因素的风险因素筛选
对于性别、年龄、BMI、血压等定性资料,采用卡方检验;对于总胆固醇、甘油三酯、高密度脂蛋白、低密度脂蛋白等连续型变量,采用方差ANOVA,进行统计分析。筛选出影响胆囊结石患病的6个风险因素。根据单因素分析结果,性别(χ2=25.295,P<0.001)、年龄(χ2=30.102,P<0.001)、甘油三酯(F=9.230,P=0.002)、高密度脂蛋白(F=5.308,P=0.021)、丙氨酸氨基转移酶(F=61.961、P<0.001)、天冬氨酶氨基转移酶(F=19.807,P<0.001)与胆囊结石患病具有显著性差异,见表4。
表4 变量与胆囊结石的单因素分析 n(%)
3 二元logistic回归预测模型建立
3.1 二元Logistic回归模型拟合优度
关于模型拟合优度,经Hosmer and Lemeshow 检验(P=0.316),差异无统计学意义。说明本模型解释力度与饱和模型无差异,即模型拟合优度较高。见表5。
表5 预测模型拟合信息表
3.2 二元Logistic回归预测模型建立
将单因素分析中具有显著性差异的变量年龄、性别、甘油三酯、高密度脂蛋白、丙氨酸氨基转移酶、天冬氨酸氨基转移酶作为协变量,是否患有胆囊结石作为因变量,采用向前Wald法进行逐步回归分析,将年龄变成哑变量,以α=0.05为入选变量标准,α=0.1为剔除变量标准,最终构建二元Logistic模型。性别、高密度脂蛋白、丙氨酸氨基转移酶、天冬氨酸氨基转移酶与胆囊疾病患病具有显著性差异,见表6。
表6 二元Logistic回归预测模型分析
4 胆囊疾病风险预测模型建立
4.1 参数确定
多层感知器是一种前馈式有监督的机器学习方法,多用于发现数据间极为复杂的关系[13]。本研究因变量是分类变量,选择Softmax函数作为输出层的激活函数;再选择双曲正切函数为隐层激活函数,神经网络优化算法采用调整的共轭梯度算法。鉴于多层感知机神经网络是一种监督学习算法,选择预测准确率、约登指数、AUC、ROC曲线作为评估标准,并采用循环调试方法确定最优参数值,将训练样本、测试样本数据的比例设置为7∶3。
4.2 基于多层感知器神经网络的胆囊结石风险因素模型建立
将是否患有胆囊结石移入因变量(输入层)中,将单因素分析中具有显著性差异的分类变量性别、年龄作为因子,高密度脂蛋白与肝功能指标等连续型变量作为协变量。因各输入变量量纲不同,需对输入数据进行标准化处理。将上海市某三甲医院的中老年健康体检有效数据样本3462组中2417组(69.8%)作为多层感知器模型训练样本,1045组(30.2%)作为检验样本,建立自学习多层感知器神经网络模型。网络结构模型如图1所示,模型包括1个输入层、1个隐藏层和1个输出层。输入层为性别、年龄、甘油三酯、高密度脂蛋白、丙氨酸氨基酸转移酶、天冬氨酸氨基转移酶,共10个神经元;隐藏层包含7个神经元;输出层为患有胆囊结石与未患有胆囊结石2个神经元,见表7。
表7 多层感知器神经网络模型结构
根据个案的相对数目随机分配训练-检验-支持3个分区的个案,训练区相对数目为70%,检验区相对数目为30%,坚持区为0%。用已建立的多层感知器神经网络模型将分区样本进行交叉对比,其横坐标为是否患病,纵坐标为预测拟概率,见图1。观察预测图中多层感知器神经网络模型默认采用0.5为储集层是否患有胆囊结石判别正确和错误概率分界。按照储集层是否患有胆囊结石进行分组,当任一类储集层未患有胆囊结石为预测目标时,则其预测概率显著高于或低于其他储集层患病可能性,分类识别效果较好。
图1 观察预测图
4.3 重要性变量输出
由于输入层的自变量对模型输出的结论有重大影响,多层感知器神经网络具有对自变量的重要性进行排序功能,见图2。通过单因素分析,去除6个与胆囊结石不具有显著性差异的因素,保留6个影响因素。从图中看出高密度脂蛋白、甘油三酯、天冬氨酸氨基转移酶、丙氨酸氨基酸转移酶为影响胆囊结石患病的重要独立危险因素。
图2 输入层参数重要性排序对比
5 二元Logistic回归模型与多层感知器神经网络预测模型效能比较
以预测模型公式计算出的截断值作为检验变量,是否患有胆囊结石作为状态变量绘制分别绘制二元logistic回归模型及多层感知器神经网络模型的ROC曲线,见图3。
图3 模型ROC曲线图
二元logistic回归模型的ROC曲线下面积(AUC)=0.821,95%CI为0.911~0.930,约登指数最大值为0.704,灵敏度为85.63%,特异度为84.78%,此时截断值为0.104,即当截断值≥0.104时,患有胆囊结石的可能性较大。多层感知器神经网络预测模型的ROC曲线下面积(AUC)=0.937,95%CI为0.929~0.945,ROC曲线约登指数最大值为0.755,灵敏度为94.91%,特异度为80.56%,此时截断值为0.944,即当截断值≥0.944时,患有胆囊结石的可能性较大,见表8。
表8 Logistic回归模型与多层感知器神经网络模型预测能力比较
6 讨论
本研究表明,多层感知器神经网络模型在胆囊结石患病风险预测中有较好的预测效能,根据检验样本,建立模型预测的灵敏度、特异度、AUC均优于二元Logistic回归模型的相应指标。多层感知器神经网络模型适用于对多变量间错杂相互作用的非线性分析,并对数据分布形态没有严苛要求,较Logistic回归模型具有方法学优势,由此在疾病预测中表现出更好的预测效能。二元Logistic模型显示性别、高密度脂蛋白、丙氨酸氨基转移酶、天冬氨酸氨基转移酶与胆囊结石患病具有显著性差异。多层感知器神经网络模型揭示出高密度脂蛋白、甘油三酯、天冬氨酸氨基转移酶、丙氨酸氨基酸转移酶是影响胆囊结石患病的4个重要的风险因素。模型结果均显示丙氨酸氨基转移酶、天冬氨酶氨基转移酶、高密度脂蛋白是影响胆囊结石患病的重要风险因素。由于调查的样本数据为中老年群体,肝功能水平下降,具有较多的基础疾病。同时,在吴延等[14]研究中,发现天冬氨酶氨基转移酶是胆囊结石患者不发生脂肪肝的保护因素。因而,推测天冬氨酶氨基酸转移酶对于胆囊结石是否患病的影响较大。丙氨酸氨基转移酶是胆囊结石患病的危险因素,推断由于胆囊中液体排除时受阻引起肝细胞损坏,造成丙氨酸氨基转移酶产生变化。血脂指标中,高密度脂蛋白对是否患有胆囊结石影响较大。脂质代谢异常会影响高密度脂蛋白水平变化,高密度脂蛋白是胆固醇的转运载体,可转化为胆汁酸或直接通过胆汁从肠道排出。推测由于平时吃大量的脂肪类食品,体内的甘油三脂水平就会有明显的升高,尤其是那种加工特别精细的粮食,进入我们身体后会引起血糖升高,从而导致身体内脂质代谢异常,合成更多的甘油三酯。在这种病因诱导下,高密度脂蛋白水平降低,高密度脂蛋白的降低抑制肝细胞及其受体代谢后进入胆汁,从而导致胆囊内胆固醇浓度增加以及胆汁酸浓度降低,胆固醇不能得到充分的溶解,逐渐累积从而导致胆囊结石的发生。
多层感知器神经网络模型揭示出性别也是影响胆囊结石患病的重要因素。国外许多研究中,男性性别被认为是胆囊疾病中胆囊结石形成的独立风险因素[15]。男性胆囊结石患病情况比女性较为严重,推测可能原因为男性雄激素分泌旺盛,尿酸重吸收增加,女性体内的雌激素水平逐渐下降,女性缺乏体内自身雄激素的保护作用,导致女性肾功能逐渐减退,从而和男性关于胆囊结石患病率具有差距。胆汁中的胆固醇浓度增高,胆固醇结晶析出沉积,在促核形成因素作用下聚集,因而导致胆囊结石的发生。同时,相关研究表明肥胖组脂肪堆积可影响胰岛β细胞功能[16],导致胰岛素分泌障碍,脂质代谢异常,因而增加了胆囊结石患病的风险。临床可将天冬氨酶氨基转移酶偏高、丙氨酸氨基转移酶偏高、高密度脂蛋白偏低、甘油三酯偏高患者作为胆囊结石高危人群及时进行干预。
综上所述,高密度脂蛋白、甘油三酯、天冬氨酸氨基转移酶、丙氨酸氨基酸转移酶为影响胆囊结石患病的独立危险因素,基于神经网络的预测模型具有较高的预测能力可为临床诊断提供参考。