基于径向基函数神经网络的高原适应人群预测模型构建及应用研究*
2021-10-22肖军李小薇高瞻孟方园卢江敏候杜娟李翠莹
肖军 李小薇 高瞻 孟方园 卢江敏 候杜娟 李翠莹
高原是人类最具挑战的环境之一,近年来,随着国防建设的需求日益增大,每年进入高原地区驻训演练的人数也不断增加。然而,生活在平原的人群进入高原后,部分人会出现包括头疼、呕吐、心慌、食欲减退等一些列临床症候群,称为急性高原反应(acute mountain sickness, AMS)[1]。从我军资料来看,急进高原时中国官兵发生AMS的概率较高,造成大量非战斗减员,影响部队的战斗力,严重者还会发展为高原脑水肿和高原肺水肿,威胁进入高原人群的生命安全[2]。AMS的发生存在明显的个体差异,若能在进入高原前,将这些AMS易感人群筛选出来,则可以减少AMS易感人群进入高原,从源头上降低AMS发病率,有效降低非战斗减员[3]。然而,目前国内外对于AMS的研究仍集中于发病机制、预防治疗等方面,尚缺少准确实用的AMS预测模型的研究。针对该问题,本研究拟通过生理、生化和遗传学指标等模型构建所需的指标体系,利用径向基函数神经网络的AMS预测模型识别高原耐受人群,以期减少进驻高原部队官兵AMS的发生,提高高原作战卫勤保障能力。
材料与方法
1 实验对象 选择四川地区入藏人员98人作为受试对象。平均年龄(22.8±1.2)岁,无进入高原低氧环境暴露史。在平原(海拔500 m)完成实验室指标检测后,进入西藏高原地区(海拔3 658 m),入藏后1~3天进行急性高原反应评估,AMS疾病诊断标准参照国家军用标准GJB1098-91。本研究经中国人民解放军空军特色医学中心(原空军总医院)伦理委员会批准(第2017-16-YJ01)。
2 方法
2.1 指标体系的建立:根据国外关于急性高原病发病机制研究进展,依简单、易测、低伤害等原则,选择测定指标,构建模型指标体系,并以此作为径向基函数(radial basis function,RBF)神经网络模型的因素集。进入高原前,由医务人员对98名受试对象按既定检测指标进行检测[4]。进入高原后,根据急性高原病诊断标准进行判断,如发生急性高原病,则赋值为1,反之则赋值为0。输入的筛选指标包括:生理指标:身体质量指数(BMI);生化指标:血红蛋白,氧饱和度,P50;遗传学指标:EPAS1基因单核苷酸多态性(single nucleotide polymorphism,SNP)位点(rs13419896,rs1868092,rs4953354),EGLN1基因SNP位点(rs12097901,rs2790859)。
2.2 RBF神经网络模型构建:RBF神经网络是以函数逼近理论为基础而构造的一类前向网络,由输入层、隐藏层、输出层构成。采用SPSS 26.0进行构建神经网络预测模型[5],将收集到的数据集按7∶3比例分为训练集和测试集,隐藏层中的最小单元数设置为1,最大单元数为50。
2.3 ROC曲线绘制:以模型的1-特异度为横坐标,灵敏度为纵坐标,绘制ROC曲线,计算机处理得到曲线下面积(area under the curve,AUC),AUC<0.5说明无诊断价值,AUC=1为最理想检测指标。
结 果
1 构建RBF样本集,拟合RBF神经网络 以受试对象急进高原前各项指标作为网络输入变量,急性高原病发生与否作为因变量构建预测模型,样本分区按照样本的相对数目以7∶3随机分配为训练集和检验集。若检验集有一个或多个样本的输入变量或目标变量未在训练集中出现,则会在分析时排除某些检验集和训练集中的样本。因此,构建成功的模型实际训练集中样本数为50例,检验样本数为9例,排除样本39例。模型输入层的因子共9个包括:BMI,血红蛋白,氧饱和度,P50,EPAS1基因SNP位点(rs13419896,rs1868092,rs4953354),EGLN1基因SNP位点(rs12097901,rs2790859);隐藏层单元数为10,激活函数为Softmax;输出层单元数为2,激活函数恒等式函数,误差函数平方和函数。利用训练集进行模型拟合后其对应的平方和误差为5.133,正训练时间为0.11秒,预测正确百分比为88.0%;以此模型对检验集进行预测,其平方和误差仅为0.894,预测正确百分比为88.9%(表1)。
表1 模型预测分类情况
2 ROC曲线评价RBF神经网络模型对AMS的预测能力以预测模型为检验变量,对AMS及非AMS进行ROC曲线分析(图1),结果显示,构建的神经网络预测模型的AUC为0.917。
图1 ROC曲线评价RBF神经网络模型对AMS的预测能力
3 模型自变量重要性分析 利用软件自带的自变量重要性分析模块,对纳入模型的自变量重要性进行分析,结果显示,EPAS1的SNP位点rs13419896和氧饱和度最为重要,而BMI的重要性最小(图2)。
图2 输入层各指标在模型中重要性分析
讨 论
随着对AMS发病机理的认识不断深入,AMS的预防和治疗措施也在不断完善,其发病率呈下降趋势。国内外的研究发现,急进高原后出现AMS是存在个体差异的,有人对于高原低氧更敏感,更易发生AMS。因此,AMS易感性的特异性指标及其检测成为国内外学者研究的重点之一,特别是易感性指标研究较多,从基础研究出发,研究生理生化指标与急性高原病之间的关系,如:体重指数[6]、肺功能[7]、血氧饱和度[8]、血液酸碱度[9]、心率变异[10]、血浆皮质醇含量[11]、屏气时间、呼吸频率[12]等指标。同时,研究者还从心理学开展了大量工作,结果发现焦虑、抑郁等反应心理情绪因素的测评分值也与AMS的发生有关。
同时,随着生物技术和遗传学的发展,国内外学者不仅将目光聚焦在个体生理生化的指标变化上,还从生物学和遗传学方面通过对一些基因进行研究,以期从生物遗传学的角度筛选识别耐受高原低氧人群。单核苷酸多态性(SNP)是新一代遗传标记,其遗传性稳定,并可用于构建单体型。SNP在基因组中数量巨大,检测相对容易,可形成快速化检测,分析个体之间特定基因SNP的差异,就有可能找到用于识别耐受低氧人群的特异性遗传标记[13]。课题组的前期研究结果显示,在排除其他AMS的发病因素后,每个人仍表现出不同程度的高原低氧反应,随后的测序研究发现EPAS1、EGLN1基因的某些SNP位点具有显著性差异,这些差异可能会影响下游低氧相关基因的转录表达,而编码区的SNP甚至会造成编码蛋白的氨基酸序列发生改变,进而影响不同个体对急性缺氧应激的适应能力以及患AMS的严重程度和预后。基于此,本研究在模型构建时所选择的测定因素包含了生理、生化以及遗传学等多个指标,以此形成构建预测模型所需的指标体系。
国内外高原医学的研究者一直在寻找并建立一个预测急性高原病或筛选高原耐低氧人群的模型方法。然而, 目前只有个别的文献利用回归分析的方法研究生理生化指标与急性高原病发病的关系,如采用Logistic回归分析发现在高原低氧暴露后血氧饱和度值、暴露时间、海拔高度可作为判断AMS易感性的依据[14,15]。国内学者同样通过多元回归分析研究显示,进入高原季节、年龄、进入高原目的和抵达高原前后48小时内是否失眠与AMS发生显著相关[16]。然而,这些回归分析无法很好地处理各变量之间的共线性问题,它要求测量的变量之间是相互独立的。然而事实上,人体作为一个多系统的整体,各变量指标之间不可能完全独立,而且,在影响进入高原低氧耐受能力的因素中还有如组织管理、心理活动、卫生措施等定性因素,各指标之间也不完全是线性相关的,这种方法的研究结果只能说明这类生理、生化指标与AMS发病有关,不能作为急性高原病易感的判断预测方法。
近年来,随着人工智能技术的发展,神经网络理论得到广泛应用,其中RBF神经网络是应用最广泛的一种神经网络,它是以函数逼近理论为基础而构造的一类前向网络,它与BP神经网络相比通常规模较大,但学习速度更快,且网络的函数逼近能力、模式识别与分类能力均优于后者。由于其可以规避回归方法在模型构建中的局限,因而,利用径向基函数神经网络建立的模型更具有良好稳定的预测效果。
本研究中,利用RBF神经网络构建的模型,其训练集的正确百分比达到88.0%,而测试集的正确预测百分比达到88.9%。进一步利用ROC曲线对模型的诊断能力进行评估,结果显示,曲线下面积为0.917,表明具有良好的诊断能力。因为某些原因,本研究的预测模型只是利用某一海拔高度的诊断结果建立起来的,而且仅跟踪了小部分人员,其他海拔高度以及大量人员是否适合该模型,其判断能力是否可行,准确度如何,以及是否还要增加其他检测指标,还需要进
一步探讨。另外,该模型只能判断是否会发生AMS,而无法进一步判断其发病严重程度的高低。尽管有上述不足,但不可否认,本研究结果在一定程度上利用RBF神经网络从多角度指标体系为定量判断急进高原人群是否患AMS提供了一种可靠的预测方法。
利益冲突所有作者均声明不存在利益冲突