APP下载

广义回归神经网络在阿尔茨海默病诊断中的应用*

2022-08-16罗万春宋丽娟魏调霞

现代医药卫生 2022年15期
关键词:训练样本正确率神经网络

罗万春,马 翠,宋丽娟,魏调霞

(陆军军医大学基础医学院数学教研室,重庆 400038)

阿尔茨海默病 (AD)是一种神经退行性疾病,是导致老年人死亡的“第四大杀手”。2010年全世界已超过3 500万例AD患者,到2050年将会超过1亿例[1]。美国最新发布的AD事实和数据表明,2000-2019年卒中、心脏病及人类免疫缺陷病毒(HIV)的致死人数在减少,但是AD的死亡人数增幅超过145%。美国的AD患者从2010年的540万例,增至2021年的620万例。2021年AD及其他痴呆患者的照顾人数为1 100万例,时间超过153×109h,花费超过3 550亿美元,为AD和其他痴呆患者的花费相比2015年增长了57%,费用剧增。到2050年,预计费用增至1.1万亿美元。另外,在新冠病毒流行期间,AD患者死亡率提高了16%。如果AD的阻止、减缓或治疗技术无重大突破,到2060年患者预计将突破1 380万例[2-3]。

轻度认知功能损伤(MCI)是一种介于健康人和AD患者的一种中间状态的疾病,和AD的症状相似,其中有15%的MCI在2年内会发展为痴呆,有35%的MCI会在接下来的5年内罹患AD[4-5]。MCI的存在导致AD患者的正确诊断十分困难,正确诊断MCI和AD患者有积极意义。一方面,虽然AD患者无法治疗痊愈,但是AD的早期诊断I能有效延缓AD的发生;另一方面,MCI的正确诊断可以通过药物治疗降低转化为AD的可能性[3]。

目前,AD的确诊需在患者去世后进行切片病理检查,缺乏准确的活体诊断技术。本文拟通过在获得确诊患者数据的基础上建立数学模型来诊断MCI和AD。

1 资料与方法

1.1一般资料 数据来源于The LONI Image Data Archive(https://ida.loni.ucla.edu/login.jsp)。所有指标数据齐全的样本391个,其中正常控制组( NC)101例,MCI患者200例,AD患者90例。数据矩阵的维度为391×31,其中前面30列为每个样本的检测指标,最后1列为样本类别。

1.2求解方法 人工神经网络(ANN)是模仿人类大脑神经系统而人工构造的能够实现预测、分类等功能的信息处理系统,人们根据需求和实际应用创建了许多种ANN[6-7],其中应用最广泛的为BP神经网络(BPNN)、径向基神经网络(RBFNN)和感知器神经网络(PNN)[8]。

广义回归神经网络(GRNN)是RBFNN的一种变形,将样本数据作为后验条件,用Parzen非参数估计,根据最大概率原则进行网络输出,其密度函数如公式(1)。

(1)

其中Xi,Yi为随机变量X,Y的样本,n为样本量,p为随机变量X的维数,σ为高斯函数的宽度系数,称为光滑因子,光滑因子会较大影响GRNN的拟合效果[9]。GRNN在逼近能力、分类能力和学习速度均优于BPNN和RBFNN,其由输入层(input layer)、模式层(pattern layer)、求和层(summation layer)和输出层(output layer)构成,其拓扑结构如图1所示。

图1中展示的是一个N-M-L的GRNN网络。输入向量为X=(x1,x2,…,xN)T,输入节点为N个,求和层节点为M个,输出L个节点的向量Y=(y1,y2,…,yL)T。

图1 GRNN的网络结构拓扑图

1.3求解步骤 数据处理及求解步骤使用数学软件MATLAB R2018a编程完成[10-11]。步骤1:样本分组,将样本分为相互独立的训练样本集和检测样本集;步骤2:用训练样本构建GRNN;步骤3:网络初始化;步骤4:将检测样本代入网络进行诊断模拟;步骤5:模拟结果四舍五入取整;步骤6:诊断效果评价。

1.4数据处理 用ROC曲线筛选出4项曲线下面积(AUC)>0.7的指标,分别为简易智力状况检查量表得分(MMSE)、ADAS-cog修正值(ADASM)、海马体积与脑容量之比的1 000倍(HV)、左右半脑的顶叶皮质灰度平均值(PRT)[12]。为了更科学地说明GRNN与BPNN、RBFNN、PNN诊断效能的差异,由于每次模拟对应的训练样本集和检测样本集相同,因此将BPNN、RBFNN、PNN的诊断正确率分别与GRNN的诊断正确率作配对样本t检验[13-14]。

2 结 果

2.1指标筛选 NC、MCI、AD的MMSE分别为(28.94±1.12)、(27.15±1.68)、(23.53±2.06)分。NC、MCI、AD的ADASM分别为(10.43±4.24)、(17.81±6.06)、(29.51±7.79)。NC、MCI、AD的HV分别为(6.74±0.73)、(6.12±0.88)、(5.56±0.79)。NC、MCI、AD的PRT分别为(1.07±0.04)、(1.04±0.06)、(0.99±0.08)。

2.2诊断模拟 为保证训练样本和检测样本相互独立,将每一类样本按照各50%(half-to-half)随机分组,组成训练样本集和检测样本集,其中训练样本集有NC 51例、MCI 100例、AD45例,其余195个样本均作为检测样本,按照这样的方式作100次模拟,分别用BPNN、RBFNN、PNN和GRNN作诊断模拟比较,4种神经网络的参数均取缺省值。GRNN诊断结果的最高、最低和平均诊断正确率远远高于BPNN、RBFNN、PNN。见图2、表1。

表1 GRNN与BPNN、RBFNN及PNN诊断结果比较(%)

图2 GRNN与BPNN、RBFNN及PNN的诊断正确率

GRNN100次模拟的平均正确率显著高于BPNN、RBFNN、PNN的平均正确率,差异有统计学意义(P<0.05)。见表2。

表2 BPNN、RBFNN、PNN与GRNN的诊断结果比较

由于不同的平滑因子会较大地影响GRNN的诊断效果,因此,用不同的平滑因子作模拟诊断,当平滑因子为1.5时,诊断正确率最高,达75.7%。见图3。

图3 GRNN在不同平滑因子下的诊断正确率

取平滑因子为1.5,按照“留一法”(leave-one-out),将每个样本依次作为检测样本,其余所有样本作为训练样本作诊断模拟,GRNN在诊断NC和MCI中的效果较好,但在AD的诊断中仍需要改进。见表3。

表3 GRNN按照留一法模拟的诊断正确率(%)

3 讨 论

鉴于正确早期诊断对于延缓AD的重要性,NC、MCI和AD的正确诊断对于临床用药和治疗有十分重要的价值。AD的首要危险因素是年龄,随着年龄的增加,AD的患者比例急剧攀升,64~<75岁为5.3%,75~<85岁为13.8%,≥85岁为34.6%。此外,基因、家族史也是不可控制的危险因素[15]。可控危险因素包括体育运动、吸烟、受教育、脑力劳动、血压、节食等[16-17]。但是,上述因素是可能性的致病因素,并不能作为临床诊断的直接指标,也不宜仅以某项指标的大小作为判断标准。就临床方便和可操作性来说,虽然单指标诊断的方法是最好的,但从各指标的样本数值可以看出,ADASM为极大型指标,即指标值越大,越可能罹患MCI和AD。而MMSE、HV和PRT为极小型指标,指标值越小风险越大。但是,无论哪项指标都很难高正确率地诊断出AD、MCI和NC。因此,为了更好地诊断疾病,需要用多指标作为输入变量,选择恰当的数学模型进行诊断。数学建模方法提高正确率的关键有两点,一是对样本特征提取,选择恰当的输入变量;二是选择适合的数学模型。神经网络数学模型是常用的诊断模型,不同的神经网络对于不同问题效果有差异。由表3可知,GRNN诊断时,NC有22.77%被误诊为MCI,MCI有16.50%被误诊为NC,MCI有4.50%被误诊为AD,AD有33.33%被误诊为MCI。NC、MCI的界限及MCI和AD的界限不明确,容易误诊,AD和NC之间无误诊的情形。因此,解决误诊要集中在MCI和AD、NC的区别办法。GRNN对于391个样本的诊断总正确率达75.70%,较文献[18]报道的临床真实诊断正确率(10%~20%)高,也高于根据MRI利用支持向量机对AD诊断69.15%的平均正确率[19],对于临床辅助诊断有较高的实用参考价值。

猜你喜欢

训练样本正确率神经网络
基于神经网络的船舶电力系统故障诊断方法
个性化护理干预对提高住院患者留取痰标本正确率的影响
MIV-PSO-BP神经网络用户热负荷预测
基于改进Hopfield神经网络的对地攻击型无人机自主能力评价
课程设置对大学生近视认知的影响
人工智能
基于神经网络的中小学生情感分析
基于小波神经网络的网络流量预测研究
生意
生意