APP下载

基于GA-BP神经网络模型鉴别2型糖尿病肾病的认知模式研究

2018-07-09黄仕鑫杨艳艳罗亚玲陈天瑶

解放军医学杂志 2018年6期
关键词:肾病神经网络糖尿病

黄仕鑫,杨艳艳,罗亚玲,陈天瑶

2型糖尿病是一种慢性终身性疾病,在亚太地区的患病率较高,其并发肾病的患病率约为40%[1-4]。

糖尿病肾病(diabetic nephropathy,DN)是糖尿病发展至终末期肾衰竭(end stage renal disease,ESRD)接受肾脏替代治疗(renal replacement therapy,RRT)的首位原因[5],亦是冠心病、脑卒中等心脑血管事件的高危因素[6]。

2型糖尿病肾病的发病机制复杂,其危险因素尚不明确[7]。国内外对DN的鉴别诊断研究取得了很大进展,发现一些生化指标、炎症因子和生长因子可作为DN的诊断指标[8-13],但目前尚无一种模型在独立诊断2型糖尿病肾病时具有很高的敏感度和特异度,仍须与临床检查相结合。

近年来有研究证实,使用决策树的数据挖掘方法可提高DN的诊断率[14],但相关研究的样本量较小,并且指标由主观经验选取,因而有一定的局限性。本研究基于2型糖尿病肾病危害性大,且早期患者漏诊率较高的情况,客观采集患者的全部检验数据,目的是运用遗传算法优化的误差逆向传播(genetic algorithm back propagation,GA-BP)神经网络技术构建诊断模型,初步形成神经元认知模式(cognitive model,CM)架构。认知模式各节点间的因果关联以神经网络结构表示,以期提供简便、可靠的2型糖尿病肾病辅助诊断方法。

1 资料与方法

1.1 数据获取方式及来源 ①数据获取于重庆、贵州、四川5所三级医院信息中心的数据库;②数据来源于2016年1-12月的临床信息,病例组选择内分泌科(肾内科)确诊为2型糖尿病肾病的住院患者,共477例;对照组纳入同一时间段相同地点的阿尔茨海默病(120例)、高血压肾病(120例)、狼疮性肾炎(89例)及2型糖尿病非肾病(120例)的住院患者,共449例;病例组与对照组存在较好的同质性。

1.2 病例组入选标准 ①均为2型糖尿病患者;②符合肾穿刺组织病理学标准[15]。

1.3 对照组入选标准 ①疾病均为电子病历首页中的主诊断;②患者的病程记录符合疾病诊断标准。

狼疮性肾炎:①患者有系统性红斑狼疮病史或符合美国风湿病学会对系统性红斑狼疮的免疫标准;②系统性红斑狼疮诊断成立,临床上出现不同程度的蛋白尿和血尿,常有管型合并肾功能异常或肾脏穿刺病理报告符合狼疮性肾炎标准;③无糖尿病史。

高血压性肾病:①患者有较长的高血压病史(>10年);②在排除其他肾病的可能之后,病程中逐渐出现肾脏继发性病变,出现夜尿增多、泡沫尿等表现;③无糖尿病史。

阿尔茨海默病:①临床表现为进行性记忆下降,以近期记忆力减退为主,简易智力状态检查量表(MMSE)评分<27/30,脑部磁共振检查(MRI)提示脑萎缩;②脑MRI平扫+弥散成像+脑电图排除其他待鉴别诊断,③无糖尿病史。

2型糖尿病非肾病患者:①为2型糖尿病患者且病程<5年;②尿白蛋白排泄率(UAE)未出现异常。

1.4 排除标准 ①年龄小于18岁;②在观察期内合并严重感染、严重肝功能不全;③采集的检验指标缺失值>15%的病历。

1.5 方法

1.5.1 数据预处理 采用SQL Server 2008数据库对数据进行清洗、转换和规约。

1.5.2 观察指标 纳入人口学指标及实验室指标共89项信息。

1.5.3 数据统一化 针对不同医院检查项目的度量单位和名称的差异,对其进行统一化。

1.5.4 单因素分析 采用SPSS 19.0统计软件对纳入的926例患者的89项信息进行单因素分析。计数资料以率表示,组间比较采用χ2检验;计量资料以±s表示,两组间比较采用t检验,多组间比较采用方差分析。P<0.05为差异有统计学意义。

1.5.5 建立logistic回归模型 本研究的观察结果为是否患2型糖尿病肾病,为二元logistic回归。将单因素分析有统计学意义的指标作为logistic回归模型的自变量,诊断结果作为因变量,采用SPSS 19.0统计软件对数据集进行逐步向前logistic回归(α入=0.05,α出=0.15),P<0.05为差异有统计学意义。

1.5.6 建立神经网络模型 采用MATLAB 2014a软件构建BP及GA-BP神经网络模型,并使用随机抽样函数将样本随机分成训练集和测试集[16]。

1.5.7 BP神经网络设计 ①样本的归一化处理:在分析之前需对样本进行归一化处理,根据模型输出层的结果为二分类,把样本值归一到区间[–1,1]内,对输入、输出变量进行归一化处理,提高网络的训练速度,采用xbij=[2×(xij–xij,min)/(xij,max–xij,min)]–1。②确定层数及个数:三层BP网络就能够完成任意的n维到m维的映射,并且训练时间也相对较短;网络输入对应单因素分析有统计学意义的指标,并将这些输入提供给输入层的单元,共42个。隐单元数的确定比较复杂,目前无一理想方法可解决,一般根据多次尝试来确定最优个数。通常用下列公式确定隐单位的范围,h=√n+m+α[14],α∈(1,10)。最终确立隐单元数范围为[7,16]。

GA-BP神经网络模型将2型糖尿病肾病和对照组进行分类,因此输出节点数为1,如果输出值≤0.5,为未患2型糖尿病肾病,输出值>0.5则为2型糖尿病肾病。

1.5.8 BP神经网络的参数选择 隐含层和输出层的传递函数采用S型函数和双极性S型函数:log sig(x)=1/(1+e–αx);tan sig(x)=2/(1+e–αx)–1,值域在(0,1);学习率设置为0.01,训练函数选择Levenberg-Marquardt方法,权重更新方法为梯度下降法:

1.5.9 遗传算法的设计 ①种群和进化代数:种群规模为50,进化代数为10;②编码:将BP网络的输入层与隐含层的连接权值、隐含层的阈值、隐含层与输出层的连接权值、输出层的阈值进行编码,初始化设置为0;③设定适应度函数:通过寻找适应度函数的最小值来找到最优权值和阈值,使分类识别的输出值与期望值间误差最小,采用error=∑(|simoutputn–outputn|);④选择、交叉和变异:采用轮盘赌法选择新个体;选择单点交叉,交叉概率为0.3;变异概率为0.1[17]。

2 结 果

2.1 单因素分析 将纳入的89项信息进行单因素分析,结果显示有42项差异有统计学意义(表1)。

2.2 Logistic回归分类模型 回归分析结果显示,有12个变量纳入最佳回归方程,对2型糖尿病肾病的鉴别有较好的风险价值(表2)。

2.3 GA-BP神经网络分类模型 将单因素分析有统计学意义的42项指标纳入GA-BP神经网络模型,根据隐单元范围[7,16],分别取其值对训练集进行多次训练。当隐单元数为15时,GA-BP神经网络对数据的拟合效果最好,对训练集和测试集的预测准确率达到最高的92.09%和90.48%.使用训练集数据训练模型,测试集数据评估模型的预测分类能力,其训练集和测试集分别为695例(2型糖尿病肾病357例,其他疾病338例)和231例(2型糖尿病肾病120例,其他疾病111例)。

2.4 Logistic回归模型、BP神经网络模型和GA-BP神经网络模型的对比 表3显示了3个模型的诊断参数:Logistic回归模型、BP神经网络模型和GA-BP神经网络模型(训练集、测试集)的约登指数分别为0.76、0.87、0.84和0.81,对数据集的分类准确率分别为88.12%、93.41%、92.09%和90.48%,ROC曲线下面积分别为0.95、0.98、0.97和0.98。

表1 2型糖尿病肾病相关因素的单因素分析Tab.1 Univariate analysis of factors about type 2 diabetic nephropathy

(续 表)

表2 2型糖尿病肾病相关因素logistic回归分析结果Tab.2 Results of logistic regression analysis of related factors in type 2 diabetic nephropathy

表3 Logistic回归模型、BP神经网络模型和GA-BP神经网络模型的诊断参数比较Tab.3 Comparison of diagnostic parameters for 3 model of logistic regression, model of BPNN and model of GA-BPNN

2.5 GA-BP的模型性能、训练结果和适应度曲线

模型性能用均方误差(MSE)表示,由图1可以得知GA-BP神经网络模型的训练集和测试集的性能不断被优化,最终在模型迭代11次处达到最优。GA-BP神经网络模型训练结果:由图2可以得知模型内部的参数和函数选择,且显示了模型结束条件为精度到达预设值0.01。模型适应度曲线:由图3可知模型的适应度曲线变化趋势,表明模型在不断地被优化,最终到达最优。

2.6 GA-BP神经网络模型形成认知模式 认知模式的要素包括:①架构(来源于GA-BP神经网络模型);②权重(来源于GA-BP神经网络模型中输入变量对输出变量的权重)。本研究通过这些要素形成神经元认知模式,探讨了神经元认知模式的架构,在各个节点间以有向图表示(图4),从中可知输入层的神经元单元数为42个,隐含层的神经元单元数为15个,输出层的神经元单元数为1个,且显示了模型的架构,表明层与层之间是全连接的,层内部是无连接的。

图1 GA-BP神经网络模型性能Fig.1 Performance of GA-BP neural network model

3 讨 论

图2 GA-BP神经网络模型训练结果Fig.2 Training results of GA-BP neural network model

图3 GA-BP神经网络模型适应度曲线Fig.3 Fitness curve of GA-BP neural network

2型糖尿病肾病起病隐匿,早期无明显的临床表现,目前其诊断主要基于特异性的实验室指标UAE和肾穿刺组织病理学检查。但UAE还与糖尿病的其他并发症有关,包括高血压、高脂血症、动脉粥样硬化和心血管疾病等;病理改变以弥漫性肾小球硬化型最为常见,但类似改变也见于系膜毛细血管性肾小球肾炎和系统性红斑狼疮等疾病;在患病早期UAE异常不明显,患者易拒绝接受有创性检查,且较多早期接受肾穿刺组织病理学检查的患者并未找到特征性的病理改变[18]。以上原因都可能导致2型糖尿病肾病的误诊和漏诊。

图4 GA-BP神经网络模型形成的认知模式Fig.4 Cognitive model formed with GA-BP neural network model

对于诊断过程复杂、早期症状不明显的疾病,GA-BP神经网络已得到广泛应用。周红标等[19]采用GA-BP神经网络采集正常、非典型和异常3类胎心宫缩监护图,共计2126组数据,提取21个特征值,纳入网络模型,对其进行分析、训练,模型的分类准确率分别为98.24%、82.67%和95.65%,均高于BP神经网络。姚小静等[20]采用GA-BP神经网络采集正常肺音、哮鸣音、捻发音和爆裂音的数据,每类22例,通过识别4类肺音,得出肺部疾病与肺音的关联性;提取肺音信号统计特征值,采用韦尔奇功率谱特征值和小波系数特征值的GA-BP神经网络的平均识别率分别为89.0%和83.1%,均优于BP神经网络。

本研究数据来源于5所三级医院的检验数据,因均使用同一LIS软件(卫宁健康)厂商,数据具有良好的同质性。采用GA-BP神经网络模型,避免了单独观察某一个指标所产生的片面性。本研究解决了2型糖尿病肾病早期各项实验室指标与诊断结果之间的非线性关系,模型经过14次训练,达到预期设置的性能指标(MSE=0.01),其诊断效果得到了很好的验证,且模型各项评估参数(约登指数、准确率、AUC)均优于传统的logistic回归模型。与BP神经网络相比,GA-BP神经网络虽在各项评估参数上无明显优势,但它具有BP神经网络所不具有的全局寻优和稳定性的特点。BP神经网络存在局部最优的直接原因是自身算法的不完善,而遗传算法具有全局寻优的特点;BP神经网络的不稳定性体现在初始权值和阈值是随机产生,缺乏选择依据,而网络连接权值和阈值的整体分布决定了模型的效果,遗传算法通过编码、选择、交叉、变异,得到优化后的权值和阈值,并将其设置为BP神经网络的初始权值和阈值,从而提高模型的稳定性。模型适应度曲线显示,在第2代和第4代突破局部最优解,在第6代达到最优;图1训练集在第10次训练之后MSE迅速下降进而达到目标,反映此模型的平均估计结果所能逼近学习目标的程度优秀(准确性);虽然测试集在第11次训练之后MSE呈缓慢升高,但MSE仍处于0.08~0.13,反映此模型在面对相近规模的不同训练集时,其估计结果较好(稳定性)。该模型克服了主观因素的影响,为2型糖尿病肾病的诊断提供了一种有价值的计算机辅助诊断方法,有助于尽早发现隐藏的病情,具有一定的临床意义。

本研究的优势包括:①将所有的符合标准的检验项目纳入模型,排除了主观经验选取,避免了选择偏倚;②样本量较大,合并5所医院患者的检验数据且保持同质性;③对照组纳入了高血压性肾病、狼疮性肾炎等与2型糖尿病肾病的实验室指标UAE有相似结果的病例,临床实用性更高;④GABP神经网络模型设置训练集和测试集,可以保证结果的真实性和可推广性。

本研究的局限性包括:①并未得出模型具体危险因素的权重值;②本文全面采集了实验室指标,但由于某些指标数据量低于40%[21],故未纳入分析,其与2型糖尿病肾病的关系及预测性有待数据量扩大后进一步分析;③GA-BP神经网络模型并不具有临床医生的诊断思维,也缺乏对疾病复杂性的灵活应变,因此只能对临床医生的诊疗决策起辅助作用;④本研究仅对2型糖尿病肾病进行了分类预测,下一步重点研究的内容之一是分析GA-BP神经网络模型中输入变量对输出变量的权重值。

[1] Chinese Diabetes Society. Chinese guideline for exercise in diabetes[M]. Beijing: The Chinese Medical Electronic Audio-Visual Publishing House, 2012. [中华医学会糖尿病学分会. 中国糖尿病运动治疗指南[M]. 北京: 中华医学电子音像出版社, 2012.]

[2] Kung K, Chow KM, Hui EM, et al. Prevalence of complications among Chinese diabetic patients in urban primary care clinics: a cross- sectional study[J]. BMC Fam Pract, 2014, 15: 8.

[3] de Boer IH, Rue TC, Hall YN, et al. Temporal trends in the prevalence of diabetic kidney disease in the United States[J].JAMA, 2011, 305(24): 2532-2539.

[4] Yang P, Cao XT, Deng XF, et al. To investigate the risk for kidney disease progression in hospitalized patients with type 2 diabetes mellitus[J]. Chin J Pract Intern Med, 2017, 37(10): 908-910.[杨萍, 曹雪亭, 邓雪凤, 等. 2型糖尿病住院患者肾病进展风险调查研究[J]. 中国实用内科杂志, 2017, 37(10): 908-910.]

[5] Zimmet P, Alberti KG, Shaw J. Global and societal implications of the diabetes epidemic[J]. Nature, 2001, 414(6865): 782-787.

[6] Rivero A, Mora C, Muros M, et al. Pathogenic perspectives for the role of inflammation in diabetic nephropathy[J]. Clin Sci,2009, 116(6): 479-492.

[7] Lu XM, Fan QL, Wang X, et al. Circulating long non-coding RNA expression profiles in diabetes and diabetic nephropathy patients[J]. Chin J Pract Intern Med, 2017, 37(3): 221-226.[吕小萌, 范秋灵, 汪旭, 等. 糖尿病和糖尿病肾病患者循环lncRNA表达谱的分析[J]. 中国实用内科杂志, 2017, 37(3):221-226.]

[8] Cherney DZ, Scholey JW, Daneman D, et al. Urinary markers of renal inf l ammation in adolescents with type 1 diabetes mellitus and normoalbuminuria[J]. Diabet Med, 2012, 29(10): 1297-1302.

[9] Cai Q, Mukku VK, Ahmad M. Coronary artery disease in patients with chronic kidney disease: a clinical update[J]. Curr Cardiol Rev, 2013, 9(4): 331-339.

[10] Pestana RM, Domingueti CP, Duarte RC, et al. Cytokines profile and its correlation with endothelial damage and oxidative stress in patients with type 1 diabetes mellitus and nephropathy[J].Immunol Res, 2016, 64(4): 951-960.

[11] Donate-Correa J, Martín-Núñez E, Muros-de-Fuentes M, et al.Inflammatory cytokines in diabetic nephropathy[J]. J Diabetes Res, 2015, 2015: 948417.

[12] Wada J, Makino H. Inflammation and the pathogenesis of diabetic nephropathy[J]. Clin Sci (Lond), 2013, 124(3): 139-152.

[13] Guijarro C, Egido J. Transcription factor-kappa B (NF-kappa B)and renal disease[J]. Kidney Int, 2001, 59(2): 415-424.

[14] Wang ZS, Song ZC, Bai JH, et al. Decision tree analysis on the risk of nephropathy in type 2 diabetic patients[J]. Chin J Integr Tradit West Nephrol, 2013, 14(3): 238-239. [王占胜, 宋占春,白静慧, 等. 2型糖尿病患者肾病风险的决策树分析[J]. 中国中西医结合肾病杂志, 2013, 14(3): 238-239.]

[15] Tervaert TW, Mooyaart AL, Amann K, et al. Pathologic classification of diabetic nephropathy[J]. J Am Soc Nephrol,2010, 21(4): 556-563.

[16] Li H, Lai L, Chen L, et al. The prediction in computer color matching of dentistry based on GA+BP neural network [J].Comput Math Methods Med, 2015, 2015: 816719.

[17] Mi BF. The improvement research on evolution strategy of genetic algorithm[D]. Harbin: Northeast Agricultural University,2014. [弭宝福. 遗传算法进化策略的改进研究[D]. 哈尔滨:东北农业大学, 2014.]

[18] Persson F, Rossing P. Renal disease by type 2 diabetes[J]. Ugeskr Laeger, 2012, 174(37): 2150-2154.

[19] Zhou HB, Zhang YL, Hu JP. CTG recognition based on genetic algorithm and BP neural network[J]. J Chongqing Med Univ,2011, 36(7): 846-849. [周红标, 张宇林, 胡金平. 基于遗传算法和BP神经网络的CTG识别研究[J]. 重庆医科大学学报,2011, 36(7): 846-849.]

[20] Yao XJ, Wang H, Liu SX. Research on recognition algorithms of lung sounds based on genetic BP neural network[J]. Space Med Med Eng, 2016, 29(1): 45-51. [姚小静, 王洪, 刘盛雄. 基于遗传BP神经网络的肺音分类识别算法研究[J]. 航天医学与医学工程, 2016, 29(1): 45-51.]

[21] Barzi F, Woodward M. Imputations of missing values in practice:results from imputations of serum cholesterol in 28 cohort studies[J]. Am J Epidemiol, 2004, 160(1): 34-35.

猜你喜欢

肾病神经网络糖尿病
糖尿病知识问答
糖尿病知识问答
糖尿病知识问答
预防肾病,维护自己和家人的健康
糖尿病知识问答
造影剂肾病的研究进展
肾病防治莫入误区
神经网络抑制无线通信干扰探究
基于神经网络的中小学生情感分析
基于神经网络的拉矫机控制模型建立