基于特征选择的自适应模糊神经网络在肾小球滤过率中的应用

2018-09-04邹海英李智杨帆

软件导刊 2018年6期

邹海英李智杨帆

摘要：临床上广泛使用肾小球滤过率（GFR）评价肾功能指标，医生根据GFR预测出慢性肾病（CKD）阶段进而制定相应的治疗方案。菊粉清除率和同位素标记物清除率一直为测定GFR的主要标准。但菊粉价格昂贵、同位素标记方法具有放射性，限制了它们用于GFR的检测。提出一种特征选择的自适应模糊神经网络的进展过程GFR估计方法，分别对6个月、12个月及18个月后的慢性肾病患者进行GFR估计。先对29个特征进行相关性分析，将筛选出来的5个特征进行模糊化、初始化隶属度函数和模糊规则生成，得到模糊神经网络（AFNN），然后用参数训练AFNN模型，得到最优AFNN，最后用新样本数据进行GFR估计，得到误差结果并进行评估。实验结果表明，运用该方法，GER估计误差均小于其它方法，其中最小标准化误差达到1.079 5×10-6，泛化能力增强。

关键词：肾小球滤过率；特征相关性；模糊化；隶属度函数；自适应模糊神经网络

DOI：10.11907/rjdk.173308

中图分类号：TP319

文献标识码：A 文章编号：1672-7800（2018）006-0153-04

Abstract：In clinical diagnosis， Glomerular filtration rate （GFR） is widely used to evaluate renal function. Doctors predict the progress of chronic kidney disease （CKD） stages and then make the appropriate treatments according to GFR. Inulin clearance and isotope marker clearance have been considered as the gold standard for GFR detection，but the high cost of inulin limits its routine clinical application and the usage of isotope marker clearance is limited by radiation. This paper proposes a GER estimation method based on adaptive fuzzy neural network with feature selection and makes GER estimation on patients with chronic kidney disease at 6 months， 12 months and 18 months. Firstly， 29 features are analyzed by correlation analysis and then five features are selected.Secondly， the five features are fuzzified get fuzzy neural network （AFNN）， the membership functions are initialized and the fuzzy rules are maked.After that， the AFNN model is trained by the parameters to get the optimal AFNN.Finally， GFR estimation is performed with new sample data to get the error results.The experiment shows that this GER estimation method is better than other methods for the minimum standard error is 1.079 5×10-6， and generalization ability is enhanced.

Key Words：glomerular filtration rate； feature correlation； fuzzification； membership function； adaptive fuzzy neural network

0 引言

慢性肾病（CKD）是一种隐匿性疾病，随着时间的推移，准确预测GFR对降低医疗费用和死亡率至关重要[1]。目前CKD尚无有效的治疗手段，故早期发现、早期诊断与干预延缓其进程尤为重要[2]。GFR是肾功能和CKD进展的唯一可靠参数[3-4]，提高GFR估计的准确率和精确度、降低偏差是根本[5]。近年来不少学者应用神经网络模型和改进机器学习算法进行GFR估计预测研究。Jamshid Norouzi[6]提出了自适应神经模糊推理系统（ANFIS）预测慢性肾功能衰竭进展过程，得到的标准化均方误差（NMSE）为4.767 6%。Cheng C等[7-8]提出通过集合学习模型提高肾小球过滤速率估计的精度，与ANN模型、SVM模型和REGRESSION模型相比，该模型在提高GFR估计中有显著优势。

本文提出基于特征选择的自适应模糊神经网络模型用于对GFR进行估计分析，能够准确估计GFR的值，从而在临床上帮助医生制定合理的治疗方案。

1 基本原理与方法

基于特征选择的自适应模糊神经网络算法对慢性肾病进展过程GFR估计流程如图1所示。

1.1 数据预处理

本文选取成都某医院肾内科2011-2016年间的患者临床检查检验与随访数据。首先对数据进行预处理，预处理筛选规則如下：①选取GFR连续3个月低于60mL/kg/min/1.73m2的样本数据；②排除妊娠期和哺乳期的妇女样本数据；③排除脱水、明显水肿及其它严重体液平衡紊乱者样本数据；④排除急性肾衰竭、急性肾损伤等急性肾疾病患者和肾移植患者的样本数据；⑤排除先天性肾功能不足、先天性肾损伤等患者的样本数据；⑥选取每位患者最少有两次间隔6个月及以上的记录数据，并将每隔6个月的数据记录一次，由此分为6个月、12个月和18个月后的样本数据集。

经过数据预处理后得到1 088例样本数据，其中430例6个月后的CKD患者记录数据、354例12个月后的CKD患者记录数据、304例18个月后的CKD患者记录数据。在没有经过特征相关性数据分析前，3个样本数据集包含29个特征。前28个为输入特征，分别为：年龄、性别、身高、体重、舒张压、收缩压、肌酐、胱抑素C、白蛋白、血红蛋白、尿素氮、磷、钙、肾小球滤过率（GFR）、总胆固醇（DGC）、低密度脂蛋白胆固醇（LDP）、高密度脂蛋白胆固醇（HDP）、体表面积（BSA）、身体质量指数（BMI）、二氧化碳结合率（CO-2）、葡萄糖（GLC）、尿酸（UR）、碱性磷酸酶（AKP）、甘油三酯（TRIG）、钠（Na）、钾（K）、镁（Mg）、氯（Cl），最后一个是输出目标，用GER（t）表示。部分输入特征与输出目标之间的相关系数如表1所示。采用随机抽取方法将这3个样本数据集分为60%训练集、20%验证集、20%测试集。

1.2 特征相关性分析

特征分析是在数据挖掘时对训练数据进行处理，提取出好的特征和减少输入特征个数，使模型性能和算法的准确度提高，减小估计误差。结合皮尔逊相关系数（Pearson）[9-10]、斯皮尔曼相关系数（Spearman）[11]、肯德尔相关系数（Kendall）[12-13]分析，有效提取出与GFR强相关特征。

对29个特征利用皮尔逊相关系数（Pearson）、斯皮尔曼相关系数（Spearman）、肯德尔相关系数（Kendall）在显著性水平p<0.001的情况下进行相关性分析，得到各个输入特征与输出目标GFR（t）之间的相关系数及显著性水平。在显著性水平p<0.001的情況下与GFR（t）相关的特征有9个，而3种相关系数大于0.3的特征只有5个。表2为最终筛选出的特征、相关系数及显著性水平。

1.3 自适应模糊神经网络算法与模型训练

1.3.1 自适应模糊神经网络算法

图2为模糊神经网络结构。

自适应模糊神经网络利用神经网络的学习方法自适应地从输入输出样本中获取规则，通过训练调整模糊神经网络参数，使它本身可以更好地实现自匹配、自学习、自组织，并将模糊化层、归一化层、规则生成层、输出层均采用神经网络形式完成。人工神经网络使用的参数调优方法为梯度下降法[14-15]，该方法可能导致局部最小，而且迭代次数多、训练速度缓慢，而最小二乘估计法收敛性好，结果为全局最优。因此，本设计采用二者相结合的混合参数调优算法调整网络参数，输入特征越少，模糊神经网络准确性越高[16]。

1.3.2 模型训练

对筛选出的特征进行相关性分析，将分析得到的特征作为模糊神经网络的输入特征进行训练，将各特征取值分为5个部分，分别表示很低、较低、一般、较高、很高，由此设置隶属度函数分割数为5，类型为高斯（gaussmf），初始步长为0.01，训练次数为40。

根据以上参数对初始模糊神经网络进行训练，利用得到的网络对6个月样本集进行估计，其初始隶属度函数和训练后的隶属度函数如图3所示。

图3中，左侧为训练前的隶属度函数，右侧为训练后的隶属度函数。观察发现，训练前后隶属度函数发生微小变化，训练前在确保覆盖各个特征取值的情况下对该函数分割，而训练后根据验证数据集对其作细微调整，使它更符合实际情况。

1.4 误差评估

为进一步评估不同方法对模型的影响，引入均方误差（MSE）、均方绝对误差（MAE）、标准化均方误差（NMSE）、标准化误差（NE）作为评价指标，通过误差评判规则，对比不同方法和已有研究，得到表3所示的4种误差指标。

上述结果表明，本文算法在GFR估计中有一定优势，在不同阶段均得到了预测准确的GFR。另外，当样本数据量减少时，该算法仍然具有一定的准确率。该算法优势明显，收敛速度快，可以准确预测患者6个月、12个月、18个月后的GFR，在智能专家系统集成方面具有一定的辅助性，可以帮助医生判断患者病情进展，提醒患者及时治疗，延缓CKD进展。

2 实验结果

图4表示6个月后预测值、真实值及差值，由图4可以发现两条曲线几乎重合，说明真实值与预测值之间的误差很小，在0～0.000 1范围内，数量级为10-4（计量单位为%），这充分体现了该算法的优势。具体的标准化误差在0～2.5×10-6之间，表明该算法可准确预测患者进展过程中的GFR。

3 结语

本文通过构建基于特征选择的自适应模糊神经网络模型对肾小球滤过率（GFR）进行估计分析，根据GER估计结果预测出慢性肾病（CKD）的进展阶段以辅助医生制定治疗方案。通过对6个月、12个月和18个月后的慢性肾病样本数据集进行GFR估计分析，得到误差结果，与其它方法相比，本文提出的方法误差均小于其它方法，其中最小标准化误差达到1.079 5×10-6，证明本文模型算法在肾小球滤过率估计分析中优势明显，能用于临床辅助医生制定医疗方案。

参考文献：

[1] National Kidney Foundation. Clinical practice guideline for chronic kidney disease：evaluation， classification and stratification[J]. Am J Kidney Dis，2002，39（suppl 1）：S1-S266.

[2] LIU X， WANG C， TANG H， et al. Assessing glomerular filtration rate （GFR） in elderly Chinese patients with chronic kidney disease （CKD）： a comparison of various redictive equations[J]. Archives of Gerontology Geriatrics，2010，51（1）：13-20.

[3] 叶朝阳，毛志国.肾功能检测方法的回顾与进展（一）[J].高血压杂志，2001，9（3）：264-266.

[4] 毛志国，叶朝阳.肾功能检测方法的回顾与进展（二）[J].高血压杂志，2001，9（3）：266-268.

[5] 李瑞红，李智，童玲.蚁群路径优化决策树在慢性肾病分期诊断中的应用[J].软件导刊，2017，16（2）：135-138.

[6] NOROUZI J， YADOLLAHPOUR A， AHMADMIRBAGHERI S， et al. Predicting renal failure progression in chronic kidney disease using integrated intelligent fuzzy expert system[J]. Computational and Mathematical Methods in Medicine，2016（2）：159-164.

[7] CHENG C， WANG C， LV L， et al. Improving precision of glomerular filtration rate estimating model by ensemble learning[J]. Journal of Translational Medicine，2017，15（1）：231-233.

[8] VIJAYARANI S， DHAYANAND S. Kidney disease prediction using svm and ann algorithms[J]. International Journal of Computing and Business Research （IJCBR），2015，6（3）：1245-1267.

[9] 彭海.皮爾逊相关系数应用于医学信号相关度测量[J].电子世界，2017（7）：163-170.

[10] 陈功平，王红.改进Pearson相关系数的个性化推荐算法[J].山东农业大学学报：自然科学版，2016，47（6）：940-944.

[11] 张文耀.用斯皮尔曼系数衡量网络的度相关[D].合肥：中国科学技术大学，2016.

[12] 胡春健.小样本下Kendallτ相关系数的显著性检验[J].控制工程，2013，20（6）：1195-1197.

[13] 李玉水.随机变量的Kendall相关系数的推广[J].莆田学院学报，2009，16（5）：15-17.

[14] 李宁山，刘迅，吴效明，等.人工神经网络在肾小球滤过率估算中的应用[J].第三军医大学学报，2012，34（3）：409-411.

[15] 周志华.机器学习[M].北京：清华大学出版社，2016.

[16] 刘迅，唐骅，汤颖，等.中国肾小球滤过率评估方程在慢性肾脏病患者的应用评价[J].中华肾脏病杂志，2009，25（3）：162-169.

（责任编辑：杜能钢）