基于栈式降噪自编码器模型的糖尿病预测研究

2017-10-23

福建质量管理 2017年18期

(重庆工商大学智能制造服务国际科技合作基地重庆 400047)

简恒

(重庆工商大学智能制造服务国际科技合作基地重庆400047)

我国是一个人口大国，与此同时，慢性病患者人数也居世界首位，而糖尿病及其相关并发症是其中的一个重要组成部分。随着国民经济的发展，居民对健康需求日益强烈，因此，把根据人的各项生化指标为依据的糖尿病预测研究放在更加突出的地位就显得尤为重要。本文在总结前人利用传统浅层模型进行预测研究的基础上，针对其模型拟合效果和泛化能力不强的缺点，提出一种基于底层栈式降噪自编码器和顶层分类神经网络的预测模型。首先对数据进行清洗并归一化，在利用自编码的无监督学习对特征进行识别与重学习，逐层贪婪学习以后，再将将栈式降噪自编码器接入有监督的神经网络进行分类预测，最后再利用有监督的学习进行参数的微调。

糖尿病；预测；栈式降噪自编码器；特征提取；数据预处理

一、引言

基于人的各项生化指标进行糖尿病的特征学习与预测已经成为国内外研究的重点，其中能构建出性能优良的数据模型是预测的关键。针对于现在日益陡增的糖尿病生化指标的数据，传统的浅层模型既不能有效的表达出其深层次的特征，又不能进行精准的预测。例如，决策树模型虽然理解和解释起来简单，且决策树[1]也可以根据逻辑关系进行构建，但其结果很不稳定，只要数据中一个很小的变化可能就会导致一个完全不同的树。另外，传统提取特征的方式大多都是人工提取特征，需要设计特征选择器或者根据。支持向量机[2]的最终决策函数只由少数的支持向量所确定，计算的复杂性取决于支持向量的数目，而不是样本空间的维数，但其缺点也十分明显，它对大规模训练样本难以实施，并无法解决多分类的问题。人工神经网络[3]的非线性拟合能力很强，这使它特别适合于求解内部机制复杂的问题，但其BP(back propagation)算法训练速度慢，且训练很有可能会失败。Logistic回归算法[4]的计算速度很快，能够有效的节省硬件资源，但是容易欠拟合，并且分类的精度不高。从特征学习的角度来看，传统的特征学习都是采用人工提取特征的方法，且特征器需要专家经验且耗时[5]，这样不仅效率地下，而且还很难排除人为因素的干扰。深度学习作为人工智能技术的重要方法之一，在各个领域都表现出不凡的优势，例如,计算机视觉、语音识别、自然语言处理等。面对呈指数速度增长的海量数据信息，如何从大数据中提取出对预测结果有效的特征，帮助我们建立模型去拟合原有的数据并进行预测成为该领域中的一大难题。通常人的各项生化指标数据具有不确定性和动态性等特点，且噪声较多，数据之间且包含较多的非线性关系，对于利用人的各项生化指标数据进行预测未来是否会患有糖尿病一直都是国内外研究的热点。针对深度学习的优势，尤其是自编码器的无监督学习机制，为研究糖尿病预测提供了一种新的思路。

二、栈式降噪自编码器预测模型

(一)自编码器

图1 自编码器结构

设ω1∈Rm×n、b1∈Rm分别表示输入层与隐藏层的权值与偏置，ω2∈Rm×n、b2∈Rm分别表示隐藏层与重构可视层的权值与偏置，假设每一个神经元的激活非线性激活函数都是ReLu函数，对于自编码器在编码过程中如下所示

解码过程为：

(二)SDAEP模型

对于的人的生化指标数据{(x(1),y(1)),(x(2),y(2)),(x(3),y(3))…}，经过栈式降噪自编码器的学习后，将构建出的有更好特征表达的数据接入神经网络模型，就构成了糖尿病的预测模型SDAEP(Staked Denoising AutoEncoder based Prediction model)结构如图3所示

图3 SDAEP结构

在栈式降噪自编码器模型中，h1与h2均为自编码器的隐藏层，h3为自编码器连接的输出层带有sigmoid分类器的神经网络层。通过栈式化的多层降噪自编码器的特征学习，将经过处理的数据进行特征提取，获取了具有更好表达的新的特征，在利用神经网络的输出层的分类器对未来这些人是否会患有糖尿病做出预测。

三、SDAEP模型的学习算法

(一)贪婪学习算法

所谓贪婪学习算法是指，在对问题的求解过程中，总是做出来在当前看来是最好的选择。即不从整体最优上加以考虑，只做出在当前情况下的最优解。栈式降噪自编码器预测模型之所以不直接用梯度下降算法训练是因为随着随着神经网络的层数增加，利用前向传播到最终的输出层后，将训练值与实际值作差在进行反向传播计算梯度的时候，会导致梯度快速下降，以至于在最初的几层神经网络当中，权值的变化会非常的小，使得神经网络无法训练。这时我们采用逐层贪婪学习算法，先对前面的DAE的每一层，分别进行无监督的预训练，等预训练完成以后再连接分类器进行有监督的训练，能够使SDAEP快速达到最优。

(二)栈式降噪自编码器的学习算法

栈式降噪自编码器的参数学习采用反向传播算法，先将处理好的数据输入到输入层，经前向传播得到得到L2,L3,…直到输出层Lnl的激活值a(2),…,a(nl)，再根据自编码器的整体代价函数计算出训练值与实际值的差值后，经反向传播算法计算梯度，回传到输出层，逐层微调权值与偏置。假设栈式降噪自编码器的输出层为第nl层，输出的目标值为y,则栈式降噪自编码器各输出层和隐藏层各节点的误差表达式分别为：

δ(nl)=-(y-a(nl)f'(z(nl))

其中，l=nl-1,nl-2,nl-3,…,2，式中f为ReLu激活函数,f'(Z(l))表示第ι层激活函数f(z)对输入z的导函数值。

利用梯度下降法更新权值和偏置参数，设α为学习率，迭代更新表达式为：

w(l)=w(l)-α[▽w(l)J(W,b;x,y)]

b(l)=b(l)-α[▽b(l)J(W,b;x,y)]

通过不断的迭代来调整权值w以及偏置b以减小自编码器整体代价函数的值，以此来优化预测模型。

四、实验设计与分析

本次实验的软件平台为MATLAB R2015b,数据预处理的实验平台为Python3.6,编程实现算法。

模型的评价标准为均方偏差以及分类准确率

分类准确率=100*(1-error)

为了处分反应模型的效果，以人的生化指标为依据的糖尿病数据集为例，对比了目前在糖尿病预测领域较为常用的BP神经网络和支持向量机(SVR)模型，如表1所示

表1 同一数据集下不同模型的预测效果

由此可以见得，SDAEP的预测效果要优于BP神经网络和支持向量机的，虽然BP神经网络和支持向量机的分类准确率相差无异，但均方误差差距较大，且其随机初始化的权值和偏置也没有经过无监督预训练的SDAEP稳定，泛化能力还有待提升，经过上述对比，可以看出SDAEP的预测性能更好。

五、结语

栈式降噪自编码器预测模型克服了传统浅层模型泛化能力不强的确定，并对数据的特征进行重学习，使其有了更好的表达，而自编码其自身独特的逐层贪婪的学习方法也改进了神经网络随机初始化的缺点，比单独使用反向传播在通过梯度下降法来微调权值和偏置的神经网络收敛速度更快，所以栈式降噪自编码器在对糖尿病的预测领域具有重要的应用研究和推广价值。

[1]马瑾，孙颖，刘尚辉.决策树模型在住院2型糖尿病患者死因预测中的应用[J].中国卫生统计，2013.6，30(3)：422-423

[2]洪烨.基于机器学习算法的糖尿病预测模型研究[M].哈尔滨工业大学硕士学位论文，2016.6

[3]郭奕瑞，李玉清，王高帅，刘晓田，张路宁，张红艳，王炳源，王重建.人工神经网络模型在2型糖尿病风险预测中的应用[N].郑州大学学报(医学版)，2014，3，49(2)：180-183

[4]曹文哲，应俊，陈广飞，周丹.基于Logistic回归和随机森林算法的2型糖尿病并发视网膜病变风险预测及对比研究[J].2016,03:1674-1633

[5]Martin Langkvist,Lars Karlsson,Amy Loutfi.A review of unsupervised feature learning and deep learning for time-series modeling[J].Pattern Recognition Letters,2014(42):11-24