基于CNN处理疾病数据的技术对疾病预测研究

2020-02-03任珊珊

价值工程 2020年2期

任珊珊

摘要：为了使患者对自身的情况更加了解，医生可以更准确地对疾病进行诊断，目前已经出现了一些将计算机技术用于医疗诊断的研究。但是目前存在的技术在处理疾病诊断的过程中存在电脑处理数据多，维度大，超负荷等缺点。基于这种情况，本文提出了将卷积神经网络（Convolutional Neural Network，CNN）用于处理疾病数据的技术，神经网络对于高维度的数据处理有着无可比拟的优势。CNN网络可以降低数据过拟合现象的发生，可以极大地缓解目前技术存在的问题。这项技术对于患者和医生都有着积极的意义。

Abstract： In order to enable patients to better understand their own conditions， and doctors to diagnose the disease more accurately， there have been some studies using computer technology for medical diagnosis. However， the existing technologies have the disadvantages of having more data processed by the computer， large dimensions， and overload in the process of disease diagnosis. Based on this situation， this paper proposes the technology of using Convolutional Neural Network （CNN） to process disease data. Neural networks have incomparable advantages for high-dimensional data processing. The CNN network can reduce the occurrence of data overfitting， which can greatly alleviate the problems of the current technology. This technology has positive implications for both patients and doctors.

關键词：神经网络;卷积;疾病预测

Key words： neural network;convolution;disease prediction

中图分类号：TP183 文献标识码：A 文章编号：1006-4311（2020）02-0248-02

0 引言

目前人类遭受到不同疾病的侵袭。这种威胁来自于两个方面，一方面由于病菌的变异，其耐药能力逐渐变强，另一方面由于人类自身的生存环境面临着变化，比如空气质量下降，如雾霾等。具体到我国，由于我国人口老龄化的问题日益严重，而老人由于人体机能的下降，所以更容易罹患各种疾病。空巢老人及病人无顾虑生活是社会稳定和持续发展的重要因素，这也就促使患者亲属朋友或养老院更加高效地发展第三产业。此外，在保障人民健康生活贯彻落实社会主义核心价值观的指导下，各地设有疾病预防控制中心，以及健康管理师通过老人院、医院等途径做定期检查调整病人的饮食，作息，娱乐，按摩等人工服务私人医生智能手机健康生化指标测定，如血脂，糖化血红蛋白，尿酸，血压，BMI HeHa Qi心率变异性健康测定国内流行病与卫生统计学MPH的研究通过给老人佩戴手环来记录心跳指数，位移量，速度等重要信息以便收集数据进行整理高频危险疾病。这一类技术目前已经比较成熟，比如①法国鹰眼，②QFS生物体微弱磁场测定，③TMI人体代谢热层图，④JY-NLS磁振扫描，⑤TTM热断层扫描成像系统。

1 传统研究方法

在获取到病人身体状况的诸多数据之后，需要对这些数据进行进一步的分析。以往这些数据都是由医生来分析，但是数据的范围很大，分析不同的数据也需要医生掌握不同的专业知识，而医生的精力也相对有限，所以这需要耗费医生大量的精力，还会出现准确率比较低的情况。

采用计算机技术对疾病数据进行分析[1]的一个重要技术就是决策树[2]。决策树是一个预测事件的模型，它表示对象属性与对象值之间的一种数学映射关系。局限在于对连续性的事件预测率低。对有时间维度的数据，需要很多程序来处理。当类别太多时，错误率可能就会大大增加。所以一般用这种算法分类时只能用维度较低数据量不大的事件。

知识发现（Knowledge Discovery in Database，KDD）模型[3]可以通过挖掘数据中有效的，新型的，有用的信息来构建一个模型。通过选择性融合，回归，相似性分析，和对数据的预处理，使其标准化和具有特征。数据主要分为三个部分包括训练集，验证集，测试集，九类训练一类测试防止过拟合现象以及噪声拟合来满足支持向量机（Support Vector Machine，SVM）[4]分割最大化，但是也有不足之处，交叉验证只能依据数据的变化来调整后期的结果。对于一些数据和测试交叉验证还无法横向比对，对比度单一。

上述的两种方法在面临高维度或者数据比较多的情况时，由于算法的约束，需要求解一个比较复杂的矩阵，这在现在的计算中无法完成。而深度学习作为一种利用梯度下降法进行优化的算法，在数据量比较大的时候拥有无可比拟的优势。得益于目前计算机算力的增强，神经网络可以变得很深[5]，这可以极大地提升精度。全连接网络是把所有数据分享和外界连接起来的一个虚拟算法。它可以连接数据量较大的事件，其可靠性和安全性，延时性相当高。首先处理图像时通过像素矩阵，使其转化为一维向量，其次把每个像素点输入到对应的神经元点上，让一个像素对应一个单位向量，向量中的每个元素又代表全连接中的神经元。这样每层形成列向量在和行向量相乘，相当于计算体积，所以会导致事件参数非常庞大，要处理的数据量增大，这种不加以与其他方法相结合的算法，会使效率和正确率就会急剧下降，不利于预测共享。

2 基于CNN的疾病研究

卷积神经网络，是一种可以处理大图像的神经网络，但是在语音，文字等各个领域也有广泛的应用[6]。卷积神经网络相对于全连接神经网络主要多了卷积层和池化层两个部分。目前的卷积神经网络有一维，二维以及三维卷积神经网络。一维卷积神经网络用来处理序列类数据;二维卷积神经网络可以应用于图像文本等识别;三维卷积神经网络主要应用于视频数据的一些处理或者是医学图片的提取和处理。所以如果应用于医学方面的文本数据提取可以在多方面维度进行研究。CNN有两个基本构层，其一是特征提取层，可以通过这层来提取信息放入到每个神经元中，每一个神经元都可以与和它有关系的神经元的局部特征相呼应，在特征被提取之后，它们也有相应的空间位置关系，这样就可以在电脑中对病例和与他有关影响的疾病进行排查。另一个是特征映射层，网络的一个平面代表一个层面，再由多个平面构建一个映射物，使映射物上的神经元按权重划分重要程度，这具体要根据病发率，种类以及危险程度来判定。CNN还有一些自己独特的优点，比如在它的功能方面，可以通过池化层识别一些加工处理的图片，使之在特征检验层隐式的从训练数据中学习事件，在网络上学习;在数据共享的方面，应用了生物神经网络的相关技术来降低网络原本的复杂程度，让其更简便，方便人们构建有关数据文库;还有一个就是输入的神经元可以共享，连接到网络上，减少了一些不规律的参数，可以降低运算量和缓和过拟合的问题，也可以通过两次提取特征数据提高准确性。

2.1 卷积神经网络的层级结构

将最原始的图像等数据进行处理，有以下几点：

①划区域：把输入的样本，以如3×3化作一个矩阵，放入到一个坐标系中。

②得图像：用固定的尺寸在输入层做运算，得到有宽度长度深度的特征图并进行卷积。

③降维：把维度降到最低，使其更好处理。

卷积神经网络在计算处理数据注意事项：1）每个神经元看做一个滤波器;2）滑动窗口以一个步长为单位，进行滚动;3）由于每次滚动后都会和后面的窗口有交集，可以通过在外围补零的方式来避免这类问题;4）在采纳这些数据时尺寸要相同。

2.2 参数共享机制

首先要对卷积层的神经元进行处理，因为每个神经元就相当于我们在处理图像时的一个滤波器，每个滤波器都会提取不同维度的特征像颜色，透明度，光影，粗糙光滑，边缘弧度等，使之加起来可以完成整张图像的特征提取。接下来是对卷积层的输出，其结果是一种非线性映射，通过池化层和卷积层的合并来压缩数据参数的量防止过拟合现象，这是一种常见的图像特征提取尺度不变性的技术，比如我们平常拍照，再找风景照的时候，许多人会更在意风景和人的融合度或者会使周边环境糊化来提高人的辨识度即使这张照片被缩小或者风景继续模糊，但我们还是可以判断这是一个人。这就是上述图像去除了一些无关紧要的东西而留下了最能表达图像的特征，就是尺度不变性。另外，因为一张图像的信息量比较大，特征也比较多，所以除去这些与我们调查无关的信息也减少了运算的量，这是池化层的一大功能。最后就是要把全连接层放在卷积神经网络的最后，前面则有神经元的权重连接从输入到输出，其间有对应的映射关系，再加之用固定的模式进行训练，从网络中输出。CNN一个非常重要的特点就是头重脚轻（越往输入权值越小，越往输出权值越多），呈现出一个倒三角的形态，这就很好地避免了BP神经网络中反向传播的时候梯度损失得太快。卷积神经网络CNN在用来识别一变化或者未变化的图像时，我们可以利用特征检验层来进行数据的学习，因为运用了隐式的学习方法和同一映射层上面权重按比例的方法我们可以在网络上一起学习，这也就是卷积神经网络更有序的原因。还有一点就是多维输入向量的图像可以直接输进网络里，避免了数据特征的分类和提取过程中复杂的重建过程。

2.3 技術路线

如图1所示，由于深度学习的训练需要用到大量的数据，因此设计模型之前需要收集大量的数据，在收集数据的过程中需要注意到患者的隐私问题，之后需要对这些数据进行人工的标注和预处理。根据已有的数据对模型进行设计，然后通过设计好的模型进行网络的训练，在训练好的网络上可以进行疾病的预测，根据预测结果与预期结果，可以对模型进行进一步的调整和优化。

3 总结与展望

健康是每个人追求生活的基础，老人是每个家庭港湾之所在，现代科技通过高新技术设计预测疾病和防护的方法，保障质量，提高要求和标准，在建立与传统方法有所提升的卷积神经网络，运用与人们的生活之中，或者结合许多传统方法的优点，让其多维化，准确化，扩大化数据处理量，众志成城，形成一套完整的处理信息的方法应用在事件中，但最大的还是实践出真知，要通过不仅电脑测试还要人工亲自试验来验证成果，也希望未来在疾病预测和人工智能方面中国有更大的突破。

参考文献：

[1]李珊珊，田考聪.人群疾病预测模型及其应用[J].现代预防医学，2007，34（22）：4277-4278.

[2]栾丽华，吉根林.决策树分类技术研究[J].计算机工程，2004，30（9）：94-96.

[3]裴韬，周成虎，骆剑承，等.空间数据知识发现研究进展评述[J].中国图象图形学报，2018，6（9）：854-860.

[4]祁亨年.支持向量机及其应用研究综述[J].计算机工程，2004，30（10）：6-9.

[5]朱大奇.人工神经网络研究现状及其展望[J].江南大学学报，2004，3（1）：103-110.

[6]常亮，邓小明，周明全，等.图像理解中的卷积神经网络[J].自动化学报，2016，42（9）：1300-1312.

展开全文▼