针对电子医疗档案的数据分析
2020-10-13焦玮杨雪寒孟洁张倩
焦玮 杨雪寒 孟洁 张倩
摘 要: 为了利用电子医疗档案实现对患者疾病的智能诊断,提出了一种结合模糊C均值聚类和区间二型小脑模型关节神经网络(FCM-IT2CMAC)的两层分类算法。该算法使用了两个分类器,其中小脑模型神经网络是主分类器,模糊C均值算法是预分类器。首先,使用预分类器将样本数据分组,然后应用主分类器确定样本是否处于健康或患病状态。此外还采用梯度下降法自适应训练主分类算法的参数,并使用李雅普诺夫稳定性理论证明了算法的收敛性。最后通过实验证明该分类算法的有效性。
关键词: 分类问题; 小脑模型神经网络; 模糊C均值聚类算法; 医学诊断
中图分类号: TP391 文献标志码: A
Abstract: In order to realize the intelligent diagnosis of patients diseases by using electronic medical files, this paper proposes a two-layer classification algorithm combining fuzzy C-means clustering and interval type II cerebellar model joint neural network (FCM-IT2CMAC). The algorithm uses two classifiers, in which the cerebellar model neural network is the main classifier and the fuzzy C-means algorithm is the pre-classifier. First, the sample data are grouped using a pre-classifier, and then the main classifier is applied to determine if the sample is in a healthy or diseased state. In addition, the gradient descent method is used to adaptively train the parameters of the main classification algorithm, and the convergence of the algorithm is proved by Lyapunov stability theory. Finally, the effectiveness of the classification algorithm is proved by experiments.
Key words: classification problem; cerebellar model neural network; fuzzy C-means clustering algorithm; medical diagnosis
0 引言
將数据分析算法应用于电子医疗档案的数据分析能够实现对是否患病的智能诊断。已有研究提出一些针对电子医疗数据集的数据二分类算法[1-3]。文献[4]提出了一种基于决策树模型的疾病诊断模型。文献[5]提出了一种用于肝病早期诊断的神经网络分类算法。为此本文提出一种模糊C均值聚类算法(FCM)[6]和区间二型模糊小脑模型神经网络算法(IT2CMAC)[7]相结合的两层医疗数据分类算法,以期实现基于电子医疗档案的疾病准确诊断。该算法在参数训练过程中,首先利用模糊C均值聚类算法将训练数据划分为nc组,然后利用这些数据组训练区间二型模糊小脑模型神经网络算法。其中区间二型模糊小脑模型神经网络算法是基于区间二型模糊神经网络(IT2FNN)和小脑模型神经网络(CMAC)所提出的改进分类算法,兼具两种算法的优点。在实际疾病诊断过程中,也使用FCM对数据进行预分组,随后将数据组分配给相应的经过参数训练的区间二型模糊小脑模型神经网络分类算法,实现对是否患病的判断。通过实验证明该算法能够准确对实验数据进行分类处理。
1 算法设计
基于模糊C均值聚类的区间二型模糊小脑模型神经网络(FCM-IT2CMAC)分类算法的运行原理,如图1所示。
3 实验结果
将上述算法应用于乳腺癌相关的电子医疗档案数据集进行是否患病的分类诊断。实验在Matlab R2016a上完成,运行于桌面Windows 7(64位),处理器为Intel Core i7(3.6 GHz),内存为16GB。首先,以70∶30的比例将数据集随机分为训练数据集和测试数据集。然后,利用FCM预分类器根据训练数据集的特征,将训练数据集划分为nc组。然后,使用nc组训练数据集对IT2CMAC分类器进行训练。在测试过程中,同样使用FCM预分类器,将测试数据分配给最适合的训练过的IT2CMAC分类器。为了选择合适的聚类数目,实验采用nc=1,2,…,10。采用精度(ACC)、灵敏度(SEN)和特异度(SPE)三种性能指标评估该分类器的分类性能[16],如表1所示。
为保证比较公平,实验结果平均重复100次,随机抽取数据进行训练和测试分类过程。
实验所用的乳腺癌数据集包含699名患者的数据,其中有16个样本值缺失。本实验剔除了缺失的样本数据,使用其余的683个实例。该数据集包含239个(35%)恶性实例和444个(65%)良性实例。每个实例都有十个独立的属性,如表2所示。
第一阶段采用模糊c均值聚类算法将测试数据分配到相应的聚类中。然后,应用IT2CMANN对每个集群进行1 000次迭代训练。为了得到FCM-IT2CMANN中最优的簇数(聚类),对不同簇数(聚类)的实验结果重复100次,如表3所示。
由表4可知,本文提出的结合模糊C均值和IT2CMANN的分类算法比其他分类方法具有更好的分类性能,在预测乳腺癌诊断方面提供了最高的准确性。需要注意的是,表3的数据表明分类准确性会随聚类数量的不同而变化。
4 总结
为了基于已有的电子医疗档案实现样本是否患病的准确分类,本文设计了一种结合FCM和CMAC的两层分类算法。提出的分类算法有两个主要步骤。第一步应用FCM对数据集进行划分,将医疗数据集划分成适合的聚类。第二步应用CMAC对分组的医疗数据进行是否患病的分类。实验结果表明,与其他方法相比,该分类器具有更高的精度。此外采用梯度下降法能够自适应地更新神经网络算法的权值参数。通过实验表明,所提出的算法能够较为准确地基于实验医疗档案数据实现对乳腺癌地诊断。可以预见,本研究结果能够低成本地扩展到其他疾病的诊断。需要注意的是,本研究的局限性在于聚类数量对算法性能有显著影响,因此应用一些先进的方法找出合适数量的聚类和对较大的数据集进行测试需要更加深入的研究。
参考文献
[1] 刘超,吴申,郑一超,等.基于深度森林和DNA甲基化的癌症分类研究[J].计算机工程与应用, 2019,7(14):189-193.
[2] 范家伟,张如如,陆萌,等.深度学习方法在糖尿病视网膜病变诊断中的应用[J].自动化学报,2019,7(14):1-21.
[3] 张越美,赵洪波,朱亚玲,等.基于数据挖掘分析KIF2C在肝细胞癌的表达及临床意义[J/OL].重庆医科大学学报,2019(11):1454-1457.
[4] 高云龙,杨程宇,王志豪,等.簇间可分的鲁棒模糊C均值聚类算法[J].电子与信息学报,2019,41(5):1114-1121.
[5] 郭海湘,黄媛玥,顾明赟,等.基于自适应多分类器系统的甲状腺疾病诊断方法研究[J].系统工程理论与实践,2018,38(8):2123-2134.
[6] 商显震,韩萌,孙毓忠,等.融合生成对抗网络和朴素贝叶斯皮肤病诊断方法[J].计算机科学与探索,2019,13(6):1005-1015.
[7] 杨雪,刘惠义,陈霜霜.基于DRBM和边缘检测的脑部磁共振图像分类[J].信息技术,2018(5):129-132.
[8] 刘露,杨培亮,孙巍巍,等.深度置信网络对孤立性肺结节良恶性的分类[J].哈尔滨理工大学学报,2018,23(3):9-15.
[9] 闫慈,田翔华,阿拉依·阿汗,等.基于重采样技术在医学不平衡数据分类中的应用研究[J].中国卫生统计,2018,35(2):177-180.
[10] 季挺,张华.基于CMAC的非参数化近似策略迭代增强学习[J].计算机工程与应用,2019,55(2):128-136.
[11] 王家軍.一种新型区间二型模糊神经网络隶属函数的设计[J].自动化学报,2017,43(8):1425-1433.
[12] 王莉莉,付忠良,陶攀,等.基于主动学习不平衡多分类AdaBoost算法的心脏病分类[J].计算机应用,2017,37(7):1994-1998.
[13] 张兆晨,冀俊忠.基于卷积神经网络的fMRI数据分类方法[J].模式识别与人工智能,2017,30(6):549-558.
[14] 高俊龙,袁如意,易建强,等.基于一型模糊规则自主构建二型TSK神经模糊系统方法设计[J].控制理论与应用,2016,33(12):1614-1629.
[15] 刘云平,李渝,陈城,等.基于李雅普诺夫指数的非完整约束系统稳定性[J].华中科技大学学报(自然科学版),2016,44(12):98-101.
[16] 刘广,孙艳秋,裴媛.基于C4.5决策树算法的中医胃炎实验数据分类挖掘研究[J].中华中医药学刊,2016,34(12):2958-2961.
(收稿日期: 2019.07.16)