APP下载

基于体检数据的糖尿病智能诊断算法

2021-10-21王丹韩容方堃王芳陈沂

医疗装备 2021年19期
关键词:样本量正确率神经网络

王丹,韩容,方堃,王芳,陈沂

四川省科学城医院检验科 (四川绵阳 621000)

目前,人工智能已在人类社会的各个领域得到广泛的应用,特别是在医学领域,相关的智能产品可为疾病诊断提供较大的帮助。针对医疗影像的智能诊断技术是最早在医用领域得到实际应用的技术,有较多学者在该方向开展了研究,如隋晓丹[1]开展了基于深度学习的主动脉瘤CT 影像分割技术研究;王金强和刘靖峰[2]采用深度学习对胸部CT 影像特征进行提取和分析,实现了影像疾病判断的多种指标的量化分类;王小凤[3]基于神经网络理论、粗糙集方法设计并实现了一套乳腺癌辅助诊断系统。

一种疾病并非由某个单一指标就可以确定,往往与多个指标相关。随着信息技术的不断发展,我们可以将智能诊断技术应用于基于医学检验数据分析的疾病诊断,如李永秋[4]探讨了数据挖掘技术在医院信息系统中的应用;冯福领[5]探索并建立了一种实现网络数据传递和资源共享的智能化健康体检管理系统。本研究分析了随机森林算法和神经网络算法在体检数据智能诊断中的应用情况,并基于印第安人糖尿病诊断数据集对算法的有效性进行了验证。

1 智能诊断算法的工作原理

1.1 随机森林算法

随机森林算法是一种具有监督功能的集成学习分类算法,其集成有多个决策树分类器,由多个决策树分类器进行联合投票得到一个相对合理的结果[6]。具体步骤为:(1)采用常用的抽样方法Bagging 在数据训练集中抽样得到训练数据子集,抽样方式为可放回的方式;(2)在子集样本属性空间中采取不放回的抽样方式得到新的子集属性空间;(3)将抽样得到的样本子集和样本子集属性空间作为分类树的构造数据,建立决策树模型;(4)对所建立的决策树模型进行集成,建立随机森林分类模型,通过随机森林中的每个决策树对结果进行投票得到合理决策。

1.2 神经网络算法

深度神经网络能够很好地满足大样本拟合需求。其具有多个隐藏层(图1),使用过程和工作原理为[7-8]:(1)初始化神经网络每层的输入和输出权值矩阵;(2)将训练样本的各个属性值作为神经网络的输入;(3)按照神经网络正向求解过程计算每层的输入和输出,将当前层的输出作为下一层的输入,得到神经网络的最终输出;(4)训练样本的实际Y 值已知,用训练样本的实际Y 值和神经网络计算Y 值的差来反向逐层修正神经网络每层的输入和输出权值矩阵;(5)利用训练后的神经网络模型即可完成对新数据Y 值的预测。

图1 深度神经网络框图

2 糖尿病诊断的应用研究

将验证的数据集作为印第安人糖尿病诊断数据集(表1),记录中的所有人都是女性。其中,舒张压曲线见图2,体质量指数曲线见图3,统计人数共768人,其中268人患有糖尿病。

表1 数据集参数列表

图2 舒张压曲线

图3 体质量指数曲线

将数据集随机分成训练集和测试集,其中测试样本占数据集的10%。训练集被用来训练智能诊断算法的分类模型,测试集则被用来测试模型分类的有效性(图4)。基本流程为:(1)将数据集随机分成训练集和测试集;(2)初始化智能诊断算法诊断模型参数;(3)将训练集中的参数(如妊娠次数、舒张压、体质量指数和年龄等)作为智能诊断算法诊断模型的输入,对患病情况进行预测,输出0表示未患糖尿病,输出1表示患糖尿病;(4)基于训练集中个人实际患病情况得到模型诊断偏差,并基于诊断偏差对模型参数进行修正;(5)基于测试集对诊断模型的正确率进行估算,即基于测试集中的参数对患病情况进行预测,并对预测值与测试集中的实际患病情况进行比较,预测正确的样本量除以测试集样本量即为诊断结果的正确率。

图4 基于智能诊断算法的糖尿病诊断原理框图

分别使用随机森林算法和神经网络算法进行智能诊断测试,算法实现基于Python 函数库,其中随机森林算法是用numpy 库中的RandomForestClassifier 函数实现,神经网络算法是用深度学习神经网络Keras 库实现。两种算法在不同训练集和测试集样本量中的诊断正确率见表2。由表可知,随着样本量的增加,两种算法的诊断正确率会相应提高;在相同样本量的情况下,基于神经网络算法的诊断正确率高于基于随机森林算法;由于整个数据集的样本量为768,当样本集为整个数据集时,基于随机森林算法的诊断正确率为76%,基于神经网络算法的诊断正确率为85%,两种算法分别有24%和15%的诊断误差,这与样本量不足够大有关。

表2 两种算法在不同训练集和测试集样本量中的诊断正确率

3 小结

基于智能诊断算法的糖尿病诊断方法是一种通用的疾病诊断方法,亦适用于对其他疾病的诊断,前提是需要收集该疾病的大量诊断样本。未来是大数据时代,患者的体检数据和诊断数据的获取会相对容易,基于智能诊断算法的疾病诊断会越来越成熟,将为医疗领域带来极大的便利。

猜你喜欢

样本量正确率神经网络
医学研究中样本量的选择
门诊分诊服务态度与正确率对护患关系的影响
神经网络抑制无线通信干扰探究
航空装备测试性试验样本量确定方法
Sample Size Calculations for Comparing Groups with Binary Outcomes
生意
品管圈活动在提高介入手术安全核查正确率中的应用
生意
基于神经网络的拉矫机控制模型建立
复数神经网络在基于WiFi的室内LBS应用