APP下载

基于人工智能的心脏疾病诊断

2020-02-06贺文韬

现代商贸工业 2020年2期
关键词:随机森林决策树

贺文韬

摘 要:随着科学技术的发展,人工智能已经应用到医学的各个领域 。根据美国某区域的心脏病病人情况,收集使用年龄,胆固醇水平、血压、空腹血糖等10项指标数据,基于决策树方法和随机森林模型,对其是否患心脏疾病进行检测,发现随机森林方法在正确率,召回率,F1值等方面都优于支持向量机方法。因此,随机森林方法在心脏病诊断方面具有很好的应用。最后,针对心脏病患者模型的因子对心脏病的预防提出建议。

关键词:心脏疾病;多生理参数;随机森林;决策树

中图分类号:TB 文献标识码:Adoi:10.19311/j.cnki.1672-3198.2020.02.093

1 背景介绍

在谷歌开发者大会上,首席执行官桑达尔·皮查伊阐述了其最新的人工智能研究有朝一日将如何帮助医生发现心脏病。目前世界范围内心脏疾病人的人数逐渐增多。据世界卫生组织统计,在2012年,全球心血管疾病患者为1750万人,占所有非传染疾病患者人数的46.2%,因此心血管疾病的预防与治疗确实刻不容缓。中国心脏疾病的情况也十分严重,国家心血管病中心发布的《中国心血管病报告2012》数据显示,中国心血管病现患人数已高达2.9亿,即在成年人中患病人数约占百分之二十,每年约350万人死于心血管病,也就约为每10秒就有1人死于心血管病。而人工智能技术可以有效解决部分心血管疾病问题。人工智能方法根据情况设置相关参数,让电脑学习各种医学指标和信息,来预测患者的心脏病发病可能性。那么,人工智能方法相当于经验的医生,结合患者的检验报告和其他信息,可能可以正确预测出病人的患病情况。本论文针对人工智能在心脏病的应用等方面做出研究。

人工智能结合医疗的相关研究最近处于爆发式增长阶段。曹敦煜等人通过讨论人工智能的价值,前景等阐述了人工智能在心脏病治疗的应用。于观贞等专家通过对医疗活动中较为成功的 AI 研究,系统性的评述阐述了人工智能在临床医学中的应用与思考国内外多数研究。董慧康等人围绕着疾病诊断领域中的心脏病诊断展开研究,通过借助对患者多生理参数的监测,结合先进的数据分析和人工智能方法,采用人群搜索-支持向量机放过发,构建预测心脏病多辅助诊断模型,结果显示该方法精度较高,提高了心脏疾病诊断的准确性。颜红梅等人系统是运用人工智能和专家系统的设计原理与方法,模拟医学专家诊断、治疗疾病的思维过程,开发相关程序,帮助医生解决复杂的医学问题,作为医生推断疾病的重要依据。

给我们提供了很多启示,但也有不足之处:第一,人工智能在心血管疾病的相关研究较少;第二,多数文献结果显示预测的精度不够高。结合许多医疗和研究机构的经验,本论文使用年龄,胆固醇水平、血压、空腹血糖等10项指标来预测患者的心脏病情况,针对人工智能在心脏病的应用等方面对现有问题进行研究并且对已有的成果提出部分不足之处。

2 数据获取

本文的数据来源UCI开源数据集,具体参考网址http://archive.ics.uci.edu/ml/datasets/Heart+Disease,针对美国某区域的心脏病检查患者的体测数据,总共样本个数为303,包括患有心脏和不患心脏病的样本。对数据进行分析,结果如表1所示。对表格进行分析,发现样本中年龄最小29岁,最大77岁,平均值54.37,以老年人居多,性别上以男性居多,胆固醇在二百到三百之间发病率高,心率异常易导致发病,最大心率在150到175间发病率高;最大心跳在150到175间发病率高;血压在120到140时发病率高,指标为10个,解释如表1,统计结果如表2和图1。

3 模型介绍

3.1 决策树模型

决策树是人工智能中用来分类的常用方法,包括了几个重要的关键词:根节点、父节点、子节点和叶子节点等。决策树在多分类和二分类问题中有很好的应用,可以用多种标准来评价和优选方案,给出最优结果。该方法的特点是: 一方面,由于要解决的问题的目标和标准的不同,比较方案的好坏比较难,因此找不到问题解决的最佳方案;另一方面,解决问题的决策过程中是随机的,根据问题的满意度作为标准。

决策树常常采用贪婪思想的方法对各个因子进行分裂,也就是说,可以寻找找到最优分裂结果,进行决策树的分裂。评价最优的分裂结果可能有多种方法,最理想的情况是能找到一个属性刚好能够将不同类别分开,但是实际情况下,只通过一次分裂很难一步到位,但是我们希望每一次分裂之后剩下的节点的数据尽可能清晰,决策树使用信息增益或者基尼值作为选择属性的依据。

信息可以表示属性的分裂前和分裂后的数据复杂度和分裂节点数据复杂度,他们之差作为信息增益的变化情况,信息增益的计算公式如下:

其中,式中Gain表示节点的复杂度,信息数值越大,说明复杂度越高。信息增益分裂后的复杂度减小越多,分类效果越明显。

基尼值也可以表示属性信息变化的基本情况,基尼值计算公式如下:

式子中年Pi表示第i个类的数量占比。如果只有两类的情况下,当两类数量相等时,基尼值等于0.5 ,当节点数据只有一类时,基尼值数值等于0 。这表明,基尼值越大,数据越不纯,越需要分类。决策树构建的基本方法分为三个步骤:

第一步,根据决策树的输出结果,将决策树分為两类,分别是分类树和决策树。分类树输出的结果为具体的类别,而回归树输出的结果是确定的数值。在本课题中,因为要将病人分为患病和不患病两类,所以构建的是分类树。

第二步,决策树的构建算法主要有ID3、C4.5、CART三种,其中ID3和C4.5是分类树,其中ID3是决策树最基本的构建算法,而C4.5是在ID3的基础上进行优化的算法。因此,本文选择C4.5作为基本算法。

第三,对决策树的优化。复杂的决策树可能出现过拟合等情况,可能会出现预测结果不准确的情况,因此要对决策树进行优化,优化的方法主要有两种:一是剪枝;二是组合树。

3.2 随机森林

决策树具有泛化能力弱的缺点,有时候预测结果并不精确,即使有剪枝等方法。一棵树做决策显然比不上多棵树同时做决策,这种方法就是随机森林模型。对于同一批数据,用相同的算法只能产生一棵树,但是Bagging策略可以产生不同的数据集,包含的数据是随机的。Bagging策略全程叫作bootstrap aggregation,假设样本集中含有N个数据点,通过重采样的方法选出N个样本。在抽样的过程中,采用的是有放回的采样的方法,所以总体的样本数据的个数一直是N个。在所有样本上,对这n个样本建立随机树分类器,重复上述采样和构建决策树方法m次,那么就获得了m个分类器。最后根据这m个分类器的投票结果,少数服从多数的原则,最终能决定数据的分类情况。随机森林的一般步骤是:

第一步,对样本进行随机抽样,随机选取n个样本。

第二步,特征的随机:从所有属性中随机选取f个属性,选择最佳分割属性作为节点建立决策树。

第三步,重复以上m次,即建立了m棵决策树分类器。

第四步,这m个形成随机森林,通过每棵树的结果分析,投票表决决定数据分类情况。

4 结果分析

我们采用7∶3的训练集和测试集分配样本数据,根据模型介绍,调试支持决策树和随机森林模型。正确率和召回率是评价模型好坏的重要指标,一般定义如下:正确率为提取出的正确信息条数除以提取出的信息条数 召回率为提取出的正确信息条数除以样本中的信息条数。

模型的正确率越高越好,召回率也越高越好,但事实上这两者在某些情况下是矛盾的。F1值是加权调和平均。当这个结果较高时,说明方法实验有效。在本文中两个模型计算得到的正确率,召回率和F1值,计算时间如表3。

比较分析发现随机森林方法在正确率,召回率,F1值等方面都优于支持向量机方法。因此,可以采用随机森林方法辅助心脏病医疗诊断。

5 结论

人工智能在医疗领域有很大的发展,本文运用决策树和随机森林等模型,分析了人工智能在心脏病诊断上的优点和不足之处,并给出精确度和准确率。根据我们分析的结果,在心脏病患者做出如下建议:一方面,人民自身不吸烟,维持体重指数正常,有时间多体育锻炼达标及饮食健康,减少血糖指数等指标减少罹患心血管疾病的危险因素。另一方面,政府可以普及心血管疾病预防知识。尤其对于心血管疾病的治疗,中国虽然拥有先进的技术,但是预防宣传并不到位,这导致国人对心血管疾病的知识严重不足。进一步,提出相关政策,如鼓励戒烟、推广健康饮食和提倡运动等。可以效仿世界卫生组织,拟定低成本的干预措施来帮助发展中国家预防和控制心血管疾病,如降低暴露在污染的环境中也能促进心血管的健康功能。此外,希望相关医院进一步发展医疗技术,加强对心脏病和其他慢性病患者的醫疗管理,甚至对归家的患者配备了专门设计的数据采集和患者参与系统,实现最佳疾病管理支持。

参考文献

[1]于观贞,刘西洋,张彦春,等.人工智能在临床医学中的应用与思考[J].第二军医大学学报,2018,39(4):358-365.

[2]基于人群搜索-支持向量机的心脏病多生理参数诊断方法研究[D].天津:河北工业大学,2015.

[3]医学知识工程生产线与基于人工神经网络和遗传算法的医学决策支持系统的研究[D].重庆:重庆大学,2003.

[4]高奇琦,吕俊延.智能医疗:人工智能时代对公共卫生的机遇与挑战[J].电子政务,2017,(11):11-19.

[5]方炜炜,杨炳儒,杨君,等.基于隐私保护的决策树模型[J].模式识别与人工智能,2010,23(6):766-771.

[6]刘永春.基于随机森林的乳腺肿瘤诊断研究[J].电视技术,2014,38(15):253-255.

猜你喜欢

随机森林决策树
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
基于改进决策树的故障诊断方法研究
拱坝变形监测预报的随机森林模型及应用
基于决策树的出租车乘客出行目的识别
基于决策树的复杂电网多谐波源监管
基于随机森林算法的B2B客户分级系统的设计
基于多视角特征融合与随机森林的蛋白质结晶预测
基于肺癌CT的决策树模型在肺癌诊断中的应用