APP下载

医用数据挖掘技术研究与应用进展

2009-01-29徐明鹃

科技与生活 2009年22期
关键词:决策树聚类数据挖掘

徐明鹃

摘要随着网络技术和数据库技术的迅速发展,医院信息系统(Hospital Information System,HIS)得到了广泛的应用,数据挖掘技术在医用数据处理和分析中的应用在医院的管理和决策中起着越来越重要的作用。本文介绍医用数据挖掘的方法,为数据挖掘技术在医用数据方面的应用作出了积极探索。

关键词数据挖掘;聚类;决策树;应用

中图分类号TP31文献标识码A文章编号1673-9671-(2009)112-0023-01

0引言

随着网络技术和数据库技术的迅速发展,医院信息系统在我国大中小型医院也得到了广泛应用,这对推动医院信息化建设、促进医院快速发展起到了积极作用。但是随着就诊人数的逐年增加,医院信息系统中积累了大量纷繁复杂的信息大量信息在给人们带来方便的同时也产生了“数据爆炸”的问题。那么,当数据信息积累到一定程度,如何从这些海量的医学数据中找出有价值的知识和规则,再通过这些隐藏的规律为医生疾病的诊断和治疗提供科学决策依据,并帮助管理者发现并创造新的管理决策已经成为医院管理者越来越关心的问题。

1医用数据挖掘方法

医用数据涉及医疗过程和医院活动的全部数据资源,包括临床医疗信息和医院管理信息。医疗信息具有以下特点:

1)隐私性:医用数据涉及患者的隐私问题,包括病情、个人信息等,一旦泄露,可能会使患者的日常生活遭到不可预料的侵扰。

2)多样性:医用数据来源于各种电子病历、化验检查报告和影像资料等,并且包括了医生的个人诊断信息,数据的形式多样,内容丰富。

3)复杂性:医用数据的复杂性源于其组成信息的多样性,且信息具有不确定性和不断变化等因素,在搜集和处理的过程的脱节都可能造成医用数据的不完整性。

4)冗余性:海量的医用数据的存储使得数据库中包含重复、无关紧要、甚至是相互矛盾的记录。

正是医用数据的这些特点,使得医用数据挖掘与普通的数据挖掘所采用的方法有所区别,医用数据挖掘常用的方法如下:

1)关联分析(Association Analysis)

若两个或多个变量的取值之间存在某种规律性,就称为关联(Association)。关联规则(Association rule)是指在同一个事件中出现的不同项的相关性,挖掘的对象一般是事务数据库。关联分析的目的就是用于发现隐藏在大型数据集中令人感兴趣的联系,所发现的联系可以用关联规则或者频繁项集的形式表示。

2)聚类分析(Clustering Analysis)

聚类分析是将一个数据集划分成若干组或类的过程,使得同一个组内的数据对象具有较高的相似度,而不同组中的数据对象则是不相似的。确定是否相似的描述常用各个对象间的距离(如欧氏距离)来表示。聚类分析的方法包括统计方法、机器学习方法、神经网络方法和面向数据库的方法等。

3)分类分析(Classification Analysis)

分类分析的方法是使用分类函数或分类模型进行分类,根据数据的属性将数据分派到不同的组中。即分析数据的各种属性,并找出数据的属性模型,确定哪些数据属于哪些组。分类模型的构造有统计方法、机器学习方法、神经网络方法,其中比较常用的是决策树和神经网络方法。

4)序列模式分析(Sequence Analysis)

序列模式分析是找出频繁出现的模式。序列模式分析和关联分析类似,但其目的是为挖掘出数据间的前后或因果关系。序列模式分析在股票交易、电信记录、天气数据和生产过程等商业交易分析中就显得相当重要。在进行序列模式分析时,同样需要最小支持度和最小可信度作为评价标准。

2医用数据挖掘应用进展

国内数据挖掘技术在医疗卫生领域的应用研究还处于起步阶段。来自中山大学肿瘤防治中心的研究人员通过肿瘤分子信息和数据挖掘方法可以预测早期非小细胞肺癌5年内是否死亡,这一预测的总正确率达到87.2%,该技术一旦成熟,今后每个肺癌病人开刀做完手术后,可借此预测其5年存活情况,而且检测费用远比国外的基因检测便宜;上海同济大学附属医院分析糖尿病患者肌肉组织和脂肪含量与骨密度之间的联系,得出高肌肉和高脂肪含量可以降低患者髋骨骨折的危险性;第四军医大利用数据库和数据挖掘技术建立了恶性血液病数据库分析系统;北京协和医院开展数据挖掘在临床医疗管理上的研究,为医院业务管理等提供支撑,并辅助领导决策;广州南方医院采用数据挖掘查询系统查询医生有否开大处方,病人是否花了不该花的医药费,且病人有望提前治愈出院。

目前,在医用数据的挖掘的应用主要如下:

1)关联分析

关联分析可以用来分析预测手术术后和药物治疗的效果,可以对某种疾病的相关发病因素进行分析以指导患者如何预防该疾病;可以对带病DNA和健康组织的DNA基因序列进行比较,以识别出两类基因的差别,从而得出致病因素;可以对患者的生理参数进行分析,分析各种生理参数之间的关系进而得出有意义预防与治疗方案,如前面提到的上海同济大学附属医院得出高肌肉和高脂肪组织含量可以降低患者髋骨骨折危险性的结论就是通过分析肌肉组织和脂肪组织含量与骨密度之间的关系得出的。

2)聚类分析

聚类分析方法可以对DNA分析、医学影像数据自动分析、多生理参数监护数据分析、中医诊断和方剂的研究、疾病危险因素分析等。

3)分类分析

可以利用分类分析中的决策树方法对医疗的需求进行预测,对医疗资源的利用进行评价,对疾病类型进行分类,确定治疗方案和开药数量等。

4)序列模式分析

应用时间序列预测方法可以对医院药品进、销、存产生的数据进行统计分析;对医院门诊和住院病人量进行预测,可以分析某种疾病发病率的变化趋势,死亡率预测等。

3结束语

数据挖掘技术是一门发展迅速新兴的学科,它的产生与的发展是数据库技术发展自然演化的结果,数据挖掘技术被专家预测可能是继网络技术之后的下一个技术热点。随着医院信息管理的不断发展,数据挖掘技术的应用必将在医院的管理和决策中起着越来越重要的作用。

项目:六安市委托项目(2009LW001)

参考文献

[1]Jiawei Han Micheline Kamber.数据挖掘概念与技术[M].北京:机械工业出版社,2007.

[2]崔雷.医学数据挖掘[M].北京:高等教育出版社,2006.

[3]王徐冬,杨希武.我国HIS的发展及未来趋势[J].医疗卫生装备,2008,2.

[4]李怀庆,张文东.数据挖掘技术在医院信息系统中的应用[J].医疗设备信息,2007,12.

猜你喜欢

决策树聚类数据挖掘
基于模糊聚类和支持向量回归的成绩预测
简述一种基于C4.5的随机决策树集成分类算法设计
基于流形学习的自适应反馈聚类中心确定方法
数据挖掘综述
基于密度的自适应搜索增量聚类法
决策树学习的剪枝方法
软件工程领域中的异常数据挖掘算法
基于R的医学大数据挖掘系统研究
决策树在施工项目管理中的应用
一本面向中高级读者的数据挖掘好书