基于决策树的数据挖掘技术在医疗设备成本绩效分析中的应用研究*
2014-03-25南淑萍
南淑萍,张 博,李 力
(1.阜阳师范学院计算机与信息学院,安徽阜阳 236037;2.亳州职业技术学院信息工程系,安徽亳州 236800;3.阜阳市人民医院,安徽阜阳 236037)
基于决策树的数据挖掘技术在医疗设备成本绩效分析中的应用研究*
南淑萍1,张 博2,李 力3
(1.阜阳师范学院计算机与信息学院,安徽阜阳 236037;2.亳州职业技术学院信息工程系,安徽亳州 236800;3.阜阳市人民医院,安徽阜阳 236037)
近年来,医院信息系统(HIS)在医院得到广泛普及和应用,医疗设备的使用率和效益都得到了很大提高.但目前在HIS中病人信息管理模块和医疗设备管理模块两者是相互分离的,不能够很好的对医疗设备购置前的可行性论证提供决策支持,对设备投入使用后的效益分析也不太精确.探讨了如何利用决策树算法,对医疗设备数据进行数据挖掘,从而实现对医疗设备从购置前的论证到淘汰报废全过程的决策分析,提高医疗设备的社会效益和经济效益.
HIS;决策树;绩效;数据挖掘
随着信息技术的快速发展,医院信息系统(HIS)得到广泛应用,医院的经济效益和社会效益都得到了很大提高.但目前在HIS中,病人信息管理模块和医疗设备管理模块两者是相互分离的,从而制约了对医疗设备的高效管理.如何通过分析医疗设备的信息,找到其中隐含的有价值规律,为设备的购置和使用提供科学决策,提高整体医疗卫生部门的服务水平,已成为各级卫生部门关注的重点.
数据挖掘技术目前己成为数据库应用的重要研究方向,受到国内外计算机界的关注,在经济、工业和消费等多个领域都得到了广泛的应用.使用数据挖掘技术,对医疗设备的绩效应用进行深入研究,对于提高医疗单位的整体水平,具有重要意义.
1 数据挖掘技术
数据挖掘就是从庞大的数据库中,使用相应的算法,筛选出人们感兴趣的知识,这些知识中包含着潜在的有价值的信息,提取的表现形式有概念、规则、规律、模式等[1].数据挖掘的过程也称为知识发现(knowledge discovery in database,KDD)过程.
由于信息技术的发展,各类数据库的容量不断膨胀.数据量的增大带来了新的问题,缺乏有效的分析工具,找出数据中潜在的有价值的信息,靠传统的分析数据的方法已经无法实现.利用数据挖掘工具进行数据分析,可以从大量数据中发现重要的规则,找出潜在有价值的知识,对工业决策、科学研究、教育等领域的研究都具有重要意义.
数据挖掘的分析方法可以分为两类:直接数据挖掘和间接数据挖掘.直接数据挖掘的目标是采用现有的数据建立一个模型,再用这个模型对其他数据进行描述[2].间接数据挖掘的目标中没有选出某一具体的变量,而是在所有的变量中建立起某种关系.
数据挖掘过程共分为8个处理阶段,这8个处理阶段分别是数据筛选、数据预处理、处理冗余数据、建立模型、实现算法、数据挖掘、结果检验和挖掘应用.数据挖掘常用的方法有统计方法、关联规则、聚类分析、决策树方法、神经网络、遗传算法和粗糙集等.
通过数据挖掘技术,用户可以从大量数据中获得有价值的信息,同时将挖掘结果应用于决策、过程控制、信息管理等[3].因此,数据挖掘技术已经成为数据库研究的重要方向.
2 国内外研究现状
在医院信息系统(HIS)中,如何针对医疗需求优化设备使用率、改进设备引进率、提高设备治疗效果等,都需要对医院现有的设备运作情况进行详细统计分析[4].要根据医疗设备的用途和性质,做好使用率、维修率、设备周期等绩效数据的统计和分析工作.医疗设备成本的绩效分析,是医院现代化管理水平的重要标志.
经过多年的发展,国内外很多高校和研究所都开展了数据挖掘技术在医疗卫生方面的应用,取得了很好的成果.
(1)由于数据挖掘技术在国外发展比较早,在医学领域的数据挖掘方面,国外学术界取得了很多成果.
1)美国GTRI研究所基于数据挖掘技术开发的乳腺癌症研究系统,已经投入到医疗诊断的实际应用中,取得了较好的诊疗效果.
2)美国芝加哥大学Don R.Swanson教授提出“基于非相关文献发现”的方法,从医学数据库中挖掘出两类规则:“食用鱼油对雷诺病患者有益”和“周期性偏头痛与镁缺乏之间存在联系”.
3)基于粗糙集理论的规则产生模型可以自动发现临床数据库中的正例和反例.
4)决策树在自动诊断心脏SPECT影像的研究和诊断心肌灌注的知识发现系统中也有很好的应用.
5)挪威科技大学、挪威肿瘤医院和瑞典Linklping大学合作与2001年开发基因文献网络系统,从医学文摘中自动抽取基因之间的关系网络.
(2)国内在医学领域的数据挖掘方面也取得了很大的进步.
1)吉林大学计算机系从2006年开始,借助数据挖掘技术,开发计算机智能辅助医学诊断专家系统,取得了较好的效果.
2)上海交通大学生物医学工程系运用ID3据测试算法对乳腺疾病的图像进行数据挖掘,得到了很高的准确率.
3)广州医学院第二附属医院和中国科技大学计算机科学工程系使用数据挖掘技术对胸片影像进行分析,通过决策树和神经网络等挖掘方法,提高了准确率.
4)天津大学和天津总医院合作对3022例糖尿病病例进行分析,使用决策树分类方法对医疗数据进行分类,对糖尿病的并发症取得了较好的预测效果.
利用数据挖掘技术对医疗设备成本绩效分析的工作已受到医疗单位的广泛重视,并且提到议事日程上来,并获得一些初步的效果.但是目前建立的医疗信息数据库,只能提供检索和统计的服务,而没有对隐含在数据中的大量隐藏信息进行有效的利用[5].将数据挖掘技术应用在医疗设备的成本绩效分析中,为探讨如何发挥医疗设备的更大效益,提供了新的思路和方法.
3 决策树算法在医疗设备成本绩效分析中的应用
随着我国医疗的水平的提高,医院投入的现代化医疗设备比例不断提高,从而为提高医疗诊断效果提供了很好的技术保证.如何更合理地安排设备购买计划,提高设备的利用率,直接关系到医院的发展水平.成本绩效分析中的关键问题是“有效化”,要以最小的投入获取最大产出,降低各方面的消耗来实现更好的效益,从而提高医院对病人的诊治效果和服务水平.建立医疗设备的成本效益观念,进一步做好相关的数据挖掘工作,对医疗机构提高自身竞争力、改善医疗机构服务社会的水平,都是一个重要的研究课题.
数据挖掘技术是目前数据库研究领域的重要方向之一,在社会的各个领域都具备较好的应用基础,并取得了显著的社会及经济效益.决策树算法是数据挖掘中的常用算法.算法的原理是通过构造决策树来实现数据中隐含的规则,如何构建适度的决策树是整个算法的关键环节.首先第一步由样本数据生成决策树,样本数据的来源是经过数据分析处理后的结果.第二步是决策树的剪枝,这个工作是对第一步中的决策树进行校验和修正的过程,使用决策树生成过程中的规则,对决策树中影响整体准确性的分枝进行剔除.决策树算法具有数据分析精准、模型建立简便、对冗余数据的处理具有健壮性等优点,是目前应用最为广泛的归纳算法之一[6].比较有名的决策树算法有ID3算法、ID4算法、IDSR算法、C4.5算法.
本文对医疗设备成本绩效的数据挖掘模式和算法集成进行深入研究,并将其应用于基于数据挖掘技术的医疗设备成本绩效的研究中,探讨对医疗设备从购置前的可行性论证到淘汰报废全过程进行决策分析.
卫生部《医院管理评价指南(试行)》,要求医疗机构购置大型医疗设备必须经过严格的可行性论证,同时加强大中型医疗设备合理应用成本分析,而在医疗设备在购置前,就对其投入购置后的使用效果进行预测.
以往对医疗设备的绩效进行预测,凭经验来估算,误差相对较大.例如,某医院在购置一台磁共振的可行性论证中,预测平均40人次/天,则一年的收益为40人次*400元* 365天=584万元;如预测平均30人次/天,则一年的收益为30人次*400元*365=438万元,两者相差146万元.
使用决策树算法,是分析医疗设备成本绩效中隐含的决策信息的很好研究方法.由于各个医疗机构在医疗设备采购和管理的差异,使得在面临医疗设备效益、购置风险等相互制约的管理难题时,不能够针对性地提出适合本单位的决策方案.将决策树算法用于医疗设备成本绩效分析中,对医疗设备在购置前进行绩效预测,为实现对其使用效益进行准确评价,需要将研究重点放在以下几个方面:
(1)对传统决策树算法进行改进,提出一种针对医务信息系统(HIS)中大规模高维度数据的优化决策树算法.该算法针对医疗信息系统的特点,重点对数据的离散化、降维处理、决策树属性选择三方面进行改进,使用多层解析的策略将决策树的多分类问题转化为多个二分类问题,并且在转换过程中进行离散化,从而避免了多分类问题整体离散化带来的计算量过大的缺点,很好解决了处理高维度数据库的效率和精度之间的问题[7],在降低计算负担的同时,提高了决策树的分类精度.
随着医疗信息系统的快速发展及医疗机构规模的不断扩大,医疗数据呈现出不断增长的趋势,突出表现为对大容量高维度医疗数据的处理问题.大规模数据的离散化需要达到较好的效果:1)避免或减少数据的信息损失;2)离散区间数尽量减少;3)离散化方法简单有效,易于实现[8].为达到以上效果,本课题在进行数据离散化处理的时候,提出一种基于边界点属性值合并的离散化方法,改变多次遍历寻求边界点的过程,大大节省运算过程.
(2)为采购医疗设备的可行性论证提供了一种比较准确的量化指标评价体系,针对医疗机构的经济因素、政策性因素、管理者水平、行业因素等影响到医疗设备采购和使用的关键因素,建立指标评价体系,有效提高医疗设备可行性论证阶段的预测效果.
(3)对医疗设备数据挖掘中的数据预处理进行深入探讨,设计并构建医疗设备数据仓库,为开展医疗设备成本与效益的分析奠定了良好的基础.通过构建数据仓库,改变目前医院信息系统(HIS)中各部门之间信息交流不通畅的情况,对医疗设备运行过程中的使用率、维修率、设备周期率等多方面的数据进行深层次加工,达到对医疗设备数据进行预处理的目标.
数据转换主要是对数据进行规格化操作.在正式对医疗设备信息进行数据转换之前,尤其是在使用决策树分类算法和K-最近邻分类算法等,必须进行数据规格化[9],也就是将其转化为可操作信息,并将数据范围进一步缩小.医疗设备数据本身具有相当丰富的信息,包括医疗设备的功能、适用病症、诊断率等方面,但医院信息系统(HIS)中对医疗设备信息的统计比较分散独立.为了使医疗设备绩效分析更为准确,将以上信息转换为数字化形式.
4 总结
医疗设备成本绩效分析与预测是医院管理工作的重点,是发挥医疗设备效益的关键所在,但也是医院信息系统研究的难点所在,在国内学术界的发展还刚刚开始.在总体研究思路上,将决策树算法进行改进,同时针对医疗信息系统的特点,结合医疗设备的使用率、、故障率、回收率等多方面因素,对医疗设备的绩效数据进行深层次挖掘.应用数据挖掘技术构建医疗设备绩效预测模型,在医疗设备购置前,就对其投入使用后的效果进行比较准确地预测,并通过建立医疗设备数据仓库,为开展医疗设备应用成本分析奠定良好的基础.
[1]尹军.对医院大型医疗设备管理的思考[J].重庆医学,2008,(20):14-16.
[2]戚凤燕.医疗设备成本核算和成本控制方案的探讨[J].中国医疗设备,2008,(5):83-85.
[3]于忠江,张颖.大型医疗设备购置的科学决策[J].医疗卫生装备,2005,(9):149.
[4]丘奂阳.医疗设备绩效统计分析探讨[J].中国医学装备,2006,(11):51-52.
[5]王胜.基于决策树ID3算法研究与实现[J].齐齐哈尔大学学报,2012,(3):64-68.
[6]杨静,张楠男.决策树算法的研究与应用[J].计算机技术与发展,2010,(2):114-116.
[7]陈章良.基于数据挖掘的预测决策模型应用与研究[J].中国管理信息化,2009,(1):57-59.
[8]陈雪娇,任燕.基于决策树与相异度的离群数据挖掘方法[J].微计算机信息,2009,(21):131-132.
[9]杨宏伟,赵明华.基于层次分解的决策树[J].计算机工程与应用,2003,(23):108-110.
(责任编校:晴川)
App lied Research on Data-m ining Technology in Performance Analysis of the Cost for M edical Equipment Based on the Decision Tree
NAN Shuping1,ZHANG Bo2,LILi3
(1.College of Computer and Information,Fuyang Teachers College,Fuyang Anhui236037,China;2.Department of Information Engineering,Bozhou Vocational and Technical College,Bozhou Anhui236800,China;3.Fuyang City People’s Hospital,Fuyang Anhui236037,China)
In recent years,hospital information system(HIS)has been widely spread in hospitals,and the utilization and efficiency of medical equipment have been greatly improved.But in HIS,themanagementmodule of patient information and managementmodule of medical equipment are separated from each other,which cannotprovide pre-feasibility decision support for the purchase ofmedical equipment,and the after-benefit analysis of equipment put into use is not very accurate.This article discusses how to use the decision tree algorithm for data-mining with the data ofmedical device,enabling the realization of the decision analysis of the whole process from pre-feasibility study of purchasingmedical equipment to eliminating scrap,and improve social and economic benefits ofmedical equipment.
HIS;decision tree;performance;data-mining
TP315
A
1008-4681(2014)05-0064-03
2014-06-29
2013年安徽省教育厅自然科学研究项目(批准号:KJ2013Z261).
南淑萍(1978-),女,安徽亳州人,阜阳师范学院计算机与信息学院讲师,硕士,研究方向:数据挖掘、软件中间件.