APP下载

数据挖掘技术在医院信息系统的统计分析与决策中的应用

2010-10-09郭庆谷岩

中国医疗设备 2010年5期
关键词:数据仓库数据挖掘医疗

郭庆,谷岩

广州大学 数学与信息科学学院,广东 广州 510006

数据挖掘技术在医院信息系统的统计分析与决策中的应用

郭庆,谷岩

广州大学 数学与信息科学学院,广东 广州 510006

数据仓库和数据挖掘技术是信息技术领域的新兴技术,而如何应用到医院的信息化建设中是医院信息系统(HIS)面临的问题。建立基于HIS的数据仓库并使用数据挖掘技术,可以将大量源数据有效地转化为有用的知识信息,并服务于决策过程。本文结合医院医疗业务提出了系统实现的解决方案,并给出了基于医院医疗业务数据仓库的体系结构和逻辑模型,以及基于医院医疗业务的数据挖掘技术应用方法。

医院信息系统;数据仓库;数据挖掘;逻辑模型

0 引言

基于联机事务处理(OLTP)的医院信息系统(HIS)经过多年的使用,累积了大量的历史信息,其容量呈几何级数增长,这些信息除了在医院的日常业务中发挥重要作用之外,它还是医院的宝贵财富。如何对大量的历史数据进行深层次地挖掘,通过信息的分类、整理、分析,从中发现医疗业务和经营的内在规律,从而为管理人员的决策提供支持,已成为现代HIS系统的发展目标。因为以病人为中心的HIS系统,除了能协助医院开展高效的医疗服务之外,还能辅助医院发现医疗业务和管理中的深层次的、潜在的问题,并通过问题的解决,不断提高医院的医疗水平和管理水平,实现技术、信息和人的全面集成,提高医院整体水平。基于此,本文将在基于数据仓库的HIS分析与设计的基础上,研究数据挖掘技术在医院信息系统的统计分析与决策中的应用。

1 数据仓库技术

数据仓库是面向主题的、集成的、随时间变化的、非易失性的数据集合,用于支持管理层的决策过程。数据仓库中的数据不是将业务处理系统中的数据简单集合,而是对各种源数据进行抽取、筛选、清理、综合而得到的数据集合。数据仓库中所存储的数据不经常进行更新处理,它主要用于查询和分析[1]。

以主题为导向的数据仓库是围绕着医院的基本实体设计的,如HIS中数据仓库的设计主题可以医疗业务、病人结构、病人流动状况、床位占用率、资金流动等情况考虑,它们都是密切联系的,通过数据仓库的建立,可以有利于实现数据的关系化、规则化,并可提供动态的、多维的数据统计、分析和查询。

2 基于数据仓库的HIS体系结构

为了充分利用信息的使用价值,并挖掘有用信息,建立有效的信息框架,进行信息的规范化、标准化是不可或缺的基础工作。但是,由于HIS是一个综合管理信息系统,医疗信息的结构复杂、数量庞大、应用繁杂,导致数据规范化的工作难度很大,信息的挖掘技术也非常复杂。因此,HIS一方面应在数据支撑方面,通过对数据的集成,建立数据仓库,提供数据准备,使HIS具备一定的决策支持能力,至少应是一个功能完备的、数据全面的信息报告系统;另一方面,通过使用合适的数据挖掘技术产品,构造一个实用的决策支持平台。完整的基于数据仓库的HIS体系结构见图1。

图 1 基于数据仓库的HIS体系结构

3 HIS数据仓库逻辑模型的设计

逻辑模型是对业务进行抽象的工具。它采用面向主题的方法来有效组织来源多样的业务数据,是构建数据仓库的重要基础。由于系统的数据是按照决策分析的主题来组织的,每个主题对应一个宏观的分析领域。因此数据的逻辑模型是多维数据模型,这样可以用多维分析的方法从多角度、多层次对数据进行统计分析[2]。常见的数据模型有:星形模型、雪花模型、星座模型、雪瀑模型等。

在HIS数据仓库逻辑模型的设计中,根据医院的业务特点,我们确定了“医疗业务”、“病人”、“药物”、“处方”、“床位”、“资金”几个主题,在这几个主题中,“医疗业务”主题将其它几个主题有机联系在一起,因此确定“医疗业务”是数据仓库的主题。根据主题集中涉及的数据信息,选择医疗业务、资金流动、床位占用、病人流动为发生事实,并选定与之相关的医疗业务维、病人维、账单维、处方维、药物维、床位维、时间维。HIS数据仓库逻辑模型结构见图2。

图 2 HIS数据仓库逻辑模型结构

4 数据挖掘技术在HIS中的应用

4.1 医学数据挖掘技术

数据挖掘(Data Mining)是一个多学科交叉领域,它融合了数据库技术、人工智能、机器学习、统计学、面向对象方法、信息检索、高性能计算等学科。数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、事先未知的、潜在有用的信息和知识的过程。提取的知识表示为概念、规则、规律、模式等形式[3]。目前主要的数据挖掘方法有统计分析方法、神经网络、机器学习、遗传算法、模糊集法、近似推理等。数据挖掘不一定需要建立在数据仓库的基础上,但基于数据仓库的数据挖掘能简化数据挖掘过程的某些步骤,提高数据挖掘的效率,同时能更好地满足高层战略决策的需求。

用于医学数据挖掘的数据虽然具有一定的特殊性,但仍遵循一般的知识发现过程,用于医学的数据挖掘不仅能对过去的数据进行查询和遍历,并能够找出过去数据之间的潜在联系,从中提取辅助决策的关键性信息。用于医学的数据挖掘的步骤[3]如下:

⑴ 确定挖掘目标 理解医学领域及相关的经验知识,定义需要解决的问题,从用户角度确定医学数据挖掘的目标和结论的评估标准。

⑵ 理解数据 根据数据挖掘的需要,搜索所有与医院对象有关的内容和外部的数据信息,完成数据的初步收集,对原始数据进行抽样分析,列出数据属性。

⑶ 准备数据 由于医学数据的冗余性和多样性特征,需要对原始数据进行审核与整理,并针对各种类型的数据采取相应的数据预处理方法,并根据数据挖掘方法的目标和数据的特征,选择合适的模型,实现数据的转换。

⑷ 数据挖掘 使用合适的数据挖掘算法完成数据分析,这是医学知识发现过程中的一个关键性步骤。实现数据挖掘的方法包括概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤立点分析和偏差分析等。挖掘结果在实际运用中需要反复求证,以检验其合理性。

⑸ 结果分析 对发现的知识进行医学解释,并与最初的研究目标相比较,其结论对使用者来说必须是可理解的。

⑹ 知识同化及应用 将挖掘结果集成到HIS的实际医学过程中,并有计划地实施和控制。

医学数据挖掘的流程见图3。

图 3 基于数据仓库的HIS中数据挖掘的流程

4.2 HIS中的数据挖掘与统计分析功能

运用数据仓库和数据挖掘技术,在源数据库和医院联机事务处理(OLTP)系统的基础上,根据医院管理要求,HIS中的数据挖掘与统计分析功能主要完成医院管理、医疗服务、经济运行等各种统计信息查询,以便及时了解医院资源的规划和配置情况、医疗质量信息及经营状况,最终为医院决策提供第一手信息和科学化根据。具体的功能见图4。

图 4 HIS中的数据挖掘与统计分析功能结构图

4.3 HIS中的数据挖掘与统计分析方法

HIS中的数据挖掘与统计分析功能主要完成医院管理、医疗服务、经济运行等领域的各种统计和决策信息的生成和查询,数据仓库中数据的组织方式为进行这种分析与查询提供了可能,但仅仅依靠数据仓库并不能完成一些复杂的分析与查询,因此,为了完成上述功能,可以采用如下方法:

4.3.1 统计汇总。定期和不定期地对历史数据进行加工汇总。根据统计需要,统计汇总包括单项统计、复合统计。

⑴ 单项统计 医院单项统计主要指标已达几十种,涉及医疗工作数量、工作效率、工作质量、经济活动等方面。主要包括:医疗工作质量分析指标、医院工作效率分析指标等。医院单项统计主要采用描述统计方法,它只对所收集数据某些现象的内容做出统计加工。具体的描述统计主要有:平均数和变异程度、比和率。平均数是描述一组计量资料的集中趋势,也称平均水平。在应用中应根据资料的分布特点选择适当的平均数计算方法。一组计量资料除描述集中趋势外,还应说明其变异程度,也称离散趋势。只有将平均数及变异程度结合才能全面了解资料的分布情况及特点。最常用的变异指标有:方差、标准差和变异系数等。比和率虽然都是由两个相互关联的统计量的比值来表示,但比和率是不同质的两个指标。

⑵ 复合统计 复合统计指标使指标功能得到增强。它可以采用综合法和平均法。复合指标与单项指标相比,具有以下几个特点:① 较单项指标更为全面、更加综合,增强了指标的功能,具有对比分析的作用。如床位利用指数、床位疗效指数等。② 部分复合指标可直接用来评价医院工作,用于不同医院之间及同一医院不同时期的综合比较与分析。如综合指标数、治愈指数、诊断指数等。

4.3.2 统计分析。实现对资料的多导向、多因素、多层次的统计分析。统计分析包括统计描述和统计推断两大部分。统计描述是用统计指标、统计表和统计图描述资料的分析规律及其数量特征;统计推断是以概率论为基础,把数理解析过程作为主要内容的统计方法,它包括总体参数估计和假设检验两个内容。参数估计是用样本统计量估计总体参数所在范围;假设检验是利用样本的实际资料来检验事先对总体某些数量特征所作的假设是否成立。

医院要面临自负盈亏,实现价值补偿和价值增值,以取得最佳的经济效益为保障。医院社会效益和经济效益的评价是建立在大量统计信息基础上的综合指标评价体系,该体系包括:病人主要疾病疗效分析、门诊和住院工作量分析、床位和设备利用率分析、病人负担程度分析、手术情况及手术并发症发生情况工作分析、医疗服务质量分析、职工业绩分析、医院规模分析、医疗管理分析等。

4.3.3 预测和决策。运用现代数学模型和决策方法,提供多方式的预测和决策。面向医院的预测和决策模型主要采用时间序列预测法。该法是将历史数据按时间顺序排列,构成时间序列,并以此为依据,推算现象的未来发展状况和结果。在面向医院的预测过程中,常用的方法有:利用趋势推测法进行预测、利用趋势和季节成分进行预测。利用该方法,可用来预测医院总收入、门诊人次、住院人数等。

4.3.4 数据挖掘。医院数据仓库是一个复杂的数据集,它包括电子病历、医学影像、病理参数、化验结果等数据。因此,需要结合医学信息自身具有的特殊性和复杂性,确定挖掘过程中所需要的技术。

利用聚类分析方法,可以进行医疗费用的分析。采用神经网络模型可以对出院病例的医疗费用进行统计学分析。利用数据关联分析方法,可以对HIS中相关信息进行分析、挖掘,对药物的用量、耐药性、联合用药、疗程、预防用药、用药途径及治疗效果等指标实行自动监控,从而实时、有效地监测药物使用情况。利用决策树分析法可以形成恶意配药训练模型,用此模型在线监测医保人员配药情况,并将监测结果输出给医院药房配药人员,使药房配药人员能够及时发现、制止恶意配药行为的发生。利用CHAID方法,可从病例自动提取诊断规则,以辅助疾病的诊断和研究。采用ARIMA模型、BP神经网络模型、GM(1,1)模型对某些发病率进行预测分析。利用数据挖掘技术中的聚类和孤立点等分析方法分析医生用药的不合理性和其它目的。利用人工神经网络方法可以完成分类、聚类、关联规则挖掘等多种数据挖掘任务,从而能够找出某些药物与疾病发作的关系。Apriori关联分析模型可以作为医生的辅助工具,揭示两种疾病之间的真正关系,利用该算法还可以对医院门诊病人并发症的挖掘。基于粗糙集理论的规则产生模型可以自动发现临床数据库中的正例和反例知识。利用进化算法从任一初始的群体出发,通过随机选择、交叉和变异等过程,使群体进化到搜索空间中越来越好的区域,从而实现对某些症状疾病进行诊断和分类。

5 结束语

随着HIS的不断完善和医院信息的不断积累,如何利用数据挖掘技术构造先进的医疗诊断和管理决策支持系统,这将对提高医院的医疗水平、充分发挥数字化医院的效能具有重要的意义。而HIS充分利用数据挖掘技术和统计方法,从医疗数据和经济数据中挖掘出相关的内在规律,使整个HIS脱离了简单的查询、报表和图形模式,从而对决策支持具有更深层次的作用。

[1] 陈京民,等.数据仓库与数据挖掘技术[M].北京:电子工业出版社,2002.

[2] 王珊,等.数据仓库技术与联机分析处理[M].北京:科学出版社,1998.

[3] 苏新宁,等.数据仓库和数据挖掘[M].北京:清华大学出版社,2006.

[4] Lou Agosta.The Essential Guide to Data Warehousing[M].Upper Saddle River:Prentice-Hall,1999.

[5] William A Giovinazzo.Object-Oriented Data Warehousing Design[M].Upper Saddle River:Prentice-Hall,2000.

[6] 周鸾杰,等.数据挖掘可视化技术与医院管理[J].医疗设备信息,2006(3):23-24.

[7] 吴进军,等.10种系统疾病住院医疗费用的Logistic分析[J].中国医院管理,2000(4):31-32.

[8] 赵应征,等.人工神经网络在药学研究中的应用进展[J].解放军药学学报,2003(6):48-50.

[9] 武森.数据仓库与数据挖掘[M].北京:冶金工业出版社,2003.

[10] 杨海清.数据挖掘技术在医院管理中的应用[J].中华医院管理杂志,2005(7):497-499.

[11] 姜代红.数据挖掘及其在HIS系统中的应用[J].电脑与信息技术,2004(2):55-57.

Research of Implement Solution of Hospital Information System Based on Data Warehouse

GUO Qing, GU Yan
Mathematics and Information college,Guangzhong University,Guangzhou Guangdong 510006, China

TP311.52;TP274

B

10.3969/j.issn.1674-1633.2010.05.022

1674-1633(2010)05-0064-04

2009-08-14

作者邮箱:gy_guyan@yahoo.com.cn

Abstract: Data warehouse and data mining are new technology in information technology. It is a problem that we must face to how to use this technology to Hospital Information System(HIS). If data warehouse and data mining are used in HIS, a lot of source data can be transformed to useful information and the information can be used in the decision process. This paper presents the implement solution of HIS based on data warehouse, the structure and logic of data warehouse.The application method of data mining based on HIS is also discussed.

Key words: HIS;data warehouse; data mining; logic model

猜你喜欢

数据仓库数据挖掘医疗
探讨人工智能与数据挖掘发展趋势
基于数据仓库的数据倾斜解决方案研究
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
基于数据仓库的住房城乡建设信息系统整合研究
探析电力系统调度中数据仓库技术的应用
京张医疗联合的成功之路
我们怎样理解医疗创新
医疗扶贫至关重要
基于数据仓库的数据分析探索与实践
什么是医疗告知