数据仓库技术在医院HIS系统中的应用
2009-01-06翟油华
翟油华
[摘 要]医院信息系统(HIS)的建立,为医疗单位提供了大量的基础数据。但在较小影响在线运行数据库的前提下,如何为管理决策提供足够信息,成为一个日益突出的问题。在大量医疗数据中进行有效分析,了解医疗业务的发展情况,就要充分利用数据仓库技术来进行数据组织、存储和分析。本文以对出院病人情况分析的主题为例,简单说明了数据仓库在医院信息系统中的应用。
[关键词]数据仓库 医院信息系统 数据挖掘
[中图分类号]TP311[文献标识码]A[文章编号]1007-9416(2009)11-0059-02
目前, 随着医疗信息技术的发展,大部分医院已广泛使用医院信息管理系统。由于该系统大部分都是事务处理型的,数据的组织和存储均是围绕事务处理进行的,这样的数据组织方式不利于大量的数据分析和处理,难以提供有效的决策支持信息。随着数据库技术的发展,出现了以支持决策为目的的数据仓库技术。本文对此进行了讨论。
1 数据仓库简介
1.1 数据仓库的特点
数据仓库之父 W.H.Inmon 定义数据仓库是面向主题的、集成的、非易失的、并且随时间变化的数据集合, 并用来支持管理人员的决策。所谓主题就是在较高的层次上将信息系统中的数据综合、归类, 并进行分析利用。集成是指对不同来源的数据进行清理和归整后, 以面向主题的数据结构统一收集。非易失性则是指一般情况下不能对数据仓库的数据进行修改。时间性变化是指不断捕捉信息系统中的新数据加入到数据仓库中。
1.2 数据仓库的结构
数据仓库的总体层次结构由基本功能层、管理层和环境支持层三部分组成。①基本功能层:包括从数据源抽取数据,对所抽取的数据进行筛选、清理,将清理后的数据加载到数据仓库中,根据用户的需求完成数据仓库的复杂查询、决策分析和知识的挖掘等功能;②管理层:包含数据管理与元数据管理两部分,主要负责对数据仓库中数据的抽取、清理、加载、更新和刷新等操作进行管理。只要使这些操作正常完成,才能源源不断地为数据仓库提供新的数据源,为使用者正确利用数据仓库进行决策分析和知识挖掘;③环境支持层: 主要包含数据传输和数据仓库基础两大部份。包括网络协议、网络操作系统、数据存贮系统等。
1.3 数据仓库的设计过程
数据仓库是一个循环往复的过程,通常涉及数据的选择、变换、建模、评估、解释模型、运用和巩固模型等步骤。(数据仓库设计的基本过程如下图所示)。
2 在医院信息决策系统中的应用
在医院信息系统中,存储动态增长迅速的明细表主要有门诊收费信息、住院收费信息、医嘱信息、各种药品或物资的进出库明细等。这些信息可以是以病种、病人来源、治疗方案、诊治费用、采购计划等为主题,来分析不同病种、发展趋势、治疗方法及治疗效果、诊治费用等等,以支持医院内部控制和决策管理。有些流行病学的数据,也可利用数据仓库进行主题研究。将医院信息系统中的各部分应用集成在一起是一个复杂的工作,需要建立一个综合的体系结构,这需要建立一个信息中心管理数据仓库。以住院系统中出院病人情况为主题,并以 Microsoft Analysis Services为工具,简要说明一下数据仓库在医院信息系统中的应用过程。数据仓库的设计过程示意图(见图1)
2.1 确定主题
数据仓库的所有数据是围绕某一主题而进行组织和展开的,是在一个较高管理层次上对信息系统中的数据,按照某一具体的管理对象进行综合、归类而形成的分析对象。本文中,笔者研究的主题是对出院病人进行分析, 分析的内容为人数和费用。确定主题的过程, 就是确定事实表中所需数据的过程。
2.2 确定变化因素
变化因素是分析者认为可能对研究主题产生有意义影响的因素。变化因素的分析是数据仓库建立的重要环节,在数据仓库中, 也就是维度表的设计。这不仅要确定分析因素的内容,还要对分析因素进行粒度分析。所谓粒度分析,就是确定对因素的划分程度。粒度的划分,取决于问题的需要、原始数据的形态及设备的处理能力。本例中,对出院病人分析条件有:性别、年龄、住址、费用类别(公费、自费等) 、病种、转归、手术类别、住院天数、入院时间、出院时间等。其中,性别的粒度只有一层: 男、女和未定; 费用类别的粒度有两层:第一层分完全自费和不完全自费, 第二层中不完全自费再分为各种比例付费方式; 住址的粒度有五层:第一层是国家,第二层是我国的大地区(如中南地区、东北地区等),第三层是省或直辖市及地区,第四层是县市,第五层是本市的行政区。
2.3 建立中间数据库
中间数据库是事务数据库与数据仓库数据库的桥梁。中间数据库中应包含净化整理后的事实表和维度表。事实表由事务数据中相关的表, 经过获取、过滤、转换、清理、合并,将所关心的数据重新整理而得来的。用 SQLServer 2005企业管理器,建 立 一 个 数 据 库 实 例DW_mid。在其中建立相应所需的表。本例的事实表, 包括出院病人的ID号码( 住院号)、姓名、性别、年龄、住址、费用类别、病种、转归、手术类别、住院天数、入院时间、出院时间、出院科室、病案等级、分类费用及总费用等。这些数据可从事务数据库的备份文件,经整理而得。事实表具体设计见表1:事实表。
2.4 建立数据仓库数据库
根据主题要求, 运用建库工具, 建立数据仓库。运用 Microsoft Analysis Services 建立数据仓库的主要步骤如下:
2.4.1 建立与分析服务器与中间数据库的联接
在分析器管理工具中新建一个数据库 original,并对数据源进行配置(连接 DW_mid),测试连接成功后即可使用。
2.4.2 创建多维数据集
创建数据仓库的最终目的是要从大量的数据中寻找出可以用于决策的数据, 而多维数据集提供一种便于使用的查询数据机制,不但快捷,而且响应时间一致。最终用户可以使用客户端应用程序,连接到分析管理器, 并查询该服务器上的多维数据集。
(1)创建维度。维度是多维数据集的一种结构特性,是描述事实数据表中数据类别( 级别) 的有组织的层次结构。
维度表中,各标准维度表(非时间维度) 一般要根据数据特点和分析需要来建立。如性别、地址、费用类别等,这有些类似于事务数据库中的字典表。时间维度表可选择系统提供的,本例选的是年、季、月、日型的时间维度表。
Microsoft Analysis Services 中, 维度的建立可以用向导工具方便实现。
(2)维度是创建多维数据集所必需的条件,创建多维数据集是对数据仓库进行数据分析和挖掘的前提。有时候,多维数据集也称为立方体。
多维数据集中,要从数据源中选择事实数据表,并从中选择用于定义度量值的数字列;再从已建立的维度中,选择适用于本事实数据表的维度, 由此建立多维数据集。
Microsoft Anal-ysis Services 中,多维数据集的建立也可以用向导工具方便实现。
3 建立数据仓库的思考
在医院数据仓库的建设过程中, 需要解决以下若干问题:
3.1 设计数据提取模式, 建立数据模型
要解决提取什么数据和如何整合编排数据的问题。例如, 对“院内感染监测指导系统”主题进行模式划分, 确定从各个系统中所要抽取的表, 并确定表的关系模式。与院内感染密切相关的项目主要包括体温的变化、医嘱的变化、病人诊断上的变化、检验、检查结果的变化等。由此可以定义分析维度和分析度量。分析维度包括: 科室、病种、住院第几天、住院总天数、体温、诊断、检验项目、检验结果、医嘱等; 分析度量包括: 数量、对比值等。
3.2 数据的格式化问题
医院的医疗信息系统是各类型数据的集合, 部分数据类型并不适用于建立数据库。根据数据仓库的特点, 解决数据的规范化和格式化问题是建立医院数据仓库的一个首要问题。在数据采集时采取格式化录入, 是解决这个问题的有效方法, 但目前的 HIS、PACS 还有相当多的信息录入没有固定格式。另外, 自由格式医疗文档以及图像、图表的信息如何运用在数据仓库中也是需要解决的难题。
3.3 结合临床实施需求, 实现临床数据仓库的有效运用
通过广泛收集临床一线医务人员对诊疗信息的需求,建立面向临床实际的数据仓库的应用模式,充分发挥临床数据仓库在提高诊疗质量,为病人提供优质服务的作用。
4 结语
应用数据仓库技术后,查询分析系统的面貌将焕然一新,不仅便于领导从众多复杂的数据中及时、方便地获取有价值的信息, 把握医院动态,了解医院需求,加强宏观管理,辅助决策分析,同时也便于专业分析人员快速、准确地进行信息处理和预测分析,这对促进医院持续、快速、健康地发展都具有很强的现实和战略意义。
[参考文献]
[1] 陈京民.数据仓库与数据挖掘技术[M].北京:电子工业出版社,2002.
[2] 马应章.数据仓库的概念、技术及应用[J].中国计算机用户,2003,4.
[3] 康博创作室.SQLServer 2000 数据仓库设计和使用指南[M].清华大学出版社,2001.