医疗数据仓库的研究
2011-10-09赵云丘文峰郭扬帆尚文刚
赵云,丘文峰,郭扬帆,尚文刚
1.广东医学院 信息工程教研室, 广东 东莞523808;2.广东医学院附属医院 信息技术部,广东 湛江 524023;3.广东东莞塘厦医院 信息中心,广东 东莞 523710
医疗数据仓库的研究
赵云1,丘文峰1,郭扬帆2,尚文刚3
1.广东医学院 信息工程教研室, 广东 东莞523808;2.广东医学院附属医院 信息技术部,广东 湛江 524023;3.广东东莞塘厦医院 信息中心,广东 东莞 523710
按照数据仓库生命周期的规律,依托我院现有的HIS系统,以医疗费用为主题构建医疗数据仓库。本文从建库的业务需求获取、数据模型的建立及数据仓库系统的实现等方面,介绍了建库的方法和步骤。该方法对其他医院建立数据仓库也有借鉴作用。
HIS;医疗数据仓库;数据维度;医疗费
从20世纪80年代开始,随着关系型数据库技术的快速发展,以关系型数据为基础,建立了大量基于联机事务处理的业务系统,累计了大量数据。当联机事务处理系统应用到一定阶段的时候,如何有效地将收集到的数据转化为信息而为管理者进行决策服务,是企业获得市场竞争优势首要考虑的问题。20世纪90年代以后,数据仓库技术应运而生,数据仓库以传统的数据库技术作为存储数据和管理资源的基本手段,以统计分析作为分析数据和提取信息的有效手段。目前,国内的数据仓库技术主要应用在证券、金融、电信等行业中,在医疗行业中的应用才刚刚起步。由于医疗技术具有很强的实践性、实验性、统计性,同时医院管理也是一门复杂的管理学科,因此,探索数据仓库技术在医学信息方面的应用就具有更重要的实用价值和广阔的发展前景。
1 数据仓库的定义
在数据仓库的发展过程中,许多人对此做出了贡献。1993年William H.Inmon所写的论著 《Building the Data Warehouse》系统地阐述了关于数据仓库的思想。在文中他将数据仓库定义为:“一个面向主题的、集成的、随时间变化的、反映历史变化的数据集合,用于支持管理层的决策过程。”
整个数据仓库生命周期的实施过程如图1所示:该图阐明了在有效地设计、开发和部署数据仓库时所必需的一系列高级任务。该图显示了整个项目的实施路径,图中的每个方框所作的处理都是数据仓库项目建设过程中的路标或者指示标记。
图1 数据仓库生命周期法示意图
目前HIS系统广泛地应用于各大中型医疗机构,医院的各部门业务开展都可以通过各自的业务系统完成。病人从入院到出院期间的各诊断治疗环节的医疗、护理等信息资源都能得到高度共享。我校附属三甲医院的HIS系统经过多年的运行,积累了丰富的信息资源,已经具备建立医院数据仓库的条件。本文从医院决策的需求出发,依托现有的HIS系统,以医疗费用为主题构建医疗数据仓库。
2 医疗数据仓库业务需求分析
了全院各科室的医疗收入情况,据此可以评价各科室的工作情况,评估收入分配指标,以便制定合理的医疗设备配置方案。本文以医疗费用数据集市的构建作为研究对象,其主题域包括门诊费用、住院费用、医疗费用构成等业务主题。
2.1 数据仓库需求定义的方法
在医疗数据仓库项目的规划阶段,根据业务需求界定项目的范围和优先级,并提供合理性证明以及进行详细的项目规划。
业务需求位于“数据仓库生命周期图”的中心,几乎影响到数据仓库实施过程中所做出的全部决策,数据仓库的项目范围一定是由“业务需求”驱动的。传统的数据仓库系统的设计采用“数据驱动”,从原有系统已经存在的数据开始,获取数据后,对数据进行集成并检查数据的准确性,按照分析领域对数据及数据之间的联系重新考察,组织数据仓库中的主题。这种方法没有独立的收集需求和分析需求的阶段,而是将需求分析的过程贯穿在整个的设计过程中,虽然具有最大利用现有系统,减少系统建设工作量的优势,但是不能代替用户的介入。医疗数据仓库的建立需要将HIS中分散的业务数据集成在一起,为决策者提供各种类型的数据分析。HIS中对决策有帮助的数据,关键是利用“业务需求”驱动法里的整体法来确定的。
2.2 医疗数据仓库主题域的分析
医疗数据仓库根据决策的需要可面向多种主题,利用“业务需求”驱动法,根据决策的需要在分析原有OLAP系统产生数据的同时收集相关信息进行主题域的分析。分析的过程中要注意:主题模糊或不准确会影响后期决策分析效率。比如,若把病人作为主题会难以确定其属性和维度。病人这个主题对于医院决策来说过于泛化,必须将其细化到更具体的业务主题上。医院数据仓库建设的首要目标是进行主题域的分析,根据主题域,确定系统实现的业务主题。表1给出了建立医疗数据仓库涉及到的主要主题域。
表1 医疗数据仓库的业务主题分析
目前国内大部分医院建立数据仓库的主要目的是为进行医疗费用分析。医院领导需要掌握医疗费用的分布情况,药费占整个医疗费用的比例以及大型医疗设备的利用率,以便控制不合理的费用增长;针对不同类型的患者调整费用项目和收费标准,从而达到提高服务质量、优化医院经营管理环境的目的。此外,医疗费用也从另一个方面反映
3 医疗数据仓库数据模型的设计
根据业务需求确定主题之后,首先考虑原有HIS系统产生的源数据,再执行数据的审计,为提供决策支持的数据建立模型。数据模型是实现数据仓库的基础,数据的逻辑模型、物理模型设计,规划了数据提取和数据转换的步骤。
3.1 维度建模
维度建模是一种逻辑设计技术,它的基本思想几乎是所有业务数据都可以表示成某种数据立方体。该立方体的每一个单元格包含的是各种测度值,立方体的边定义数据维度。
通常4步骤进行维度的建模:① 选取要建立的业务处理过程;② 定义业务处理的粒度;③ 选定用于每个事实表的维度;④ 确定用于形成每个事实表行的数字型事实。
本文选择医疗费用作为实施的业务主题,利用星型模式对医疗费用分析进行模型设计。采用星型模型、维度表直接与事实表相连,避免了维度的级别被分散在若干个表中,优化了数据仓库的查询响应时间,提高了查询性能。图2为住院病人费用业务主题的星型模型图。图中选取的业务处理过程为住院费用,业务处理的粒度如3.2节所介绍,根据对分析角度的需要选择了住院科室、费用科目等为事实表的维度,从药品费用、治疗效果等得到所需的维度量值。
图2 住院费用主题星型架构
3.2 粒度
粒度问题是设计数据仓库的一个最重要方面。粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别,细化程度越高,粒度就越小。低级别的粒度在对未预料的新查询方面的响应能力要比高粒度好得多。数据的粒度是一个设计问题,它深深地影响存放在数据仓库中的数据量的大小,同时影响数据仓库所能回答的查询类型。粒度的划分要根据业务需求而定,在数据仓库中的数据量大小与查询的详细程度之间做权衡。首先,估算数据仓库中数据的行数和DASD(Direct Access Storage Device)数;其次,由估算出的数据量和DASD数,确定是采用单一粒度还是多重粒度,以及粒度划分的层次。我校附属医院全年平均住院3,1000人次,目前医疗费用详细分类有65项。考虑到并不是所有患者住院期间都会发生全部各类医疗费用,通过估算一年产生关于医疗费用方面的数据大约为100万行以上,系统应该采用多重粒度划分。具体策略如图3所示。
图3 数据粒度划分策略
3.3 物理模型
物理模型的设计需要将逻辑模型的设计转换为物理数据库,通常遵循以下的过程:首先制定命名标准、数据库标准和安全策略,然后创建物理模型,包括确定初始的数据库空间大小及其增长速度同时制定聚集计划。聚集计划是物理模型中的关键部分,对数据仓库的性能影响非常大。一旦确定了表的内容,就可以确定初步的索引策略,创建数据库的实例,最后规划物理模型的细节情况。数据分割是物理设计的一个重要问题,指把数据分散到各自的物理单元中去,它们能独立地处理,分割可以大大提高数据仓库的性能和可维护性。一般关系数据库都支持分割表的。在医疗数据仓库中,我们对费用科目维度表按时间(月、季度、年)进行分割,分割后的数据保存到单独的分割表中。这种维度分割方法减轻了数据仓库的维护负担。
4 数据转储的实现
使用Microsoft SQL Server2000数据库仓库组件中提供的DTS(数据传输服务),将各种异构数据源合理的合并在一起,同时使用ActiveX脚本处理在数据传输过程中完成的验证、清洗和转换操作。利用SQL Server Agent可以调度DTS包的执行,实现自动、定期地进行数据传输。
5 系统的实现
建立了医疗费用数据仓库,用户访问数据仓库不是简单的存取和记录查询。基于多维数据集的OLAP是将数据想象成多维的立方体,通过对多维数据集进行切片、切块、聚合、钻取、旋转等进行数据的剖析,使用户从多种维度、多个侧面或多种数据综合查看数据,掌握数据背后蕴含的规律。使用Microsoft SQL Server2000中Analysis Services创建数据集,利用MDX可从指定的多维数据集中取得报表或表达式的计算值,MDX是OLAP与外界交互的专用语言。系统实现的功能:① 医院各科室经营成本效益分析。通过时间维对科室不同时期的各种费用进行分析,找出收入增加或者减少的原因,对科室工作效率、经济效率、综合管理等方面的多项指标进行评价;② 治疗结果的统计分析。根据统计分析数据,可以对病人的治愈率、死亡率、危重症抢救成功率等诊断指标进行分析;③ 各病种医疗费用分析和单病种费用构成分析。从科室角度对各病种医疗费用进行分析,有针对地控制费用比例,探究费用项目结构的合理性;也可从住院天数、病情、治疗方案等方面对单病种的治疗费用进行分析。④ 医院收入的相关因素分析。通过分析找出各种影响医疗收入的主要因素。
6 结束语
数据仓库作为一个新兴的研究领域,其建设技术具有很大的复杂性,仍有许多领域需要深入的研究。建立数据仓库系统是一个不断更新的、长时间的积累过程,用户可以随着应用水平的提高逐步加入更多的复杂的数据,为决策层分析医院指标体系提供详实的数据。
[1]王丽珍,周丽华,等.数据仓库与数据挖掘原理及应用[M].北京:科学出版社,2005.
[2]Ralph Kimball.数据仓库工具箱:维度建模的完全指南[M].谭明金,译.北京:电子工业出版社,2003.
[3]Ralph Kimball,等.数据仓库生命周期工具箱:设计、开发和部署数据仓库的专家方法[M].肖明,王永红,等,译.北京:电子工业出版社,2004.
[4]Efrem G Mallach.决策支持与数据仓库系统[M].李昭智,译.北京:电子工业出版社,2001:282-283.
[5]王克龙等.数据仓库中ETL技术的探讨与实践[J].计算机应用与软件,2005, 22(11):75-78.
[6]林向阳,高展.数据建模在数据仓库中的应用[J].微计算机信息,2010,(26):183-185.
[7]Carter C L,Hamilton H J..Efficient_Oriented Generalization Knowledge Discovery from Large Databases[J].IEEE Transations on Knowledge and Data Engineering, 2003,10(2):193-208.
[8]岳增军,等.病人流向分析与监控系统设计与实现[J].中国医疗设备,2009,24(10):48-49.
Research of Hospital Data Warehouse
ZHAO Yun1, QIU Wen-feng1,GUO Yang-fan2, SHANG Wen-gang3
1.Information Engineering Teaching and Research Section, Guangdong Medical College, Dongguan Guangdong 523808,China;2.Information Technology Department, Affiliated Hospital of Guangdong Medical College, Zhanjiang Guangdong 524023,China; 3. Information Center, Tangxia Hospital,Dongguan Guangdong 523710, China
TP311.13
B
10.3969/j.issn.1674-1633.2011.03.012
1674-1633(2011)03-0034-03
2010-09-26
2010-11-03
湛江市科技攻关项目(2010C3111014)。
本文作者:赵云,硕士,讲师。
作者邮箱:zyun@gdmc.edu.cn
Abstract:Started with data circle of data warehouse life-cycle and combined with hospital data warehouse,we give some examples of hospital expense data. In this paper, the system demand obtains,data model builds, the system of ETL design and data warehouse system's achievement were investigated and a number of methods and procedure were provided. The result indicated that the method could guide us building data warehouse.
Key words:HIS; hospital data warehouse; data model; medical expense