APP下载

基于医院信息系统的伤害住院病例流行病学分析主题数据库的构建

2012-08-13李顺飞刘丽华刘建超唐晓东李申龙

重庆医学 2012年4期
关键词:数据模型流行病学数据挖掘

李顺飞,刘丽华,刘建超,唐晓东,李申龙

(1.中国人民解放军第一五〇医院,河南 洛阳 471031;2.中国人民解放军总医院医院管理研究所,北京 100853;3.军事医学科学院疾病预防控制所,北京 100071)

随着医疗卫生水平的提高,传染病发病率的下降,伤害的危害及其防治问题日益显露出来。伤害住院病例造成的疾病负担和寿命损失在所有伤害病例中均占有较大比例,对其进行流行病学研究可以掌握伤害流行特征,为制订有效的预防干预措施提供重要依据。医院信息系统(HIS)的推广应用积累了海量的业务数据,然而针对历史数据的应用大多停留在查询和报表的层次上,缺乏对数据的集成和深层分析。本研究拟通过构建基于HIS的伤害住院病例流行病学分析主题数据库,探讨基于HIS业务数据的主题化研究方法。

1 体系框架设计

以伤害住院病例流行病学分析为主题,以数据库和数据挖掘技术为手段,基于HIS业务数据库相关信息,设计伤害住院病例流行病学分析体系框架。框架包括三部分,(1)基础数据库:即HIS后台业务数据库,数据内容包括其中的伤害住院病例流行病学分析相关信息;(2)主题数据库[1-3]:即面向业务主题的数据组织存储,其数据结构由规范的基本表构成,其构建方法是基于基础数据库,以多维数据模型结构对业务主题信息进行抽取、集成、重构;(3)数据挖掘利用:即基于主题数据库进行的决策分析。体系框架见图1。

2 表结构设计及与HIS后台的对应

通过定义伤害住院病例流行病学分析主题数据库的表结构,集成HIS业务数据库中相关信息,在此数据环境中,根据不同的研究需要,定义其数据模型,以便进行分析和数据挖掘。数据库的字段设置以满足流行学分析为最基本要求[4-5],为辅助分析性研究增加了诊断、费用和伤害特征等信息;字段名称取HIS中相应名称,便于理解和应用。经过反复论证,主题数据库共设置数据项43个,包括患者基本信息、住院信息、诊断信息和费用信息等,数据主要来源于患者主索引、患者住院主记录、诊断记录、诊断分类记录、住院患者费用记录等,其与HIS业务数据的对应关系见表1。

图1 伤害住院病例流行病学分析体系框架

3 多维数据模型

本研究的主题是伤害住院病例流行病学分析,可将此数据库模型设计为星形模型[6-8]。星形架构是管理关系数据以进行多维使用的最常用方式,比较适合对单个主题建模。星形模型的数据库通常包括一个大的包含大批数据并且不含冗余的事实表(中心表)和一组小的维表(附属表),星形结构中的各个维表同事实表以维标识符互联,形成一个多维数据表,然后在此基础上进行各角度的预计算,将计算结构存储形成多维数据库。

表1 伤害住院病例主题数据库的数据项与HIS业务数据的对应关系

表2 维度和粒度设计

3.1 定义事实 伤害住院病例流行病学分析多维数据模型的事实是对伤害住院病例进行流行病学分析的基本指标。定义的指标包括人次、医疗费用及住院日。

图2 伤害住院病例流行病学分析多维数据模型

3.2 维度和粒度设计 在设计维度表模型的过程中考虑到维度模型是用户分析数据的窗口,维度的设计提供了维度属性的定义,一个对象的维度包含大量的属性。这些属性应具有这样一些特征,即可用文字描述、离散值、有规定限制以及在分析过程中可以提供行标题。本研究的维度和粒度具体设计见表2。

3.3 多维数据模型设计 以伤害住院病例流行病学分析为主题的星形模式多维模型见图2,包含了一个中心事实表(伤害住院患者)、12个维表(时间、年龄、性别等)和3个度量(人次、医疗费用、住院日)。

4 数据抽取集成

本研究利用Kettle进行数据抽取集成,Kettle是Extract-Transform Loacl的缩写。ETL工具集,被设计用来实现ETTL需要,即抽取、转换、装入和加载数据;具有易于生成、易于发布、易于维护,从模型直接执行任务的特点。数据抽取集成的具体步骤包括:构建数据流,配置数据库参数,获取数据,选择字段,将抽取的数据插入目标数据库。

5 数据预处理

HIS中的医疗数据存在多样性、不完整性、不一致性、冗余性,甚至可能包含错误或存在偏离期望的离群数据。因此,数据预处理是必不可少的环节。本研究主要采用了数据清理、数据变换和调查补充等方法。

5.1 数据清理 数据清理的处理方法包括缺失数据调查补填、异常值的筛检及处理。通过对数据进行逻辑校验,对其中的逻辑错误进行标注,后核实修正;对于有标准字典的数据项直接用标准字典的相应内容更新;对影响研究病例流行特征的异常病例进行剔除,剔除了以伤害诊断进行住院治疗的非真实伤害病例。

5.2 数据变换 数据变换是将数据转换或统一成适合于分析的形式,主要是找到数据的特征表示,用转换方法挖掘变量的有效信息。如将入院时间转换为年、月,以便进行趋势分析;将实际年龄转换为设置的年龄组以进行年龄特征描述。

5.3 数据调查补充 数据调查补充主要针对伤害特征属性数据,当前HIS中相关信息只在出院诊断、损伤与中毒原因诊断中有所体现,但满足不了伤害流行病学分析的需要。因此,本研究尝试通过对照HIS中的诊断信息、电子病历记录的方法,参考《伤害监测指南》和我国“医院伤害监测报告卡”的相关分类内容,逐个提炼并标化病例的伤害性质、伤害部位信息。如出院诊断是“股骨干骨折”,提炼标化后的伤害性质是“骨折”,伤害部位为“下肢”。

6 讨 论

该研究旨在提供一种挖掘现有业务历史资料对伤害类病例进行深入分析的方法。之前,国家和军队也开展了许多相关的研究[9-10],其方法主要是通过进行现场问卷调查、医院急诊监测和住院病历信息整理再处理等方法,信息采集耗费人力、物力。HIS业务数据库中信息的电子化存储方式便于加工整理、易于获得,且涵盖了医疗费用、住院时间等医疗资源消耗方面的信息,为开展伤害研究提供了一个新的思路。然而,由于当前的HIS设计初始没有考虑伤害监测功能,加之各单位HIS的应用情况不尽相同,致使信息有选择性偏移,这需要通过系统的改造与重建来完善。

本研究运用数据挖掘的有关思想和技术,立足于“军卫一号”医院信息系统,通过体系框架设计、表结构设计、多维数据模型设计和数据抽取集成等过程构建了伤害住院病例流行病学分析主题数据库。将主题数据库的应用引入到伤害住院病例监测工作中有其积极意义,既扩展了HIS业务数据的应用模式,也提高了伤害监测工作的效率。目前,国内已有解放军总医院、重庆医科大学等多家单位对数据挖掘技术在医院信息利用方面做了积极探索与实践[11-13],但未发现利用数据挖掘技术对“伤害住院病例流行病学分析”进行研究的相关文献。本研究通过相关业务诊疗信息提取伤害特征信息的做法,为伤害特征研究提供了又一个思路,但其科学性需要进一步论证。通过利用本研究的方法对某综合性医院HIS数据库构建伤害住院病例流行病学分析主题数据库的实例分析,发现构造基于业务主题的星形模式多维模型,可以对业务数据进行多层次多角度的分析,但数据挖掘方法和展现方式需要科学化、多样化。

[1]Inmon WH.数据仓库[M].王志海 译.北京:机械工业出版社,2001.

[2]周炎涛,谢东,吴正国.主题数据库技术的亲合性分析方法研究[J].计算机工程与应用,2005(12):168-170.

[3]张国庆,曹顺良,方悼,等.基于构件的生命科学主题数据库构建方法[J].计算机应用研究,2007,24(6):12-14.

[4]刘丽华,曹秀堂,郝璐.住院患者主题数据集统计集成与应用设计[J].中国医院,2007,11(12):8-12.

[5]刘玉,陈金雄.病种分析主题数据仓库的建立[J].医学信息,2008,21(12):2141-2145.

[6]Wong ST,Hoo KS Jr,Knowlton RC,et al.Design and applications of a multimodality image data warehouse framework[J].J Am Med Inform Assoc,2002,9(3):239-254.

[7]Han JW,Kamber M.数据挖掘概念与技术[M].范明,孟小峰 译.北京:机械工业出版社,2008:70-81.

[8]蒋伟进,唐代喜,刘青宝.面向主题的关系——多维数据模型建立与数据集市[J].微机发展,2003,13(6):74-76.

[9]李悫,李丽萍.3622例道路交通伤害住院患者的疗效和转归分析[J].疾病控制杂志,2007,11(4):383-385.

[10]沈敏,刘筱娴.1444例女性伤害患者住院时间的影响因素分析[J].中国医院统计,2005,12(2):115-117.

[11]曹秀堂,郝璐,刘丽华.ODS统计信息资源库的功能与应用[J].中国医院,2008,12(12):12-14.

[12]刘丽华,李昕,胡凯.统计信息集成与管理决策支持系统概述[J].中国医院,2008,12(12):8-11.

[13]易静,苏新良,王润华.决策树在乳腺癌高位淋巴结转移判别诊断中的应用[J].重庆医科大学学报,2009,34(8):606-609.

猜你喜欢

数据模型流行病学数据挖掘
羊细菌性腹泻的流行病学、临床表现、诊断与防治措施
猪衣原体病的流行病学、临床表现、诊断和防控
羊球虫病的流行病学、临床表现、诊断和防治措施
探讨人工智能与数据挖掘发展趋势
新型冠状病毒及其流行病学特征认识
面板数据模型截面相关检验方法综述
基于并行计算的大数据挖掘在电网中的应用
财政支出效率与产业结构:要素积累与流动——基于DEA 和省级面板数据模型的实证研究
一种基于Hadoop的大数据挖掘云服务及应用
基于分位数回归的电力负荷特性预测面板数据模型