APP下载

数据挖掘技术在医院信息管理系统当中的应用

2015-01-24史淳樵侯佳音

电子设计工程 2015年21期
关键词:项集二进制信息管理系统

史淳樵,侯佳音

(同济大学附属第十人民医院 上海 200072)

数据挖掘技术作为现阶段应用比较广泛的技术,被广泛的应用在中下企业中,从而提高企业的现代化管理水平,提升客户服务和产品开发质量。同时现代信息技术的发展,数据挖掘技术在医疗系统中的应用,在不断的推动者现代医院服务水平的提升。但传统数据挖掘算法,特别是关联规则挖掘在面向大型数据库中所存在的问题,本文提出一种基于医院信息管理系统的改进算法。

1 传统算法存在的瓶颈

在数据挖掘中,算法是基于频繁项集的一种逐层搜索迭代方法。该算法没有任何复杂的理论推导,并在实践中易于实现,从而成为数据挖掘中常用的算法之一。但是,在实践中该算法也存在难以克服的问题:

第一,该算法需要多次对事务数据库进行扫描,从而产生很大的I/0负载。在对数据进行的K次循环扫描中,产生的候选集合Q中每个元素其都必须经过扫描,从而验证其是否加入L集合当中。如在顶层的项目集合中的元素为m,则该数据库至少需要扫描m或者是m+1次。

第二,产生非常庞大的候选集。对候选集来讲,其产生的候选集是按照指数增长的。如有104个频繁的1-项集,则通过传统的算法可以产生高达107个2-项集。由此给数据挖掘带来很大的挑战。

第三,支持度唯一,缺乏对各个不同属性重要性的考虑。在数据挖掘中,事务的发生频率不同,有的发生频率高,有的发生频率低。这样给数据的挖掘带来了很大的问题,即如果最小的支持度的闭值定的过高,虽提高了整体运行的速率,但是却有着很多没有价值的规则,大大降低了整体数据挖掘的效率和信息的可用性,以此给决策者提供错误的决策信息。

随着现代数据库技术的广泛应用,如何对产生的大量候选项集做出有效的控制并极大缩小多次扫描和大量项集的时间,成为本文构建的重点,对此,本文提出了一种高效率的改进算法。

2 算法改进

2.1 算法改进思路设计

文中采用对算法优化的传统技术,首先采用二进制数垂直表示方法对其中的数据进行表示。二进制数作为常用的方法,在对信息的表示方面具有非常独特的优势,通过采用“0”和“1”对其中信息的有无进行统计,如采用一个特定的事物记录 Ti,用“1”表示在该 Ti中包含项集 X,而“0”则表示 Ti中不包含项集X。

定义1:对项目集二进制数垂直表示,在给定的一个数据样本 I=(i1,i2,i3,…,in),事务数据库为 D=(T1,T2,…,Tn),项集 X的二进制数垂直表示则为 b1b2b3…bn-1bn,记为Bx,其中 bi=0 或 1,如 X∈Ti,则为 1,如不属于,则 bi=0,i=1,2,3,…,n。 如表 1所示的样本事物库,则有如表 1所示的结论。

表1 样本事物数据库Tab.1 Samp le database of things

因此,根据二级制数垂直方法,针对项目集X={A}所对应的为100101;项目集X={B}对应的二进制为111011。

通过采用二进制数垂直方法对数据进行处理后,需要对其中出现“1”的次数进行统计,从而得到该项目集的支持度计数。如果其中的每个项的支持度≥min-sup,则该项则为1-项集,并考察下个项集;如果每个项支持度不满足最小支持度,则其对应的支持度计数加上1。由此重复对不同记录进行处理,直到完成对所有数据库记录的处理。

2.2 算法描述

输入:事物库D,并设定最小支持度min-sup;

输出:事物库当中的频繁项集L;

方法:

Result:={}

for(i=1;i≤|D|;i++)

begin

构造可能的项集的组合{a11,a12,…,a1n}

for(j=1,j≤n;j++)

begin/*判断每个组合aij*/

Case aijif

aij第一次出现:生成一个计数器;

aij∈Result;

continue;

else:aij对应的计数器加 1;

end;

If aij对应的计数器

Result:=Result∪{aij};

end;

end

2.3 改进算法的优越性

通过对上述算法的构建可以看出,改进算法只需要对数据库进行一次扫描,并在扫描中不断的将标记的频繁项集提取,从而可有效的缩小对数据的搜索范围,提高搜索的效率,与传统的相比更具有优越性。同时当该算法在记录多并且包含较少字段值或较多记录中包含较多空字段值时,该算法其更具备一定的优越性。

3 基于关联规则挖掘的HIS系统构建

3.1 HIS系统功能模块

随着当前HIS系统应用的广泛性,其基本的功能构建通常都比较成熟,对此,本文根据国家卫生部门的要求,将HIS系统的功能划分为以下几个部分:

1)临床诊疗部分。该部分主要是以病人的基本信息作为基础,各个科室则沿着这条主线进行工作。在该子系统中,病人在医院的每一步的诊断、治疗、护理等都被记录在该系统当中。对数据的输入则主要通过与诊疗有关的各个部门进行整理完成。

2)药品管理部分。对医院药品的管理通常分为管理和使用。该子系统可实现对药品的入库到最后的病人使用的管理,从而实现对医院药物的信息化的管理。该部分主要包括药品库存、发药管理、用药审核等功能。

3)经济管理部分。该部分则属于医院的基础部分,主要用于对医院相关费用数据,并将产生的费用数据进行汇总、分析,从而为医院决策提供参考。在该部分中包括对医院设备和物资费用、病人入、转和出费用、门诊费用等。

4)外部接口部分。经济发展使得HIS系统不能独立存在,并需要与相关的部门进行联系。因此,该医院信息管理系统提供了包括农村医保、城市职工医保等接口。

3.2 系统整体设计方案

为保证上述功能的实现,需要对系统整体架构进行布局,从而保障系统的良好运行,对此,本文将该系统的框架设计为如图1所示。

图1系统整体架构Fig.1 Overall system architecture

在本系统中通过Java开发语言,并通过Struts框架进行开发,从而借助Java技术的优势,大大减少了对该程序的重复开发。同时对该系统的访问采用B/S模式,从而减少了客户端对系统的维护和升级,为用户提供了很大的方便。

4 关联规则挖掘在医院信息管理系统中的应用

通过上述算法和系统的构建,文中以医院2003~2013年的2-乳腺癌复发数据作为挖掘案例,对数据挖掘的实现进行阐述,其具体的挖掘流程如图2所示。

通过对数据的预处理,从而得到365 276条合格的记录。同时通过挖掘可以得到如表2所示的糖尿病及其并发症的支持度计数。

由此通过上述挖掘的结果可以得到糖尿病及其并发症的支持度和置信度分别为(以A=>B)为例:

图2数据挖掘流程图Fig.2 Data mining flow chart

表2 糖尿病及其并发症的支持度计数Tab.2 Support count diabetes and its comp lications

A=>B 支持度为:support(A=>B)=p(AUB)=3957/365276=1.07%

A=>B 置信度为:Confidence(A=>B)=3957/8434=46.91%。

由此通过上述的计算可得到A=>B[support=1.07%,confudence=46.91%]

从而通过挖掘可以得到在门诊的病人当中,患有糖尿病并伴有高血压的病人为1.07%,而患者糖尿病的病人会患高血压的几率则为46.91%。

5 结 论

传统关联规则算法在对数据的挖掘会产生大量的候选集,对此本文则通过对频繁集筛选的改进,大大减少了数据扫描次数,并且挖掘信息具有很大的实用性,对此该算法在医院管理系统中具有实用价值。

[1]MargaretH.Dunham著.数据挖掘教程[M].郭崇慧,田风占,靳晓明,等译.北京:清华大学出版社,2005:65-164.

[2]杨学兵.一种高效的关联规则增量式更新算法[J].计算机技术与发展,2007(1):108-113.YANG Xue-bing.An efficient incremental updating algorithm of association rules[J].Computer Technology and Development,2007(1):108-113.

[3]何成万,余秋惠.MVC模型及软件框架Struts的研究[J].计算机工程,2002,28(6):274-281.HE Wan-cheng,YU Qiu-hui.MVC model and Struts Framework[J].Computer Engineering,2002,28(6):274-281.

[4]罗町,贺才望.基于Apriori算法改进的关联规则提取算法[J].计算机与数字工程,2006(4):48-51,55.LUO Ting,HECai-wang.Improved algorithm based on Apriori association rule extraction algorithm[J].Computer and Digital Engineering,2006(4):48-51,55.

[5]崔群法,祝红寿,赵喜来.SQLServer2008中文版从入门到精通[M].北京:电子工业出版社,2009:231-232.

[6]罗森林.多维2型糖尿病实测数据的预处理技术 [J].计算机工程,2004,30(17):178-181.LUO Sen-Lin.Multidimensional data obtained in type 2 diabetes[J].Computer Engineering,2004,30(17):178-181.

猜你喜欢

项集二进制信息管理系统
三维可视化信息管理系统在选煤生产中的应用
信息管理系统在工程项目管理的应用
用二进制解一道高中数学联赛数论题
有趣的进度
基于三维TGIS的高速公路综合信息管理系统
二进制在竞赛题中的应用
不确定数据的约束频繁闭项集挖掘算法
人事档案信息管理系统的设计与实现
二进制宽带毫米波合成器设计与分析
一种新的改进Apriori算法*