APP下载

最小支撑树聚类分析在县级医院信息资源共享分类中的应用*

2015-01-27曹高芳胡乃宝张瑞霄姜传丽刘敏敏

中国卫生统计 2015年3期
关键词:资源共享分组密度

曹高芳 胡乃宝 张瑞霄 姜传丽 刘敏敏

最小支撑树聚类分析在县级医院信息资源共享分类中的应用*

曹高芳1胡乃宝2张瑞霄2姜传丽3,4刘敏敏3,4

目的 介绍最小支撑树聚类分析及其在县级医院信息资源共享分类中的应用。方法 采用最小支撑树聚类分析法分析县级医院信息资源共享的数据。结果 利用最小支撑树聚类分析法可以将15所医院按信息系统当前状态分为5类。结论 客观事物性质变化没有明显标志时,最小支撑树聚类分析法可以构造最小支撑树,确定长边进行分类,与其他聚类分析方法相比,其具有分类结果直观形象、结果容易理解的特点。

最小支撑树 聚类分析 信息资源

统计分组或者分类可以深化人们对事物的认识。对于分组标志确定的事物,进行统计分组比较容易实现。但是,当客观事物性质变化没有明显标志时,用于确定分组的标志和组别就很难确定,聚类分析可以提供一种对于类似复杂事物如何分组的统计学方法[1]。最小支撑树聚类分析法最早是由Zahn提出来的,其基本思想为,一个多变量的样品可以用多维空间的一个点来代表,在多维空间中,如果样品点在某些区域密度很高,而在另一些区域密度很低,甚至空白,且高密度区被空白或者低密度区所分隔,这样就形成了最自然的、最能体现样品分布结构的聚类[2]。本文就县级医院信息资源共享分类来介绍最小支撑树聚类分析法的应用。

资料与方法

1.资料来源 随机抽取山东省15所县级医院,采用《县级医院多源信息资源共享现状调查表》收集信息资源共享数据,信息资源共享共有5个维度:管理信息系统、临床信息系统、远程医疗系统、区域卫生信息系统和预约诊疗系统,每个维度按百分制计分。

2.统计方法

(1)最小支撑树 对于p维空间,在n个样品点间形成的一切可能的连接图中,存在着一个不形成回路且边长总和为最小的连接图,称为最小支撑树(MST)。最小支撑树表示了与每个样品点最近的一些样品点,反映了样品点间联系的亲疏程度。

①最小支撑树计算 最小支撑树的算法是从任意选定的一点A1开始,计算A1与其余各点间的距离即边长,假设其中D11为最短,其另外一端点为A2;之后再通过A1和A2找出除D11以外的最短边长,设为D12,其另外一端点为A3,…,直到n个样品点全部联结起来,这样便形成了最小支撑树。

②最小支撑树中的“长边”与分类 在最小支撑树中,总是可以找到一些“长边”把最小支撑树分割成若干个自然类,亦即聚类分析。由此,最小支撑树聚类法的分类原则在于把各个样品看成多维空间上的点,如果对样品进行分类比较合理,则同一类样品点之间在MST上相互以较短的边长相联结,而不同分类之间的样品在MST上则被较长的边所分开。

(2)样品点密度 如果以某个样品点为中心,以长度d为半径,落在这个球内的样品数称为以该样品点为球心的空间内样品点密度。很显然,在一个类的中心部位密度应该较高,而其边缘部位的密度应较低。根据密度可以做出密度等值线,由密度等值线图可以清晰地反映出分类的概貌。实际应用中,半径d一般以MST的边长平均数乘上一个大于1的数来确定。

实例分析

计算15所医院5个维度得分,依据各维度得分进行最小支撑树聚类分析。

在确定最小支撑树的端点样品序号和距离基础上,可以计算M维空间球的各样品点密度值,进而得到最小支撑树的长边计算结果,见表1。

由表1,选定确定长边的T值为0.85,可确定样品5与11,3与11,7与3,5与9之间的边为长边,可以画出最小支撑树的长边示意图,如图2。

根据图2,可以对15所医院的信息资源共享维度得分进行分类,第一类:15,7,4,2;第二类:3,14;第三类:11;第四类:10,8,6,5,1;第五类:13,9,12。

通过最小支撑树聚类分析,将15所医院按照信息资源共享各维度得分分为5类:第一类中的4所医院至少有3个维度得分优秀(>90分),而且另外2个维度或者1个维度接近优秀;第二类的2所医院都有3个维度优秀,且至少有1个维度接近80分;第三类中只有1所医院,其特点是5个维度都优良(80~89分),且分数较平均;第四类中有5所医院,至少4个维度优良,若有1个维度优秀,则有另外1个维度良好(60~70分);第五类的3所医院至少有2个维度在70分以下。

讨 论

聚类分析是将样品点或变量按照它们在性质上的亲疏程度进行分类的多元统计分析方法。描述亲疏程度通常有两个途径,一是把每个样品或变量看成是多维空间的一个点,在多维坐标中,定义点与点、类和类之间的距离,用点与点间距离来描述样品点或变量之间的亲疏程度;二是计算样品点或变量的相似系数,用相似系数来描述样品点或变量之间的亲疏程度[3]。最小支撑树聚类分析使用的是第一种途径。与其他聚类分析方法相比,最小支撑树聚类分析方法主要依据构造最小支撑树,确定长边并进行分类,具有分类结果直观形象、结果容易理解的特点。

最小支撑树聚类分析法可以按照医院各维度得分情况,进行合理分类。但是其只适用于小样本资料,对于大样本资料,若构造最小支撑树示意图,则非常麻烦,若不构造,则失去其直观形象的特点,这也是该方法应用少的原因之一。另外,长边标准T的选择也是一个比较复杂、带主观性的问题,需要根据研究对象,做具体分析,在多次进行聚类分析过程中,逐步总结经验以选择合适的距离;在初次进行聚类分析时,可以多试探选择几个标准进行聚类,作对比、分析,以确定合适的长边标准。

[1]孙振球主编.医学统计学.第2版.北京:人民卫生出版社,2006:399-414.

[2]傅德印,张旭东编著.EXCEL与多元统计分析.北京:中国统计出版社,2007:200-206.

[3]金丕焕,陈锋主编.医用统计方法.第3版.上海:复旦大学出版社,2009:449-459.

(责任编辑:郭海强)

山东省自然科学基金(ZR2013FM024)

1.滨州医学院人文与社会科学学院(264003)

2.滨州医学院公共卫生与管理学院

3.济南大学/山东省医学科学院医学与生命科学学院

4.山东省医药卫生科技信息研究所

猜你喜欢

资源共享分组密度
交通运输数据资源共享交换体系探究与实现
『密度』知识巩固
密度在身边 应用随处见
福建省交通运输信息资源共享平台
人力资源共享服务模式研究
针对大数据背景下工程造价信息的资源共享
“玩转”密度
密度应用知多少
分组搭配
怎么分组