数据聚类挖掘技术及应用研究
——以医院急救管理系统为例
2021-08-14张志荣
张志荣,赵 媛
(武警山西省总队医院 山西 太原 030006)
1 引言
数据挖掘是指从大量数据中通过算法搜索隐藏于其中的信息的过程,是人工智能和数据库领域研究的热点问题。所谓聚类挖掘分析,就是根据待分类模式特征的相似或相异程度将数据样本进行分组,从而使同一组的数据尽可能相似,不同组的数据尽可能相异。它的目的是用于知识发现而不是用于预测[1]。评判聚类结果的标准就是:组内部的数据相似度越大,组与组之间的数据差异度越大,那么聚类的效果就越好[2]。
医院急救管理系统是一种可以满足普通入院前、院内急救和院外救援系统的数据存储和管理等多种需要的软件,记录疾病的发生及病情的变化情况,同时保存相关的疾病诊疗信息,为以后的疾病诊疗工作提供数据支持。在实际应用的过程当中,需要采取有效的数据处理手段,针对数据中的各项关系进行全面探究整理,从而形成相应的数据结论[3]。本文以医院急救管理系统数据为基础,进行聚类挖掘技术的应用研究。
2 聚类挖掘的算法
2.1 划分方法
对有n个数据元组的数据库,划分方法是构建k个划分,k≤n。其中,每个划分必须至少包含一个数据元组,每个数据元组必须只属于一个划分,在模糊划分方法中,数据元组不一定只属于一个划分。
2.2 层次方法
层次方法是用层次分解来创建数据集。根据层次分解的形成方式,又可以分为凝聚和分裂两种方法。凝聚法将每个数据元组形成单独的组,然后逐次合并相近的数据元组,直到所有的组合并为一个,或直到满足某个条件终止。分裂法开始将所有数据元组置于一个簇中,然后分裂为更小的簇,直到最后每个数据对象都归属于在某一个簇中[4]。
2.3 基于密度的方法
采用基于密度的方法,只要“领域”中数据元组的个数超过某个阈值,就继续分离或聚类。这样可以过滤离群数据,发现相关数据组成任意形状的簇。
2.4 基于网格的方法
基于网格的方法把数据空间量化成网格结构,网格的数目是有限的。在网格结构上进行聚类操作。这种方法处理时间不依赖于整体数据量,只与网格结构中每一维的单元数有关,因此处理速度快。
2.5 基于模型的方法
通过构建密度函数来定位簇,密度函数用来反映数据空间分布,这种方法基于标准统计量自动地确定簇的数目,考虑离群数据的影响,为每簇假定一个模型,寻找数据对给定模型的最佳拟合,从而产生健壮的聚类方法[5]。
3 聚类挖掘在急救管理系统中的应用
急救管理系统包括急救电子病历、抢救记录、生命体征实时监测、医疗设备物资管理、数据安全管理等。通过对数据的挖掘分析制定救援中常见的伤情或其他突发性疾病的急救临床路径,建立标准化的急救电子病历。
3.1 基于急救管理系统聚类挖掘的特点
3.1.1 数据量大
聚类挖掘的条件是必须有海量的数据。随着急救管理信息化程度越来越高,区域医疗也不断在完善,新应用不断出现,应用之间的不断整合,所产生的数据的数量和复杂程度都在快速增加。
3.1.2 动态性
由于急救电子病历系统的数据都是实时产生的,实时创建各种资源,所以数据更新很快,应用数据挖掘得到的数据分析结果也在动态变化。
3.1.3 服务的可靠性
在聚类分析的过程中要对数据集进行复制存储,由于急救管理系统本身具有数据存储功能,可以提供可靠的数据备份和容灾系统,使实时性和动态性的聚类分析得到保证。
3.2 急救管理系统数据的聚类分析举例
医学信息大都是复杂或不确定的。因患者有个体差异,同一病症可能在不同年龄段人群中发生,一种病种有多种症状,也可能有多种治疗方案。因此,划分方法中模糊划分的聚类方法是适合应用于医学的。患者的症状、生命体征与诊断之间界限往往不是清晰可见的,当界限模糊时,模糊聚类按一定的聚类规则,对采集的数据进行分类,包括对一些相关性、分离性不是很好的事物,客观地划分类型,辅助医生对患者采取相应的处置。
在急救电子病历中提取症状为“胸痛”的20例样本集为X={x1,x2,…,x20},取患者发作类型、发作时ST↓幅度、心肌缺血时间、肌钙蛋白、年龄因素为样本病症特征参数,设样本特征参数为xk1、xk2、xk3、xk4、xk5,把患者的临床特征作为模糊属性值。采用基于密度的模糊聚类算法,根据事先设定的数据元组的阈值,分析处理数据,进行模糊聚类,本例的聚类结果是划分病情的严重程度。见表1。
表1 样本集的特征参数值
通过数据初始化、仿真计算及结果分析,最终得到聚类结果,可根据病情的聚类结果,为患者选择治疗效果、经济方面都最优的治疗方案。见表2。
表2 最终聚类结果
本实验为模糊聚类方法在划分病情方面的应用举例,在实际应用中样本特征参数的选取尤为重要,应结合相关疾病的临床治疗指南、医生治疗经验等选取相关指标作为样本特征参数,进行模糊聚类分析。
4 聚类数据挖掘的进一步分析与小结
随着数据挖掘技术的发展,聚类以其特有的优点,成为数据挖掘领域重要的研究课题。聚类既可以作为其他算法的预处理,也可以作为独立的算法应用。可以用来理解数据,也可以用来做数据分析的关键步骤。聚类分析数据的相似性并对数据进行深入分析,获得其他方法不可能获得的信息。聚类对急救管理系统而言具有如下意义。
4.1 对感兴趣的数据做进一步分析
聚类就是把一组个体按照相似性归成若干类别。急救系统数据集中的每条数据是不同的,但也有其相似性,这些相似性可以体现重要的信息,然而不用模糊聚类方法是无法找到的,所以聚类方法对于发现重要信息,从而进行深入分析,有十分重要的作用。
4.2 概括出数据集中每一类的特点
急救管理系统的数据集存储着病人的病历信息,病人的基本信息、查体及现场处置情况等,都可以聚为几类,做进一步关联分析,或者将其中的孤立点挖掘出来,这样聚类可以使医务人员的注意力集中在某一类或几类上,做到对某些病症的重点防治。
4.3 为其他数据挖掘方法做准备
在急救管理系统的数据挖掘模块中,面临含有大量数据的数据库,数据类型、数据长度、存储形式甚至数据质量不尽相同,可能会有多种挖掘方法,用聚类的方法对数据集进行预处理,在此基础上进行特征抽取或分类,为其他挖掘如离群点挖掘等方法做准备,提高挖掘精确度和挖掘效率。
5 结语
近年来,在国家大政方针的驱动下,医疗信息化越来越受到重视和关注。医疗信息化的快速发展产生大量数据,这些数据一旦被充分利用,将产生极大的价值。当前大数据和人工智能技术在医疗领域逐步应用,数据挖掘应以此为契机,积极发挥其作用和意义,从复杂的医学信息中分离出有助于疾病诊疗的辅助决策和指导信息。