面向临床路径的常用数据挖掘方法概述
2018-05-14李鹃
李鹃
[摘要] 临床路径的制定必须应用循证医学的最佳证据,临床路径一定要符合医院实际情况以及疾病治疗的客观规律,由相关领域的专家基于该专业的最佳证据、以促进患者的快速康复为核心目标而制定。而数据挖掘方法对于临床路径制定和管理是至关重要的。该文总结了面向临床路径所常用的医学数据挖掘方法的知识。重点介绍了决策树分类、关联规则分析、聚类分析和序列分析等方法。
[关键词] 临床路径;数据挖掘;大数据
[中图分类号] R19 [文献标识码] A [文章编号] 1672-5654(2018)09(c)-0193-02
数据挖掘方法在临床路径制定和管理中起着至关重要的作用,随着各种关系数据库技术的成熟和广泛应用,数据挖掘技术促使人们在数据库的基础上建立数据仓库,采用统计分析与机器学习相结合的方法对数据进行处理。
数据挖掘方法在临床路径制定与管理中的应用主要体现在临床路径制定过程中临床行为模式、临床诊疗流程的发现和临床路径变异的异常行为监测。如可以通过历史病历和历史医嘱数据为依据,利用数据挖掘方法建立基于循证医学的基线调查方法,提出了制定、实施、监控和持续改进的全过程学习型临床路径模型。还可以从医院各应用系统的历史数据库中导出有价值的数据,建立数据仓库,进行面向临床路径抽取主题的数据挖掘。
1 临床路径概述
临床路径(Clinical pathway)是指针对某一特定疾病或某种手术建立一套标准化治疗模式与治疗程序,是一个有关临床治疗的综合模式,以循证医学证据和指南为指导来促进治疗组织和疾病管理的方法,最终起到降低平均住院日,控制医疗费用,规范诊疗行为,提高医疗服务质量的作用[1]。
2 临床路径的管理
临床路径的管理过程包括病种的选择、临床路径文本的制定、临床路径的实施、临床路径实施的评价等阶段。这些阶段都与医疗数据的数据挖掘相关密切。
①病种的选择。常见病、多发病;治疗方案相对明确,技术相对成熟,诊疗费用相对稳定,疾病诊疗过程中变异相对较少;在结合医疗机构实际情况下,优先考虑卫生行政部门已经制定临床路径推荐参考文本的病种。
②临床路径文本的制定。临床路径是包含了患者从诊断入院到出院的各个时间节点上需要接受的诊疗项目,临床路径制定的主要任务就是要确定标准诊疗项目。临床路径诊疗项目包括医嘱类项目和非医嘱类项目。医嘱类项目包括饮食、护理、检验、检查、处置、用药、手术等。非医嘱类项目包括健康教育指导和心理支持等项目[2]。
③临床路径的实施。按照临床路径规定的内容进行执行和记录,并进行实施过程的监控,包括变异监测和分析等。纸质的临床路径不便于执行,需要建设相关信息系统,即进行临床路径的电子化管理。
④临床路径实施的评价。临床路径的评价主要是根据一些主要指标对实施过程中的关键环节进行控制。主要指标包括两大类,一类是对所有病种的评价都适用的,如平均住院日、死亡率、治愈率、好转率、医院感染发生率、31日非计划再住院率、病种均次费用、病种抗菌药物费用比例、病种检查费用比例、变异率和出径率等指标;另一类是反映病种特有的诊疗项目和诊疗效果,如关键的诊疗项目、主要并发症和特有的病情判断指标、病种医疗质量管理和控制的相关指标等。
3 数据挖掘的定义
数据挖掘是一种深入的数据分析,这些数据通常是大量的、不完整的、随机的、杂乱的、模糊的实际应用数据,然后从过程中提取未知但有用的隐藏信息。其主要目标通常是大型数据库,其主要目的是利用有效的算法从数据库中查找隐藏的知识[3]。发现的知识可以用规则、决策树、知识库等来表示。大数据挖掘的核心是数据特征和属性的提取,以及基于特征和属性的进一步分类。为了对不同属性的数据进行关联分析,获得有价值的信息[4]。
4 数据挖掘步骤
数据挖掘的过程应该是复杂的、多阶段的.数据挖掘的关键步骤包括:①数据选择。根据数据分析的要求、收集和选择挖掘所需的数据源,使这些数据源多样化。②数据预处理。数据预处理的任务是数据清洗、集成、转换、规格说明和离散化。最后,得到了符合数据挖掘要求的相关数据。③建立数据挖掘模型。创建一个列,该列包含许多不同的数据类型,作为关系表,包括输入列、可预测列和键列。④在现有数据和挖掘算法的基础上,对挖掘模型进行訓练。模型的设置与数据挖掘算法有关,而挖掘模型的培育就是培育数据集发现的模式。⑤模型评价。利用一些评价工具对模型的质量进行评价,如升力图、ROC曲线等。⑥知识表示。数据挖掘结果通常表示为模式,它是对包含信息的数据的抽象描述,可以是一组规则一簇决策树或其他形式的知识。
5 数据挖掘方法
医学数据是复杂数据的不断增长,蕴含着丰富的信息价值,挖掘医学数据的潜在价值,发现医学知识,为医学决策提供支持。传统的数据挖掘应用可以移植到大数据环境[5]。大数据分析的常用方法有聚类、分类、预测、关联规则、回归分析、序列分析、偏差分析等。以下是几种常用的数据挖掘方法。
5.1 分类分析
分类需要构造一个模型或分类器来预测类标记。一是学习阶段,即构建分类模型或训练阶段,利用分类算法对训练数据集进行分析,以分类规则的形式给出学习模型或分类器,第二阶段是采用模型预测的分类阶段。因此,给定数据的类标签,用测试数据评估分类规则的准确性,如果精度在可接受的范围内,则该规则将用于新的数据元组分类。常用的分类算法有决策树算法、逻辑回归算法、神经网络算法和贝叶斯算法[6]。
与其他分类方法相比,决策树具有易于理解、分类精度高的优点。决策树算法是一种适用于预测建模的分类算法,用于连续属性和离散属性的预测建模。如果有多个可预测列,或者输入数据包含可预测的嵌套表,则算法为每个可预测列生成一个单独的决策树。决策树可以处理高维数据。决策树的学习和分类步骤简单、快速,所建立的分类模型直观易懂,具有图形化的树结构,分析结果具有较好的精度[7]。
5.2 关联分析
关联规则挖掘能力巨大,目的是找出大量数据中项目之间的相关性,找出未知和潜在关联的不同模式,并以关联规则的形式表达出来。根据采集到的医学数据,如检查、测试、手术、医学、护理等,采用关联规则分析方法对关键时刻节点的相关数据进行挖掘。
关联规则算法的原理是:首先在數据集中同时查找在一个案例中出现的项;然后根据参数指定的情况数,将最不频繁的关联项分组为项目集。该算法基于项集生成规则。关联模型由一系列项目集和规则组成,它们描述了在这种情况下如何对这些项进行分组。可以使用这些规则根据算法确定的其他特定项的存在来预测数据库中某个项的存在[8]。关联规则可以有效地挖掘数据库中各项属性之间的关系。由于分析结果是基于大量的数据,充分利用了属性之间的相关性,所以可以更充分地反映属性之间的关系。
5.3 聚类分析
聚类是将数据对象划分为组或簇的过程,它使集群中的对象高度相似,但与其他集群中的对象不同。聚类分析产生的一组数据称为聚类。同一簇中数据变量的值相似,但不同簇间的数据变量值不同。聚类是搜索来自给定数据集的数据项之间的有价值关联。
机器学习研究计算机如何根据数据学习,通常分为监督学习、无监督学习、半监督学习和主动学习。在机器学习中,聚类又称无监督学习,没有属性来指导模型的构建,所有的输入属性都被平等对待。聚类和分类的区别在于,聚类的分类依赖于数据本身,而数据本身在聚类之前是未知的,分类是在分类之前预先定义的,以便进行下一步的分类。聚类算法主要包括层次法、划分法、网格法、密度法和基于模型的聚类算法[9]。
5.4 序列分析
序列由一系列离散值(或状态)组成,序列分析用于发现离散序列中的模式。序列数据和关联数据都包含一个项集或一组状态,区别是序列模型分析状态的转换,关联分析中每个项集中的项是相等和独立的。
序列是事件的有序列表。根据事件的特点,序列数据可分为生物序列数据、时间序列数据、符号序列数据等。时间序列数据由长序列数据值组成,这些数据值以相同的间隔记录。符号序列数据由一长串事件或名义数据组成,记录或未记录一段特定时间,而且通常不以相同的间隔观测。
将序列转化为特征向量的分类方法称为基于特征的分类.基于序列距离的分类质量是由度量序列间相似性的距离函数决定的。隐马尔可夫模型(HMM)或其他统计模型可用于对基于模型的序列进行分类。
6 结语
医学数据挖掘是人工智能、统计学和计算机技术、现代医学等多种技术和知识的结合。医学数据挖掘作为医学决策支持系统的重要组成部分,随着理论的发展和研究,将在疾病诊断和治疗、医学研究、教学和医院管理等方面发挥越来越重要的作用。
[参考文献]
[1] 于振华.临床路径系统的设计与实现[D].沈阳:东北大学,2012.
[2] 国家卫生计生委医政医管局.卫生部关于印发《临床路径管理指导原则(试行)》的通知[EB/OL].2009-10-16[2016-03-17].
[2] 阮莹.基于流程挖掘的临床路径设计方法研究[D].上海:上海交通大学,2009.
[3] 田宗梅,王莉,肖琳.基于数据挖掘的临床路径抽取与应用[J].中国数字医学,2015(6):2-4.
[4] 杨小宁.基于模糊聚类分析的临床路径优化决策研究[D].沈阳:沈阳理工大学,2013.
[5] 王道,黄新霆,李德就.聚类分析等算法在学习型临床路径中的应用[J].中国数字医学,2012(7):99-101.
[6] 王珏.序列挖掘在临床行为模式发现中的应用研究[D].无锡:江苏大学,2008.
[7] 周建文.基于关联规则挖掘的医疗智能辅助系统设计与实现[D].长沙:湖南大学,2013.
[8] 王宁.基于Hadoop平台的海量医疗数据挖掘算法的研究与实现[D].北京:北京邮电大学,2014.
[9] 刘燕峰.数据挖掘及决策支持技术在医院中的应用研究[D].杭州:浙江大学,2012.
(收稿日期:2018-06-21)