基于数据挖掘技术对精神科病人住院天数的预测
2015-03-05金华市第二医院李汝庆
金华市第二医院 李汝庆
基于数据挖掘技术对精神科病人住院天数的预测
金华市第二医院 李汝庆
【摘要】本文以某精神专科医院5年出院病人数据为基础,预测住院天数为例,介绍数据挖掘的基本应用过程。在数据挖掘过程中,通过对医院信息系统中病人数据进行抽取、清洗和预处理,生成有效的数据挖掘库。并使用IBM SPSS Modeler数据挖掘工具,建立基于决策树算法的住院天数拟合模型。根据此模型可对出院病人住院天数进行预测,制定住院天数标准,根据此标准对各科室进行考核评价。进而达到提高医院床位周转率的目的。
【关键词】住院天数;数据挖掘;SPSS;决策树
住院天数是评价医疗效益和效率、医疗质量和技术水平的一个综合指标。为了使医院的医疗资源得到充分利用,尽量降低患者住院的费用,缩短住院天数势在必行。长期以来,精神病人住院周期长、床位周转率低一直是困扰精神专科医院的难题。因此通过数据挖掘技术建立合理的住院天数拟合模型,通过模型对住院天数进行预测显的具有重要意义。
1 数据挖掘技术
1.1 数据挖掘概念
数据挖掘 (Data Mining,DM )又称数据库中知识发现,是指从大量的数据中抽取挖掘出未知的、有价值的模式或规律等知识的复杂过程。
1.2 IBM SPSS Modeler
IBM SPSS Modeler 是当前比较流行数据挖掘工作台,可以帮助用户在无需编程的情况下快速直观地构建预测模型。它还具有数据提取、转换、分析建模、评估、部署等的功能。可以大大提高用户数据挖掘的效率。
2 数据挖掘过程
2.1 数据预处理
高质量数据是进行有效数据挖掘的保证,只有获取了完整、系统、有效、可靠的基础数据,才能确保数据建模的顺利进行,最后得出合理、准确的结论。在本研究中,首先从医院HIS数据库中导出2010-2014年医院精神科病房出院病人数据,并保存为Excel格式。然后在此数据基础上对缺失值和异常值进行科学处理,并根据医院原始病历资料进行适当校正。
2.1.1 缺失值处理
在处理缺失值时,常用有两种方法: 删除该变量或对该变量进行填充。选用哪种方法处理应根据该变量的具体情况而定。一般原则是若变量缺失值超过样本总量的1/3,则删除该变量;若不超过样本总量的1/3,则对该变量进行填充。在本研究中,文化程序和职业两变量由于缺失超过样本总量的1/3以上,所以这两个变量被删除不在此次研究的范围之列。而年龄缺失不超过样本量的1/3,所以进行了填充。
2.1.2 异常值的检出与处理
异常值是影响模型精确度的重要因素。对原始数据的去伪存真,查找数据中的异常值和缺失值等是统计分析过程中的重要环节。例如住院天数少于等于1天和大于1年的住院记录,住院费用为0元或15万元以上的住院记录。为了消除个别诊断病例较少影响分析的正确性,我们只取医院排列前10名的疾病病历,具体诊断ICD10编码为F20,F30,F31,F32,F33,F25,F23,F10,F44,F43,在精神科病房前10名的疾病病历数占所有病历数80%以上。
通过以上多环节的处理最后得到有效病历9942例 ,导入SPSS Modeler中,作为后期分析之用。
2.2 数据选取
在日常诊疗过程中住院天数受多种因素的影响,比较复杂性,在收集数据时,会涉及各种维度的信息。这些属于不同维度的信息之间又相互关联的。这样使得数据挖掘工作的难度增大。如果将所有属性都作为数据挖掘模型的自变量进行建模,会增加不必要的计算量,降低效率,甚至会影响数据挖掘结果可解释性。
通过前面的数据预处理,我们从中得到病人的基本信息,包括住院号,姓名,性别,年龄,支付方式,入院日期,出院日期,住院天数,入院情况,入出诊断是否符合,出院方法,是否初次住院。共12个属性。我们应用特征选择的方法,对数据作进一步处理,从12个属性中提取更有代表性的关键属性,以消去冗余,提高计算与分析的效率。因此,我们使用了SPSS Modeler的特征选择方法对数据进行了进一步处理。运行后筛选出影响住院天数的前8个重要因素为: 出院诊断、年龄、出院方法、支付方式、性别、入院时情况、是否初次住院、入出院诊断是否符合。
2.3 住院天数聚类
住院天数为连续数值,为了能通过决策树模型进行分类测试,必须对住院天数进行分类。本研究中通过SPSS Modeler中K-means聚类的方法,对住院天数进行聚类。通过对比具体聚为三类比较合理,如表1所示。
图1 数据流
图2 决策树模型
2.4 训练集和测试集的划分
在数据挖掘过程中,评价模型是否精确、有效的一个常方式就是对输入的数据进行划分。本研究中我们把一部分数据划为训练集占80%,用于模型的拟合,另一部分20%的数据为测试集,用来验证所选模型。
2.5 模型建立
在数据挖掘中,人工神经网络模型和决策树模型尤其适合作分类预测。本研究中我们选择CHAID决策树模型对住院天数进行分类预测。并把树的深度设为4层。
各变量设置如表2所示。
IBM SPSS Modeler软件进行数据挖掘的过程就是通过一系列的节点运行数据的过程,这个过程称之为流。这一系列节点代表要对数据执行的操作,而节点间的链接表示数据流的方向。本研究中我们建立如图1的数据挖掘的流。
按照节点生成的模型如图2所示。
图2左边显示的是决策树模型右边显示的是各变量重要性。左边的是决策树模型。单击上图中的“查看器”,能显示树状图模型,如图3所示(只部分展开),得到四层18大类别决策树。
2.6 模型评价
在SPSS Modeler 中,常用输出模块的分析节点对生成的模型进行评价。在分区节点里,我们按照80%的训练集和20%的测试集对原数据进行过划分。所以在分析结果中可以看到训练集的样本数为7960例正确率为80.58%。测试集的样本数为1982例正确率为81.48%。综上训练集和测试集的正确率都在80%左右。考虑本研究的资料来源较为单一,同时例数太少,因此该决策树模型是可以接受的。
3 模型应用
表2
本研究利用数据挖掘技术分析了某精神专科医院精神科病房2010-2014年9942例患者住院天数,对住院天数使用了决策树分类的建模研究。为了得到相对简单的模型本研究中设置决策树的深度为4。最后模型给出4层18个分类(叶子节点),具体的条件和住院天数控制范围如表3所示。其中住院天数均值是根据每个分类中各聚类的中位数X所点的百分数计算得出。
图3 树状图模型
表3
根据表3,可以对出院病人住院天数进行预测,制定住院天数标准,根据此标准对各科室进行考核评价。
4 未来努力方向
本研究中得到的模型只有80%的正确率,如要应用到医院日常管理中还是相对较低。因此未来应从以下几方面着手完善模型。首先模型应该是动态的,在后续的研究中要不断补充样本,对模型进行优化。其次本研究使用的CHAID算法未必是最好,在今后的研究中,应采用多种模型进行分析比对,寻求最优组合。最后住院天数的影响因素较多,由于医院数据完整性的限制,有些变量无法提取到完整的数据只能放弃,在今后的研究中应该结合HIS系统改造,补充模型变量。
参考文献
[1]朱凌云,吴宝明,曹长修,等.医学数据挖掘的技术、方法及应用[J].生物医学工程学杂志,2003,20(3):559-562.DOI:10.3321/ j.issn:1001-5515.2003.03.047.
[2]杨海青.数据挖掘技术在医院管理中的应用[J].中华医院管理杂志,2005,21(7):497-499.DOI:10.3760/j.issn:1000 -6672.2005.07.026.