数据挖掘在城镇医保中的应用
2013-04-29张莎莎李伟
张莎莎 李伟
摘要:随着国家基本医疗保险制度的全面覆盖,社会保障局数据库中数据也与日俱增,利用其中的数据来做进一步的分析,把大量无序的数据变成科学的知识是社会保障系统工作的需求。以贵阳市社会保障局医疗保险业务数据中城镇居民统筹基金支付情况为目标,利用聚类分析法,通过搭建oracle数据仓库平台,并在此平台上进行主题数据仓库构建与设计,进行联机分析得出城镇居民统筹基金支付情况,为贵阳市城镇居民统筹基金支付政策的科学制定与调整具有一定的指导意义。
关键词:城镇居民;数据仓库;联机分析;数据挖掘;聚类算法
中图分类号:TP39 文献标识码:A 文章编号:1009-3044(2013)08-1739-04
1 概述
贵阳市社会保障局大力发展社会保障的信息建设,并按照劳动和社会保障部门制定了《劳动与社会保障信息指标体系》,于2001年6月设计建设了贵阳市社会保障信息体系,在其运行的十几年中,系统里面的数据不断的增加,以往的软件技术已经不能满足大量数据的分析工作,如何从这些数据中挖掘出有用的信息成为一个重要的工作。
常用的数据挖掘算法有回归算法,分割算法,关联算法,顺序分析算法以及聚类算法等[1]。回归算法是基于数据集中的其他属性预测一个活多个连续变量,如利润或亏损;分割算法是将数据分成组或分类,项具有相似属性;关联算法查找数据集中的不同属性之间的相关性,这类算法最常见的是创建可用于市场蓝分析的关联准则;顺序分析算法是汇总数据中常见的顺序或时间,如WEB路径流;聚类算法最初由Cover和Hart于1968年提出的,是一个理论上比较成熟的方法,该算法思路非常简单直观,如果一个样本在特征空间中的k 个最相似的样本中的大多数属于某一个类别,则该样本也属于这个类别,该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别[2]。
贵阳市城镇居民的统筹基金支付情况的数值是离散的,病分为单病种和非单病种,国家所支付的统筹基金也是不同的,所以采用聚类分析法通过搭建oracle数据仓库平台,并在此平台上进行主题数据仓库构建与设计,经过进行联机分析得出城镇居民统筹基金支付情况,为贵阳市城镇居民统筹基金支付政策的科学制定与调整具有一定的指导意义。
2 总体构架
本研究所用到的数据全部来源于贵阳市社会保障信息系统。数据主要有业务数据和数据字典组成。业务数据包括:居民个人参保基本信息,居民保险清算基本信息;数据字典包括:居民保险人员身份代码表,居民保险人员类别代码表,居民参保所属分中心代码表,服务结构代码表,医疗结构代码表,医疗机构类别代码表等。由于社保信息系统在平时的运行中,采用了非常严格的数据格式控制,所以其内部数据完整,质量较好,为下一步导入数据仓库和数据分析奠定了很好的基础.社会保险中城镇居民医疗保险数据挖掘与联机分析方案的总体架构包含:
数据整合:把从贵阳市社会保障局中抽取的数据进行清理,转化加载到数据仓库中。
数据仓库:将业务系统中面对应用的数据按照分析主题进行组织,并对数据进行存储。
联机分析:应用联机分析处理工具,帮助用户从不同纬度来分析各项数据,具有复杂决策的功能。
数据挖掘:利用数据挖掘工具,把其中隐藏的信息挖掘出来,把日常无需的字段变成有用的信息。
2.1软硬件配置
3 设计
3.1 数据仓库主题域设计
医疗保险业务从其面向的对象中分为两类:城镇职工基本医疗保险和城镇居民基本医疗保险.选定了城镇居民基金支付主题,其数据设计到原有业务数据表格,如城镇居民基本信息表,城镇居民医疗结算表,以及医疗机构代码表等,从城镇居民参保人员的性别,年龄,个人类型,个人身份,医疗机构类别,所属分中心等多个维度来分析基本医疗保险基金支付的构成情况,分析各类人员在单病种患病的情况下统筹支付金额的情况。
3.2 维度建模
3.3物理模型设计
4 实现过程
4.1建立数据仓库
按照同样的步骤,我们把本文的维度表及数据导入到oracle 数据库中,建立本文需要的数据仓库。
4.2 联机分析
4.3数据挖掘
根据统计汇总发现患者在三级一,三级二就医,人员类别为普通人员,人员身份为居民且患单病种,年龄在6以下的人数比较多.,本文选择满足此条件的数据进行挖掘。
5 结论
对统计数据中人数最多的数据进行挖掘得到以下结果:
1)从年龄上看,患单病种的人数的支付基金年龄在6岁以下的满意度高,而且统筹基金分布的人数比较多,说明国家的起付线制定和统筹基金支付具有一定的合理性。
2)从挖掘的结果上看,在年龄上低于6岁患单病种人数要多,为13619, 说明婴幼儿应该加强疾病的保健工作,患病的风险也很大,国家应该在基金方面制定相对应的措施来保障婴幼儿的生活。
参考文献:
[1] 武森.高学东.数据仓库与数据挖掘[M].北京:冶金工业出版社,2003.
[2] 陈跃新.数据挖掘算法在医保数据上的应用研究[D].北京:国防科学技术大学,2010.
[3] 胡洁.数据挖掘技术在设备状态检测的应用研究[D].南京:南京大学.2011.