计算机数据挖掘城镇居民大病保险中的应用分析
2017-11-07刘丹
刘丹
摘 要:目的 通过对城镇居民医疗保险报销费用与数据挖掘结合,综合分析笔者所在医院大病费用的构成及依赖关系,为进一步改善医疗服务质量提供理论依据。方法 采用数据基本计算方法和决策树模型构建,探索医疗费用相关数据和数据间依赖关系。结果 报销大病居民为9073人,住院10368人次,总计报销12135人次,医疗总费用为17842.82万元,基本保险报销9536.62万元,占53.45%;心脑血管疾病和恶性肿瘤成为报销的主体,分别为16.09%和14.51%;对医疗费用影响最大的是医疗类型,其次为疾病种类,最不明显的是性别。结论 慢性病是该院大病报销的主要病种,医疗类别是重要的影响医疗费用的因素,完善慢性病就诊流程,是解决医疗费用的重要措施之一。
关键词:数据挖掘 城镇居民 医疗保险
中图分类号:TP27 文献标识码:A 文章编号:1674-098X(2017)07(c)-0128-02
随着我国医疗保险体制的不断完善和医疗保险范围的不断扩大,城镇职工基本医疗保险与城镇居民医疗保险已经基本覆盖。而基本医疗保险针对大病风险依然存在,卫生部国家卫生服务调查显示[1]:住院患者中,由于经济困难或者费用太高而要求出院的患者占有比例高达36.8%,其中大病患者是此人群的主要群体[2]。数据挖掘是从不完全大量的,或者模糊、随机的数据库中,应用分析工具,在大量数据中发现数据间关系并建立模型,挖掘潜在有用信息的过程[3]。本研究利用计算机技术结合数据挖掘的理论方法,对医疗保险中大病保险数据进行分析,收到很好效果,现报道如下。
1 资料与方法
1.1 样本和数据的选择
本研究选取本院2014年1月至2016年12月的城镇居民数据库作为研究数据对象,主要包括:重大疾病住院记录报销记录和门诊随访报销记录两部分,具体为患者基本信息数据库,包括性别、年龄、医保报销种类等数据;反应疾病类型和医疗费用数据库,和医疗服务费用补偿数据库,数据来源于该院医保科。
1.2 方法
1.2.1 数据清洗方法
运用计算机筛选功能,将全部数据进行清洗,在17152条数据中,筛选出1053条重复信息,核实剩余信息,筛选数据的异常值或者空项,将无法核实的信息进行删除,删除信息3964条信息,本次研究有效信息为12135条。将有效信息进行归类整理,采用国际分类标准ICD-10进行分类,取其前三位有效代码。
1.2.2 数据挖掘工具
本研究选取Excel 2010和SPSS 22.0两种软件进行数据挖掘分析,通过Excel 2010的SQL Server的程序完成数据挖掘的基本计算,将整理完善的数据导入SPSS 22.0中,对数据进行深层次计算。
1.2.3 数据分析方法
(1)数据基本算法:计算数据的均值、中位数、标准差、方差等数据并分析其数据分布情况,利用数据透视表法分析汇总值,通过数据列表的方式对每个数据进行多重比较。从众多数据中,找到数据可能存在的关系或者数据异常情况等[4]。
(2)决策树:结合Excel 2010和SPSS 22.0软件,采用宽度优先策略和预排序的方式,从无序、杂乱无规则的数据中推理出分类规则,从而得到决策树的表现方式,可用于对数据对象的识别,并针对数据进行预测。通过决策树数据集中属性进行测试,从决策树的根节点到叶节点的路径实现类别预测。
2 结果
2.1 基本资料
本次数据分析显示,报销大病居民为9073人,住院10368人次,共报销12135人次,男性4384人,女性4689人,成年人4274人,占84.25%。医疗总费用为17842.82万元,基本保险报销9536.62万元,占53.45%,商业保险报销3082.05万元,占17.27%,患者个人支付5224.15万元,占29.28%。
2.2 疾病类型
按照报销次数和人数比较分析发现,本医院报销最主要的是以慢性病为主,其中心脑血管疾病和恶性肿瘤成为报销的主体(见表1)。
2.3 医疗费用的影响因素
本研究通过结合一般资料调查,共计筛选出5个类别的因素与医疗费用具有关联,通过决策树模型预测各属性之间的依赖关系,按照依赖关系的大小,对医疗费用影响最大的是医療类型,其次为疾病种类,最不明显的是性别(见图1)。
根据上述排序,以医疗类别为节点对决策树进行进一步分析,医疗费用被自行分为5个区间,即为<6093元;6093~23085元;23085~45931元;45931~79525元;≥79525元,根据决策树模型,在门诊诊疗中,有99.41%的医疗费用小于6093区间,超过本区间的基本以慢性肾病为主,占0.42%;在住院诊疗中,以6093~23085元区间最多,占73.18%。在疾病种类分析中,占用费用最高的疾病为慢性缺血性心脏病,其次为慢性肾病,说明此两种疾病是大病费用最高的病种,而在所以关系属性之中,都与住院时间具有重要关系,精神类疾病、恶性肿瘤、慢性肾病诊疗时间均较长,普遍超过12d,而住院时间的增加,也直接导致了医疗卫生服务费用上涨。
3 讨论
本次研究发现,医疗总费用为17842.82万元,基本保险(包括城镇职工基本医疗保险和城镇居民基本医疗保险)报销9536.62万元,占53.45%,商业保险报销3082.05万元,占17.27%,患者个人支付5224.15万元,占29.28%。虽然基本保险仍然占较高比例,但是个人支出部分仍然较高,近30%的比例通过个人支付完成,这在一定程度上增加了个人医疗卫生费用的支出。
在病种方面分析发现,慢性病依然是该院就诊的主体病种,前几位均属于慢性病范畴,而在大病风险上,排名靠前的为脑卒中和慢性缺血性心脏病,恶性肿瘤也呈较快增长趋势,而且恶性肿瘤也是造成高额医疗费用的主要部分,即为研究发现[5],恶性肿瘤的居民自付比例在18.36~21.09%之间,而在该院的自付比例高于这个范围,说明在恶性肿瘤的治疗过程中,注重医保政策的解读,规范诊疗慢性病的制度,合理应用恰当治疗方案,有助于提高报销比例,从而减轻患者疾病负担。
通过计算机辅助数据挖掘技术,发现在该院医疗费用依赖程度最高的为医疗类型,门诊相对费用较低,而住院患者费用较高,这也属于正常诊疗规范范畴。疾病的类型和住院时间均是医疗费用依赖较高的项目。值得一提的是本次决策树模型是应用综合评价离群点完成的,在普通的模型中,离群点属于异常值范畴,往往是要剔除的,而在医保费用中,由于疾病状况、病情的轻重、住院时长等因素的影响[6],离群点也是具有重要意义的,因此在后期决策树模型的准确性验证方面,得到了比较好的效果,也因此证实了医疗费用的真实依赖关系。
综上所述,慢性病是该院大病报销的主要病种,医疗类别是重要的影响医疗费用的因素,完善慢性病就诊流程,是解决医疗费用的重要措施之一。
参考文献
[1] 中国卫生部.2011年医疗卫生改革阶段性评估调查[Z].
[2] 吴群红,李叶,徐玲,等.医疗保险制度对降低我国居民灾难性支出的效果分析[J].中国卫生政策研究,2012(9): 62-66.
[3] 王丽珍,周丽华,陈红梅,等.数据仓库与数据挖掘原理及应用[M].北京:科学出版社,2008.
[4] 霍继合.基于web的数据挖掘技术研究[D].东北财经大学,2005.
[5] 孙冬悦,孙纽云,房珊杉,等.大病医疗保障制度的国际经验及启示[J].中国卫生政策研究,2013(1):13-20.
[6] 张宗久,周军,梁铭会,等.推进我国大病保障制度建设工作的思考与设想[J].中国卫生政策研究,2013(1):6-10.endprint