基于CHAID算法的病毒性肝炎患者DRGs分组研究*
2015-01-27曾雁冰
曾雁冰 林 鹏 方 亚△
基于CHAID算法的病毒性肝炎患者DRGs分组研究*
曾雁冰1,2林 鹏3方 亚1,2△
目的 了解影响患者住院医疗费用的因素,建立DRGs病例分组并对各组医疗费用进行分析评价。方法 以厦门地区病毒性肝炎患者为研究对象,首先利用单因素和多因素方法分析患者住院医疗费用的影响因素,然后以患者住院医疗费用作为目标变量,通过CHAID模型进行DRGs病例分组,最后采用RIV、CV等评价指标分析和评价分组结果。结果 对可能影响住院医疗费用的变量进行单因素分析显示,年龄、付费方式、入院情况和是否手术4个因素具有统计学意义,通过多因素分析显示年龄、费用支付方式、入院情况是厦门地区肝炎患者住院费用的主要影响因素;进一步使用决策树CHAID模型分组得到3组该疾病的DRGs病例组合,第一组为自费方式的患者,第二组为具有医疗保险且入院情况为一般的患者,第三组为具有医疗保险且入院情况为紧急的患者。经非参数Kruskal-Wallis H检验、RIV值、变异系数评价,该病例组合方案具有较好的可靠性和合理性。各病例分组的标准费用分别为1984.73元、1359.23元与1874.68元。分析每个分组的费用门坎值,发现线外病人比例为6.47%~7.65%,却消耗了23.07%-30.09%的医疗费用。结论 通过DRGs分组计算患者住院费用标准值可提供医疗保险机构的偿付参考值,自费病人的标准费用最高,其次是具有医疗保险且入院情况为紧急的患者,线外病人及其医疗消费应作为住院医疗费用总量控制重点。
DRGs 病例组合 住院费用 CHAID算法
疾病诊断相关组(diagnostic related groups,DRGs)是一种基于疾病诊断和患者病情严重程度的疾病分类方法,是一种能够较好地保持病例组合临床同质和资源同质的工具[1]。DRGs的实施既有利于促进临床、医院、患者治疗过程的管理以及疾病治疗的合理化,又有利于医疗保险部门和医院的成本管理,是使社会医疗保险基金能够趋于相对平衡的一种资源分配方法[2]。我国有关DRGs的研究尚处于探索阶段,本文拟以厦门地区病毒性肝炎患者为研究对象,了解其住院费用的影响因素,进一步通过建立DRGs病例分组,获得各组的标准医疗费用,为相关医疗决策部门实行常见病种DRGs管理及其费用偿付提供参考依据。
资料与方法
1.资料来源
本研究以厦门市4家大型医院2008至2009年经医院确诊治疗并已出院的病毒性肝炎患者为研究对象,相关数据来源于医院计算机管理系统患者住院病案首页数据库,共获取1132例患者资料,剔除有缺项、漏项、逻辑错误的病例和治疗结果为“未愈”的病例302人,最后得到有效病例830人。
调查指标主要分三大类:社会经济学特征变量包括患者的性别、年龄、婚姻状况和支付费用类别;临床特征变量包括患者入院情况、是否手术和出院情况;医疗消耗变量包括患者的住院天数和医疗费用,具体如表1所示。
2.研究方法
(1)决策树CHAID分析方法
CHAID 分析方法[3]即χ2自动交互检测法 (chi-squared automatic interaction detector),是决策树中的一种算法,可以快速、有效地挖掘出主要影响因素。其核心思想是根据给定的目标变量和经过筛选的特征指标(即预测变量)对样本进行最优分割,按照卡方检验的显著性进行多元列联表的自动判断分组。本研究通过决策树CHAID模型以医疗费用、相关影响因素为依据进行DRGs病例分组;在分类基础上,计算各DRGs分组费用的标准及其范围,并分析不同费用类型的构成特点。
(2)评价指标
本研究采用方差减少量(reduction in variance,RIV)和变异系数 (coefficient of variation,CV)对各组合的分组效果进行评价。其中,RIV值越大,说明组间异质性越强,分组效果越好[4];CV值越小,说明组内变异越小,分组效果越好[5]。
(3)统计分析
采用中位数、四分位数间距对病例数据进行描述性统计分析,采用Mann-Whitney U检验、Kruskal-Wallis H检验、多元线性回归分析等方法分析住院费用影响因素。
所有数据用excel建库,采用SPSS17.0软件进行决策树CHAID模型分析和统计分析,以α=0.1作为检验水准。
结 果
1.一般情况
830例病毒性肝炎患者中,男性占72.65%,女性占27.35%。年龄以16~39岁居多,占76.27%。患者支付费用方式中,有医疗保险者占66.51%(见表2)。
2.住院医疗费用影响因素分析
(1) 单因素分析
将住院费用作为分析变量,将患者的性别、年龄、婚姻状况、职业、付费方式、入院诊断情况、是否手术和出院诊断情况作为分组变量,进行Mann-Whitney U检验和Kruskal-Wallis H检验。结果显示,年龄、付费方式、入院情况和是否手术共 4个因素具有统计学意义(表2)。
对住院费用和住院天数进行Spearman相关分析,结果显示,住院天数与住院费用存在正相关关系。
(2)多因素分析
将住院费用作为因变量,以患者的社会经济学特征变量(性别、年龄、婚姻状况和支付费用类别)、临床特征变量(入院情况和出院情况)和住院天数共七个变量作为自变量进行多元线性回归分析,结果显示,年龄、付费方式和入院情况3个变量具有统计学意义(见表3)。在控制其他因素后,在各年龄组住院费用中,以≤15岁组作为参照,可见40~55岁年龄组的最高,其次是大于55岁年龄组,而≤15岁组的医疗费用最少;有医疗保险者较自费者低;入院情况紧急者住院费用较情况一般者高。
3.DRGs分组及其费用偿付标准
根据上述住院医疗费用影响因素分析结果,选择年龄、支付费用类别、入院情况三个变量作为解释变量,住院医疗费用作为目标变量,使用决策树CHAID模型对数据进行DRGs病例分组。CHAID生成的决策树第一个分类节点是付费方式,其中采用自费方式的患者归为一组,而具有医疗保险的患者归为另一组;第二个分类节点是入院诊断情况,它将采用医疗保险的患者再分为入院情况为一般和紧急两类,而采用自费方式的患者一组因为遇到根据CHAID算法规则设定的“每个组合样本数不少于50,每个节点样本数少于100时不再继续划分”与 “F检验α=0.05”构成的停止条件而停止拆分。
*年龄以“≤15岁”为参照组
根据分组结果,可知每个病例分组的中位数、四分位间距、费用上限(见表4),将样本中超过费用上限的病例剔除,计算每一个病例分组的住院费用标准值,作为医疗保险机构向医疗服务机构的偿付参考值。第一组为使用自费方式的患者,其标准偿付费用为1984.73元,第二组为具有医疗保险且入院情况为一般的患者,其标准补偿费用为1359.23元,第三组为具有医疗保险且入院情况为紧急的患者,其标准补偿费用为1874.68元。
*:1-自费方式,2-医疗保险且入院情况一般,3-医疗保险且入院情况紧急
4.DRGs分组的评价
(1)Kruskal-Wallis H检验
Kruskal-Wallis H检验结果显示,各组合间费用的差异有统计学意义(H=34.56,P<0.001),说明组间有很好的异质性。
(2)RIV值
通过住院费用各子集间的变异与总变异的比较,计算病例组合RIV值为15.70%,认为本次分组效果总体较好。
(3)CV值
CV用于评价组内医疗资源消耗的同质性。本次研究所得三个分组的CV值分别为CV1=0.91、CV2=0.89、CV3=1.11,认为本分组组内住院费用消耗的同质性较好。
5.线外费用与线外患者分析
在建立了病例分组后,可通过对线外费用比例与线外病人比例的分析评价医疗费用消耗情况。用各组合住院费用的75%加1.5倍四分位间距作为费用控制的上限[5],线外费用比例指超过费用上限的住院费用合计除以该分组的总费用;线外病人比例指住院费用超过费用上限的病人合计除以所在分组住院总人数。第一个组合线外病人比例为6.47%,却消耗了23.07%的医疗费用;组合2只占样本病例7.3%的病人,费用占到了样本病例的29.76%;组合3同样是7.65%的线外病人消耗了30.09%的医疗费用(见表5)。
讨 论
随着社会人口的老龄化、医疗新技术的不断出现和社会对医疗需求的日益增加,医疗费用急剧上涨,各国都在积极采取措施加以控制。1983年,美国政府在全国范围内实行了以DRGs为基础的医疗费用预付款制度,有效地控制了医疗费用的膨胀,之后各国就推进应用DRGs支付制度进行了诸多研究[6]。我国的学者也针对DRGs分组进行了探索。目前DRGs分组普遍采用自动交互检测方法(automatic interaction detector,AID)产生病例组合方案,其算法的基本思想是对每个基础病种逐个分级考察影响费用的节点变量,使每组内病例费用方差最小。而本文的病例组合研究采用了另一种有效算法——卡方自动交互检测方法(CHAID)。因为病例分组的研究中多为分类或者定性的数据,无法使用连续变量的方法处理,而CHAID却可以有效处理分类和定序数据[7]。
我国病种费用控制的可行性研究表明,以病种为主导因素,参照病种相关因素,研制出适合我国国情的疾病诊断相关分类预付款制度很有必要[8]。目前现实条件下,有很多因素可以影响到医疗资源的消耗水平,因而会对病例的DRGs分组以及组合内资源消耗的一致性产生影响。本研究从病案首页收集了性别、年龄、婚姻状况、支付费用类别、患者入院情况、是否手术与出院情况等指标,通过住院医疗费用的影响因素分析,显示年龄、费用支付类别、入院情况对住院费用具有显著的影响作用。说明这些变量是影响医疗资源消耗的重要因素。
我们基于病毒性肝炎患者住院总费用的影响因素分析,结合病毒性肝炎的疾病特性,选择了年龄、支付费用类别、入院诊断情况作为CHAID算法的分类指标。这也是考虑到利用CHAID方法建立树形模型的一个关键问题是选择分类截点的数量和什么时候停止树的生成。截点太少不能很好的区分不同特征的患者,从而导致组内患者费用出现大的差异。截点过多又会导致生成的树非常庞大,不但会给以后的费用偿还工作带来很多不便,还会使模型产生过度拟合的现象。
CHAID生成的决策树第一个分类节点是付费方式,说明付费方式与病毒性肝炎住院费用的相关性最显著。也反映出完善的医保付费对于减轻病毒性肝炎患者的医疗费用负担具有重要作用。
本研究对病毒性肝炎病例进行分组以后,分析了所选样本医院住院收费控制标准参考值,使用自费方式的病例组为1984.73元,具有医疗保险且入院情况为一般的病例组为1359.23元,具有医疗保险且入院情况为紧急的病例组为1874.68元,这些病例分组的参考值可为实际工作中制定合理的病毒性肝炎住院医疗费用偿付标准提供依据。通过DRGs分组还可以获得每组费用门坎值,医院可据此明确相应病种卫生资源消耗的最高限额,并有效地在该病种DRGs支付标准以内进行控制,避免卫生资源浪费现象的发生[9]。由于医疗需要,少数病人超线如5%是允许的,但如果线外费用和线外病人的比例过高,则含有过度医疗消费、医疗费用上涨和收费过高的因素[10]。在本研究中三个分组的线外病人比例均超过了5%,可见少数患者消耗掉了较大比例的医疗资源,反映出住院医疗费用总量控制的重点之一应该放在线外病人及其医疗消费上。病例组合的最直接体现还是通过费用标准的制定,因此应注重DRGs在收费标准上的研制,可利用本文介绍的方法推广于其他系统疾病,最终形成一套包括所有疾病在内的、开放性的和动态的住院费用标准体系。
由于现阶段在我国根据成本确定DRGs 组合支付标准仍有相当大难度[11],如病人电子信息系统仍不完备、缺乏疾病并发症和合并症系统、部分医院没有实施临床诊疗规范等,本研究采用了与成本密切相关的住院医疗总费用来测算各组合的支付标准,经非参数Kruskal-Wallis H检验、RIV值测算均显示组间异质性较强,CV测算结果显示组内住院费用消耗的同质性较好,说明了病例组合方案的可靠性和合理性,这为迅速在国内建立切实可行的DRGs支付方式提供了参考。在试行DRGs以后,可进一步完善基于 DRGs 系统的成本核算体系、成本信息数据库,依次对相应的支付标准进行调整,并且反过来不断修正 DRGs 分组,使DRGs 系统在应用中不断得到完善。
[1]吴琳,高红.DRGs在公立医院实施的必要性及应注意的问题.中华全科医学,2012,10(11):1798-1799.
[2]魏万宏.国外DRGs付费制度对我国疾病付费模式的启示.医学与哲学,2012,33(11A):45-47.
[3]石玲,王燕.婴幼儿死亡危险因素的研究——兼论CHAID方法的原理及应用.中国卫生统计,2002,19(5):283-285.
[4]高建民,郑古峥玥,詹梅,等.疾病诊断相关分组分类节点变量的选择及其分组结果的合理性评价.中国卫生经济,2013,32(1):16-18.
[5]高子厚,万崇华,蔡乐,等.按DRGs组合方式制定消化系统疾病患者住院费用的研究.中国卫生统计,2006,23(4):323-325.
[6]Jean M,Caroline M.DRG information system,health care reforms and innovation of management in the western countries.Case-mix,2002,(4):16-19.
[7]张红涛,王二平,陈毅文.卡方自动交叉检验在人群细分中的应用.心理科学进展,2007,15(3):552-558.
[8]闫宇翔,谢知,罗艳侠.北京地区脑卒中患者DRGs分组研究.中国卫生统计,2008,25(4):347-350.
[9]何凡,沈毅,刘碧瑶.浙江省住院病人病例组合研究.中华医院管理杂志,2006,22(7):460-462.
[10]阎玉霞,潘峰,徐勇勇.基于我国病案首页的病例组合方法——300所医院评估结果.第四军医大学学报,2001,22:554-556.
[11]林晨蕾.美国DRGs支付制度对我国医疗保险支付方式的启示.管理世界.2010,(5):115-116.
(责任编辑:邓 妍)
国家自然科学基金青年项目(71403229),教育部人文社会科学研究项目资助(12YJA790030),福建省自然科学基金资助项目(2013J05108)
1.厦门大学公共卫生学院(361102)
2.福建省高校卫生技术评估重点实验室
3.厦门大学经济学院
△通信作者:方亚,E-mail:fangya@xmu.edu.cn