基于降维技术的住院费用多因素分析与方法研究*
2018-03-05新疆大学数学与系统科学学院830046刘泽萌吴黎军
新疆大学数学与系统科学学院(830046) 张 智 刘泽萌 杨 堤 吴黎军
医疗费用一直是民生问题的焦点,我国大部分地区逐步建立以单病种限额付费为主体的总额预付制并取得一定成效[1]。为进一步促进医疗资源合理利用,研究单病种住院费用及其影响因素具有重大意义。
本文应用数据挖掘领域的降维方法——基于BIC准则的切片逆回归[2],即MSIR,该方法在寻求降维方向时,同时考虑自变量和因变量的信息,实现高维数据的综合降维。将住院费用多因素分析问题转化为一个降维问题,为研究住院费用的结构特征和影响因素提供了新的思路。
充分降维与MSIR
1.充分降维
回归模型通常是将(X,Y)的联合密度函数分解为f(y|x)g(x),充分降维(sufficient dimension reduction)的主要思想是寻找一个P×K(K≤P)维的矩阵β=(β1,…,βK),其中βi(i=1,2,…,K)为p维列向量,使得p维向量X可以被低维的线性组合βTX取代,且不损失Y|X的任何信息。换言之,若条件分布Y|X和Y|βTX是相同的,就达到了降维目的。可表示为以下多指标模型[3]:
(1)
2.MSIR的运算步骤[2,5]:
(2)
(3)
实例分析
1.数据来源及预处理
数据来自乌鲁木齐市社保局,为乌市2014年11月至2015年7月的13家定点三级医院医保数据,主要包括病人的年龄、性别、疾病类型、入出院科室,各单项费用及总费用等。本文选取常见多发的胆囊炎伴胆囊结石(ICD10:K80.1)和急性阑尾炎(ICD10:K35)两个单病种进行分析,以下简称为胆囊炎和阑尾炎,总样本量分别为263和117。预处理:使用excel软件剔除异常值:分别删除两病种项目信息不全的样本量7和2、删除住院天数大于100天的样本量2和0、删除各项费用其分位数在99%以上或1%以下的样本量19和7,最终胆囊炎取235个样本数据,阑尾炎取108个样本数据。住院天数、总费用及各单项费用呈正偏态分布,采用对数转换使其成正态分布。
2.降维结果及分析
考虑到住院费用的复杂性和多因素性,鉴于充分降维是寻找变量的若干线性组合,而不同于变量选择方法挑选某些变量[7],本文综合费用构成因素和社会经济因素,参考现有研究成果[8-10],选取住院天数、年龄、性别、手术费、药费、床位费、检查费、治疗费、化验费、材料费作为10个协变量。根据以上MSIR计算步骤, 使用软件 R3.2.2 及“msir”软件包可得两病种的降维结果及分析如下:
(1)胆囊炎的降维结果
图1 特征值与维数估计(胆囊炎)
表1 基方向β1与β2的估计值(胆囊炎)
表2 回归方程及检验结果(胆囊炎)
①ln(药费)在降维方向上的系数为0.7106,是影响胆囊炎住院费用的最重要因素。
②ln(材料费)的系数为0.3149,是影响住院费用的次重要因素。
③ln(检查费)的系数为0.3119,ln(住院天数)的系数为0.2521,也是影响胆囊炎住院费用的主要因素。
(2)阑尾炎的降维结果
图2 特征值与维数估计(阑尾炎)
表3 基方向β1的估计值(阑尾炎)
表4 回归方程及检验结果(阑尾炎)
①ln(药费)在Dir1上的系数为0.8679,是影响阑尾炎住院费用的最重要因素。
②ln(治疗费)的系数为0.3226,是影响阑尾炎住院费用的次重要因素。
③ln(检查费)和ln(住院天数)的系数分别为0.2094和-0.2073,也是影响阑尾炎住院费用的主要因素。
3.主要影响因素分析
本文研究中,影响胆囊炎住院费用的主要因素为药费、材料费、检查费和住院天数;影响阑尾炎住院费用的主要因素为药费、治疗费、检查费和住院天数。结合现有研究结果,我们发现实施单病种限额结算的付费方式后,本文所选的两种病的费用结构和影响因素有了一定变化。
(1)药费:药费是影响两病种住院费用的最大因素。我国“以药养医”长期存在,药品利润已成为维持医院运作的重要因素,患者缺乏医药知识,药品监管不力都是造成高药价和高药费的客观基础。可见,从用药环节控制住院费用的合理增长是切实可行的[8]。
(2)检查费和材料费:检查费对两病种的影响都很显著,材料费对胆囊炎的影响更显著一些。近年来,越来越多的医院通过引进高端设备和昂贵的一次性材料作为辅助医疗的技术手段,加上医疗机构之间的检查结果互相不认可,患者的检查费和材料费自然也随之上升。
(3)治疗费:以往研究中治疗费的占比都比较小,本文结果中治疗费对阑尾炎有较大影响。可以看出,实施按病种限额付费方式以后,阑尾炎住院费用结构有了一定变化,三甲医院的技术优势和医务人员的劳动价值有一定体现[9]。
(4)住院天数:作为一个重要的医疗资源消耗指标,较长的住院时间将产生更多的医疗费用。本文结果中,住院天数不是影响住院费用的最重要的因素,这与乌鲁木齐市三甲医院病床使用率较高、周转次数多,诊断与治愈效率高的实际情况是一致的。就住院天数来看,病种限额结算方式下三甲医院的医疗资源利用率有所提高。
以胆囊炎为例,该病种多采用腹腔镜手术,手术创伤小,康复快,病人住院天数短,但所需设备和材料费用较高[11],这也进一步解释其检查费和材料费较高的情况。同时,病人住院天数变短,为保证同样的治疗质量下,病人出院带药将增加,药费也会相应增高。
总 结
本文将数据挖掘技术中的降维思想结合传统的回归分析,提高了传统回归的灵活性和包容性,也为数据挖掘在医疗信息化建设中的应用作了有益的尝试。总体分为两步,先用MSIR对高维协变量进行降维,得到中心降维子空间的有效降维方向和维数,再用回归分析得到低维协变量下的回归方程。本文建立的回归模型为线性模型,其他实际应用中根据不同的样本特征,还可以建立非线性等回归模型[1,12]。
与早期研究结果相比,影响胆囊炎和阑尾炎住院费用的主要因素和费用结构有一定变化,反映出按病种限额结算方式确实对医疗费用控制有一定作用。为切实降低患者的医疗费用负担,探索更合理的付费方式,进一步深化我国医疗体制改革,我们建议完善医疗服务补偿机制,弱化药品收益对医院的补偿作用;控制不必要的检查和化验,以平价材料代替昂贵材料,医疗机构之间检查结果共享;保证治疗效果的前提下,建立常见病种的合理参考住院日;增加卫生投入,增强政府的宏观调控作用。
[1] 徐长妍,于双成,迟宝荣.单病种限额付费挑战医院管理模式.中国医院管理,2007,27(7):5-7.
[2] Zhu LX,Miao BQ,Peng H.On Sliced Inverse Regression with High-DimensionalCovariates.Journal of the American Statistical Association,2006,101(474):630-643.
[3] Li K.CSliced Inverse Regression for Dimension Reduction.Journal of the American Statistical Association,1991,86(414):316-327.
[4] Cook RD.Regression graphics:Ideas for Studying Regressions through Graphics.Technometrics,1999,94(4):368-369.
[5] 李岩岩,康新梅.基于SIR方法分析重庆市粮食产量.西南师范大学学报(自 然 科 学 版),2016,41(5):194-198.
[6] Schwarz G.Estimating the dimension of a model.Statist.Annals of Statistics,1978,6(2):15-18.
[7] 赵晓兵,王伟伟.高维附加信息下的商业医疗保险费用评估模型和方法.财经论丛,2013,173(4):58-65.
[8] 张文娟.大连市某三甲医院阑尾炎职工医保患者住院费用及偿付分析.大连医科大学公共卫生学院,2015,5.
[9] 邵亚楠,邱杰,蔡明明.胆囊炎患者住院费用的多因素分析及模型选择.中国卫生信息管理杂志,2012,9(3):89-93.
[10] 张红丽,谭鹏.10296例急性阑尾炎患者的住院费用及影响因素分析.中国卫生经济,2004,253(23):66.
[11] 张鹭鹭,陈洁,张晓玉,等.单病种成本核算和补偿方式的探讨.中华医院管理杂志,1993,9(9):546.
[12] 谢力,魏汝祥,蒋国萍,等.基于分片逆回归的小样本组合预测建模方法.统计与决策,2013 (2):73-76.