APP下载

医院数据挖掘平台中X-11-ARIMA预测模型的应用研究

2016-12-27徐福文

中国卫生统计 2016年1期
关键词:全院数据挖掘季节

高 明 唐 顺 徐福文

医院数据挖掘平台中X-11-ARIMA预测模型的应用研究

高 明1唐 顺2徐福文3

近年来,大部分医院开始建立集成平台、BI(business intelligence,商务智能),将医院已沉淀的海量数据进行利用,但多数集成平台和BI仅限于数据的查询、分析,针对数据挖掘方面的应用较为缺乏。本文通过对预测方法的研究,以全院收入的预测为实例,探索数据挖掘平台对医院的价值。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程,其分类、聚类、估计、预测、关联分析等方法在医疗行业中有着广泛的应用前景,本论文基于医院领导层对预测方法的实际需求,有着普遍的实践意义。

选用预测模型概述

1.ARIMA模型

ARIMA模型全称为差分自回归移动平均模型(autoregressive integrated moving average model,ARIMA),其中 ARIMA(p,d,q)称为差分自回归移动平均模型,AR是自回归,p为自回归项;MA为移动平均,q为移动平均项数,d为时间序列成为平稳时所做的差分次数。

2.X-11过程

X-11过程是由美国国情调查局于1965年编制的时间序列季节调整过程。它的基本原理是时间序列的确定性因素分解法。X-11过程是基于这样的假定:任何时间序列都可以拆分成长期趋势起伏Tt、季节波动St、不规则波动It的影响。又有经济学家发现在经济时间序列中交易日Dt也是一个很重要的影响因素,因此任何一个时间序列可以如下分解:

乘法模型:xt=TtStDtIt

加法模型:xt=Tt+St+Dt+It

3.X-11-ARIMA模型

1978年,加拿大统计局推出了改进的X-11-ARIMA(自回归合并移动平均)模型。该方法引进随机建模的方法,通过自回归和移动平均方法对时间序列进行季节调整。这个方法不仅包含了X-11的所有优点,而且还具有通过ARIMA模型在季节调整前向前或向后扩展时间序列的能力。

全院收入预测模型的识别

1.初步建模

设定X-11-ARIMA程序使用加法模型对全院收入原始序列进行季节调整,表1为未考虑春节因素的回归结果,回归变量中有两个异常值,其中一个出现在2012年1月。由于我国传统节日春节通常是在1月或2月,因此有理由相信这一次季节调整可能受到了春节效应的影响,如表1所示。

表1 未考虑春节因素的回归模型

2.消除春节效应

为消除春节效应,我们引入春节因素变量spring,构建了春节效应模型,具体方法如下:

对于年份j,假设春节对时间序列的影响天数为τ,且假定这τ天中每天的影响是相同的,我们用变量τt(j)来表示这τ天落在j年t月的天数,则对于j年t月,构建一个春节因素变量,定义为:

其中 u(τ,t)为所有年份第 t月(t=1,2)春节变量Hj(τ,t)的均值。则春节效应模型可表示为:

其中 Yj,t为待调整序列,bhj(τ,t)为春节效应值,Xj,t为 Yj,t剔除春节效应后的序列。

根据我国春节的放假情况,引入τ=6,10,14,20的春节因素变量使用加法模型对原始序列进行季节调整。这里以BIC统计量作为判断春节因素模型优劣的标准,当τ=10时,BIC最小,表明该春节因素模型为最优模型。选取τ=10时的春节因素变量的取值情况如表2所示。

表2 2010-2015年的春节因素变量取值(τ=10,春节前三天至初七)

全院收入预测ARIMA模型的建立及检验

1.建模过程

X-11-ARIMA建模过程首先是执行regARIMA预调整模块,通过识别、估计和诊断建立ARIMA模型并用于前向和后向预测,从而实现时间序列双向扩展,并进行季节调整,如图1所示。

图1 X-11-ARIMA季节调整的流程图

2.建立regARIMA回归模型

在regARIMA预调整模块加入春节因素变量,加法分解模型中,regARIMA回归模型形式为:

模型首先从待调整Yj,t序列中减去回归效应值,得到零均值的误差序列Xj,t,然后差分该序列以得到一个平稳序列 pj,t,pj,t服从平稳的 ARIMA模型。引入 τ=10的春节因素变量使用加法模型对原始序列进行季节调整,通过识别、估计和诊断,程序确定了5个较优模型,如表3所示,这里我们选取预测平均相对误差最小的 ARIMA(0,1,1)(0,1,1)12模型为最优模型。

表3 各ARIMA模型的比较结果

表4为考虑春节因素的回归结果,春节变量的t统计量为-6.86,其绝对值显著大于1.96,由此可知春节变量具有较强的显著性,表明春节对全院收入影响明显,因此考虑春节效应是很有必要的。其中,春节变量的估计系数b=-9247238.55,春节效应Zj,t=b×hj(10,t)值,2010年至2015年的春节效应值如表5所示。

表4 考虑春节因素的回归模型(τ=10)

表5 2010-2015年的春节效应值

3.模型检验

为了检验模型的有效性,我们进行了残差的相关性检验和正态性检验,其中残差没有明显的自相关性,同时残差服从均值为0的正态分布,因此证明我们建立的消除春节效应的ARIMA模型是有效的。

4.基于该模型季节调整的效果检验

如图2所示,对比全院收入原始序列、未加入春节因素和加入春节因素季节调整后的序列,可以看出季节调整后的序列比原始序列平滑的多,而加入春节因素进行季节调整后,2012年1月出现的异常值得到了修正,调整后的序列更清晰地反映了全院收入的基本走势。

同时,利用 9种统计量(M1、M2、M3、M4、M5、M6、M7、Q、Q2)来判断加入春节因素模型后季节调整的质量,这些统计量的取值在0~3之间,只有小于1的值可以接受。加入春节因素后模型的M1~M7均小于1,且Q统计量也在可接受范围内,表明加入春节因素的季节调整效果还是比较令人满意的,从而说明我们的预测效果是有效的。

全院收入预测结果

1.以下应用X-11-ARIMA的季节调整法对医院的全院收入序列进行了分析及预测,考虑到春节期间是医院业务活动的低潮期,这里特别引入了春节效应模型准确测量了春节因素的影响程度,提高了预测精度。这里选取了2010年1月至2014年7月共55个院收入的月数据作为样本,通过识别、估计和诊断,最终确立了 ARIMA(0,1,1)(0,1,1)12模型,预测了未来6个月的全院收入,预测结果如表6所示。

2.图3为2010年1月至2014年7月全院收入实际值与预测值的比较图,可以看出预测值和实际值十分接近,平均相对误差为3.40%,由此可见我们建立的模型对全院收入进行分析和预测具有明显的参考价值。

小 结

通过引入X-11-ARIMA预测模型,已经将医院的收入预测误差控制在较低的范围,为医院的费用预算提供了较好的决策依据,后期再通过时间的积累,不断完善模型,就可以将此模型应用于收入、成本、床位、患者等各个方面的预测,给医院管理层提供全面的决策支持。

[1]Han JW,Kamber M,Pei J,et al.数据挖掘:概念与技术.第3版.机械工业出版社,2012.

[2]Torgo L著,李洪成,陈道轮,吴立明译.数据挖掘与R语言.机械工业出版社,2013.

1.重庆市涪陵中心医院(408000)

2.江苏世轩科技股份有限公司

3.重庆市涪陵中心医院

刘 壮)

猜你喜欢

全院数据挖掘季节
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
我喜欢的季节7
季节蠕变
季节的变换
PDCA循环在全院复用器械基数管理中的应用
白衣天使穿上绿装拓展忙
覆盖全院科室的医院财产物资财务管理模式研究
花的季节
高级数据挖掘与应用国际学术会议