基于ARIMA模型结合回归分析在产科工作量预测中的应用
2019-08-19李芷云常薇陈平陈洁芬
李芷云 常薇 陈平 陈洁芬
【摘要】 目的:探讨ARIMA模型结合回归方程在产科工作量预测中的应用价值。方法:以产科门诊建卡数与分娩量数据为基础,运用SPSS19.0建立月建卡数的ARIMA模型、月建卡数与月分娩量的回归方程模型,采用实际数据验证模型,评价模型,选择精度较高的模型进行2018-2020年的产科工作量预测。结果:月建卡数的模型ARIMA(1,1,1)(0,1,1)12的拟合效果最优,用实际分娩量进行预测精度验证,预测分娩量与实际分娩量基本吻合,且实际值均在预测值可信区间范围内。符合拟合程度较高以及线性回归的显著性检验要求的回归方程为y=313.727+1.212x,其预测的平均误差为5.114%,具有较高的精确度,并对历史值的预测效果较好。采用ARIMA模型结合线性回归分析预测2018-2020年建卡人数分别为11 324、12 388、13 334,增长率依次为4.62%、9.40%、7.64%;分娩量预测值分别为12 936、13 554、14 369,增长率依次为9.61%、4.78%、6.01%。结论:ARIMA模型结合回归分析具有较高的预测精度,可较好地拟合产科工作量的演变趋势,为新生育政策下产科管理提供決策依据。
【关键词】 ARIMA模型; 回归分析; 建卡数; 分娩量; 预测
【Abstract】 Objective:To explore application of ARIMA model combined with regression analysis in prediction of obstetric workload.Method:Based on the number of health care cards in obstetric outpatient and delivery volume,the ARIMA model of the number of health care cards per month,the regression equation model of the number of health care cards per month and the delivery volume per month were established by SPSS 19.0.The actual data were used to validate the model,and the evaluation model was selected to predict the obstetric workload from 2018 to 2020. Result:The model ARIMA(1,1,1)(0,1,1)12 has the best fitting effect.The prediction accuracy was verified by the actual delivery volume.The predicted delivery volume basically coincides with the actual delivery volume,and the actual value was within the confidence interval of the predicted value.The regression equation which accords with the higher fitting degree and the significance test of linear regression is y=313.727+1.212x.The average error of prediction was 5.114%.It had higher accuracy and better prediction effect for historical values.ARIMA model combined with linear regression analysis was used to predict the number of health care cards from 2018 to 2020 were respectively 11 324,12 388,13 334,the growth rate were respectively 4.62%,9.40% and 7.64%;the predicted value of delivery volume were respectively 12 936,13 554,14 369,the growth rate were respectively 9.61%,4.78% and 6.01%.Conclusion:ARIMA model combined with regression analysis has a high prediction accuracy,can better fit the evolution trend of obstetric workload,provide decision-making basis for obstetric management under the new birth policy.
【Key words】 ARIMA model; Regression analysis; Number of health care cards; Delivery volume;Forecast
First-authors address:Wuhan University of Science and Technology School of Medicine,Wuhan 430081,China
doi:10.3969/j.issn.1674-4985.2019.10.041
我国自2014年以来先后推行了“单独二孩”和“全面二孩”政策[1],产科工作量近几年呈现上升趋势,直接冲击助产机构的服务能力,因此对产科工作量进行较为准确预测显得十分重要和迫切。国内产科工作量预测分析一般用分娩量或活产数[2-3],但考虑相关因素对分娩量影响的时间序列应用方法不多。分娩量的需求增长受到生育意愿、助产机构技术水平等众多因素影响,而基于孕产期保健的管理要求,孕妇须在孕12周之前建立孕产妇系统保健卡[4],产科工作量中包括产科门诊量、分娩量均来源于产科门诊建卡人数,建卡人数的高低直接影响到分娩量的高低,综合考虑本研究选择产科门诊建卡数、早孕建卡人数、早孕建卡率分布作为主要影响因素。本研究基于惠州市妇幼保健计划生育服务中心的产科门诊建卡数建立时间序列ARIMA模型预测,结合月建卡数与月分娩量的回归分析建立回归方程模型进行产科工作量预测,为新生育政策下产科管理提供决策依据,现报道如下。
1 资料与方法
1.1 资料来源 查阅2014年1月-2017年12月产科门诊建卡总数和分娩总数,分别来源于惠州市妇幼保健计划生育服务中心的产科门诊孕妇建卡登记表、产科住院分娩出院病历,在资料的收集过程中,经過审核、整理,保证了数据的可靠性及完整性。
1.2 研究方法
1.2.1 求和自回归移动平均(Auto-Regressive Integrated Moving Average Model,ARIMA)模型 Box和Jenkins于20世纪70年代提出,是应用最为广泛和著名的时间序列预测方法之一[5],它应用相应的数学模型描述一组依赖于时间的随机变量相互之间所具有的自相关性,以表征预测对象发展的延续性并从时序的过去值与现在值预测其未来值。ARIMA季节模型一般表示为ARIMA(p,d,q)(P,D,Q)s,该模型能够综合考虑季节、趋势和随机干扰等因素,具有良好的预测功能,近年来在公共卫生领域逐渐被学者重视与运用[6-10]。本研究采用2014年1月-2017年6月的产科门诊月度建卡数,通过时间序列ARIMA预测法,用SPSS软件建立并数值求解了产科门诊建卡人数2017年7-12月随时间变化的数学模型。
1.2.2 一元线性回归模型 只存在一个解释变量的线性回归模型就被称作一元线性回归模型,用于揭示两个变量之间的线性关系,其基本模型表示为:yi=α+βix+εi,其中y为因变量,x为自变量,α为常数项,βi为回归系数。ε为随机误差,又称为残差,是y的变化中不能用自变量解释的部分。线性回归分析常用于分析变量间的依存关系,资料应满足以下条件:(1)因变量与自变量间存在线性关系;(2)各例观测值yi 相互独立;(3)残差ε服从正态分布N(0,σ2),其中方差σ2反映了回归模型的精度;(4)残差ε不随所有变量取值水平的改变而改变,即方差齐性[11-12]。本研究采用2014年1月-2017年12月孕妇建卡资料中按建卡日期与末次月经日期计算孕周并分类设置月度指标,小于13周为早孕建卡,统计每月的早孕建卡总数,计算每月的早孕建卡率%(早孕建卡率=月早孕建卡数/月建卡数×100%)。根据建卡孕周与分娩有时间延迟对应关系,设置当月分娩量、1个月后月分娩量、2个月后月分娩量、3个月后月分娩量、4个月后月分娩量、5个月后月分娩量、6个月后月分娩量、7个月后月分娩量指标作为因变量,分别与建卡人数、早孕建卡人数做相关分析和线性回归分析,通过最优模型选择适用的因变量指标得出回归方程。
1.2.3 基于惠州市妇幼保健计划生育服务中心的产科门诊建卡数建立时间序列ARIMA模型预测,再结合月建卡数与月分娩量的回归分析建立回归方程模型进行分娩量预测,并评价选择最优模型。
1.2.4 采用2017年7-12月实际的建卡数与分娩量实际数验证,并提出选择模型的不足和改进方向。
1.3 统计学处理 采用Excel 2007建立孕妇月建卡数和月分娩量数据库,运用SPSS 19.0建立模型和分析数据,以P<0.05为差异有统计学意义。
2 结果
2.1 建卡人数的ARIMA模型建立与预测验证
2.1.1 产科门诊建卡原始数据的收集和整理以及ARIMA模型的识别 ARIMA模型是随机性时间序列分析中的一大类分析方法的综合,这些方法以序列不同时期间的相关性度量为基础,能够为医疗卫生方面的短期预测工作提供有效的指导[13]。2014年1月-2017年6月惠州市妇幼保健计划生育服务中心产科门诊每月的建卡人数,见表1。由表1可见,该院产科门诊每月建卡人数呈上升趋势,呈现明显的非平稳性和季节性,在每年的3-12月呈波动上升趋势,1月和2月分别为低峰期。对本组资料进行一阶非季节性差分和一阶季节性差分转换后,序列在均值附近较为稳定地波动(图1)。处理后数据自相关系数Kr>3时均落入置信区间(图2),说明该时间序列具有平稳性。偏自相关序列呈衰减正弦曲线状,可初步判断该序列适用于一阶滑动平滑模型(图3)。
2.1.2 模型的识别定阶与参数估计 原始序列经过一阶非季节性差分和一阶季节性差分达到平稳,可以推测 s=12,d=1,D=1,模型可初步确定为ARIMA( p,1,q)( P,1,Q)12。自相关系数和偏相关系数均为正弦震荡的无限拖尾,在滞后一阶后降为0,可以初步确定P= 1,q = 1根据研究需要,初步确定6个模型,各模型拟合情况见表2。其中,模型(6)A ARIMA(1,1,1)(2,1,1)12、模型(2)ARIMA(1,1,1)(0,1,1)12、模型(3)ARIMA(1,1,1)(0,1,2)12、的决定系数R2最高。正态化BIC值越小,模型的拟合程度越好。综合R2和正态化BIC值,认为模型(2)ARIMA(1,1,1)(0,1,1)12的拟合效果最优。模型平稳的R2为0.327,Ljung-Box Q统计量为14.932(P=0.456)对该模型的残差进行自相关和偏相关分析,残差的自相关和偏相关函数均为近似0阶截尾函数,提示残差序列为近似白噪声序列[14],见图4。
2.1.3 模型预测效果 使用ARIMA(1,1,1)(0,1,1)12模型对原序列进行拟合,预测值与实际值基本吻合,动态趋势基本一致(图5),使用该模型对2017年7-12月逐月分娩量进行预测,并用实际分娩量进行预测精度验证(表3),预测分娩量与实际分娩量基本吻合,且实际值均在预测值可信区间范围内。
2.2 建卡人数与分娩人数的回归方程模型的建立与验证
2.2.1 研究产科门诊每月建卡人数与月分娩量等相关指标的关系,建立建卡人数与当月、1~7个月对应的分娩量数据表。分别用建卡人数与当月、1~7个月对应的分娩量做相关分析和回归分析,对应的分析结果指标见表4。
2.2.2 分别用早孕建卡人数与当月、1~7个月对应的分娩量做相关分析和回归分析,对应的分析结果指标,见表5。根据线性回归分析模型拟合效果的评价[15],表4的模型5个月,表5的模型5个月、模型7个月符合拟合程度较高以及线性回归的显著性检验要求,其回归方程分别为:
方程1:y=244.969+0.949x
方程2:y=313.727+1.212x
方程3:y=303.109+1.110x
2.2.3 线性回归模型的拟合误差检验 结合2017年7-12月分娩量的实际值,再采取各个回归方程后的拟合值y,以及y与yi之间的相对误差,通过分娩量的实际值与预测值的相对误差进行比较,从表6可以看出,方程2模型预测最大相对误差是18.255%,最小误差为2.811%,平均误差为5.114%,说明线性回归模型的方程2具有较高的精确度,并对历史值的预测效果较好,即采用月度的早孕建卡数对5个月后月分娩量的预测效果好。
2.3 ARIMA模型结合回归方程外推预测 采用ARIMA模型预测2018-2020年每月建卡人数,采用2017年平均早孕建卡率、预测的建卡人数结合线性回归方程2预测2018-2020年每月分娩量,2018-2020年预测建卡人数及预测分娩量,见表7。
3 讨论
以往的研究成果为生育政策调整下的人口发展趋势下的产科资源配置提供了基本思路和技术方法,多为全国、省级、区域性范围配置研究[16-18],而区域性范围配置模式并不适合预测实际的产科资源配置需求数量。基于产科工作量的预测中,产科门诊建卡人数直接关联到产科门诊量和住院的分娩量,建卡人数与分娩量的预测,对于产科工作量的指导具有重要意义,本研究通过对惠州市妇幼保健计划生育服务中心2014年1月-2017年12月产科门诊建卡和分娩的数据进行收集,运用SPSS进行了ARIMA模型预测、结合线性相关与回归分析,得到了产科门诊建卡数与分娩量的预测模型,同时,得到了影响产科分娩量的主要因素为早孕建卡人数,通过对实际值的验证,确定适用于本院需求预测模型,做了2018-2020年产科门诊建卡数、分娩量的预测。采用预测与数学模型结合的方法,得出适用于近中期、具有实际指导意义的产科工作量预测模型[19],不仅可以为相关科室提供决策依据,便于提前配置相关人力物力资源,也可以提高助产机构对高峰期工作量的管理水平,对人员、床位等资源配置得到有效的控制和管理。
ARIMA模型结合回归分析的优势在于可以将多种影响变量、发展因素的综合效应蕴含于时间变量中[20],通过综合考虑序列的趋势变化、周期变化和随机干扰并借助统计模型进行量化表达,且可以通过反复识别及修改以获得更为满意的模型。但是由于助产机构自身的管理方式、孕产妇就诊意愿、孕妇住院分娩的意愿、育龄妇女生育意愿、生育政策等因素的影响,产科工作量构建的模型也不尽相同,因此在实际应用中需要对基础数据的分布有较好的理解,并通过基础数据的不断积累,方可获得更加合适的预测模型。
参考文献
[1]习近平.关于《中共中央关于全面深化改革若干重大问题的决定》的说明[J].求是,2013(22):19-27.
[2]朱玮,仇静波,黄群.ARIMA模型在分娩量预测中的应用[J].中国妇幼保健,2015,30(20):3345-3347.
[3]莫佳琪,刘志辉,江岚,杨滨波,朱淳.基于ARIMA模型的产房分娩情况预测研究[J].中国妇幼保健,2014,29(16):2469-2472.
[4]中华人民共和国国家卫生健康委员会.《中华人民共和国母婴保健法实施办法》(中华人民共和国国务院第308号令发布)[EB/OL].[2001-6-20]http://www.nhfpc.gov.cn/zwgk/fagui/201304/8db10e2a43e843e58f69289ee4c172cb.shtml.
[5]邱林.应用ARIMA模型预测某三级甲等医院门诊量[J].中国医院统计,2018,25(1):77-79.
[6]龚磊,吴家兵,侯赛.ARIMA模型在安徽省流行性感冒发病预测中的应用[J].公共卫生与预防医学,2015,26(2):4-7.
[7] Mai Q,Aboagye‐Sarfo P,Sanfilippo F M,et al.Predicting the number of emergency department presentations in Western Australia:A population-based time series analysis[J].Emergency Medicine Australasia,2015,27(1):16-21.
[8]周惠,陈晓军,张杨,等.ARIMA模型在肺结核登记病例数预测中的应用[J].江苏预防医学,2018,29(03):286-288.
[9]樊雯婧,陆群,邹立巍,等.ARIMA模型在合肥市疟疾发病预测中的应用[J].安徽医科大学学报,2013,48(3):252-256.
[10]陈莉.探讨ARIMA模型在细菌性痢疾发病预测中的应用[J].中国卫生统计,2011,28(4):417-419.
[11]顾刘金.应用SPSS软件实现多重线性回归分析[J].预防医学,2018,30(3):323-324.
[12]金丕焕,陈峰.医用统计方法[M].3版.上海:复旦大学出版社,2009.
[13]赵志,周倩,张晋昕.时间序列分析方法及其进展[J].中国卫生统计,2015,32(6):1087-1090.
[14]陈伟,陈正利,李少芳,等.ARIMA模型在河南省梅毒月发病率预测中的应用[J].中国卫生统計,2013,30(4):604-606.
[15]胡良平.多重线性回归分析的核心内容与关键技术概述[J].四川精神卫生,2018,31(1):1-6.
[16]杨婷,王芳,宋莉,等.“全面二孩”政策下产科床位需求与缺口测算[J].中国卫生政策研究,2016,9(2):59-64.
[17]林海锋,陶红兵,程兆辉,等.武汉地区医院产科资源利用效率及影响因素研究[J].中国医疗管理科学,2015,5(5):9-13.
[18]赵薇,黄爱群,胡焕青,等.我国大中城市助产机构产科床位配置及使用现状研究[J].中国妇幼保健,2015,30(12):1811-1813.
[19]陈银苹,吴爱萍,余亮科,等.组合模型对肺结核发病趋势的预测研究[J].中国全科医学,2014,17(21):2452-2456.
[20]范引光,吕金伟,戴色莺,等.ARIMA模型与灰色预测模型GM(1,1)在HIV感染人数预测中的应用[J].中华疾病控制杂志,2012,16(12):1100-1103.
(收稿日期:2018-10-08) (本文编辑:周亚杰)