APP下载

基于ARIMA乘积季节模型的红细胞临床用量预测

2021-10-22刘芸男杨小丽杨冬燕

郑州大学学报(医学版) 2021年5期
关键词:季节性差分残差

杨 霜,刘芸男,杨小丽,杨冬燕

1)重庆医科大学公共卫生与管理学院;医学与社会发展研究中心;健康领域社会风险预测治理协同创新中心 重庆 400016 2)重庆市血液中心业务部 重庆 400015

近年来,随着我国血液保障体系的日趋完善,已基本实现临床用血全部来自自愿无偿献血的目标。然而,由于自愿无偿献血易受天气、季节等因素的影响,故难以保障稳定的血液供应,尤其是在高级别医疗机构集中的省级血液中心覆盖的区域,由于周边区县疑难病患的大量涌入,因血液资源不足而推迟手术和延缓治疗的现象时有发生[1]。自回归移动平均(auto-regressive integrated moving average, ARIMA)模型是将一组随时间变化的数据序列看作一个随机序列,利用该序列建立相应的数学模型,来描述序列值不同时间点之间的相关关系,并根据历史序列值变化规律对其未来发展趋势进行预测[2]。因此,为了更好地实现对血液需求的科学预测和动态管理,本研究拟采用时间序列分析中的ARIMA模型对重庆市血液中心红细胞临床用量进行分析,探寻红细胞临床用量的预测方法,以期为科学地制定无偿献血招募和采供血计划提供依据。

1 资料与方法

1.1 数据来源数据源于重庆市血液中心2006年以来连续13 a的红细胞临床月用量,依据2006年1月至2018年12月的红细胞临床月用量构建预测模型,以2019年1~6月的数据对模型预测效果进行评价。

1.2 ARIMA模型的构建根据时间序列是否随季节性变化,其结构可分为ARIMA(p,d,q)及ARIMA(p,d,q)×(P,D,Q)s,其中p、q为自回归阶数和移动平均阶数,d、D为非季节性和季节性差分次数,P、Q为季节性自回归阶数和移动平均阶数,s为时间序列周期或循环长度[3-4]。

ARIMA模型建构过程:①序列平稳处理。根据原始时序图或相关函数图判断序列是否平稳,对于不平稳的序列进行差分或季节性差分处理,以实现序列的平稳。②模型识别及参数确定。根据差分后平稳序列的自相关(auto-correlation function,ACF)图和偏自相关(partial auto-correlation function,PACF)图的拖尾或截尾情况来确定p、q阶数,并依据差分次数确定d值,初步建立备选模型。③模型检验与优化。依据残差序列的ACF图、PACF图、Ljung-Box Q检验统计量,判定残差是否呈白噪声。若是,提示模型可用于预测;否则需重返第2步。最优模型的确定依赖于贝叶斯信息准则值(Bayesian information criterion,BIC)和决定系数(R2)的大小,即在初步建立的备选模型中BIC值最小、R2最大者为相对最优模型[5-6]。④预测并验证。运用最优的ARIMA模型进行预测,分析实际值与预测值的拟合情况,并根据二者的平均相对误差对模型预测效果进行评价。

1.3 统计分析应用SPSS 26.0对获取的数据资料进行统计分析、处理和模型的构建,检验水准α=0.05。

2 结果

2.1 数据平稳处理绘制2006年1月至2018年12月红细胞临床月用量的原始时序图(图1上),可以看出红细胞月用量存在明显的趋势性及季节周期变化,整体上呈波动上升趋势,在每年的3~4月、11~12月出现用血高峰,低谷则集中在每年的1~2月、6~8月。由于序列呈现周期性及趋势性的不平稳特征,故需对数据进行差分和季节性差分处理。经过一阶差分和一阶季节性差分后观测值均围绕0值上下随机波动(图1下),表明处理后的序列为平稳序列。

图1 红细胞用量原始时序图(上)和经差分处理后的时序图(下)

2.2 模型识别及参数确定根据红细胞用量原始时序图的季节变化特征,确定为季节性ARIMA(p,d,q)(P,D,Q)s模型。因进行了一阶差分和一阶季节性差分处理,故d=1,D=1;季节周期为12,故s=12。根据差分后平稳序列的ACF图和PACF图(图2),发现ACF截尾或拖尾特征不明显,在1、4、11、12、13阶时显著不为0,故考虑q取0;而PACF呈三阶截尾,考虑p取3;因季节模型的P、Q值难以判断,而其超过2阶的情况极少,故分别从0~2由低到高逐个试验[7],初步拟定备选模型为ARIMA(3,1,0)(1,1,0)12、ARIMA(3,1,0)(0,1,1)12和ARIMA(3,1,0)(2,1,0)12。

图2 经差分处理后平稳序列的ACF图与PACF图

2.3 模型检验与优化应用Ljung-Box Q方法对备选模型残差行白噪声检验,P>0.05,表示残差为白噪声,剔除未通过白噪声检验及模型参数无统计学意义的模型,从备选模型中选出BIC值最小且R2最大者即为最优模型,结果见表1。由表1可知,ARIMA(3,1,0)(0,1,1)12为最优模型,其残差序列的ACF与PACF基本都落入95%CI内(图3),且残差Ljung-Box Q=14.749,P=0.396,表明残差序列不存在相关关系,残差呈白噪声,可用于预测红细胞临床月用量。

表1 初筛备选模型的参数估计及假设检验结果

图3 ARIMA(3,1,0)(0,1,1)12模型残差序列的ACF图与PACF图

2.4 模型拟合效果评价运用最终确定的模型ARIMA(3,1,0)(0,1,1)12预测2019年1~6月的红细胞临床月用量,从绘制的模型预测图(图4)可见,模型预测结果与同期红细胞临床实际月用量基本吻合,提示模型拟合效果较好。根据预测结果(表2),各月份红细胞临床实际用量基本落在预测值的95%CI内,平均相对误差为6.15%,表明模型预测精度较高。

图4 ARIMA(3,1,0)(0,1,1)12模型的红细胞临床月用量预测图

表2 2019年1~6月的模型预测评价结果

3 讨论

红细胞作为临床用量最大的血液成分[8],可快速提高人体血氧供应能力,缓解组织缺氧状态,在危急重病患的抢救中起着不可替代的作用。但红细胞的有效储存期限较短,最多不超过35 d,因此,科学把握和预测红细胞临床用量,指导血液中心合理制定采供血计划至关重要。然而,目前红细胞临床用量的预测主要依据血液中心相关人员主观经验进行粗略估计,极易造成红细胞采集、制备、供给及库存不足与过期报废现象的发生。

本研究结果表明重庆市血液中心覆盖区域红细胞临床月用量具有明显的季节周期性特征,每年1~2月和6~8月红细胞临床用量较低,究其原因可能是1~2月和6~8月正值大学生寒、暑假期,加之天气寒冷和持续高温,街头流动人口大幅减少,血液采集受到较大影响,血液中心不得不控制红细胞的临床供给。基于红细胞临床用量的季节周期性特点,故选择季节性ARIMA(p,d,q)(P,D,Q)s模型来预测未来红细胞的临床用量。

本研究利用2006年以来连续13 a的红细胞临床月用量数据,构建红细胞临床月用量ARIMA乘积季节模型,并对模型进行识别、检验与优化,挑选出最优模型ARIMA(3,1,0)(0,1,1)12,运用最优模型预测2019年1~6月的红细胞临床月用量,并与实际用量比较,结果显示,各月份实际用量基本落入预测结果95%CI内,且预测结果与实际用量基本吻合,平均相对误差为6.15%,提示该模型拟合效果较好,预测精度较高。鉴于ARIMA模型应用方便、可操作性强、短期预测效果好的特点[9-11],建议血液资源供需矛盾较为突出的省级血液中心运用和推广,以避免凭个人经验估算临床用血量所产生的主观随意性和预测精度低等问题的发生。

ARIMA模型是依赖历史数据资料建立的预测数学模型,未考虑外部因素的影响,如突发公共卫生事件和国家重大卫生政策的调整和改变等。当外部因素发生较大变化时,模型的预测结果会随之改变[12]。因此,ARIMA模型适用于短期预测[13-14],若预测时间过长,则可能影响预测精度[15]。为保障模型有更好的预测效果,应对数据进行每年更新,并及时对预测模型进行修正或重新拟合。

猜你喜欢

季节性差分残差
RLW-KdV方程的紧致有限差分格式
符合差分隐私的流数据统计直方图发布
基于残差-注意力和LSTM的心律失常心拍分类方法研究
基于双向GRU与残差拟合的车辆跟驰建模
粕类季节性规律:豆粕篇
数列与差分
季节性气候变化对牛疾病的影响及预防分析
基于残差学习的自适应无人机目标跟踪算法
季节性恋爱(外一首)
基于深度卷积的残差三生网络研究与应用