基于ARIMA模型的临床红细胞类血液需求预测研究
2023-06-15谢淑红张思静严伟斌王明元汤龙海
谢淑红,张思静,严伟斌,王明元,汤龙海
输血是临床常见的辅助治疗手段,创伤、产后出血、手术、血液病治疗等都需要通过输血帮助病人恢复健康。血液资源目前仅可通过健康人体无偿捐献唯一途径获得,具有不可替代性。据国家卫健委统计[1]显示,2019年全国献血率为11.2‰,虽已超过世界卫生组织推荐的标准10‰,但无偿献血相对于总人口基数来说,依然只是少部分人群的爱心行为,因此血液资源仍具有稀缺性。临床血液需求受手术开展情况、床位数、区域人口数量、突发事件等多种外在因素影响,且血液具有储存期短、存在分型等特征,所以采血量往往无法完全匹配临床血液的需求变化,血液整体或某一类/型供给不足或供给过剩的现象时有发生。
苏州地区临床常用的、采供血机构提供的血液主要包括红细胞类、血小板类、血浆类三大类,其中红细胞类成分血临床用量占比最大,年供给量超12万单位。随着“十四五”期间本地区医疗卫生事业的发展,临床血液需求量还将继续上升。血液供需平衡的“理想状态”是采供血机构和用血医疗机构的共同追求,仅凭主观经验估算临床用血需求已无法满足复杂多变的实际需求,因此,需要对区域临床血液需求进行科学测算,在此基础上有针对性地制定无偿献血招募计划和血液库存管理方法。本研究采用时间序列分析方法中的自回归移动平均模型(autoregressive integrated moving average model,ARIMA)建立苏州市区临床红细胞类血液需求预测模型,通过分析临床红细胞类成分血用量的历史数据规律对未来的临床需求值进行预测。现作报道。
1 材料与方法
1.1 数据来源 选取苏州市区2009-2019年红细胞类成分血的临床用量数据,红细胞类成分血根据制备方式及成分含量不同分为悬浮红细胞、洗涤红细胞、浓缩红细胞、去白红细胞、冰冻红细胞等种类。临床红细胞用量以单位U计算,1 U红细胞类成分血由200 mL全血分离制备而成。
1.2 ARIMA模型构建 ARIMA模型根据参数选择的不同,可分为ARIMA(p,d,q)(P,D,Q)s、ARIMA(p,d,q)、ARMA(p,q)、AR(p)和MA(q)。ARIMA(p,d,q)模型是时间序列分析中最常用的方法,若时间序列包含了季节性特征,则需建立季节性ARIMA模型,即ARIMA(p,d,q)(P,D,Q)s,其中p、q为自回归和移动平均阶数,P、Q为季节性自回归和移动平均阶数,d、D为非季节性和季节性差分次数,s为季节周期[2]。建立ARIMA模型的基本步骤主要包括:(1)数据平稳化处理,通过绘制时序图初步判断序列是否平稳,若判断为不平稳序列,则针对序列不平稳的趋势性或周期性进行差分或季节性差分处理,实现序列平稳化;(2)模型识别,对平稳序列进行自相关分析,根据所得的自相关函数(ACF)图和偏自相关函数(PACF)图的拖尾、截尾情况判断p、d、q值,建立可用的备选模型,根据贝叶斯准则(Bayesian information criterion,BIC)在备选模型中选择最优模型;(3)最优模型检验,根据残差ACF图与PACF图以及杨-博克斯Q(Ljung=BoxQ)统计量,判断残差序列是否为白噪声序列,若是,则所得模型可用于预测,若不是,则需重新对序列进行识别、选择和检验,以获得最优拟合模型;(4)预测并验证,运用选定的最优ARIMA模型预测需求值,计算95%CI以及相对误差,并与同期的实际值比较,以验证模型的拟合效果[4]。
2 结果
2.1 数据平稳化处理 绘制2009-2019年红细胞类成分血的临床用量时间序列图(见图1),可见红细胞类成分血临床用量存在一定波动幅度,呈整体上升趋势;同时,细胞类成分血临床用量存在较明显的季节周期性,以12个月为1个周期,每年3、4、11、12月的红细胞临床用量相对较高,1、2、6、7月红细胞临床用量则相对较低,表明红细胞成分血临床用量具有长期趋势性和周期性。针对该时间序列的不平稳特征,对数据采取一次差分及一次季节性差分进行平稳性处理,数据处理后的时间序列图见图2,差分后所得的观测值均围绕0值上下随机波动,可认为处理后的序列为平稳序列。
2.2 ARIMA模型识别 鉴于2009年1-12月红细胞临床用量时间序列存在明显的趋势性和季节性,故选用季节性ARIMA(p,d,q)(P,D,Q)s模型。根据实际情况,红细胞临床用量序列的季节周期为12个月,故取s=12;因在平稳性处理过程中,对原始序列进行了一阶差分和一阶季节差分,故取d=1,D=1。
绘制红细胞临床用量数据的一阶差分和一阶季节差分后ACF图和PACF图(见图3~4),ACF延迟数目在1阶之后快速下降为0,呈一阶截尾,判定q=1,而PACF在1、2、5、12阶时均有突出,截尾及拖尾特征不明显,判定p=0;ACF延迟数目在12阶时样本自相关函数显著不为0,PACF则是在12阶附近显著不为0,故P=1或0,Q=1。因此,识别的备选模型为ARIMA(0,1,1)(0,1,1)12和ARIMA(0,1,1)(1,1,1)12。比较两个备选模型的正态化BIC值,ARIMA(0,1,1)(0,1,1)12模型的BIC值为12.924,ARIMA(0,1,1)(1,1,1)12模型的BIC值为13.013,根据正态化BIC值越小,则模型拟合效果越好的准则,确定红细胞临床用量的时间序列最优模型为ARIMA(0,1,1)(0,1,1)12。采用SPSS 26中的专家建模型模块进行验证,得出该模型与专家建模器所推荐推荐的模型相同。
2.3 ARIMA模型检验 对确定的最优模型ARIMA(0,1,1)(0,1,1)12的残差序列作ACF和PACF图(见图5),残差的ACF值和PACF值在95%CI内,同时杨-博克斯Q统计量值为17.992,显著性P为0.324,>0.05,不存在统计学意义,说明残差序列不存在自相关,通过白噪声检验,可认为该ARIMA模型适用于苏州市区的红细胞类成分血的临床需求量的预测。
2.4 ARIMA模型运用及预测 运用ARIMA(0,1,1)(0,1,1)12模型对2020年1-11月的红细胞血液临床用量进行预测,得出预测值与实际值时序值拟合图(见图6)。预测值与实际值曲线趋势基本相同,预测值均在95%CI内,平均相对误差较小,为8.21%,低于10%(见表1),去除受2020年新冠肺炎疫情影响导致误差较大的2月和3月(受疫情影响,市民居家隔离、企业停产停工、大学延迟开学等因素导致献血人数骤减,同时医院暂停或延后部分择期手术控制用血量)及6月(高校未开学或未开放,导致往年暑期前的高校集中采血暂停或延后)后的平均相对误差较小,为5.21%,模型预测效果较好。
表1 2020年1-11月预测结果及误差情况
3 讨论
红细胞是人体血液中主要成分,是人体运送氧气和二氧化碳的最主要媒介。红细胞类成分血具有较高的纯度、较低的病毒感染风险、较佳的临床疗效,临床上输注红细胞类成分血可以提升机体携氧能力,因此被广泛应用于各种急性失血、慢性贫血、手术普通失血的救治,是临床输血中用量最大的种类之一。血液资源在全国范围内都处于供不应求的紧张状态,一二线城市相对丰富、优质的医疗资源更加剧了这种紧张。红细胞类成分血的特性、献血量的季节性和结构性不稳定性增加了血液供需平衡的不确定因素。为保证输注效果,红细胞类成分血静置在2~6 ℃环境下最多保存35 d,所以必须在血液有效期内提供给临床。对红细胞类成分血需求进行科学预测,从而指导血液资源的合理采集与科学调配,实现供需平衡,具有较大社会意义。
ARIMA模型是博克思(Box)和詹金斯(Jenkins)于70年代初提出的一个著名时间序列预测方法,所以又称为Box-Jenkins模型,它是将预测对象随时间推移而形成的时间序列视为一个随机序列,这组随机变量所蕴含的自相关性表明了预测对象发展的连续性。ARIMA模型的构建借助于计算机SPSS软件操作实现,过程较为简单方便,预测结果具备较高的数据精度和较强的实用性。运用ARIMA模型对临床血液需求进行预测,以血液需求的历史数据规律为依据,综合考虑了序列的趋势性、季节性、周期性及随机波动等变化规律,通过建立数学模型对血液需求进行定量化的描述及表达,模型的拟合度和预测精确度均较为理想。在医疗卫生领域,ARIMA模型已运用于传染病发病预测(如艾滋病、梅毒、乙肝等)及卫生支出预测,现有研究[3]表明,在临床血液需求的预测方面,ARIMA模型较其他预测方法如简易时间序列分析、时间序列周期回归、自回归分析等方法的预测效果更好,准确度相对较优。
本研究以解决苏州市区红细胞类血液供需矛盾为主要目的,以本区域红细胞成分血的临床需求预测为研究对象,按月统计收集2009-2019年医院红细胞临床用量数据进行分析,采用ARIMA时间序列模型进行拟合建模,得出最优模型为ARIMA(0,1,1)(0,1,1)12,运用该模型对苏州市中心血站2020年1-11月的每月红细胞成分血临床需求量进行预测,得出预测值和实际值的变化趋势基本一致,除2020年2月红细胞预测值外,平均相对误差较小,为8.21%,去除因疫情影响误差较大的2月和3月后,平均相对误差较小,为5.21%,模型预测效果较好。现有研究[4-6]证实,若所建ARIMA模型的预测值与实际数值之间的平均相对误差<10%,则说明模型预测精准性较高,有较好的预测效果,因此,本研究所得ARIMA(0,1,1)(0,1,1)12模型可以用于苏州市区未来红细胞临床用量的预测。
红细胞类血液临床需求预测模型的构建,以需求为指导,兼顾多影响因素,可为采供血机构制定血源招募计划提供科学依据,帮助其提前部署和适时调整,提升血液供给量和临床需求量的匹配度,缓解本区域血液供需矛盾,使红细胞类血液既满足临床需求,又能避免过期浪费。但同时,依靠历史数据规律构建ARIMA模型虽然能较好地进行临床血液需求预测,但也存在一定局限性,如所建模型基于的数据单一,仅为历史血液需求数据,并未考虑人口环境、医疗资源床位变化、突发公共卫生事件等外部因素对血液实际需求量的影响,因此仅可用作短期预测,在一年内预测效果较佳,在使用该模型进行预测、指导实践时,需及时更新参考数据、修正完善模型。后续研究将更加深入地分析影响临床血液需求的因素如人口结构、疾病特征、医疗水平、医院床位数等,采用更加智能精确的模型方法,以期实现中长期血液需求的精确预测。