APP下载

基于ARIMA 模型预测镇江市肺结核流行趋势及分析

2024-01-18伍鸿远夏媛媛

现代医药卫生 2024年1期
关键词:镇江市季节性差分

伍鸿远,夏媛媛

(南京医科大学医政学院,江苏 南京 211166)

肺结核作为一种结核分枝杆菌引起的慢性呼吸系统传染病,主要攻击肺部并且传染性较强。2021年我国肺结核的发病数和死亡数位列甲乙类传染病第2位[1],患者当中大量为青壮年,使其成为制约我国经济和社会发展的重大传染病之一[2]。国际上,全球结核病死亡患者数在2019-2021年间有所增加,扭转了2005-2019年间的下降趋势,2020-2021年间结核病发病率上升了3.6%,扭转了过去20年间每年下降约2%的趋势[3],2019年底在全球范围内迅速传播的新型冠状(新冠)病毒感染疫情,不仅使公共卫生系统遭受了极大挑战,更对肺结核疫情及其防控产生了深远的影响[4]。镇江市作为江苏这一沿海经济大省中肺结核发病率高于平均水平的地区,做好肺结核的有效预防、预测流行趋势对城市发展、进一步控制江苏省肺结核流行尤为重要。为更好地评价和预测结核病流行趋势,本研究收集2014-2022年江苏省镇江市肺结核疫情资料,构建差分整合移动平均自回归模型(ARIMA模型),并评价该模型对新冠病毒感染疫情后结核病疫情的预测效果,以期掌握其发病规律和趋势,为科学防控结核病疫情提供数据支持。

1 资料与方法

1.1资料来源 数据来源于江苏省镇江市卫生健康委员会公布的全市法定报告传染病疫情数据,收集2014年1月至2022年12月共计108个月中报告的镇江市肺结核发病数。通过整理数据建立ARIMA模型,并以2022年1-12月月发病数的数据集作为预测集与实际情况进行比较,评价模型的预测效果并预测2023年肺结核流行情况。人口资料源自镇江市统计年鉴。

1.2研究方法

1.2.1基本理论 根据收集数据绘制出时间序列图和相关文献判断,江苏省镇江市肺结核每月发病数数据为季节性时间序列,因此选定模型为ARIMA(p,d,q)(P,D,Q)s。p、d、q分别为趋势自回归阶数、趋势差分阶数、趋势移动平均阶数,P、D和Q分别是季节性自回归阶数、季节性差分阶数和季节性移动平均阶数,S为单个季节性周期的时间步长数,在本研究中为12[5-6]。

1.2.2ARIMA模型构建

1.2.2.1平稳时间序列 根据时间序列图、自相关系数图(ACF)和偏相关系数图(PACF)判断序列平稳性。若不平稳则使用非季节差分、季节性差分、数据转换等方法直至序列平稳。

1.2.2.2ARIMA模型识别与定阶 根据差分后序列的ACF图和PACF图对模型进行初步识别和定阶。

1.2.2.3确定ARIMA模型的参数与检验 序列平稳化后,通过观察序列的ACF图和PACF图得出若干种可能的模型并估计ARIMA模型的参数。再根据使用Ljung-Box残差白噪声检验法得出的残差检验结果和最小贝叶斯信息准则(BIC)来确定最优ARIMA模型参数。模型在满足参数差异具有统计学意义、Ljung-Box Q统计量P>0.05的前提下以标准化BIC 值、平均绝对百分比误差(MAPE)最小为最优。

1.2.2.4验证模型拟合预测效果 将镇江市2022年1-12月肺结核月发病数的数据集作为预测集,基于构建好的ARIMA模型逐月预测2022年肺结核发病数,并与实际发病数比较。

1.2.2.5模型预测的实际应用 利用模型对2022-2023年镇江市肺结核月发病数进行预测。

1.3统计学处理 使用Excel 2022 整理2014-2022年镇江市肺结核月发病数据,采用SPSS27.0建立镇江市肺结核发病数ARIMA模型。

2 结 果

表1 2014-2022 年镇江市肺结核病例报告情况

2.2流行时间分布特征 汇总2014-2022年镇江市肺结核累计报告发病数,结果显示,2月份累计报告发病数最少(772例),3-8月维持较高发病水平,高峰水平较为平均,均维持在1 000例以上,报告发病数分别为1 039、1 064、1 029、1 052、1 027、1 035例,见图1。

图1 2014-2022 年镇江市肺结核各月累计发病数

2.3建立模型 本文以2014-2021年的发病例数建立ARIMA季节模型,预测2022年的发病例数,并与实际值进行比较。

2.3.1序列平稳化 2014-2022年镇江市肺结核发病数共登记11 316例,发病高峰期在每年的春夏季节,冬季时发病数较少。由镇江市2014-2022 年肺结核每月发病数时间序列图可知该序列的方差前后波动较大、极差间距变化较大,说明该序列图可能为非平稳序列并且存在一定的周期性。对江苏省镇江市肺结核发病数趋势特征分析中可得其长期趋势表现为2014-2016年、2017-2018年、2019-2022 年不断下降,2016-2017年、2018-2019年小幅回升,且具有季节性特征。

对序列进行一阶趋势性差分和一阶季节性差分后,序列图基本趋于平稳,见图2。差分后的ACF图和PACF图无明显拖尾和截尾现象、无线性衰减,符合构建ARIMA模型条件,见图3。

图2 一阶趋势性差分和一阶季节性差分后镇江市肺结核月发病数时间序列图

注:上方为原始时间序列ACF和PACF图;下方为趋势和季节差分一次后时间序列ACF和PACF图。

2.3.2平稳性检验 根据对数化的1阶12步差分的序列图和自相关图粗略判断平稳性,然后对差分后的序列使用ADF检验进一步验证序列是否平稳。

检验结果显示,1阶12步差分后的序列的ADF统计值为13.908,P<0.01,因此可以拒绝存在单位根的原假设,并认为差分序列平稳。

2.3.3模型识别 首先从差分序列的自相关图和偏自相关图的12阶以内的特征来确定发病数序列的短期自相关模型。从图形中可以看到,自相关图在延迟1~3阶的系数显著非零,并且在3阶之后明显还有其他延迟阶数的自相关系数落在区间外;偏自相关系数在延迟1~2阶的系数落在横线外,之后还存在偏自相关系数显著非零的情况,因此自相关图和偏自相关图呈现拖尾特征,可以尝试在p=(1,2)及q=(1,2)的情况下建立ARMA(p,q)模型。

2.3.4季节性分解 通过季节性分解,可观察季节项的特征。从趋势项的图形中可以看出,季节性分解后的数据基本不存在周期性特征;季节因子在2月的值最低,在3-8月的值在100%以上。见图4。

图4 镇江市肺结核时间序列ACF和PACF图

2.3.5模型参数估计与诊断 考虑到序列呈现的季节特征,再次观察自相关图和偏自相关图在延迟12、24阶的系数。在12阶的自相关系数和偏自相关系数均显著非零,而延迟24阶的系数落在区间内,这时以12步为周期的ARMA(1,1)12、ARMA(1,0)12、ARMA(0,1)12模型提取差分后序列的季节自相关信息。

综合以上信息,尝试针对对数化序列建立季节乘法模型,在p=(1,2)、q=(1,2)时拟合乘法模型ARIMA(p,1,q)×(1,1,1)12并根据模型平稳R2、BIC等统计量,以及参数显著性选择最佳模型。

从表格来看,ARIMA(1,1,1)×(1,1,0)12的BIC值最小,残差白噪声也通过检验,模型参数估计见表2、3。

表2 模型参数估计表

表3 ARIMA(1,1,1)×(1,1,0)12参数估计表

可以看到,短期自相关部分的AR系数不显著,因此建立ARIMA(0,1,1)×(1,1,0)12。见表4。

表4 ARIMA(0,1,1)×(1,1,0)12参数估计表

2.3.6模型拟合效果评价 应用构建的ARIMA(0,1,1)(1,1,0)12模型对镇江市2022年肺结核1-12月发病数进行拟合,拟合值与实际发病数进行比较,结果显示实际值与预测值存在一定的偏差,但均在拟合值的95%可信区间内,模型拟合度较好。模型预测结果与实际情况在总体趋势上基本一致,流行高峰与低谷符合实际情况,可用于预测镇江市肺结核流行情况。2022年共报告肺结核发病数939例,模型预测值为936例。模型的预测精度上,2022年结核病发病数平均相对误差为19.20%,说明该模型长期预测效果一般,见表5。

表5 2022年1-12月镇江市肺结核实际发病数与预测发病数比较

2.3.7新冠病毒感染疫情后模型预测分析 利用ARIMA(0,1,1)(1,1,0)12模型对镇江市2022年肺结核进行预测,2022 年2月肺结核发病率降至历史低点,为1.91/10万,2022 年4 月显示观察值与预测值相对误差为50.88%,见图5。同时,2022 年1-12 月镇江市肺结核平均月发病数预测值和实际值均低于2021 年的87例月平均发病数,2023年月平均肺结核发病数预测值也少于2022年,预计在新冠病毒感染疫情后短期内,镇江市的肺结核发病数仍将保持下行趋势。见表6。

图5 镇江市肺结核ARIMA(0,1,1)(1,1,0)12模型拟合图

表6 2022-2023年镇江市月发病数预测值与2022年实际月发病数比较(n)

3 讨 论

本研究结果显示,2014-2022年镇江市活动性肺结核报告发病率9年间下降了40.89%,年均递降率达4.54%,肺结核控制成效显著,但肺结核仍长期位列镇江市甲乙类传染病报告病例数的前三位。肺结核作为一种慢性呼吸道传染病,其疗程长、易感的特点给社会造成了极大的危害和负担,因此,科学地预测预警肺结核疫情,对配置布局传染病防控资源、提早制定防控策略具有重要指导意义[2]。由镇江市肺结核发病时间序列图和模型拟合结果可知,肺结核流行高峰期为每年3-8月,全年流行低谷为2月,具有明显的季节性。高峰期的形成一方面与春夏时节气候适宜结核分枝杆菌繁殖传播有关;另一方面,每年2月通常恰逢春节期间,就医人数相对减少,而 3 月时积压的患者就诊造成了肺结核报告病例数的激增,形成 “春节效应”[7-8]。因此,春节期间的防控工作对于延缓或降低肺结核高发期的影响至关重要。与此同时,每年学生毕业体检及入学体检,也可能与高峰期的形成有关[2]。

本研究发现,2020年是镇江市近9年内肺结核的发病数和发病率降幅最大的一年,与2019年相比,年肺结核总发病数减少240例,年发病率下降7.4/10万。而在随后的2020-2022年中,发病数和发病率均持续下降,且2022年实际发病数小于或等于预测发病数。出现这种现象的原因可能有两点:一是新冠病毒感染疫情防控措施中公共场合均需佩戴口罩的要求阻断了呼吸道飞沫传播这一肺结核的主要传播途径[5];二是由于疫情防控期间就诊时感染的高风险和人员流动限制措施阻碍了患者及时到医院就诊,从就诊数据上看,2019年镇江市县级以上医院总诊疗例次达1 045.1万人次,而2020、2021年这一数据回退至835.2万人次和873.9万人次,仅相当于2012年的水平。就诊例数的下降削弱了肺结核患者的发现能力,进而导致肺结核报告发病数的下降。但是主要下降原因仍应归于戴口罩、保持社交距离等防控措施的实施阻断了肺结核的传播。根据模型预测结果,预计2023年,镇江市将保持肺结核流行下行趋势,发病数将进一步减少。但当前新冠病毒感染疫情形势变化、管控措施优化调整、肺结核患者发现能力的恢复与提升可能加大预测结果与实际的误差。

近年来,ARIMA 模型、Holt-Winters 模型、灰色动态模型等[9-12]被广泛应用于肺结核的预测中。本研究采用的ARIMA模型,在建模的过程中考虑了时间序列的线性趋势、季节性、周期性及随机误差和非季节成分[13],兼顾了肺结核发病数时间序列的自相关性和季节规律[14],在肺结核流行趋势预测中展现出较好的准确度。但在本研究利用ARIMA模型对2022年肺结核发病数进行预测时,4、12月的预测值相对误差分别为50.88%、37.50%,查阅数据发现该月肺结核发病率创下8年来历史最低纪录,分别为1.77/10万、1.74/10万,而此时镇江市均存在本土新冠病毒感染疫情,说明因本地新冠病毒感染的始发造成的人员流动限制、本市医疗资源大量向新冠病毒感染疫情防控倾斜,就诊期间感染新冠病毒的高风险和医院严格防控措施引发的患者就诊意愿下降,导致了肺结核病例发现能力被削弱,最终体现于模型预测失灵、实际报告肺结核发病数和发病率异常低的现象。但由于本研究中的肺结核发病数实际值为传染病疫情法定报告中的数值,即被发现的肺结核患者数,以及新冠病毒感染疫情导致的肺结核患者发现能力的削弱,事实上的肺结核发病数应在一定程度上高于法定报告中的数值。从模型预测的月平均值与实际值相同的结果分析,模型预测值可能比传染病法定报告更接近于实际的肺结核流行情况,且更准确反映了事实上的肺结核月发病数,在上海市[5]、四川省[15]和湖北省荆州市[16]的相关研究中也表达了类似的观点。然而肺结核流行趋势的影响因素众多,模型难免有考虑不周全之处[17]。在未来的实际应用中,应不断收集积累新的时间序列数据,结合实际定期更新预测模型,才能得到更加贴近实际的预测结果,为肺结核防控工作提供科学的流行趋势预测与分析数据支撑[18-19]。并且由于各地的最优模型和预测效果不尽相同[20],ARIMA(0,1,1)(1,1,0)12模型仅适用于当前镇江市肺结核流行趋势的短期预测,实际运用时需要因时因地制宜调整合适的模型参数,也可通过加权组合模型克服单一模型的局限和片面,进一步提升预测准确度并增加稳定性[17]。

猜你喜欢

镇江市季节性差分
镇江市“双管齐下” 全力保障重大事故隐患“回头看”
粕类季节性规律:豆粕篇
数列与差分
季节性需求放缓 钾肥价格下行
蔬菜价格呈季节性回落
远离季节性过敏
基于差分隐私的大数据隐私保护
相对差分单项测距△DOR
镇江市
差分放大器在生理学中的应用