APP下载

SARIMA模型在南昌市HIV/AIDS疫情预测中的应用

2021-01-14张小玲甘仰本

南昌大学学报(医学版) 2020年6期
关键词:南昌市差分艾滋病

张小玲,徐 丹,甘仰本,况 杰

(1.传染病预防控制国家重点实验室研究基地、江西省动物源与媒介生物性传染病重点实验室、南昌市疾病预防控制中心,南昌330038;2.南昌市卫生健康委员会疾控科,南昌 330006;3.南昌大学公共卫生学院、江西省预防医学重点实验室,南昌330006)

艾滋病(AIDS)作为一种由人类免疫缺陷病毒(HIV)感染引起的的免疫缺陷病具有病死率高、长期危害大的特征,已成为最严重的公共卫生和社会问题之一[1]。我国艾滋病疫情总体维持在低流行水平,但感染人群多样化,流行形势复杂化,报告感染人数呈快速上升趋势[2]。南昌市自1994年报告首例HIV感染者后HIV/AIDS流行呈快速增长趋势,从高危人群向一般人群蔓延趋势明显,艾滋病防控形势严峻[3]。本研究基于2007—2016年南昌市HIV/AIDS感染疫情资料建立季节性差分自回归移动平均模型(SARIMA)预测模型预测其今后发病情况,为制定更有针对性的艾滋病防控策略提供科学依据。

1 资料与方法

1.1 资料来源

疫情数据来源于2007年1月至2017年6月艾滋病综合防治信息系统中以现住址报告的南昌市HIV/AIDS病例,内容包括HIV感染人群的性别、年龄、职业、感染途径等。以每月报告的HIV/AIDS病例数构成时间序列。

1.2 SARIMA模型建立

考虑到HIV/AIDS疫情可能存在一定的季节效应,故采用季节性ARIMA(p,d,q)×(P,D,Q)12模型(SARIMA)进行预测,p、d、q分别表示模型自回归部分的阶数、序列差分的次数、滑动平均的阶数,P、D、Q分别表示季节性自回归部分的阶数、序列差分的次数、滑动平均的阶数。SARIMA模型建立的主要步骤为:序列平稳化、模型识别、参数估计和模型检验、模型预测与评估[4]。

1.3 模型评价

评价指标为平均绝对误差(MAE)和平均绝对误差率(MER)。平均绝对误差由于离差被绝对值化,不会出现正负相抵消的情况,因而,平均绝对误差能更好地反映预测值误差的实际情况。

1.4 软件实现

用R3.3.2软件作为统计预测工具[5],采用stats包进行时间序列处理,用forecast包进行预测。

2 结果

2.1 2007—2016年南昌市HIV/AIDS流行情况

2007年1月至2016年12月南昌市累计发现HIV/AIDS 2218例,其中HIV感染者1182例、AIDS患者1036例,HIV/AIDS患者男女性别构成比为5.4:1;年龄以20~59岁为主(1530例,占69%);职业分布广泛,学生占总HIV/AIDS人数的7.2%;感染途径以性传播为主,占96.0%。发病时间分布以4—8月为主,占46.3%,呈现一定的季节性特征。见表1。

表1 南昌市2007—2016年HIV/AIDS流行情况

2.2 序列的平稳化

从图1可知,HIV/AIDS病例人数呈逐年增多的趋势,并具有一定的季节性。ARIMA模型建模的前提条件是预测数列需要满足平稳化,即数据的统计性质不会随时间变化而改变。对原数据的时间序列分解图观察可知,该时间序列为非平稳序列,不能直接用于ARIMA建模。因此,需要对原始数据做差分处理,消除其上升或下降趋势。对原数据一阶差分后,经过单位根检验,即ADF检验,序列为平稳序列(P<0.05)。

2.3 模型识别

对一阶差分处理后的数据求自相关函数(autocorrelation function,ACF)和偏自相关函数(partial autocorrelation function,PACF),得到ACF图(图2)和PACF图(图3),可从图中看出,自相关系数一阶以后拖尾,偏自相关系数二阶以后拖尾。

2.4 模型参数估计和检验

经反复调试,根据赤池信息准则(adaike information criterion,AIC)和平均绝对百分误差(MAPE)为依据确定最优模型,见表2。

表2 ARIMA模型结果

比较待选模型的拟合优度,根据AIC和MAPE最小原则,最终确定最优模型为ARIMA(0,1,1)×(0,0,1)12,模型AIC值为771.0,且平均绝对百分误差(MAPE)为29.6%。同时,对ARIMA(0,1,1)×(0,0,1)12进行Ljung-Box检验,P=0.686,统计量无统计学意义,说明模型残差序列为白噪声。模型残差正态性诊断图,模型残差基本满足正态分布,见图4。

2.5 模型的验证与预测

利用ARIMA(0,1,1)×(0,0,1)12模型对南昌市2017年1—6月HIV/AIDS患者人数及95%可信区间进行验证。由表3可看出,各月实际值均落在预测值的95%可信区间,但预测值均小于实际值,绝对误差(MAE)为7.2,绝对误差率(MER)为20.0%,且绝对误差率自3月开始逐渐增大。

表3 2017年1—6月南昌市HIV/AIDS患者人数预测值与实际值

利用ARIMA最优模型(0,0,1)×(0,0,1)12用以预测2017年7—12月HIV/AIDS病例人数分别为25、25、24、25、27、24。预测趋势与往年相比,HIV/AIDS病例数较为平稳,见图5。

3 讨论

准确的HIV/AIDS疫情预测可以为卫生行政部门制定政策、做出决策提供科学依据。时间序列分析作为一种定量分析预测方法,它将各种已知和未知的影响因素综合蕴含于时间变量中,通过对历史数据的处理,从而对未来流行趋势做出定量的预测。SARIMA模型是时间序列分析方法中重要的预测模型之一,相较于传统的ARIMA模型其综合考虑了时间序列趋势变化、周期变化和季节变化等干扰因素对疾病的影响,借助模型参数的变化对数据进行表达,可以达到较好的预测效果,已经广泛应用到各种公共卫生领域的预测当中[6-10]。相关研究[11-12]表明SARIMA在预测HIV/AIDS月发病上的效果较好。

本研究利用南昌市2007年1月至2016年12月HIV/AIDS病例人数最终建立的最优模型为SARIMA(0,1,1)×(0,0,1)12,赤池信息准则(AIC)为771.0,平均绝对百分误差(MAPE)为29.6%,且通过Ljung-Box检验,模型残差为白噪声(P=0.686)。模型对2017年1—6月发病数进行预测,均在95%置信区间内,且与实际报告病例数变动的趋势较为一致。模型预测2017年7—12月HIV/AIDS病例数也符合南昌市HIV/AIDS流行的动态趋势。值得注意的是,SARIMA模型预测的绝对误差率自3月份开始逐渐增大,根据时间序列模型的预测评价理论[13],MAPE<20%表示预测模型良好,这提示模型依然有可优化的空间。在今后的研究中,应该将HIV/AIDS病例报告的影响因素纳入到时间序列模型中,以进一步提高预测的精确性。

将模型用于传染病疫情预测时,需要及时更新数据并对模型进行修订才能达到理想的效果。另外,本研究结果显示SARIMA模型的预测能力随着时间的推进模型预测的误差变得越来越大,故其一般只应用于短期预测。此外,时间序列模型对重大突发情况及受外界干扰较大的事件预测能力较弱,实际应用时若研究时间序列的趋势发生了较大的改变,应谨慎使用SARIMA预测模型预测疾病的发病趋势。

综上所述,本研究建立的SARIMA模型综合考虑了HIV/AIDS疫情的时间趋势变化、周期性变化及随机性干扰,对南昌市HIV/AIDS疫情进行近期预测有一定的效果。模型应用上应注意参考当地艾滋病近期相关政策,以制定更有针对性的HIV/AIDS防控措施。

猜你喜欢

南昌市差分艾滋病
模拟成真
一种基于局部平均有限差分的黑盒对抗攻击方法
一类分数阶q-差分方程正解的存在性与不存在性(英文)
艾滋病合并结核病的诊断和治疗
《 世界艾滋病日》
江西南昌市1169个建制村实现通客车
昆明市防治艾滋病局艾滋病服务机构和联系方式
考了个大的
一个求非线性差分方程所有多项式解的算法(英)
吃两个