APP下载

空间插值法结合ARIMA模型和灰色模型在我国HIV发病率预测中的应用与比较

2023-01-13聃,邱朔,杨鹏,尚

南昌大学学报(医学版) 2022年6期
关键词:插值法残差灰色

任 聃,邱 朔,杨 鹏,尚 峰

(1.解放军总医院第二医学中心健康管理科,北京 100071; 2.北京市疾病预防控制中心全球健康办公室,北京 100013; 3.空军军医大学军事预防医学系卫生统计学教研室,西安 710032; 4.中国人民解放军联勤保障部队第九〇八医院医疗保障中心,南昌 330002)

艾滋病是由于机体感染人类免疫缺陷病毒(HIV)而引发的一种传染病,在全球范围内传播,各年龄和男女性别均可发病。艾滋病传播速度快、病死率高,目前尚无有效的疫苗和治愈方法[1-3]。已有文献[4-6]报道使用自回归移动平均模型(ARIMA)和灰色模型(GM)对艾滋病以及HIV发病率进行预测,但尚未有结合空间插值法和预测模型对HIV发病进行时空分布分析和预测的研究。因此,本研究拟采用空间插值法结合ARIMA模型和GM模型对我国2007—2018年HIV发病数据进行时空分布分析和预测研究,为艾滋病防控策略制定提供理论参考依据。

1 资料与方法

1.1 数据来源

从中国疾病预防控制中心公共卫生科学数据中心平台中的传染病数据库(http://www.phsciencedata.cn/)下载2007—2018年12年间全国31个省、市、自治区(不包括台湾省)HIV的月发病数据用于本研究。

1.2 空间插值法

空间插值是根据已知空间数据来估算其他未知空间数据值的过程,用特定的插值方法预测测量点以外的位置[7-9]。常用空间插值法主要有克里格插值法(Kriging)、反距离权重插值(Inverse Distance Weighted)、自然邻域法(Natural Neighbor)和样条函数法(Spline)等。根据HIV发病数据的特征,本研究使用克里格插值法进行分析。

1.3 ARIMA模型的建立

ARIMA模型[10-11]是由自回归模型AR和移动平均模型MA组合而成,公式为:

其中p和q是模型的自回归阶数和移动平均阶数,φ和θ是不为零的待定系数,εt是独立误差项。ARIMA(p,d,q)模型建立过程主要包括四步:1)识别,找出适当的p、d和q值,主要通过相关图和偏相关图来帮助解决;2)估计,根据适当的p、d和q值估计模型中所含自回归和移动平均项的参数;3)诊断,判断所选参数对数据拟合效果是否足够好,主要看从模型估计出来的残差是不是白噪音,通过AIC和SBC最小原则选择最优模型;4)预测,利用所选的最优模型进行预测。

1.4 GM(1,1)模型的建立

1.5 模型准确性评估方法

本研究采用平均绝对百分误差(MAPE),比较ARIMA模型和GM(1,1)模型在预测HIV发病率中的效果:

1.6 统计学方法

使用R4.1.2软件和地理信息系统软件ArcGIS10.1进行数据分析和相关图形制作,以P<0.05为差异有统计学意义。

2 结果

2.1 HIV发病率时空分布

2.1.1 2007—2018年全国HIV月发病率趋势

2007—2018年全国HIV的月发病率呈上升趋势,最低点为2007年2月的0.12/10万,最高点为2018年3月的0.79/10万。总体上来看12年期间月发病率的趋势具有一定的季节性,一般在每年二季度(4—6月)上升达到最高点,三四季度(7—12月)开始下降,在一季度(1—3月)达到下降的最低点。见图1。

月份图1 2007—2018年全国HIV月发病率趋势

2.1.2 2007—2018年全国不同省份HIV发病率

2007—2018年全国不同省份之间HIV平均发病率(发病数/总人口数)差异较大,发病率最高省份为新疆(19.79/10万)和云南(17.05/10万),发病率最低省份为河北(1.10/10万)和山东(1.13/10万)。整体趋势为各年度发病率分布格局相对一致,即高值中心位于新疆,其次是西南滇川地区,并向东部递减分布,在宁夏、珠三角形成低值中心。从数值上看,各地发病率均呈现逐渐增加趋势。见表1。

2.1.3 2007—2018年HIV平均发病率空间趋势

2007—2018年全国HIV发病率由南向北的变化趋势为指数下降,由东向西的变化趋势为指数上升(图2A);对坐标轴进行45°旋转后可看出,HIV平均发病率总体表现为自西南向东北降低,自西北向东南降低(图2B)。

表1 2007—2018年全国不同省份HIV发病率情况 1/10万

A:原坐标;B:旋转后坐标。图2 2007—2018年HIV平均发病率空间趋势图

2.2 HIV发病率时间序列模型建模结果

2.2.1 ARIMA模型建模结果

对经过一阶差分和一阶季节性差分后的时间序列作自相关(ACF)分析和偏自相关(PACF)分析,初步确定ARIMA模型的参数为p=1、q=1,由低阶到高阶逐一比对确定模型参数,同时结合SPSS软件ARIMA专家建模器(考虑季节因素)自动拟合模型进行比较,观察参数估计、拟合优度和残差序列指标的大小,依据贝叶斯信息准则(BIC)判断模型的优劣,BIC值越小模型的拟合效果越好,最终确定拟合模型为ARIMA(1,0,1)(0,1,1),此时模型决定系数R2=0.917,均方根误差RMSE=0.041,NormalizedBIC=-6.324。Ljung-BoxQ=13.653,P=0.431,可认为残差序列是白噪声,所选模型恰当。

根据此参数估计模型残差的自相关系数ACF值和偏自相关系数PACF值都在可信区间范围内,残差相关系数不表现为任何规律,可判定为白噪声序列,表明在参数p,q,d取值下拟合效果较好。

2.2.2 GM(1,1)模型建模结果

根据公式计算得出GM(1,1)模型的参数为:发展灰数a=-0.099 8,内生控制灰数μ=0.2120,将X(0)(1)=0.209和参数代入公式计算得出GM(1,1)的模型为:

结果显示,所有预测结果与实际值的相对误差均<0.05,可以通过残差检验。经检验后验差比值C=0.063<0.35[12],表明预测精度等级为好,可以将该模型用于外推预测。

2.3 基于模型的预测与评价

根据构建的ARIMA模型和GM(1,1)模型,对2016、2017、2018年3年的HIV平均发病率进行预测,与实际值进行比较(表2),计算2个模型的MAPE值。ARIMA模型和GM(1,1)模型的MAPE值分别为2.5%和3.9%,表明ARIMA模型对于此数据的预测效果优于GM(1,1)模型。

表2 ARIMA模型和GM(1,1)模型预测结果比较

3 讨论

自艾滋病开始流行以来,HIV发病一直呈持续走高趋势,截至2018年底,全球报道3270~4400万人感染了HIV[1],我国报告HIV感染者共85万人,死亡数高达26万人[15]。

本研究发现2007—2018年全国的HIV发病率一直呈上升趋势,具有一定的季节性特点,每年二季度上升并达到最高点,三四季度开始下降,在一季度达到下降最低点。12年间全国HIV平均发病率最高的省份为新疆和云南,最低省份为河北和山东。本研究使用空间插值法对2007—2018年全国HIV发病率变化趋势进行分时空分析得出12年间中国西南部和西北部的HIV发病率持续升高,尤其到2012年以后升高速度显著变化,相对于西南和西北部,中国东部、东北部以及中部部分地区HIV发病率相对较低(与其他学者研究结果一致[16]),但也呈逐年上升趋势。

ARIMA模型和GM(1,1)模型是2种常用的时间序列分析方法,ARIMA模型考虑了历史数据的季节性规律[17],对中长期序列数据预测效果较好,但模型参数的选择有一定条件,操作人员需要综合平稳性、自相关系数、偏相关系数、BIC值、白噪声等指标结果综合判断,最新版本SPSS软件的专家建模器模块以及R语言中“auto arima”命令可帮助选择模型参数,提高建模效率;GM(1,1)建模原理与ARIMA模型不同,它专注灰色系统数据(灰色系统意味着问题不确定不完整),GM(1,1)模型需要样本量小(最少4例即可计算)且预测效果较好,适用历史数据量有限的时间序列数据预测,但因灰色模型未考虑数据季节性与随机性特征,中长期预测精度较差。本研究对2016—2018年时间序列数据预测中,2模型都有较为精准的预测效果,但ARIMA模型效果稍优于GM(1,1)模型,主要原因是ARIMA模型综合考虑了HIV发病数据的逐月季节性特征,而灰色模型仅考虑了数据的年度变化趋势,研究结果与相关文献[4-5]结论一致。与单独使用ARIMA和灰色模型[4-6]比较,本研究通过空间插值法发现HIV发病时空分布的特点,结合ARIMA和灰色模型后能够更全面和准确的解释和预测艾滋病疫情,为制定防制策略与措施提供科学依据。

本研究存在一定局限性,在进行HIV发病情况预测中仅考虑发病例数,未综合考虑HIV的其他相关影响因素,例如性别、年龄、文化程度、婚姻状况等个体影响因素,地区经济发展水平、艾滋病宣讲实施情况等群体因素,同时,由于数据获得性的限制,分析数据只更新至2018年,这些都会一定程度上影响分析和预测结果。

猜你喜欢

插值法残差灰色
基于残差-注意力和LSTM的心律失常心拍分类方法研究
基于双向GRU与残差拟合的车辆跟驰建模
InSAR形变场最佳插值算法对比研究
小区域GNSS高程异常拟合方法研究
基于残差学习的自适应无人机目标跟踪算法
浅灰色的小猪
基于深度卷积的残差三生网络研究与应用
《计算方法》关于插值法的教学方法研讨
《计算方法》关于插值法的教学方法研讨
灰色时代