基于残差修正的ARIMA-BP组合模型在中国戊型肝炎发病预测中的应用
2023-06-15张蓓蓓
张蓓蓓
戊型肝炎(戊肝)是由戊肝病毒(HEV)引起的以肝脏损伤为主的传染病,在急性病毒性肝炎中的死亡率占首位[1]。现有研究[2]表明,HEV主要经粪-口途径传播,以水型流行最常见,其发病常见于水源污染的资源贫困地区,在发展中国家以流行为主,在发达国家以散发病例为主。据世界卫生组织统计,全球每年约有2 000万人感染HEV,其中约有330万人出现戊肝症状,2015年大约导致5.66万人死亡。我国是戊肝的主要流行地区之一,掌握戊肝的流行性特征和发病趋势,是采取针对性控制、预防措施不可缺少的依据。
戊肝发病多见于雨季或洪水之后,具有明显季节性,其变化趋势一般表现为复杂的非线性特征。对季节性传染病的预测一般采用求和自回归移动平均模型(autoregressive integrated moving-average,ARIMA),其可以整合趋势因素、周期因素和随机误差的综合影响[3-5]。BP神经网络是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络,具有很强的非线性映射能力和柔性的网络结构,常用于非线性函数逼近,但往往不能反映时间序列的自相关性和偏自相关性[6-8]。将ARIMA模型与其他非线性预测模型相结合,采用组合模型优化预测效果,能有效提高预测效率和精度,增强预测模型的实际应用价值,是近年来传染病疫情预测的新方向。本文探讨基于残差修正的ARIMA-BP组合模型,通过组合模型与ARIMA模型预测效果的对比,验证残差修正的ARIMA-BP组合模型在我国戊型病毒性肝炎预测中的适用性。现作报道。
1 资料与方法
1.1 资料来源 数据资料来源于中国疾病预防控制中心(网址:http://www.chinacdc.cn)提供的2004-2018年全国法定传染病疫情报告,其中2004-2017年的戊肝疫情数据用于建立时间序列预测模型,2018年1-12月的戊肝疫情数据作为检验模型预测效果的对比值。
1.2 方法
1.2.1 ARIMA模型 ARIMA模型适用于平稳性时间序列的短期预测,对于带有季节周期性的时间序列,需引入考虑季节性的参数构成乘积季节模型ARIMA(p,d,q)(P,D,Q)s,参数p、q、d表示自相关函数(ACF)、偏自相关函数(PACF)的阶和差分的次数;P、Q、D表示季节性自相关、偏自相关函数的阶和差分的次数;s表示反映季节性的周期[8]。
ARIMA建模过程分为四个阶段:(1)序列平稳化,通过数据差分、变换等实现非平稳序列平稳化;(2)模型识别与定阶,根据平稳时间序列的自相关和偏自相关函数图,估计模型参数p、q、P、D的值;(3)参数估计及模型检验,检验ARIMA模型系数显著性、残差的白噪声水平;结合模型拟合系数R2、最小信息准则等参数,确定最优模型;(4)预测,利用最优模型进行预测,评估预测效果。
1.2.2 BP神经网络模型 BP神经网络能学习和存贮大量的输入-输出模式关系,具有任意复杂的模式分类能力和优良的多维函数映射能力,由输入层、隐藏层和输出层组成多层前馈神经网络,其中隐含层可以有一层或多层(见图1)。其算法主要包含两个方面:信号的前向传播和误差的反向传播。前向传播过程,输入模式从输入层经隐单元层逐层处理,并转向输出层,每一层神经元的状态只影响下一层神经元的状态[9]。
1.2.3 ARIMA-BP组合模型 ARIMA-BP组合模型的研究中,目前主要分为输入样本替换法、残差修正法和组合权重法三种[10-13]。其中残差修正法在捕捉时间序列线性趋势方面效果更好,同时通过残差修正能更精准地对目标值进行预测,在传染病预测方面有广泛的应用。
将戊肝疫情的时间序列yt看作自相关主体Lt与非线性残差et的结合,即yt=Lt+et,Lt反映了时间序列的季节性及线性趋势,et反映残差序列的非线性变化规律。
ARIMA-BP组合模型的基本程序为:(1)根据确定的ARIMA模型获得时间序列的拟合样本及其残差;(2)提取ARIMA模型拟合样本的残差作为BP神经网络模型的输入值样本,结合时间信息建立二维输入、一维输出的BP神经网络模型;(3)由ARIMA模型对时间序列的目标值进行预测,得到预测样本Lt;由BP神经网络模型对残差序列进行预测得到样本et,二者结合得到组合模型预测样本yt;(4)采用多种误差指标对ARIMA模型和ARIMA-BP模型的预测效果进行对比分析。
1.3 统计学方法 采用ARIMA乘积季节模型和BP神经网络模型。
2 结果
2.1 戊肝流行特征分析 由2004-2017年我国戊肝发病数的时间序列图(见图2)可知,我国戊肝的发病人数呈现明显的非平稳性和季节性效应(s=12),每年的2~4月为发病高峰期,9~10月份呈现低谷,序列具有明显的线性趋势和非线性特征,为非平稳的时间序列。
2.2 ARIMA模型的建立
2.2.1 序列平稳化 平稳序列是ARIMA模型分析预测的基础[14-15],根据图2原始序列的数据特征,首先对序列进行自然对数转化以减小异方差,通过一阶差分、一阶季节差分(s=12)消除趋势性和季节性影响,得到处理后的时间序列图(见图3),序列在0附近呈现平稳的小幅上下波动,序列表现为基本平稳。
2.2.2 模型的识别和定阶 由平稳化过程可知,原始数据经过自然对数转化并一阶差分、一节季节差分后,其周期性和季节性基本消失,可确定模型的参数d=1,D=1,初步确定模型的基本形式为ARIMA(p,1,q)(P,1,Q)12。结合平稳后序列的自相关和偏自相关检验图(见图4),初步判定p不超过2、q不超过3。参数P、Q的取值判定较为困难,根据已有相关文献[16]研究成果,P、Q取值超过2阶的情况比较少见,故取为0、1、2进行校验。基于此,从低阶到高阶对p、q、P、Q分别取不同数值建立模型,根据最小信息准则、拟合效果、残差序列、参数估计有关情况综合筛选模型。
2.2.3 参数估计及模型诊断 对所有模型进行计算,其中有ARIMA(1,1,0)(0,1,1)12和ARIMA(0,1,1)(0,1,1)12两个模型的所有参数通过t检验,均满足模型要求,参数检验结果见表1。由BIC最小信息准则结果可知,模型ARIMA(0,1,1)(0,1,1)12结果为11.441,小于ARIMA(1,1,0)(0,1,1)12模型的结果11.469;由拟合优度R2结果可知,模型ARIMA(0,1,1)(0,1,1)12结果为0.803,大于ARIMA(1,1,0)(0,1,1)12模型的结果0.797。由此可知,模型ARIMA(0,1,1)(0,1,1)12对数据拟合效果更好。
合格模型的残差应为白噪声序列,模型ARIMA(0,1,1)(0,1,1)12的Ljung-Box统计量Q=18.825、P=0.278大于0.05的检测水平,表明残差序列之间相互独立。结合ARIMA(0,1,1)(0,1,1)12模型残差序列的自相关和偏自相关图(见图5),二者均位于2倍标准误范围内,并表现出无规律的纯随机性,由此可判定残差序列为白噪声序列,模型ARIMA(0,1,1)(0,1,1)12对原始数列信息的提取比较充分,拟合性较好。
由模型ARIMA(0,1,1)(0,1,1)12的拟合曲线图(见图6)可知,拟合结果与实测值的变化规律有良好的一致性,能够较好地模拟原始时间序列的线性趋势和季节特性。在部分数据上,拟合值与实际值之间的残差值较大,影响模型的拟合效果和预测精度,需进一步完善。
表1 ARIMA模型参数估计检验及拟合结果统计表
2.3 ARIMA-BP组合模型的建立 由于ARIMA(0,1,1)(0,1,1)12的差分过程导致部分拟合数据缺失,故提取该模型2005年2月至2017年12月拟合数据的残差序列作为ARIMA-BP组合模型的样本数据[12]。添加时间信息作为BP神经网络模型的输入层,将全国2018年1-12月戊肝残差数据作为输出,建立二维输入一维输出的BP神经网络。其中BP神经网络的参数设置:隐含层节点数为10,目标误差为10-4,学习速率为0.1,最大训练周期为1 000。根据训练后的神经网络模型对残差序列进行预测,将BP神经网络残差预测值与ARIMA模型的预测值相结合,得到组合模型的预测值,并与原始序列和ARIMA模型预测数据进行对比分析。
2.4 模型的预测效果对比 对不同模型的预测效果进行对比研究时,多采用绝对误差、误差率等进行评价,本文选取以下几种误差对比指标[17]:
表2 2种模型对2018年预测精度比较
3 讨论
近年我国疾病监测信息逐步实现了多监测系统的无缝连接,能够长期、连续、系统地收集疾病的动态分布及其影响因素,目前已成为评估疾病发展趋势、指导疾病预防和救治的指导性资料之一,尤其是对法定传染病数据的采集和统计结果,为相应传染病的预测和控制研究提供了依据。而我国的戊肝发病人数呈现逐年上升的趋势,戊肝的防治工作已经逐渐成为我国的一项重要的公共安全问题。
表3 2种模型的预测精度参数比较
对戊肝的发病趋势和具体情况进行精准预测,是合理分配公共卫生资源、确定防疫措施的基础。目前对传染病类疾病预测模型的研究,多以单预测模型为主,尤其是考虑季节性因素的ARIMA模型应用最为广泛。但单一ARIMA模型基于线性假定进行时间序列预测,且受自身限制和数据随机性的影响,对非线性趋势提取效果不佳,在实际应用中往往达不到高精度预测的要求。单项预测模型的有效组合可以显著提高预测效果[10]。本研究在分析戊肝疫情发病规律的基础上,引入非线性的BP神经网络模型,与传统的乘积季节ARIMA模型相结合建立ARIMA-BP组合模型,通过BP神经网络模型对ARIMA模型的残差进行修正,预测取得了较为理想的效果。由预测结果的误差对比分析可知,ARIMA-BP组合模型对于戊肝疫情的整体预测精度有明显
提升,能更好地反映时间序列的内部规律和未来趋势。
需要注意的是,本研究是基于残差修正的一种组合预测模型,在此基础上开展ARIMA模型和BP模型的其他组合方式、引入其他非线性模型与ARIMA模型组合,都是有待进一步研究工作的重要方向。