APP下载

我国2012—2021年4种肝炎流行趋势的时间序列分析和预测

2024-01-18马一鸣

关键词:差分肝炎乘法

马一鸣,丁 勇

南京医科大学康达学院医学信息工程学部,江苏 连云港 222000

病毒性肝炎(简称肝炎,hepatitis)可分为甲型(hepatitis A)、乙型(hepatitis B)、丙型(hepatitis C)、丁型(hepatitis D)和戊型(hepatitis E),在没有及时的救治与干预情况下会进一步发展为肝硬化、肝衰竭以及肝癌[1-2],甚至导致死亡。我国是肝炎高发国家,近年来,我国在病毒性肝炎防治方面取得巨大成就,但由于人口众多,肝炎感染者的基数大、病情长久、医治负担沉重等因素,肝炎防治仍然任重道远,因此,肝炎的早发现、早治疗、早干预意义重大[3-4]。分析传染病流行的特征和规律,及早做出预测是对疾病未来发生、发展趋势认知的重要手段,是制定传染病防控策略的重要前提。

时间序列分析方法能对一定时间段的连续性观测数据进行相关特征地提取并分析其变化过程与发展规律,被广泛用于社会各个领域[5-7]。本文通过时间序列分析我国4 种肝炎(甲型、乙型、丙型和戊型)近10年(2012 2021年)流行的周期性特征和长期变化趋势,并探讨季节自回归移动平均模型(autoregressive integrated moving average model,ARIMA)和季节指数平滑模型(exponential smoothing model,ES)在肝炎发病预测中的应用和预测效果比较,发现适合我国肝炎发病分析的时间序列模型,为传染病的防控救治工作提供参考依据和建议。

1 资料和方法

1.1 资料

数据来自国家卫健委(http://www.nhc.gov.cn)发布的2012年1月—2022年8月全国甲型、乙型、丙型及戊型肝炎的月发病例数统计资料(目前卫健委发布的最新数据)。丁型肝炎的月发病例数较少,以2021年为例,平均每月发病例数为24.42例,仅为甲肝、乙肝、丙肝、戊肝发病数的2.36%、0.02%、0.12%和1.09%,由于缺少2015 年及以前的统计数据,未纳入本次研究范围。

1.2 方法

对2012 年1 月—2021 年12 月数据进行时间序列的季节性分解,探讨10年来我国4种肝炎流行特征和长期趋势。由于肝炎发病有一定的季节性规律,本文用季节ARIMA 模型和季节ES 模型分别对4种肝炎进行建模与预测,其中2012年1月—2021年12 月的10 年数据用于建立模型,2022 年18 月数据用于预测,并对预测的效果进行评价与比较。

ARIMA模型是通过时间序列数据的自回归、移动平均和差分等变换,建立一个能够描述数据特征的模型,并利用这个模型来预测未来的数据变化[8-9]。季节ARIMA 模型适用于由于季节性变化(包括季度、月度等)或其他一些因素引起的周期性变化的时间序列。

ES 模型是一种特殊的加权移动平均法[5],其特点是以无穷大为宽度,各历史值的权重随时间的推移呈指数衰减,从而给近期的观察值较大的权数,给远期的观察值以较小的权数,用当前值和历史值来预测未来值。季节ES 模型适用于有季节性趋势的时间序列。

两种模型都用SPSS 27 统计软件完成计算。最优模型用SPSS提供的如下指标进行评价筛选[10]:平稳R2和R2,这2个指标值越大,说明模型拟合效果越好;平均绝对误差百分比,即相对误差绝对值的平均值(mean absolute percentage error,MAPE),指标值越小,说明模型拟合的误差越小;贝叶斯信息准则BIC(Bayesian information criterion),这个指标值越小,说明模型对数据的解释力越强,模型越好。

对于多个模型,依次进行比较,选择最优模型。

2 结果

2.1 流行特征

我国4 种肝炎2012—2021 年的月发病例数的描述统计(表1)显示,肝炎发病例数最多的时间集中在2019 年之前,发病例数最少的时间集中在2019 年以后,由此可见,近年来我国肝炎的防治工作卓有成效;月发病例数最大值与最小值的比值为1.26~3.67;以甲型肝炎平均月发病例数为基数1,乙型、丙型、戊型肝炎分布是甲型肝炎的57.06、11.50、1.35倍,说明乙型肝炎和丙型肝炎发病人数众多(平均月发病例数分别接近10 万和2 万),是我国肝炎人群的防控重点。

表1 我国4种肝炎2012—2021年月发病例数的描述统计Table 1 Descriptive statistics of the number of monthly incidents of four types of hepatitis in China from 2012 to 2021

图1为我国4种肝炎的月发病例数10年时间的序列图,既有长期上升或下降的趋势,也有每年的周期性波动,为了更清晰地探讨这些变化规律,将时间序列进行季节性加法分解[10]。时间序列经过季节性加法分解,可分解为周期性的季节因子、长期趋势因素和随机误差项。

图1 4种肝炎2012—2021年月发病例数Figure 1 Number of monthly incidents of four types of hepatitis from 2012 to 2021

2.1.1 季节因子

本次肝炎发病例数为年、月的统计资料,故时间序列周期长度(s)=12。

图2为我国4种肝炎发病例数的季节因子。季节因子<0表示季节水平低于平均值,季节因子>0表示高于平均值。

图2 4种肝炎1 12月的季节因子Figure 2 Seasonal factors of four hepatitis types from January to December

通过季节因子可以发现各类肝炎发病的季节性周期规律:甲型肝炎在每年的2 月发病例数较少,3、7、8、9 月发病例数较多;乙型和丙型肝炎较为相似,在每年的2 月发病例数较少,3 月发病例数较多;戊型肝炎在10 月发病例数较少,3 月发病例数较多。

2.1.2 长期趋势

图3 为我国4 种肝炎10 年来月发病例数的长期变化趋势。甲型肝炎除了在2014年和2019年有较大的发病例数,总体保持下降趋势;乙型肝炎总体趋势较复杂,2012 年发病例数有较大下降,2013—2016 年保持相对平稳,2017 年上升,2020 年有较大的下降,2021 年又开始上升,近年来有上升趋势;丙型肝炎除了在2020 年有较大的下降,总体呈上升趋势;戊型肝炎除了2020 年有较大的下降,总体保持平稳趋势。在发病例数上升和平稳的情况下,乙型、丙型和戊型肝炎发病例数在2020 年都有较大的下降,这与新冠疫情期间采取防疫措施减少了传染机会有关。

图3 4种肝炎发病例数的长期趋势Figure 3 Long term trend of the number of cases of four types of hepatitis

2.2 时间序列模型与预测

建立合适的统计模型对传染病发病趋势进行预测,可以提前准备好各项应对措施和防控预案。由图2 和图3 可知,肝炎的发病率有季节性的变化规律和长期变化趋势,本文选择季节性的时间序列进行建模和预测。

2.2.1 季节ARIMA模型

季节ARIMA模型要求时间序列是平稳的,序列的平稳性可用ADF 检验,即单位根检验[11],原假设为:序列存在单位根,即非平稳序列。不平稳的时间序列通过差分可以消除数据的波动性,转化为平稳序列。当时间序列经过差分能够达到平稳状态时,可以对当前值和历史值以及随机误差项进行回归分析来预测未来值。季节ARIMA 模型可表示为ARIMA(p,d,q)(P,D,Q)s,其中s为季节的周期长度,d为差分阶数,D为季节差分阶数,p为自回归阶数,P为季节自回归阶数,q为移动平均阶数,Q为季节移动平均阶数。

图1显示甲型、乙型、丙型和戊型4种肝炎数据序列不平稳,ADF检验的显著性均有P>0.05(分别为0.813、0.553、0.598和0.894);通过一阶差分(d=1)和一阶季节差分(D=1)后的时间序列都达到平稳(图4),ADF 检验的显著性均有P<0.05(分别为0.001、0.019、0.001和0.001)。

图4 4种肝炎发病例数一阶差分、一阶季节差分后的时间序列图Figure 4 Time series diagram of four types of hepatitis incidence cases after first-order difference and first-order seasonal difference

理论研究表明,参数p、q的取值可分别通过偏自相关(PACF)图和自相关(ACF)图来确定[5]。由于数据误差等原因,当实际的偏自相关(PACF)图和自相关(ACF)图无法确定p、q时,可以取p、q的不同值用枚举法进行筛选。目前没有较好的方法直接确定参数P、Q的取值,在实际应用中,也取P、Q的不同值用枚举法进行筛选。输入这4 个参数,SPSS可以建立ARIMA模型并进行预测。

根据已有相关文献研究成果可知[9],一般情况下,p、q和P、Q取值超过2 阶的情况比较少见,本文都取为0、1、2 进行筛选,从而各类肝炎这4 个参数的不同选择共有81 种备选模型。根据平稳R2、R2、MAPE、BIC 4 个指标,各种肝炎选取的最优ARIMA模型见表2。

表2 4种肝炎的最优ARIMA模型及评价指标Table 2 Optimal ARIMA models and evaluation indicators for four types of hepatitis(s=12)

2.2.2 季节ES模型

SPSS 提供了3 种季节性ES 模型:简单模型、Winters 加法模型和Winters 乘法模型(以下分别简称为加法模型和乘法模型)。简单模型包含水平和季节两个参数,加法模型和乘法模型包含水平、趋势和季节3 个参数。因为肝炎流行包含长期趋势,故不考虑简单模型。本文建立加法模型和乘法模型并进行筛选。

由表3 可知,对于甲型肝炎,平稳R2和R2指标为加法模型大于乘法模型,MAPE 和BIC 指标为加法模型小于乘法模型,从而各Î>0,∑Î>0,故加法模型优于乘法模型。同理可知,乙型肝炎、丙型肝炎也是加法模型优于乘法模型。对戊型肝炎,加法模型和乘法模型4 个指标相对差值Î依次为0.104、-0.005 和0.520、-0.002,从而有∑Î>0,故加法模型优于乘法模型。

表3 4种肝炎的季节ES模型及评价指标Table 3 Seasonal exponential smoothing models and evaluation indicators for four types of hepatitis

综合表3 的各个指标,4 种肝炎的ES 模型以加法模型为优。

2.2.3 预测

一个合适的模型不仅拟合效果要好,还需要通过预测效果来评价其应用价值。将表2 筛选的ARIMA模型和表3的ES模型分别对2022年1 8月肝炎发病例数进行预测。

由表4 各类肝炎的月发病例数预测MAPE 可知:对于甲型肝炎,ES 模型为7.1%,ARIMA 模型为9.3%;对于乙型肝炎,ES 模型为5.2%,ARIMA 模型为6.2%;对于丙型肝炎,ES 模型为7.9%,ARIMA 模型为8.4%;对于戊型肝炎,ES 模型为4.2%,ARIMA模型为11.2%。4种肝炎的ES模型预测的MAPE 都小于ARIMA 模型。因此,从应用的预测效果来看,病毒性肝炎的时间序列模型,ES 模型较ARIMA 模型更适合。

表4 2022年发病例数的模型预测结果比较Table 4 Comparison of model predictions for the number of incidents in 2022

3 讨论

传染病的发生和流行对社会危害极大,不仅损害人们的身体健康、降低人均寿命,也给社会医疗、卫生资源带来极大损失。总结传染病流行特征的规律性,并建立合适的统计模型并进行预测,对于全面掌握传染病的发生、发展的变化趋势,及早做好防控工作意义重大。本研究表明,通过时间序列的分解,可以提取出肝炎流行特征的周期规律性和长期变化趋势;通过时间序列建模,可以对未来的趋势进行预测。

我国近10 年病毒性肝炎有如下的发病特征与趋势:3月份是各类肝炎的高发期,要提前做好防治措施;甲型肝炎总体呈下降趋势,乙型肝炎总体趋势较复杂,近年来有上升趋势,丙型肝炎总体呈上升趋势,戊型肝炎总体保持平稳。虽然我国肝炎防治工作成果显著,但从目前肝病的流行趋势看,我国的肝炎防治工作任务艰巨,还需加大投入,采取控制传播源、切断传播途径、定期接种疫苗、保护易感人群等多种方法来预防。特别是乙型和丙型肝炎发病人数众多,发病有上升趋势,是肝炎人群的防治重点。

通过建立合理的统计模型可以对传染病的发生趋势进行预测,目前用的较多的时间序列模型有灰色预测模型、ES模型和ARIMA模型等,如何选择合适的模型进行预测是一个值得探讨的有应用价值的课题。灰色预测模型计算简便、可以用较少的数据进行预测,对处理单调的数据序列类型具有较强的能力,但对有周期性波动的数据序列预测效果较差。由于传染病发病有其自身的特殊规律性,例如季节性的周期规律和长期变化趋势,大量的文献研究报道采用季节ARIMA模型和季节ES滑模型[12-15]。季节ARIMA 和ES模型都有较好的预测效果,ARIMA 模型参数较多,优点是可以通过调节多个参数来适应各种情况,提高预测效果,缺点是对数据的要求较高(数据平稳),模型确定困难(前面的各种肝炎的计算中,要在多个模型中选择较优模型)、参数计算复杂,结果会导致过度拟合和预测效果不稳定。季节ES 模型相对简单,但有计算简便和稳定性好的优点。从传染病趋势预测的适用性来看,本研究显示,ES 模型对4 种肝炎的预测效果都高于ARIMA 模型,表明季节ES 指数模型中水平、趋势和季节这3 个参数,能体现肝炎发病的流行规律,且具有计算简便、应用面广且预测精度高的优点。

目前传染病流行趋势和预测的研究,多数文献报道仅限于一种疾病和一种方法[8-9,12-13],单一病种和单一方法往往会有一定的局限性和偶然性,缺乏普遍的适用性。本文首次同时用我国甲、乙、丙、戊型4种肝炎的10年变化数据,分析肝炎发病的季节性规律和长期趋势,并用多种模型进行建模和比较分析,从而可以更全面地了解肝炎发病的普遍规律和对选择合适的时间序列模型做出更客观的评价。

猜你喜欢

差分肝炎乘法
算乘法
《世界肝炎日》
我们一起来学习“乘法的初步认识”
世界肝炎日
数列与差分
《整式的乘法与因式分解》巩固练习
把加法变成乘法
战胜肝炎,沿需努力
关注肝炎 认识肝炎
基于差分隐私的大数据隐私保护