APP下载

基于ARIMA与NNAR模型的中国慢性阻塞性肺疾病疾病负担预测研究

2022-05-13赵创艺袁空军杨媛周光清李海燕

中国全科医学 2022年16期
关键词:患病率死亡率人群

赵创艺,袁空军,杨媛,周光清,李海燕

本文要点:

(1)1990—2019年中国全人群慢性阻塞性 肺 疾 病(COPD) 患 病 率 从 2 344.40/105增 至3 175.37/105,年均增长1.04%;男性和女性COPD患病率平均每年分别增长0.92%和1.13%。(2)1990—2019年中国全人群COPD死亡率由105.09/105下降至72.94/105,年均降幅为1.29%;男性和女性COPD死亡率平均每年分别下降0.83%和1.83%。(3)1990—2019年中国全人群COPD 伤残调整寿命年(DALYs)率从2 206.55/105下降至1 400.71/105,年均下降1.56%;男性和女性的COPD DALYs率平均每年分别下降1.37%和1.86%。(4)预测得到2020—2024年中国COPD患病率分 别 为 3 229.77/105、3 262.44/105、3 292.38/105、3 322.31/105、3 352.25/105;死亡率分别为 74.50/105、75.49/105、76.11/105、76.50/105、76.75/105;DALYs率分别为 1 429.56/105、1 452.07/105、1 469.64/105、1 483.35/105、1 494.05/105。

慢性阻塞性肺疾病(COPD)是一种常见的、可以预防和治疗的、以呼吸道持续性症状和气流受限为主要特征的慢性病[1]。COPD目前居全球死亡原因的第四位,而到2030年COPD将可能成为全球第三大死亡原因[2]。我国每年约有100万人死于COPD,并有大约500万人因COPD致残[3]。2015年,我国≥20岁成年人中有8.6%(9 990万)的成年人患有COPD,在≥40岁人群中COPD患病率更是高达13.7%[4]。随着我国吸烟人数的逐渐增多和人口老龄化程度的不断加剧,预计我国COPD患病率和疾病负担将会持续上升。中国COPD防控形势严峻,有效预测COPD疾病负担发展趋势可为COPD预防和控制策略的制定提供理论支持[5]。患病率、死亡率和伤残调整寿命年(DALYs)率是衡量人群疾病负担的重要指标。既往研究多侧重于对我国COPD疾病负担的变化趋势进行描述与分析,较少涉及对COPD患病率、死亡率和DALYs率未来发展趋势的预测[6-8]。COPD患病率、死亡率和DALYs率数据呈现一种长期趋势,且具有随机波动的特点,而自回归移动平均(ARIMA)模型和神经网络自回归(NNAR)模型均是用于拟合呈现长期趋势、非平稳数据的常用预测模型[9-11]。本研究通过收集1990—2019年中国COPD患病率、死亡率和DALYs率数据,分析我国COPD疾病负担变化趋势,并分别采用ARIMA和NNAR模型进行建模,择优选择模型预测2020—2024年中国COPD的疾病负担。

1 资料与方法

1.1 数据来源 1990—2019年中国COPD患病率、死亡率和DALYs率等数据来源于2019年全球疾病负担(GBD 2019)。GBD 2019采用标准的、可复制的方法估算了全球204个国家和地区的369种疾病和伤害所造成的疾病负担情况,并按国家和地区、年份、性别和年龄组分别报告。疾病负担的详细数据可从全球健康数据交换数据库网站(http://ghdx.healthdata.org/gbd-2019)下载,GBD数据是一套具有内部一致性和可比性的高质量数据,GBD 2019的详细介绍和使用方法参见文献[12-13]。

1.2 统计学方法

1.2.1 疾病负担趋势分析 利用Excel 2016建立1990—2019年中国COPD患病率、死亡率和DALYs率数据库,对COPD疾病负担在全人群及不同性别人群中的变化趋势进行分析,相关指标均采用GBD 2019全球标准人口进行年龄标准化。变化率=(2019年指标值-1990年指标值)/1990年指标值×100%。采用对数线性回归模型计算平均年度变化百分比(AAPC),使用Joinpoint Regression Program 4.9.0.0软件分析率的变化趋势,AAPC的检验采用t检验,以P<0.05为差异有统计学意义。

1.2.2 ARIMA、NNAR模型的建立与比较 利用1990—2016年中国COPD患病率、死亡率和DALYs率作为训练集建立ARIMA和NNAR模型,利用2017—2019年数据作为测试集进行模型评价。ARIMA、NNAR模型的建立与比较基于R 4.1.0软件实现。

1.2.2.1 ARIMA模型建立 ARIMA(p,d,q)是常用的时间序列模型,其中p、d、q分别为自回归(AR)、为使数据平稳所需差分和偏自回归(MA)的阶数。利用“forecast”“tseries”包中的“auto.arima”等函数实现对ARIMA模型的构建。根据赤池信息准则(AIC)和贝叶斯准则(BIC)筛选最优模型类型及参数。对模型的残差序列进行Ljung-Box检验,若P>0.05,则通过检验,提示为白噪声,ARIMA模型拟合度较好,否则重新建模。

1.2.2.2 NNAR模型建立 人工神经网络是模拟生物神经网络的数学模型,允许响应变量和预测变量之间存在复杂非线性关系,其结构主要包括3个层次,即由输入层(预测变量)形成的底层,由输出层(响应变量)形成的顶层,以及包含“隐藏神经元”的中间层。把时间序列的滞后值作为输入构建的神经网络,称为NNAR(p,k)。其中p表示滞后输入数,k表示隐藏层中的节点数。NNAR模型的构建可通过“forecast”包中的“nnetar”等函数实现。

1.2.2.3 模型比较 采用预测值与实际值的相对误差、平均绝对百分误差(MAPE)、平均绝对误差(MAE)及均方根误差(RMSE)对模型的拟合和预测效果进行评价。MAPE、MAE、RMSE值越小,模型拟合精度越高,MAPE<15%时提示预测精度较好[14]。最后,利用最佳模型拟合1990—2019年中国COPD疾病负担,预测得到2020—2024年中国COPD患病率、死亡率和DALYs率。

2 结果

2.1 1990—2019年中国COPD疾病负担变化趋势1990—2019年:(1)中国全人群COPD患病率从2 344.40/105增至 3 175.37/105,增长了 35.45%,年均增长1.04%(P<0.001);男性和女性COPD的患病率均呈上升趋势,平均每年分别增长0.92%和1.13%(P<0.001)。(2)中国全人群COPD死亡率由105.09/105下降至72.94/105,年均降幅为1.29%(P<0.001);男性和女性的COPD死亡率均呈下降趋势,平均每年分别下降0.83%和1.83%(P<0.001)。(3)中国全人群DALYs率从 2 206.55/105下降至 1 400.71/105,年均下降 1.56%(P<0.001);男性和女性的COPD DALYs率均呈下降趋势,平均每年分别下降1.37%和1.86%(P<0.001),见表1。

表1 1990—2019年中国COPD疾病负担变化情况(1/105)Table 1 Changes in the burden of COPD in China,1990—2019

2.2 COPD患病率预测模型构建 由“auto.arima”函数得到AIC与BIC最小的COPD患病率预测模型为ARIMA(1,2,0)(AIC=222.97,BIC=228.00)。 对残差序列进行Ljung-Box检验,延迟6阶χ2值为1.020(P=0.985),延迟12阶χ2值为1.975(P=0.999),差异无统计学意义,提示为白噪声。在训练集上:ARIMA(1,2,0)MAPE、MAE、RMSE 分 别 为0.284%、8.048、13.399,提示模型预测性能良好;由“nnetar”函数得到的COPD患病率模型NNAR(1,1)的 MAPE、MAE和 RMSE分 别 为 0.506%、14.621、19.841。ARIMA(1,2,0)和NNAR(1,1)预测值的动态趋势与实际情况基本一致(图1~2)。无论是在训练集还是在测试集上,ARIMA(1,2,0)的MAPE、MAE和RMSE值均小于NNAR(1,1),即ARIMA模型更优,见表2。

图1 ARIMA(1,2,0)COPD患病率预测模型的拟合和预测效果Figure 1 Goodness of fit and prediction performance of the ARIMA(1,2,0)COPD prevalence prediction model

图2 NNAR(1,1)COPD患病率预测模型的拟合和预测效果Figure 2 Goodness of fit and prediction performance of the NNAR(1,1)COPD prevalence prediction model

2.3 COPD死亡率预测模型构建 ARIMA(0,1,1)(AIC=79.74,BIC=83.51)为AIC与BIC最小的COPD死亡率预测模型。对模型进行Ljung-Box检验,延迟6阶、12阶统计量分别为χ2=2.403(P=0.879)和χ2=5.151(P=0.953),提示模型拟合效果良好。在训练集上,ARIMA(0,1,1)MAPE、MAE、RMSE分别为0.810%、0.730、0.965;NNAR(1,1)模型的 MAPE、MAE和RMSE分别为1.033%、0.921、1.107。从模型的拟合和预测情况来看,ARIMA(0,1,1)和NNAR(1,1)预测值的动态趋势与实际情况基本一致(图3~4);由图3可知,2017—2019年实际COPD死亡率均在ARIMA(0,1,1)预测值80%CI内。无论是在训练集还是在测试集上,ARIMA(0,1,1)的MAPE、MAE和RMSE值均小于NNAR(1,1),即ARIMA模型更优,见表2。

图3 ARIMA(0,1,1)COPD死亡率预测模型的拟合和预测效果Figure 3 Goodness of fit and prediction performance of the ARIMA(0,1,1)COPD mortality prediction model

图4 NNAR(1,1)COPD死亡率预测模型的拟合和预测效果Figure 4 Goodness of fit and prediction performance of the NNAR(1,1)COPD mortality prediction model

2.4 COPD DALYs率预测模型构建 ARIMA(0,1,2)(AIC=225.59,BIC=230.62)为AIC与BIC最小的COPD DALYs率预测模型。对模型进行Ljung-Box检验,延迟6阶、12阶统计量分别为χ2=0.726(P=0.994)和χ2=3.534(P=0.991),提示模型拟合效果良好。在训练集上,ARIMA(0,1,2)MAPE、MAE、RMSE值均低 于 NNAR(1,1)(0.622% 比 0.823%,11.305比14.982,15.321比18.240)。从模型的拟合和预测情况来看,ARIMA(0,1,2)和NNAR(1,1)预测值的动态趋势与实际情况基本一致(图5~6)。在测试集上,ARIMA(0,1,2)MAPE、MAE、RMSE值亦均低于NNAR(1,1),提示ARIMA模型更优,见表2。

图5 ARIMA(0,1,2)COPD DALYs率预测模型的拟合和预测效果Figure 5 Goodness of fit and prediction performance of ARIMA(0,1,2)DALYs rate prediction model for COPD

图6 NNAR(1,1)COPD DALYs率预测模型的拟合和预测效果Figure 6 Goodness of fit and prediction performance of NNAR(1,1)DALYs rate prediction model for COPD

表2 基于ARIMA和NNAR的中国COPD疾病负担预测模型拟合和预测效果比较Table 2 Comparison of the goodness of fit and performance in predicting the burden of COPD in China between ARIMA and NNAR-based models

2.5 COPD疾病负担预测结果 由训练集和测试集MAPE、MAE、RMSE结果可知,ARIMA模型在预测中国COPD患病率、死亡率、DALYs率上的性能更优,最终利用ARIMA模型拟合1990—2019年中国COPD疾病负担,预测得到2020—2024年中国COPD患病率、死亡率和DALYs率。2020—2024年中国COPD患病率分别为 3 229.77/105、3 262.44/105、3 292.38/105、3 322.31/105、3 352.25/105; 死 亡 率 分 别 为 74.50/105、75.49/105、76.11/105、76.50/105、76.75/105;DALYs率 分 别 为 1 429.56/105、1 452.07/105、1 469.64/105、1 483.35/105、1 494.05/105。 中 国 COPD 疾 病 负 担 在2020—2024年仍保持上升趋势,见表3。

表3 基于ARIMA模型的2020—2025中国COPD疾病负担预测情况(1/105)Table 3 ARIMA model-based prediction of COPD burden in China from 2020 to 2025

3 讨论

随着疾病谱的不断变化、慢性非传染性疾病日益受到重视,通过开展基于国家视角的疾病负担趋势分析及预测研究,可为国家公共卫生政策的科学制定、医疗卫生资源的合理配置提供依据,也可为卫生行政部门确定疾病预防控制的优先领域、慢性病防控策略的制定提供参考。本研究结果显示,1990—2019年中国全人群COPD患病率整体呈上升趋势。2019年中国全人群COPD患病率为3 175.37/105,在全球范围内仍处于较高水平[15]。1990—2019年中国全人群COPD死亡率和DALYs率整体呈下降趋势,但2018年起中国全人群COPD死亡率和DALYs率较先前有所反弹,2019年中国全人群COPD死亡率和DALYs率分别达72.94/105和1 400.71/105,且 COPD DALYs 率高于全球同期平均水平(961.97/105)[16]。既往有学者发现,COPD疾病负担在不同性别人群中存在的差异并不明显[17],但本研究发现,1990—2019年男性COPD死亡率平均每年下降幅度为0.83%,低于女性的1.83%,提示应加强和重视对导致男性COPD患者疾病快速进展的危险因素的控制,这也将有助于降低我国COPD疾病负担。既往研究表明,大气污染物中的颗粒状污染物可对COPD患者死亡率产生不利影响,而男性因更易从事长时间暴露于粉尘环境中的工作,长期高水平吸入细微颗粒物的可能性更高[18-19],再加上中国男性吸烟率一直居高不下,这些因素均增加了男性COPD患者的死亡风险。

本研究分析了1990—2019年中国COPD患病率、死亡率和DALYs率变化特征,建立了COPD患病率、死亡率及DALYs率的ARIMA模型和NNAR模型,并通过ARIMA模型预测得到2020—2024年中国COPD患病率、死亡率和DALYs率,发现2020—2024年中国COPD疾病负担呈现上升趋势。ARIMA作为经典的时间序列模型,在拟合周期性、季节性变化的数据方面具有较大的优势,且ARIMA模型充分考虑了既往预测误差对预测结果产生的影响,因此其预测精度较高[20]。本研究发现,无论在训练集还是在测试集上,基于ARIMA的COPD患病率、死亡率及DALYs率模型的MAPE、MAE、RMSE值均低于基于NNAR的COPD患病率、死亡率及DALYs率模型,即ARIMA模型的拟合精度更高。ARIMA模型的预测能力也在既往许多研究中得到了证实。例如:周杰等[21]将其用于预测湖南省人畜血吸虫病感染率;徐洁茹等[20]将其用于拟合1990—2019年女性卵巢癌发病趋势,并基于其对女性2020—2029年发病率进行了预测;梁达等[22]用其来预测青海省肺结核发病例数等。ARIMA是一种用于预测疾病流行趋势的有效方法,但其对数据的要求较高,需要时间序列具备平稳性/不平稳时间序列经过d次差分后可转化为平稳时间序列,而每一次差分运算均会造成信息损失。同时ARIMA还存在非线性映射性能较弱、难以拟合不规则时间序列等不足。

NNAR模型提供了一种可以逼近非线性不平稳时间序列的有效方法,具有良好的泛化能力,是一种用于时间序列分析的机器学习方法。目前,将NNAR模型应用于疾病负担预测的研究相对较少。例如:马倩倩等[11]将其用于食管癌疾病负担的预测,张欣等[10]将其用于预测我国丙肝发病率,吴伟等[23]将其用于预测肾综合征出血热发病例数,上述研究的结果表明,NNAR模型具有较高的精度和较强的适用性。本研究中,虽然NNAR模型对COPD疾病负担的拟合精度略低于ARIMA模型,但其拟合效果亦较好(DALYs率模型MAPE=0.823%),故NNAR模型同样具有较好的推广应用价值。但由于NNAR神经网络中的延时阶数及隐藏的神经元个数无法用科学的方法得出,只能依靠经验获取,即NNAR模型依旧是“黑盒”模型[24],并且与建立ARIMA模型相比,建立NNAR模型所需的数据量更大(旨在提高精确度),上述问题成为NNAR模型推广与运用的制约因素。

综上所述,我国COPD疾病负担仍然呈上升趋势,COPD防控形势严峻。基层医疗卫生机构是医疗系统中的“基石”和核心,也是实现COPD可防、可治、可控的重要环节。但目前我国基层医疗卫生机构的COPD防治存在明显“短板”。卫生行政部门应着力提升基层医疗卫生机构的COPD筛查、干预能力;推动社区卫生服务中心和乡镇卫生院配备肺功能检查仪等设备,同时还需加强对基层医务人员的肺功能检查培训,进而确保肺功能检查技术能够在基层医疗卫生机构实施和推广。基层医疗卫生机构应组建专业的健康管理团队,构建COPD健康教育管理模式,鼓励健康管理团队对服务范围内的COPD患者进行长期随访、定期健康宣教,并为其提供多途径的健康咨询服务;也可通过开展COPD专题讲座,组织社区义诊活动和发放科普资料等方式,提高居民对COPD的认知水平,扩大戒烟服务的提供范围,减少吸烟和被动吸烟对居民健康造成的损害。

基于ARIMA和NNAR的COPD患病率、死亡率和DALYs率模型预测值的动态趋势与实际情况基本吻合,但ARIMA模型表现更佳。ARIMA模型为疾病负担的短期预测提供了一种行之有效的方法,对于控制COPD疾病负担具有一定实际意义。本研究也存在一定不足:(1)尽管GBD 2019拥有广泛的数据来源,并且在分析数据过程中使用了新型统计建模技术,但其提供的数据可能与基于全国疾病监测系统监测数据计算得出的结果存在一定出入。(2)COPD疾病负担的变化是多因素共同作用的结果,但本文仅从单变量时间序列角度探讨了疾病负担的变化规律,未来,研究者在聚焦时间变化对COPD疾病负担影响的同时,可将其他相关因素纳入模型,以提高模型的预测精度。

作者贡献:赵创艺负责数据收集、论文撰写;袁空军负责数据分析;杨媛负责文献收集、论文修订;周光清负责研究设计、论文修订;李海燕负责论文修订。

本文无利益冲突。

猜你喜欢

患病率死亡率人群
全面的健康生活方式显著降低糖尿病死亡率
2020年安图县学生龋齿患病率分析
走路可以降低死亡率
云南省寻甸县小学生视力不良及屈光不正患病率调查
春季养鸡这样降低死亡率
昆明市3~5岁儿童乳牙列错畸形患病率及相关因素
糖尿病早预防、早控制
新冠肺炎的死亡率为何难确定?
我走进人群
财富焦虑人群