基于组合神经网络模型的新冠疫情传播预测分析
2020-12-01吴志强王波
吴志强 王波
摘 要:在全球抗击新型冠状病毒肺炎(COVID-19)疫情的过程中,合理的疫情传播预测对于疫情防控有重要参考意义。为了对病毒传播进行合理预测,针对传统疫情传播预测模型存在的不足,提出一种组合式神经网络的疫情传播预测模型,并将其应用于湖北省1月29日-3月15日每日新增确诊人数预测及湖北省每日累计确诊人数预测。预测结果分析显示,该神经网络预测模型预测结果可靠有效。模型性能分析结果表明,组合式神经网络预测模型平均相对误差(MRE)不超过0.16,均方误差(MSE)不超过0.1,均方根误差(RMSE)为0.262 9,性能明显优于其它几种神经网络预测模型。基于武汉市与广东省疫情传播预测的实证结果显示模型具有较好的适用性及准确性。
关键词:新型冠状病毒肺炎;组合神经网络预测模型;疫情传播;预测分析
DOI:10. 11907/rjdk. 201884
中图分类号:TP301 文献标识码:A 文章编号:1672-7800(2020)010-0015-05
Abstract:In the global fight against COVID-19, reasonable prediction of the spread of the epidemic has important reference significance for the prevention and control of the epidemic. In order to reasonably predict the spread of COVID-19, considering the shortcomings of traditional epidemic spread prediction models, this paper proposes a combined neural network epidemic spread prediction model. Subsequently, the model is applied to predict the daily number of newly diagnosed patients in Hubei Province and the cumulative number of daily diagnoses from January 29 to March 15. The analysis of prediction results shows that the prediction results of each neural network prediction model are reliable and effective. The model performance analysis results show that the combined neural network prediction model has an MRE of no more than 0.16, an MSE of no more than 0.1 and an RMSE of 0.262 9, which means that the performance of the combined neural network is significantly better than that of other neural network prediction models. The empirical results based on Wuhan city and Guangdong Province show that the model has good applicability and accuracy.
Key Words:COVID-19;combined neural network prediction model;the spread of the epidemic; forecast analysis
0 引言
2019年12月以来,新型冠状病毒肺炎(COVID-19)疫情爆发,其传染性强、传播迅速。在全球抗击新冠肺炎的过程中,相关科研人员对疫情传播和发展趋势进行了大量研究,为疫情防控提供了重要的参考信息[1-2]。
国内外学者针对疫情传播与发展趋势预测分析,构建的预测模型主要集中于动力学模型及统计学模型。动力学模型根据各要素之间的联系构建相关动力学微分方程,进而可模拟相关要素发展趋势,因此被广泛应用于疾病传播和分析,新型冠状病毒肺炎传播的动力学模型主要有SIR模型[3-6]、SEIR模型[7-10]、SEIHR模型[11]、SEQIR模型[12]等。如Zareie 等[3]通过构建伊朗COVID-19疫情的SIR模型,对伊朗COVID-19疫情传播进行有效预测;盛华雄等[4]在对疫情数据预处理的基础上,在控制阶段运用经典SIR模型与差分递推方法进行疫情传播分析和预测;魏永越等[8]基于改进的SEIR模型对新型冠状病毒肺炎疫情进行趋势预测;唐三一等[11]通过建立SEIHR模型对新型冠状病毒肺炎疫情进行预测,进而给出相关防控策略。
统计学模型基于逻辑回归模型挖掘统计数据相关规律,进而用于疫情传播预测分析。Ahmed 等[13]利用Logistic模型对土耳其和伊拉克疫情规模进行预测,预测结果验证了模型有效性;Li 等[14]基于官方疫情数据,将高斯理论用于研究COVID-19传播过程;盛华雄等[4]在对疫情数据预处理的基础上,在自由传播阶段运用Logistic模型,比較分析提前5天或延后5天的疫情数据与实测数据,说明及时采取防疫措施的重要性。
除此之外,多层感知机模型[15]、人工智能模型[16-17]、社会现象学模型[18-19]等也被相关学者应用于国外疫情传播预测分析。尽管通过上述预测模型可得出有效的疫情传播预测结果,然而无论是动力学模型还是统计学模型,均仅通过设置好的预测参数进行疫情预测,当参数过多时将面临求解困难、复杂的问题,且未考虑疑似人群在疫情传播中的影响;而相关人工智能模型(如多层感知机)容易陷入局部极小点问题,且国内与疫情传播相关的智能预测模型研究较少。因此,本文提出一种组合式神经网络的疫情传播预测模型,将粒子群用于神经网络训练过程,并将其应用于湖北省1月29日-3月15日的疫情传播预测。
1 组合神经网络预测模型
1.1 基本假设与数据说明
为对湖北省疫情传播作出合理的预测分析,提出5项基本假设:①国家卫健委提供的疫情数据真实可靠;②除确诊人数、死亡人数对疫情传播有直接影响外,疑似人群及重症人数对疫情传播也存在相关联系;③治愈人群可能产生再次感染,即治愈人数与疫情传播依旧存在联系;④只用前1天的相关数据预测后1天的疫情新增确诊量;⑤考虑到2月12 号推出用于诊断疫情的相关试剂,湖北省新增确诊人数急剧上升至14 840例,因此该日湖北省新增确诊人数采用文献[4]中推理出的数据(新增确诊人数2 051例)替代。
其中,t表示时间序列(1表示1月29号,以此类推),I表示每日新增确诊人数,N表示每日累计确诊人数,R表示每日治愈人数,D表示每日死亡人数,S表示每日疑似人数,Z表示每日重症人数。本文数据来源为国家卫健委提供的每日疫情数据,网址为http://www.nhc.gov.cn/xcs/xxgzbd/gzbd_index.shtml。选取湖北省1月28日-3月15日的疫情数据,数据内容包含上述数据内容。
1.2 模型介绍
神经网络模型具有自学习能力、自适应能力、非线性映射能力及容错率高等优点,应用广泛,且可根据输入输出映射进行自我调整,因此可被用于疫情传播预测分析。考虑到不同的激活函数及神经网络结构对神经网络性能及预测精度有重要影响,因此本文构建4种不同的神经网络模型对湖北省疫情每日新增确诊人数进行预测,并将4种神经网络预测结果作为传统多层感知机的输入进行拟合预测。考虑到传统神经网络在权值训练过程中容易陷入局部极小点且收敛较慢,因此将粒子群算法用于各神经网络权重训练,其中各神经网络参数如表1所示。
考虑到传统神经网络在权值训练过程中容易陷入局部极小点且收敛较慢,将粒子群算法用于各神经网络权重训练,训练过程为:①初始化粒子群基本参数,最大迭代次数为1 000次,粒子为各神经网络连接权值;②将粒子代入各神经网络,将各神经网络输出与目标输出的残差作为粒子群算法的目标函数;③更新粒子,并计算粒子目标值,并根据目标值大小进行更新最优粒子和最优值;④判断是否满足停止条件,若满足则输入最佳粒子,若不满足返回步骤2。
2 疫情传播预测分析
2.1 湖北省每日新增确诊量预测
选取湖北省1月28日-3月15日疫情数据进行疫情传播预测分析,数据信息包括:每日疫情新增确诊人数I、每日治愈人数R、每日死亡人数D、每日新增疑似人数S、每日重症人数Z以及每日累计确诊人数N(数据来源国家卫健委)。将前1天的疫情数据作为神经网络输入,后1天疫情新增确诊人数作为神经网络输出,进行湖北省每日新增确诊量预测分析,各神经网络预测结果如表2所示,其中时间1表示1月29日。
其中2月12号(第15时间序列)新增确诊量用文献[4]数据替代,最后时间序列的多个神经网络预测结果为负值,故而上进为0,根据表2所得的新增确诊人数预测结果得到湖北省每日新增确诊人数预测,如图2所示。
由图2可知,以上5种神经网络对于湖北省每日新增确诊人数的预测与实际趋势均较为符合,可对湖北省每日新增确诊人数进行有效的预测分析,但是在某些时间节点上仍存在差异,如第20时间节点上神经网络2(双曲三层神经网络)及神经网络3(四层神经网络)的预测结果与实际新增确诊人数存在较大差异。同时,在5种神经网络预测模型中,神经网络1(三层神经网络)及组合预测模型对于湖北省每日新增确诊人数预测精度较高。
2.2 湖北省每日累计确诊量预测
合理有效地预测分析湖北省每日累计确诊量可以为疫情拐点的出现及疫情的有效控制提供参考。由于[Nt=Nt-1+It-Rt-Dt](第t时刻累计确诊量由第t-1时刻的累计确诊量、第t时刻新增确诊量、第t时刻新增治愈量以及第t时刻新增死亡量递推而出),因此基于上述湖北省每日新增确诊量预测分析,可以进行湖北省每日累计确诊量预测分析,分析结果如表3所示。
根据表3所得的湖北省每日累计确诊量预测结果,得到湖北省每日累计确诊量预测趋势,如图3所示。
由图3可知,各神经网络预测模型对于湖北省每日累计确诊量预测结果均较为理想,其预测趋势与实际趋势贴合较近,能够有效反映湖北省每日累计确诊量。从图3可以看出,湖北疫情每日累计确诊量在第23时刻(2月19号)左右出现下降趋势,即意味着湖北省疫情拐点出现,同时在第16时刻(2月12号)左右,湖北疫情每日累计确诊量急剧增加,由于在2月12号左右推出用于诊断疫情的相关试剂,湖北省新增确诊人数急剧上升。
3 预测结果分析
3.1 预测误差分析
由湖北省每日累计确诊量预测结果(见表2)可以得到各预测模型在各时刻下与实际新增确诊量的偏差,进而得到各模型在各时刻下预测偏差分布,如图4所示。
由图3可知随着时间序列t 的推移,各神经网络对于湖北省每日新增确诊量预测偏差逐渐减少趋近于0,表明各神经网络对于湖北省每日新增确诊量预测结果有效。为检验各模型预测结果可靠性,各神经网络对于湖北省每日新增确诊量预测偏差均值及标准差如表4所示。
由表4可知,神经网络2与组合式神經网络与其它3种神经网络相比,偏差均值更低,然而从偏差标准差的角度来看,组合式神经网络预测偏差标准差为84.436 3,较其它4种神经网络预测结果更加可靠。
3.2 模型性能分析
模型性能评估是检验模型能否用于疫情传播预测的直观指标,而平均相对误差(MRE)、均方误差(MSE)以及均方根误差(RMSE)是评估神经网络的重要指标,因此本文利用这3种指标对各神经网络预测模型进行评估,其中各指标计算公式如式(1)—式(3)所示。
其中[yi]表示第i时刻的实际量,[yi]表示第i时刻的预测量,M表示预测样本量。
根据式(1)—式(3)分别求得各神经网络预测模型在湖北省每日新增确诊量预测中的MRE、MSE、RMSE及在湖北省每日累计确诊量预测中的MRE与MSE,如表5所示。
根据表5各神经网络预测模型指标得分,构建各神经网络预测模型性能雷达图,如图5所示。通过对比各神经网络预测模型评价指标得分可知,神经网络预测模型对于湖北省疫情传播预测精度较好(新增确诊人数预测MRE均小于0.3,累计确诊人数预测MRE均小于0.02);根据MRE评价指标来看,组合神经网络预测模型及神经网络3(4层神经网络预测模型)较之其它3种神经网络预测模型预测精度更高;根据MSE评价指标来看,组合神经网络预测模型性能最优,神经网络2(双曲3层神经网络预测模型)与神经网络3(四层神经网络预测模型)预测性能相当;根据RMSE评级指标可以看出组合神经网络预测模型性能优于其它4种神经网络预测模型,预测结果精度更高。综合各个评价指标来看,根据各神经网络在性能雷达图上所属面积可以看出,组合神经网络预测模型性能优于其它4种神经网络模型,其次是神经网络3(4层神经网络预测模型)、神经网络2(双曲3层神经网络预测模型)、神经网络4(双曲4层神经网络预测模型)以及神经网络1(3层神经网络预测模型)。
3.3 模型适应性分析
为验证组合式神经网络适用性及准确性,采用湖北省武汉市2月12日-3月12日疫情数据及广东省2月1日-2月22日疫情数据用于实验验证,验证结果如图6所示。
由实验验证结果可以看出,组合式神经网络预测模型能较好地预测武汉市及广东省疫情传播趋势,当训练数据充分时,组合式神经网络预测模型具有较好的适用性。从准确性角度出发,组合式神经网络预测模型对于武汉市与广东省新增确诊人数预测的MRE均小于20%,其中武汉市新增确诊人数预测MRE为6.01%,广东省新增确诊人数预测MRE为17.25%;对于武汉市以及广东省累计确诊人数预测的MRE均小于3%,其中武汉市累计确诊人数预测MRE为2.09%,广东省累计确诊人数预测MRE为0.65%。由此可见,在数据集充分的情况下,组合式神经网络预测模型有着较高的预测精度。
4 结语
针对传统疫情传播预测方法存在的不足,本文提出了一种基于组合式神经网络的疫情传播预测模型,并将其应用于湖北省每日新增确诊人数预测以及湖北省每日累计确诊人数预测。预测结果显示,神经网络预测模型预测结果可靠有效。模型性能分析结果表明,组合式神经网络预测模型性能明显优于其它4种神经网络预测模型,预测性能更佳。武汉市与广东省数据实证结果表明,组合式神经网络预测模型适应性较强、准确性较高。但是,神经网络优化仍依赖于智能优化算法权值优化。在未来研究中,一方面需加强智能优化算法与神经网络算法的结合,另一方面将积极探索合适的方法对神经网络进行结构优化,提升其实际应用性能。
参考文献:
[1] ANIRUDH A. Mathematical modeling and the transmission dynamics in predicting the Covid-19——What next in combating the pandemic[J]. Infectious Disease Modelling,2020(5):366-374.
[2] MOHAMADOU Y, HALIDOU A, KAPEN T. A review of mathematical modeling, artificial intelligence and datasets used in the study, prediction and management of COVID-19[J]. Applied Intelligence, 2020(7):1-13.
[3] ZAREIE B,MOHAMMAD A R,MANSOURNIA A, et al. A model for COVID-19 prediction in Iran based on China parameters[J]. Archives of Iranian medicine, 2020, 23(4):244-248..
[4] 盛華雄,吴琳,肖长亮. 新冠肺炎疫情传播建模分析与预测[J]. 系统仿真学报,2020,32(5):759-766.
[5] 张艳霞,李进. 基于SIR模型的新冠肺炎疫情传播预测分析[J]. 安徽工业大学学报(自然科学版),2020,37(1):94-101.
[6] 汪剑眉,李钢. 新冠肺炎非均匀感染力传播模型与干预分析[J]. 电子科技大学学报,2020,49(3):392-398.
[7] 范如国,王奕博,罗明,等. 基于SEIR的新冠肺炎传播模型及拐点预测分析[J]. 电子科技大学学报,2020,49(3):369-374.
[8] 魏永越,卢珍珍,杜志成,等. 基于改进的SEIR~(+CAQ)传染病动力学模型进行新型冠状病毒肺炎疫情趋势分析[J].中华流行病学杂志,2020(4):470-475.
[9] 游光荣,游翰霖,赵得智,等. 新冠肺炎疫情传播模型及防控干预措施的因果分析评估[J]. 科技导报,2020,38(6):90-96.
[10] RAJAGOPAL K,HASANZADEH N,PARASTESH F,et al. A fractional-order model for the novel coronavirus (COVID-19) outbreak[J]. Nonlinear Dynamics,2020(6):1-8.
[11] 唐三一,肖燕妮,彭志行,等. 新型冠状病毒肺炎疫情预测建模、数据融合与防控策略分析[J]. 中华流行病学杂志,2020(4):480-484.
[12] MANDAL M, JANA S, NANDI S K,et al. A model based study on the dynamics of COVID-19: prediction and control[J]. Chaos, Solitons and Fractals: the Interdisciplinary Journal of Nonlinear Science, and Nonequilibrium and Complex Phenomena,2020,136:109889.
[13] AHMED A,ABDULLAH B,MOHAMMAD M A,et al. Analysis coronavirus disease (COVID-19) model using numerical approaches and logistic model[J]. AIMS Bioengineering,2020,7(3): 130-146.
[14] LI L,YANG Z,DANG Z,et al. Propagation analysis and prediction of the COVID-19[J]. Infectious Disease Modelling,2020,5:282-292.
[15] CAR Z,EGOTA S B, ANELI N, et al. Modeling the spread of COVID-19 infection using a multilayer perceptron[DB/OL]. Computational and Mathematical Methods in Medicine:1-10.2020-05-29.https://www.hindawi.com/journals/cmmm/2020/5714714/.
[16] CHIMMULA V K R,ZHANG L. Time series forecasting of COVID-19 transmission in Canada using LSTM networks[J]. Chaos Solitons & Fractals, 2020,135:109864.
[17] ZHENG N,DU S,WANG J, et al. Predicting COVID-19 in China using hybrid AI model[J]. IEEE Transactions on Cybernetics,2020, 99:1-14.
[18] ROOSA K,LEE Y,LUO R,et al. Short-term forecasts of the COVID-19 epidemic in Guangdong and Zhejiang, China: February 13-23, 2020[J]. Journal of Clinical Medicine,2020,9(2):596-604.
[19] DUFFEY R B,ZIO E. Prediction of CoVid-19 infection, transmission and recovery rates: a new analysis and global societal comparisons[J]. Safety Science, 2020,129:104854.
(責任编辑:江 艳)