全球新冠病毒疫情防控能力研究
2021-01-10李卓香付春龍
李卓香 付春龍
摘要:新冠病毒威胁着人类的生命安全,研究全球各国的疫情防控能力对控制疫情有着重要的意义。本文搜集了与疫情防控相关的特征数据,然后对这些特征进行了皮尔逊相关性分析,得出感染人数、死亡人数、治愈人数最能反映国家的疫情防控能力。运用了因子分析法,主成分分析法,熵值法,独立性权重法,信息量权重法计算影响疫情控制因素的权重,然后对这些权重进行取均值得到特征的最终权重。最后利用疫情防控公式计算得到各国的疫情防控能力排名。
关键词:新型冠状病毒;特征分析 ;特征权重;疫情防控
1 引言
冠状病毒名为COVID-19,是一种新型呼吸道病毒,于2019年起,该病毒在全球传播了200多个国家和地区,威胁着人们的生命安全。
在控制和消除新型冠状病毒的研究领域,Ball S等人基于机器学习时间序列方法对Covid-19数据进行了短期累积病例预测[1]。Malki Z等人在研究温度、湿度与新冠病毒传播的关系中发现,温度越高死亡率越低[2]。Atchaya K等人使用支持向量机、逻辑回归对未来疫情数据进行了预测,发现逻辑回归具有较好的预测效果[3]。
目前关于新冠病毒研究主要围绕药物、传播、预测等方面的研究,没有对疫情的防控进行一个全面的分析和解读。本文从全球疫情控制的角度出发,对全球的疫情控制能力进行定量研究。因此我们对2021年7月21日不同国家对疫情的控制力进行研究,并为各国的控制力大小进行排名。疫情防控能力的排名可以充分的反应全球的疫情控制的总体情况,这对全球共同协助抗击疫情有非常重要的意义。它不仅可以反应一个国家控制疫情的力度,还可以反应各国在国际上发布的疫情数据与实际的疫情情况是否存在偏差,为疫情情况提供参考,以便能及时的采取相应的抗疫措施。
2 数据处理及特征筛选
2.1数据获取及处理
为了研究哪些因素是影响疫情防控的主要因素,本文对新型冠状病毒的传播和治愈过程进行了分析。从疫情传播角度出发,可能影响疫情传播的因素有该国人口密度,能直接反映疫情传播的数据有新冠感染人数。从治愈上来看,可能影响新冠患者死亡和治愈的因素有该国医疗水平和患者自身治疗新冠的储蓄,以及该国GDP发展是否能为患者提供充足的医疗物资,能直接反映疫情治愈情况的数据有新型冠状病毒的治愈人数和死亡人數。
综上所述,影响疫情防控的因素有人口密度、人均储蓄、GDP、医疗水平、新冠感染人数、新冠治愈人数、新冠死亡人数。
数据来源:2021年7月21日21时的累计治愈人数、累计感染人数、累计死亡人数源于GitHub。2021年7月最新人口总数源于ModelWhale。人口密度,GDP,储蓄源于World Bank Open Data。医疗水平HAQ指数,源于《柳叶刀》发布全球医疗质量排行[4]。HAQ指数是通过对32项评估指标计算出具体医疗质量和可及性指数(Healthcare Access and Quality Index,以下简称HAQ),分值在0-100之间。分数越高说明医疗质量和可及性越好。疫情防控研究范围包含了143个感染人数,治愈人数和死亡人数不为零的国家,由于部分国家地区的新冠疫情数据不完整,本文未对所有国家及地区进行统计。
2.2相关性分析
为了研究全球各国对疫情防控能力的一个现状,通过前面的分析,本文选取了如下特征:GDP,HAQ指数、总储蓄、人口密度、累计感染人数、累计死亡人数和累计治愈人数。为了确定数据间的相关性,本文对各指标进行皮尔逊相关分析去度量两个变量之间的相关程度,其公式如下:
其中 为X与Y的协方差, 为X的方差, 为Y的方差。根据该公式可以计算得到各特征之间的相关性,其结果通过热力图展示,参见图1。
图1中Y代表医疗水平,C代表储蓄,M代表平均人口密度,S代表累计死亡人数,Z代表累计治愈人数,G代表累计感染人数。使用Pearson相关系数去研究特征之间的相关性强度,其反映了两个特征相关系数值,当相关系数值大于0则呈现正相关。Pearson相关系数显著性检验方法所得到的p值能反映某一事件发生的可能性大小,在线性回归中,p<0.05表示两个特征显著线性相关。
结果分析:由相关性分析可知两个特征相关系数值大于0.8的有S与G、Z与G、Z与S、C与GDP,呈现正相关。两个特征p值小于0.05的有S与G、Z与G、Z与S 、C与GDP、G与GDP、 S与GDP,呈现显著性。因此可知GDP、医疗水平、总储蓄、平均人口密度对疫情防控影响作用不大。能反映疫情防控的主要特征是累计死亡人数、累计治愈人数、累计感染人数,可用这些特征来研究疫情防控。
3 疫情防控分析
3.1特征权重
为了确定疫情控制中死亡人数,感染人数和治愈人数分别占的比重,本文分析8种确定权重的方法,分别是:因子分析法、主成分分析、AHP层次法、优序图法、熵值法、CRITIC权重、独立性权重、信息量权重法[5]。
其中AHP层次法和优序图法是通过为指标的重要性打分来确定权重,其结果包含太多主观因素,因此在研究过程中排除。CRITRC权重方法在结果检验中出现异常值,也排除。最后确定研究权重的方法为剩下5种,并使用SPSS软件进行数据分析分别计算累积感染人数,累积死亡人数和累积治愈人数在疫情防控的权重。为了确保权重信息更具有代表性,需再求5种方法的权重均值,权重均值是我们研究疫情防控的重要数据,最终结果见表2。
3.2防控能力排名
研究全球疫情防控能力,首先计算了143个国家的累计感染人数、累计死亡人数、累计治愈人数与权重相乘的结果。接着对各国感染率、死亡率、治愈率进行排名。其中感染率为累计感染人数除以总人口数,死亡率为累计死亡人数除以感染总人数,治愈率为累计治愈人数除以感染总人数。感染率越小,排名越靠前。治愈率越大,排名越靠前。死亡率越小,排名越靠前。最终排名越靠前,说明疫情防控越好。
设某个国家疫情控制力排名为 ,感染率排名为 ,治愈率排名为 ,死染率排名为 。累计感染人数权重为 ,累计治愈人数权重为 ,累计死亡人数权重为 。各国疫情防控能力的排名公式如下,通过计算得到最终的排名结果见表3。
4 结论
本文对全球的疫情防控能力进行定量研究,充分的反应疫情控制的总体情况,这对全球共同抗击疫情有非常重要的意义。在实验中,相关性分析检验排除对疫情防控影响力较小的特征。权重分析和排序解决了特征总数不同带来的影响,得到准确的疫情防控的排名。由表6可见,排名靠前的有很多是发展中国家,而排名靠后的也有很多发达国家。结合前人对新冠病毒药物、传播、预测等方面的研究,可证明疫情防控与国家发达程度关系不大,与各国的气候、文化、防控措施、民众配合度有较大的关系。
参考文献
[1]Ball S . Data Analysis of Covid-19 Pandemic and Short-Term Cumulative Case Forecasting Using Machine Learning Time Series Models[J]. Chaos Solitons & Fractals, 2021, 142:110512.
[2]Malki Z , Atlam E S , Hassanien A E , et al. Association between Weather Data and COVID-19 Pandemic Predicting Mortality Rate: Machine Learning Approaches[J]. Chaos Solitons & Fractals, 2020, 138:110137.
[3]Atchaya K , Darshinii M , Harini R , et al. Administered Machine Learning Models for Covid-19 Future Forecasting[J]. Journal of Physics: Conference Series, 2021, 1916(1):012157 (6pp).
[4]Measuring performance on the Healthcare Access and Quality Index for 195 countries and territories and selected subnational locations: a systematic analysis from the Global Burden of Disease Study 2016[J]. Lancet, 2018, 391(10136):2236-2271.
[5]金新政, 厲岩. 优序图和层次分析法在确定权重时的比较研究及应用[J].中国卫生统计, 2001, 018(002):119-120.
基金项目:四川大学锦江学院2020年青年教师科研基金项目“基于 Matlab 的疫情传播研究与算法设计”(项目编号:QNJJ-2020-A02)。
作者简介:付春龍,男,通讯作者,硕士,研究方向:人工智能、机器学习;李卓香,女,本科,研究方向:人工智能、数据挖掘。