APP下载

基于Logistic 回归算法的疫情信息查询及趋势预测系统的实现

2022-08-13林仁华徐文品李涵通

无线互联科技 2022年10期
关键词:新冠肺炎曲线

林仁华,徐文品,李涵通,徐 卉

(南京审计大学 金审学院,江苏 南京 210023)

0 引言

2020 年,欧洲和美国的新冠肺炎疫情暴发。 由于这些国家采取了消极的抗击疫情政策——自然免疫法,病毒传播速度极快,导致疫情在这些国家大规模暴发。 截至2020 年11 月27 日,美国新冠肺炎累计确诊病例超过1 300 万例,累计死亡264 624 例,是全球累计确诊病例数和累计死亡病例数最多的国家。 随着国际新冠病毒感染人数不断增加,国内防疫压力不断增大,并且随着秋冬季节的来临,国内不断有地区也出现或零星或聚集性病例。 目前查找密接人员的工作主要还是靠大数据筛查和各单位登记筛查。

本系统以美国新冠肺炎疫情发展为研究对象,分析美国各地区疫情病例发展现状,并通过Logistic 模型建模,分析预测美国新冠肺炎发展趋势[1]。

1 研究现状

随着2019 年国内疫情暴发到全球大规模暴发,国内和国外许多学者都进行了预测分析。 匡征凌、匡远凤等人通过构建传染病动力学SEIR 模型对日韩新型冠状病毒肺炎疫情预测分析出日韩当前疫情发展情况和拐点日期。 陈茜茜等[2]用试验试件钠膜厚度与试验试件表面粘钠量、350℃钠密度、试验试件粘钠表面积对意大利新型冠状病毒肺炎疫情进行多次拟合预测分析。 王志心等[3]采用数学建模,通过机器学习,对国内各省预测分析,能够准确预计各省最终确诊人数所占比例。 丁中兴等[4]考虑隔离措施之后构建SEIAQR 模型动力学模型对湖北省武汉市的发病人数及死亡人数进行预测分析,能够准确地预测疫情趋势。

2 疫情模拟仿真及其趋势预测分析

2.1 数据来源

本系统所用数据来源于中国软件杯a10 赛题提供的测试数据,将其经过一定规则的大数据清洗后存入数据库中以供调用。

2.2 基于Logistic 函数的模型建立

Logistic 函数是一种常见的S 型曲线函数式。

本系统利用Logistic 函数建立美国新冠病毒感染人群的发展趋势模型[5]。 如公式(1):t 表示时间;P0表示初始确诊人数;K 表示疫情峰值,即疫情最高峰累计确诊人数;r 表示增长率。 在传统Logistic 函数曲线中,r 值可以衡量曲线变化的快慢,针对新冠疫情,该函数曲线中的r 值表示疫情到达峰值的速度。 如果r 值较大,疫情将很快到达峰值,表示一个国家在疫情期间采取强力有效的措施,比如医院收治迅速、集中隔离等;反之,疫情到达峰值的时间较长。 因此,r 值的大小可以衡量一个国家面对疫情采取措施的效率,社会面对疫情的整体能力,群众面对疫情的态度。 通过分析一段给定时间的美国某地疫情数据,得到一系列日期所对应的感染人数,以Logistic 模型为基准拟合出一条曲线,通过sklearn 的误差计算,调整参数来使拟合度提至最高,即得到一条最符合预测预期的疫情发展曲线。在曲线上通过Numpy 包计算出增长率开始降低的唯一点,确定其为拐点并提取拐点相关数据。

2.3 系统设计

2.3.1 系统具体设计

系统流程如图1 所示。 本网页搭建主要基于Python 语言的Django 框架,Django 是一个开放源代码的Web 应用框架,由Python 写成。 采用了MTV 的框架模式,即模型M,视图V 和模板T。 其最初是用于管理劳伦斯出版集团旗下一些以新闻内容为主的网站,即CMS(内容管理系统)软件。 系统主页面如图2所示。

图1 系统流程

图2 系统主页面

2.3.2 大数据清洗

本文所使用的大数据清洗技术为Pandas。 Pandas是一个开放源码,BSD 许可的库,提供高性能、易于使用的数据结构和数据分析工具。 Pandas 名字衍生自术语“panel data”(面板数据)和“Python data analysis”(Python 数据分析)。 一个强大的分析结构化数据的工具集,基础是Numpy(提供高性能的矩阵运算)。 可以从CSV,JSON,SQL,Microsoft Excel 等各种文件格式导入数据;可以对各种数据进行运算操作,比如归并、再成形、选择等,还有数据清洗和数据加工特征。

详细清洗规则如图3 所示:(1)用户选择具体日期,系统反馈出该日美国的整体疫情信息数据以及数据分析。 (2)用户选择地图类型,系统反馈出其所选的美国疫情地图信息。 (3)用户选择美国具体城市,系统反馈出该地点的疫情信息及预测疫情走向。

图3 清洗规则

2.4 预测结果分析

查询结果如图4 所示,根据预测结果可以看出,对纽约疫情的确诊人数数据预测大致与实际相同。 确诊人数大致呈上升趋势,自2020 年3 月1 日至5 月18 日纽约疫情确诊人数在4 月11 日达到拐点,并在此日之后上升曲线开始趋于平缓,但还是在不断上升。 在疫情暴发的25 天后,预测曲线逐渐与现有确诊人数重合,说明Logistic 回归函数适合对于该疫情的合理预测,而在5 月18 日纽约疫情达到峰值,有将近2.1 万人确诊新冠病毒。

图4 查询结果

3 结语

本预测系统在疫情暴发初期能有很好的预测分析能力,通过拟合累计确诊病例和累计死亡人数,能够得到较好的拟合结果。 为了方便观察美国各地疫情信息,本系统将各个地区的人数疫情信息和预测数据分别展现出来。 实际工作过程中,因部分感染者不能被及时发现、上报等各种因素会导致预测误差,所以预测结果会呈现“先高后低”的现象。 这也反映出美国政府措施不够落实到位,美国人民对待疫情的不够重视。为了预防疫情的进一步暴发,我们应该提前做好防疫措施,正视疫情。

猜你喜欢

新冠肺炎曲线
新型冠状病毒肺炎(四)
未来访谈:出版的第二增长曲线在哪里?
新冠疫苗怎么打?
新型冠状病毒肺炎防护小知识
您想知道的新冠疫苗那些事
幸福曲线
沿平坦凸曲线Hilbert变换的L2有界性
宁愿死于新冠,也要自由?
认识肺炎
珍爱生命,远离“新冠”