基于回归模型的流感疫情预测
2020-02-06白旭洋
白旭洋
摘 要:目前现代医学技术取得重大发展,但诸多传染性疾病仍是人类社会向前发展的重要阻力之一。利用中国大陆地区已有的流感相关数据进行分析研究,应用多元线性回归、Lasso回归以及Ridge回归模型结合相关检索词数据进行建模分析, 探讨回归模型与流感疫情预测的相关性与可行性。结果发现,与传统最小二乘法结果进行比较,运用Lasso回归以及Ridge回归对于复杂数据的分析与建模准确度更高,表明上述模型的推断能力更强,更适合于流感疫情的预测分析。通过回归模型结合海量数据可分析流疫情,且具有相当高的准确性,因此建议将该种方法应用到对于未来流感疫情的测控以及预防工程中。
关键词:流感预测;多元线性回归;Ridge回归;Lasso回归
中图分类号:TB 文献标识码:Adoi:10.19311/j.cnki.1672-3198.2020.02.092
0 引言
现阶段的中国正处在由初级阶段向全面小康社会过渡的关键时期。在经济水平高速发展的同时,医疗技术同样应该紧跟发展的快节奏,否则,相对落后的医疗技术将导致中国公民整体健康素质的下滑,将对国家稳定以及中国的国际形象造成难以预测的影响,甚至导致中国在未知的严重传染病的侵袭下蒙受巨大损失。本文的目的即为利用搜索引擎数据结合回归模型探究疫情暴发的因素,对其进行监测防控,防止成为影响中国社会稳定的因素之一。
Wu Yuan等人在2015年就在其论文中探讨了未来利用时空大数据技术应用于传染病预警的可能性,并认为其能够构建起更加完善的基于泛在网络的传染病疫情获取途。Li等也在2010年利用Z-D现象预测法、灰色预测模型。自回归滑动平均混合模型与小波预测模型等数学预测方式对我国传染病预测现状进行了详细分析。与此同时, Wang与她的团队更是将定量预测模型与百度上有关登革热的相关关键词的指数结合,对于上一年在全国范围内爆发的登革热疫情进行了分析,结果显示,百度指数与登革热疫情的关联性非常明显,又更进一步地说明了在信息时代,利用信息技术来辅助人类预防、监测甚至治疗疾病的可行性。这些研究都具有结合先进技术与大量数据对问题进行分析的优点,但同时也都具有分析范围相对小,数据涉及人群片面等问题。因此,利用多元线性回归模型的数据分析与信息挖掘能力,可以有效地对全球范围内的疾病发病情况及数据进行统计与分析。在此过程中,利用多元线性回归模型对传染病疫情进行预测,可以有效地帮助疫情暴发后治疗方案的提出。
2 数据查找
本研究使用中国2010年12月至2018年12月间流感发病人数作为因变量(y),流行性疾病相关搜索内容(数据来源为百度指数网站)作为自变量,最终确定8个与流感相关的检索词作为本次验证的具体指标,分别为:“流感”(X1),“病毒”(X2),“预防”(X3),“症状”(X4),“甲型”(X5),“传染”(X6),“季节”(X7)和“疫苗”(X8)。
通过对上述8个检索词的相关数据在选定时间内的折线图进行数据分析,如图1和图2所示,最终利用回归模型对于检索数据进行分析。考虑到未知或潜在的因素对于最終统计结果的不利影响,最终决定将每月流感发病人数作为因变量。这最终,本次统计研究纳入建模分析共有8个自变量。由于无偏估计在数据分析上的特点,有必要采用Lasso和Ridge回归 等稀疏估计方法建立模型,对流感流行趋势进行预测,分析其影响因素。
4 总结
本研究首先介绍了多元线性回归模型以及Ridge回归模型和Lasso回归模型的原理及其在数据统计分析方面的具体应用方法和模型预测性能,与百度指数相关结果数据结合,构建了适合于流感疫情预测的Lasso回归模型。研究结果Lasso回归模型的结果更加贴近真实情况,具有实际的应用价值。本文所构建的统计模型选择了较少的变量达到较高的稳定性,使损失函数最小化。另外,本次实验将三种模型结合共同分析八类检索内容,拥有较强的分析能力。因此,本研究所提出的方法也适用于对模型预测效果进行综合评估的情况。
下一步可以将检索词数目由8词上升至20词,同时向检索内容中添加大量与流感有关内容,去除部分流感并发症相关内容。此外,还可以将 2009年H1N1爆发第一波爆发流行的相关数据纳入参考。弱化了对于异常的媒体关注热点的反应,从而达到降低预测模型的效果。Lasso回归模型具有的功能对于未来可能的传染病疫情能够发挥有效的监测作用,能够成为未来人工智能辅助医学领域预防以及遏制传染病的重要手段。
参考文献
[1]李园,吴蜀豫.登革热的流行趋势与防控(英文)[J].Science Bulletin,2015,60(7):661-664.
[2]ZhenDong L I,Chen X R,Peng L I,et al.Identification of Polygonum viviparum endophytic bacteria Z5 and determination of the capacity to secrete IAA and antagonistic capacity towards pathogenic fungi[J].Acta Prataculturae Sinica,2010,19(2):61-68.
[3]赵修文.基于本体的医疗搜索引擎的设计和实现[D].长沙:国防科学技术大学,2008.
[4]王若佳.融合百度指数的流感预测机理与实证研究[J].情报学报,2018,37(2):206-219.
[5]杨师华.基于Lasso回归模型的遗传性疾病与遗传位点关联分析[J].数学学习与研究:教研版,2019,(1):145-146.
[6]鲁力,邹远强,彭友松,等.百度指数和微指数在中国流感监测中的比较分析[J].计算机应用研究,2016,33(2):392-395.