基于大数据技术的应急决策情报体系构建
——以突发性公共卫生事件为例
2022-01-01李莹莹
李莹莹
(天津工业大学 天津 300387)
0 前言
近些年,各种突发事件频繁发生。2008年的四川大地震,2015年天津塘沽大爆炸,2019年四川凉山发生森林大火,导致31人遇难,以及2019年12月在武汉发生的公共卫生突发事件,与其他突发事件不同,其存在更大的传染性,蔓延速度快,这次疫情目前已经在全球207个国家扩散,而且有持续发展的趋势。针对此次疫情,国内人民积极响应政府号召,自行在家隔离,同时各级政府部门以及媒体对疫情状态进行实时更新报道,做到了信息公开,情报通畅,将应急情报体系融入到了公共卫生突发的全程。
2015年3月5日,中华人民共和国第十二届全国人民代表大会第三次会议开幕,国务院总理李克强作政府工作报告,李总理着重强调了大数据、云计算和物联网等与现代制造业结合等概念。随着疫情的发展,积累了大量与病毒相关的数据,满足大数据特点,本文利用大数据技术构建新型的应急决策情报体系,以提高应对突发事件的科学性和高效性。
1 基本概念
1.1 大数据定义及特征
大数据是一个抽象概念,一般指超出常规数据库软件工具所能捕获、储存、管理和分析的超大规模数据集。大数据技术是一种大规模的分布式模型,通过网络将抽象的、可伸缩的、便于管理的数据能源、服务、存储方式等传递给终端用户,是一种新型高效快速获取有效信息的能力。目前大数据技术得到广泛的使用,例如将大数据储存技术运用到煤矿应急管理中,成功地提高了煤矿企业现有信息系统构架的海量数据存储及处理性能;此外,将大数据技术成功运用到智能电网中,将模糊的电网数据清晰化,对数据进行降维,并根据数据项彼此之间的关联性有选择地向业务部门或用户提供有效信息,提高了智能电网的运作速率。
1.2 公共卫生突发事件的特征
公共卫生突发事件指由于感染新型呼吸道病毒而引发的大规模的、具有传染性的、需要紧急采取措施应对的事件。目前已经具有全球大流行的特征。2020年1月20日钟南山做出判断,该病毒具有人传人的特性。2020年1月30日世界卫生组织将新型呼吸道病毒疫情列为突发公共卫生事件。
2 应急情报体系中主要大数据技术的介绍
全球著名管理咨询公司将大数据定义为:无法在一定时间内使用传统数据库软件工具对其内容进行获取、管理和处理的数据集合。从技术方面来看,大数据技术在处理数据方面包括五个步骤:数据采集、数据预处理、数据分布存储、数据分析和数据应用。新冠肺炎突发事件应急情报体系的建立需要从这五个方面出发进行建立,每个步骤都涉及到相应的大数据技术。
2.1 大数据采集技术
大数据采集技术就是对数据进行ETL操作,通过对数据进行提取、转换、加载,最终挖掘数据的潜在价值,然后提供给用户解决方案或者决策参考。大数据采集通常利用以下三个系统:(1)系统日志采集系统。对公司的业务平台每天产生的大量的日志数据进行采集、收集,常用的日志收集系统有Flume和Scribe,然后进行数据分析,挖掘公司业务平台日志数据中的潜在价值。(2)网络数据采集系统。本文是通过爬虫技术从网站上获取数据。(3)数据库采集系统。可以使用传统的关系型数据库MySQL和Oracle等来存储数据;也可以使用Redis和MongoDB进行数据采集。
2.2 大数据预处理技术
主要完成对已接收数据的辨析、抽取、清洗等操作。(1)抽取:因获取的数据可能具有多种结构和类型,数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型,以达到快速分析处理的目的。(2)清洗:对于大数据,并不全是有价值的,有些数据并不是我们所关心的内容,而另一些数据则是完全错误的干扰项,因此要对数据通过过滤“去噪”从而提取出有效数据。本文基于新冠肺炎突发事件特点,采用Wrapper技术,由一个中间件和多个包装器组成,每个数据源对应一个包装器,包装器对特定数据源进行了封装,将其数据模型转换为系统所采用的通用模型,并提供一致的访问机制。
2.3 大数据存储技术
大数据存储与管理要用存储器把采集到的数据存储起来,建立相应的数据库,并进行管理和调用。重点解决复杂结构化、半结构化和非结构化大数据管理与处理技术。主要解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。本文考虑到突发事件的紧急性和严重性,采用Ha-doop的分布式文件系统(HDFS),它能有效的优化存储、计算融入存储。
2.4 大数据应用技术
大数据技术能够将隐藏于海量数据中的信息和知识挖掘出来,为人类的社会经济活动提供依据,从而提高各个领域的运行效率,大大提高整个社会经济的集约化程度。本文采用可视化技术进行数据应用,数据可视化无论对于普通用户或是数据分析专家,都是最基本的功能。数据图像化可以让民众了解到事件带来的直接结果,更利于事件向好的方向发展。在我国,大数据将重点应用于以下三大领域:商业智能、政府决策、公共服务。在此次的新冠肺炎事件中,该项技术得到很好的应用。
3 公共卫生突发事件应急决策情报体系构建
3.1 信息资源层
随着事件的发生,利用爬虫技术进行信息采集,主要得到以下四个信息。首先是基本信息,关于事件的基本情况,其次是历史数据和实时数据,从数据库查看是否有类似的事件,患者数量,传染率在数据上是否有相同之处。最后及时统计现场信息,患者的状况,医生给出的诊断进行汇总。
3.2 数据转化层
利用信息资源层,将收集到的信息采用Wrapper技术进行抽取净化,以获得有效数据。该层被称为数据的净化工厂。Wrapper技术可以将每一个数据源进行识别,通过筛选除去重复多余、内容无关的信息,填补格式残缺的数据,将形成的文字、声音、视频数据模型转化为计算机系统识别的通用模型,同时将同类型的二维码数据源对应包装器进行封装形成数据块,传递给数据储存层。
3.3 数据储存层
经过数据转化层,利用HDFS储存的数据分为三类:突发事件数据库、应急决策信息库和实时监测数据库。突发事件数据库用于储存突发事件发生时产生的信息数据,主要指突发事件发生时处于事件突发现场的患者及正常人员通过五官感受以及相关专业人员诊断进行的数据收集,可为视频、文字、声音等内容。应急决策信息库主要提供决策指挥的基本判断模型和风险等级识别计算方法。实时监测数据库该数据库每天随时进行更新,更新内容包括安全系统监测数据、监控系统监测数据、设备设施产生的数据、全国各省每天的确诊及疑似数据。
3.4 决策构建层
决策构建层在整个应急决策情报体系构建中十分重要,通过前面数据的收集、处理和存储得到的有效数据,利用先进的Map Reduce数据挖掘技术,分析出风险潜在的发生概率、风险潜在的破坏程度两个方面信息。另一种是发生突发事件的特殊情况,通过MapReduce技术在短时间内进行风险识别并提供风险评估和提供应急救援参考意见,其中应急救援参考意见包括现场预计伤亡人数及财产损失、相关专家人员、可采用的救援应急物资料、相关负责部门机构等应急救援基本情况。在此次新冠肺炎事件中,专家们及时做出武汉封城的决策极大的降低了病毒的传播和财产损失。
3.5 信息应用层
利用可视化技术及时进行有效信息的传递以及采取措施应对。有效信息传递主要指将风险识别等级数据、风险评价程度数据通过大数据可视化技术的人机交互界面,以图像文字的形式出现在计算机显示屏上,给决策构建层领导人提供决策参考;并根据现场反馈信息进行实时更新,便于制定最合理的应急救援方案。这一过程极大的提高了决策的有效率以及应对措施的准确性。
4 结论
经过此次疫情,我国的国际地位得到认可,各国在得到中国帮助的同时充分感受到了中国强大的危机管理能力。但是随着社会的发展,国际合作也会越发频繁,因此应对突发事件的应急决策情报体系将面临更大的挑战。通过一系列的突发事件应急处置过程的效果可看出,目前的应急决策情报体系存在诸多问题,寻找新型高效的应急情报体系迫在眉睫。本文根据新型冠状肺炎突发事件特点,基于当下大数据背景环境,以大数据技术为基础,构建了一套全新高效的应急决策情报理念体系,解决了目前临时性决策情报体系的不足。该应急决策情报体系具有以下特点:
(1)从各类医疗网络资源,医学数据库中收集各类已发生的公共突发事件的特征,利用大数据技术,科学准确地判断出事故风险等级并将最优应急预案提供给决策者。
(2)将各类突发事件的信息,尤其和医学相关的各种病症录入计算机系统,从而改善信息传递过程中的不稳定以及不准确的情况。计算机和人直接匹配,例如,当医院出现大量此类病例时,计算机可以及时进行统计给出数据,方便医生采取正确高效的应对措施。
(3)利用大数据技术的高效收集与分析能力,避免了应急情报信息收集不完整、不准确的情况。当下大数据发展迅速,我国已经进入大数据时代,利用大数据技术进行应急决策情报体系的建立,可以为应急决策情报软件系统的开发提供理论参考依据,同时更能为整个应急管理工作寻找到新的方向与思路,使得我国应急管理工作上新台阶。