大数据技术在重大公共卫生事件中的应用研究*
2022-01-01中共重庆市万州区委党校王海涛
中共重庆市万州区委党校 王海涛
重大公共卫生事件,是指那些突然发生的,已经或可能对公众身体健康造成严重损害的公共卫生事件。主要包括重大传染类疾病、不明原因的群体性疾病、重大食源性疾病以及食物中毒事件等。其中,危害最大、控制处理最为困难的就是重大传染类疾病。从早期的天花病毒、黑死病、霍乱、鼠疫、结核病到近期2003年的SARS(严重急性呼吸综合征)疫情,2009年暴发的H1N1禽流感,2014年西非爆发的埃博拉疫情,以及2020年全球爆发的新型冠状病毒疫情等,这类事件具有传播速度快、感染性强、危害性大、控制处理困难等特征,处置不当极易由小范围的个体感染事件发展为社会性的群体感染事件甚至演变为全球性的重大公共卫生事件,这对传统的疾病防控和社会治理带来了极大的挑战。
传统小数据时代,对于突发公共卫生事件的处理决策,一般采用“抽样数据+经验判断”的模式,决策者易受样本数据、经历背景等多方面因素影响,分析结构可信赖度差,时效性低,易延误事件准确及时处理。以数据挖掘、人工智能、深度机器学习等新兴技术为主的大数据技术,能够有效解决重大公共卫生事件处理中信息匮乏与快速决策的矛盾困境,在辅助决策、追踪密切接触者、优化重点资源配置和维护网络思想意识安全等方面发挥重要作用。
一、大数据技术与重大公共卫生事件处理的内在匹配性
大数据技术作为新兴的数据处理技术,能够充分利用网络资源,实时并行处理不断累积的大数据集时,在面对数据类型多样、数据总量庞大的复杂数据集,相对于传统的本地处理系统与单点数据处理技术有显著的优势。小数据时代,传统数据处理模式能够处理的数据规模与数据类型都十分有限,同时受限于处理能力与数据样本规模,数据分析的时效性与准确性都难以得到保障。随着具备更强大处理能力的超级计算机与云计算平台架构技术兴起之后,能够快速收集重大公共卫生安全事件中产生的众多零散数据,为及时、准确、高效地处理大数据集提供技术保障。面对复杂大数据集高效性、准确性的要求,大数据技术具有传统数据处理技术不可替代的优势,其高度匹配性主要体现在以下三个方面。
(一)处理对象的高度关联性
大数据时代,所有的信息都需要并能够被数据化处理。在重大公共卫生事件处理中,我们能够利用的大数据集主要分为两类:一类是集成型数据,主要包括公众社交数据、医疗卫生数据、搜索引擎数据等;另一类是分析型数据,主要包括特殊的大数据系统或平台,通过数据挖掘、模拟仿真等技术,得出的空间地理轨迹信息、舆情热点等分析数据。这两类数据是我们要重点关注的类型。从数据类型上分,这些数据又可以分为结构化数据、非结构化数据和半结构化数据。从各个医疗机构系统数据库中抓取的数据,具有固定的属性结构,属于结构化数据。在网络上随机抓取的图片、音频、视频等信息,不能用统一的数据模型定义,则属于非结构化数据。除此之外,还有一些应用系统产生的日志文件、email等,则属于半结构化数据。
通过分析,可以发现,在这个突发事件处理过程中,我们面对的数据类型复杂多样,同时随着时间的不断累积,数据规模也在不断扩大。传统的数据处理技术只能在本地进行类型固定的数据处理,而且随着数据集的扩充,处理速度会越来越慢甚至无法处理。大数据技术中的并行处理技术,能够充分调动互联网中闲置的异地异构数据处理平台,并发处理不同结构类型、体量不断积聚的大数据集合。
(二)分析过程的高效性
移动互联网、人工智能等新兴技术的不断发展,物流、交通等基础设施也实现了跨越式的发展。公众的出行、交流与生活更加便利,信息传播更加快捷。在这样的背景下,一旦有重大突发公共卫生事件(尤其是传染类公共卫生事件)发生,对公众身体健康、社会稳定和经济发展都会带来极大影响。传统数据处理技术,只能对收集到的历史数据做单一结构的处理,对于信息量较大的数据集,也需要进行数据拆分或者数据抽样处理,耗费时间长,远远达不到这类事件快速反应的要求。同时,随着时间的推移,数据库系统累积的数据会越来越大,而对于数据处理速度的需求却在不断提高,这对传统的单点处理技术提出了巨大挑战,需要一种新的处理模式加以改进。面对不断“长胖”、分布零散、结构各异的数据集,大数据中的云平台架构,能够调度网络上的闲置计算资源,改变传统处理技术的流水线作业模式,同时调度使用多个网络系统并发处理不断累积的大数据集,规避抽样方法的缺陷和样本的偏差,既节约硬件资源,又能显著提高分析效率。这很好的契合了重大公共卫生事件处理过程中快速反应的要求。
(三)分析结果的客观准确性
在应对重大公共卫生事件的过程中,我们不仅仅要求反应快速高效,同时结果的客观准确也是不可或缺的要素。在大数据时代,数据分析结果是政府决策的重要参考。数据分析结果的准确性直接与政府决策的科学性、有效性密切相关。一旦数据分析结果出现偏差,政府决策的效果差异就会放大,事件处理的效果就会产生较大偏差,甚至产生负面影响,造成不可挽回的影响或损失。
传统数据分析方法受限于处理能力、分析样本、噪音数据等因素,分析结果的准确性与实时性都有一定偏差。大数据技术处理的样本包含不同系统平台汇集的历史数据、以及正在产生的现实同步数据,数据样本庞大、覆盖面广、时效性强,分析的数据是完整的、全面的、实时的,能够有效规避传统数据处理技术中备选数据集较小,抽样方法缺陷等因素导致的分析结果偏差甚至错误的情形。除此之外,大数据本身的客观真实性也为最终结果提供了有力支撑。集合中每个数据元都是现实事件的客观反映。公众轨迹数据是个体空间行为移动的客观反映,具有真实性和可追溯性。搜索引擎统计数据是对当前一段时间网民网络舆情热点、网络内心诉求的真实反映。这些对公共卫生事件的决策处理、网络舆情引导以及公众心理干预具有重要参考价值。
综上,大数据技术中这些特点能够很好地契合重大公共卫生事件中数据信息处理中面对的一系列“棘手”芒刺,以数据挖掘、人工智能等技术为基础的数据处理模式能够应对事件中面对的技术挑战。
二、大数据技术在重大公共卫生事件中的主要应用
(一)预测事件发展趋势
认识世界,预测未来一直是人们苦苦追求的目标。科技力量的加入使得我们对未来事件的认知有了长足进步。例如:天气预报,目前我们已经能够做到单位区域内、具体时间的准确预测。当然也存在如地震这类自然灾害事件到目前为止依然很难提前预报的情形。对于突发的重大公共卫生事件而言,我们需要根据已经发现的某个区域、部分群体的数据信息,结合历史事件的发展规律,来判断整个事件的发展趋势,包括影响力、破坏力、传染性等等。能否准确根据收集的信息对事件未来的发展态势做客观准确的分析判断,是防止这类突发事件进一步恶化的关键。数据挖掘与机器学习的深度结合,有效解决了传统事件预测中的难题。
现实社交网络中,个人是网络的中心。所有的数据都是围绕个人展开,包括跨区域流动、行为轨迹等都是有迹可循的。这是大数据技术能够在重大公共卫生事件中得以应用的最大前提。利用“大数据+计算机仿真”的模式,能够对这类事件进行提前模拟预测。2009年,H1N1甲型流感暴发初期,美国的Google公司利用其独特的技术和资源就对疫情的暴发作了提前预测。2019年底,加拿大的BlueDot公司利用收集到的健康数据在新冠疫情暴发初期对其客户推送了疫情的预警信息。2020年,我国钟南山院士团队根据掌握的全国疫情大数据对我国的疫情形势做出了准确的评估与预测,为后来的疫情防控提供了巨大帮助。
(二)监控传染源,控制传播途径
传染类突发公共卫生事件处理中,人流是最大的变量。解决好这个变量,是处理这类事件的关键。身处事件中的每个人都多了一个感染状态属性。根据这个属性可以将所有的公众分为四类:感染者、疑似感染者、密切接触者和正常者。前三类是重点关注群体,对他们的处理与控制是所有传染性突发公共卫生事件处理的重点。传统的疫情防控,只能根据本地医疗、防疫机构上报的样本数据,进行流行病学分析,然后采用回溯的方式,去寻找可能潜在的患者,难以全面、准确、快速地找出空间移动轨迹中所有的密切接触者,极易延误疫情的处理控制。
传统人工询问排查方式,受被排查对象的瞒报或谎报、病毒本身的潜伏特性等外部因素影响较大,人力资源耗费巨大,进度缓慢,效果不佳,难以达到彻底排查的目的。借助大数据分析技术,结合个人身份信息库、交通大数据、医疗大数据、通信大数据等等,通过信息比对,能够准确“绘制”出对象的出行轨迹,在已知的感染者周围能够“织成”一张清晰的公众关系网络,准确找出所有密切接触者,并逐级找到二级、三级接触者,分析他们与感染者的链接强弱度,及时有针对性采取医疗防护、区域隔离等防护措施,防止发生区域性的暴发性传染事件。基于这样的思路,2020年中国电科开发了一款大数据程序,通过这款应用政府和相关部门能够实时掌握各个地方的疫情情况,同时对于每个群众而言,通过这个程序,能够清晰地看到,自己身边的疫情情况,及时调整外出计划,发挥群众的主观能动性,切实提高防疫措施的精准度与针对性,极大地节省了人力、物力资源。在新冠疫情暴发初期,浙江省利用空间流动大数据,通过深度挖掘,提前评估了病毒蔓延的危害性,率先启动一级应急响应,果断采取了限制人口聚集、控制人口流动、加强流动人口登记、及时隔离确诊与疑似病人等措施,有效地控制了疫情在当地的蔓延。
(三)重点物资的调度
在重大公共卫生事件处理中,涉及的重点物资主要包含医疗物资和生活物资。重点物资调度包括现有储备统计反馈、市场需求预测、目前生产预期与规划以及物资分配方案等涉及多个方面的问题。医疗物资是医疗卫生机构以及防疫部门正常有序开展工作的重要保障。生活物资是保障公众基本生活、维护社会稳定的重要保证。对于生活物资而言,根据大数据系统收集到的每个区域的公众管控情形、交通管制状况,综合考虑各个区域内市场需求与供应的情况,从全局调整应急生活物资的分配,从而确保群众基本生活平稳有序,尤其是处于隔离、管制状况的群众,基本的生活保障是安抚群众情绪的基本保障;对于医疗物资而言,尤其是基本防护设备、一线医疗防护设备等关键物资,需要根据各地的疫情发展状况进行分析,根据各个区域的不同预警级别,从全局来保障应急医疗物资的供应与调度。
通过分析人群跨区域流动和人群聚集重点区域,提前预警高暴发高风险地区,及时向该区域调配医疗和生活物资,做到防控收益的最大化,避免出现社会恐慌、哄抢物资等现象,保障经济社会稳定运行。利用大数据排查出疫情暴发的高风险地区,能够使防疫部门可以提前有针对性地布置防疫工作,加强重点区域的布控,提升防疫资源的使用效率。
(四)舆情引导与心理干预
外部环境的突然变化会引发公众强烈的心理波动,可能导致极端的思想情绪和现实行为。移动互联网、智能终端的普及使得公众的关注焦点由传统媒体转移到微信、微博等社交平台。多种网络信息的夹杂容易与现实行动互相交织,网络信息在传播的过程中容易发生偏差、甚至产生逆转,在专业知识、风险认知以及情绪感染等多方面的影响下,容易产生放大效应。移动社交网络的普及会放大这种个体不安情绪的传播并加速向整个社会群体蔓延。若引导不当,极易导致社会恐慌,被不法分子利用,破坏社会稳定。典型的事件有2003年SARS发生后,北京发生学生集体返家、民工返乡事件。2011年由日本核泄漏事件引发的国内部分地区抢盐事件。
在重大突发公共卫生事件处理中,网络舆情大数据和搜索引擎大数据是我们重点关注的焦点。网络舆情大数据主要来自于微博、微信等社交平台,主要包含公众主动发声或者参与的网络热点事件信息,是公众个人意见的客观表达,是网民内心活动与内心诉求的真实写照。通过大数据技术对网络舆情信息进行抓取,可以实时跟踪网络舆情热点问题,及时研判问题的网络态势和发展趋势,能够及时针对舆情热点难点问题进行回应,从而正确引导或应对网络舆情事件,对辅助把握民意,保证国家思想意识安全提供科技支撑。搜索引擎大数据,主要来自于公众利用搜索引擎在互联网上获取的数据信息,是公共内心迫切想获得某种数据信息的集合。通过对关键字、关键词等搜索频度的统计分析,深度挖掘公众心理特征,捕捉公众心理健康服务需求,有针对性地推送心理辅导资源,从而及时化解网络危机,及时做好心理干预。
当然,在重大公共卫生事件处理的过程中,大数据技术的应用还不仅仅于此,在事件中后期的病源寻找、疫苗研发、企业复工复产等诸多方面都发挥了重要作用。
三、大数据技术广泛应用所面临的挑战
目前,我们能够看到大数据技术在重大公共卫生事件中发挥了重要作用,并将它的影响拓展到更丰富的领域。然而,我们也要清醒地认识到,要充分发挥大数据技术的作用,我们在数据格式规范、数据开放共享、数据信息安全等方面仍存在不同程度的缺陷,亟须解决。
(一)数据格式的相对统一与规范
数据格式的统一规范是大数据技术能够广泛应用并向纵深发展的基本前提。目前,出于安全因素考虑,数据信息流动一般仅限于部门内部或者行业系统内部,部门之间或者不同系统之间只存在少量的数据交流。对于普通属性或字段,缺乏全社会统一规范与标准,即使是最基本的属性,部门数据库都是依照部门或系统内部制定的标准,所采集的数据在大小、格式上都可能存在巨大的差异。比如,生日属性:就存在纯数字、数字字符夹杂以及定义多少位字符的差异。数据格式的差异直接导致部门之间数据不能共享,不同部门、系统之间的信息交流绝大部分情形执行的是查询操作。如果要对本部门以外的平台数据进行修改或者导入到本部门数据系统使用,需要耗费额外的人力物力财力去执行噪音数据清洗、数据格式调整、冗余字段删除等操作,会极大影响大数据的使用效率。同时,数据格式的不规范也造成了一定程度的资源浪费。因此在通用属性与常用字段的标准上,各级政府要推动制定全社会统一的数据规范。
(二)数据应用的有序开放与共享
重大突发性公共卫生事件,最重要的是对未来发展趋势的预测与事件过程中的处理。整个事件的处理对预防和控制链的体系要求特别高,它体现的不只是某个环节的突出表现,更需要的是整个体系的协同处理能力。“信息孤岛”的漏洞,导致区域之间信息的不对称,数据的跨区域流动会有一定的滞后现象,最直接的影响便是各地协同防控难度加大。保障数据平台之间的数据有序开放与共享,是大数据技术得以充分发挥的重要因素。任何大数据系统都是由“小数据”汇合而成。各数据平台通过接口实现数据开放,完成数据共享,是大数据系统形成的基础。然而,从历次重大公共卫生事件处理过程可以发现,医疗系统之间、各地政府之间、交通部门之间等“信息孤岛”问题依然突出,数据共享共通不够,区域之间、部门之间依然存在书面传递疫情信息的情况。信息孤岛极易带来数据的重复采集和医疗资源的浪费,由此引发的数据不全、表达差异、指挥不当、决策偏差等问题时有出现,大大延误了事件的高效处理。因此,要充分发挥企业的技术优势,为公众提供优质信息资源及技术服务。相关部门要制定措施积极推进健康大数据的共建共享,建立以政府为主导的大数据开放共享体系,促进政府数据与社会数据互联互通,降低公众获取数据的门槛或成本,扩大数据规模,丰富数据种类,实现大数据的系统性开发与利用,充分利用大数据为我们的生产生活服务。
(三)个人隐私数据的保护
数据信息的安全是大数据技术应用的重要保障。在重大突发公共卫生事件处理中,我们依托的大数据与个人信息息息相关。这些数据具有客观真实性,是个人工作、生活、学习的客观反映,与个人的隐私息息相关。在大数据的收集、清洗、存储、分析和应用等阶段,都存在数据信息泄露风险,甚至还有不法分子通过非法交易数据信息牟取暴利,严重侵害了公众的个人隐私。数据信息的保护不仅涉及个人,还涉及医院、疾控中心等部门以及第三方大数据企业平台,每个成员的力量都不可或缺,这就增加了个人信息保护的难度。相关大数据一旦发生泄露,不仅会导致个人正常生活困扰、财产损失,还可能导致国家安全问题。因此,要采取相应措施保护好个人隐私数据的安全。完善相关法律,明确数据保护的权属问题,包括个人基本信息、医院科研院所的研究成果等,避免监管和保护出现真空地带;加强医院、疾控等相关部门内部的数据使用权限管理,避免内部的数据信息泄露发生;加强第三方大数据管理与应用机构的资质审查和监督管理,实现从数据的收集、存储、分析和使用都处于监管状态,同时充分发挥企业与高校科研院所的专业技术优势,拓展企业参与渠道,实现多主体共同开发共同管理的良好局面。
重大公共卫生事件的处理既是对国家治理能力的考验,也是国家现代应急管理体系和现代化技术的实力体现。大数据带来的新思路、新技术,是“定性+定量”分析的现实应用,必将推动公共卫生安全甚至其它突发事件的处理模式的变革与发展。
相关链接
大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。
大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。