疫情大数据赋能效果提升路径研究
2020-11-25沈腾
沈 腾
(徐州市人力资源和社会保障信息中心,江苏 徐州 221000)
1 研究背景
大数据技术在此次“新冠”肺炎疫情防控中发挥了重要作用。宏观上,我们利用地区采集的病例数据以及个体跨区域轨迹,通过对新增数量及区域分布情况的分析,对全国各地进行危险级别评估,进而采取不同的管理防控措施;微观上,个体通过注册登录“健康二维码”出入公共场所,也可以查看哪些是危险等级高的区域,这为防疫后期的复工复产提供了便利。
然而,此次疫情我们也应该看出我们对疫情大数据的利用还不够充分,赋能效果还亟待提升。特别是在疫情初期发展传播过程中,对发病情况的掌握、所需医疗资源的预判、床位和设备的消耗情况、未来可能的调配策略等等,疫情初发地的武汉等地区并不能较充分的了解。假如有关部门建立了以大数据为基础的处理流程和解决方案,就可以更好地处理应对类似突发事件。
2 相关概念理论简介
2.1 “大数据”有关概念
“大数据”(big data)的有关概念出现较晚,直到2008年左右才开始在互联网流行,大数据就是海量的数据[1]。2012年维克托·迈尔-舍恩伯格在《大数据时代》一书中较为前瞻性的提出,大数据开启了一次重大的时代转型,并分别从思维、商业、管理3个维度的变革进行了阐述。大数据技术就是从海量数据库中通过一定的算法挖掘推导出对某领域有价值的信息。
2.2 OODA循环模型
OODA循环模型,是观察(Observe)、判断(Orient)、决策(Decide)以及行动(Act)的英文缩写,起初是美国空军提出的一个信息战略模型,后来常被应用于大数据技术中,主要通过信息采集、分析、决策和应对四个阶段处理数据[2]。OODA 循环模型可以辅助我们认清数据信息的运行轨迹。
3 基于OODA的疫情大数据赋能现状分析
3.1 观察(Observe)阶段——大数据采集
疫情数据采集的初期主要是依据医疗卫生部门上报的感染者或疑似感染者信息,到了中后期由于需要出入小区,各地开始要求提供健康码,这时社区居民开始自主从网上填报个人数据,主要分为本地常住人口和外来人口信息填报。除此之外,在复工复产准备时期还有一些医院、商场等公共场所在出入时进行网上登记,作为个体在公共场所活动轨迹的数据采集。
在上述疫情数据的采集中,主要存在几点问题:一是数据的准确性无法保证。绝大多数数据依赖于个体本身的填写,个体本身受到填报时间、重视程度、自我判断能力和填报诚信等多重因素影响,数据本身的准确性得不到保证,短时间内也没有数据校验的功能。二是数据的完备程度不高。各个组织根据自身需要设计数据采集表单数据项,而这些选项大多数都是个体的基本居住信息,个体的活动轨迹无法采集,因此获得的数据不够完备。三是数据的共享程度较低。部分地区可以将采集的数据与当地公安部门户籍数据相关联比对,但和医保、就诊、交通、住房等数据没有共享,多个数据库没有提供接口,缺少一个行之有效的数据处理系统。
3.2 判断(Orient)阶段——大数据分析
疫情数据的分析目前主要还是简单的统计分析。按照时间轴统计,可以分析出整个疫情的发展变化,包括感染者和疑似感染者的数量、增长率等,按照空间区域统计,可以分析各区域疫情的严重程度。但是,这些大数据的分析仅仅停留在一般统计学的范畴,分析层次较浅。
如果想进行稍微复杂一些的分析,通常使用流行病学调查就可以发现一些疫情传播的端倪,笔者提供了一些数据分析的功能设想如下:一是可以对确诊患者的活动轨迹进行分析,进而进行疫情传播预防,帮助发现疑似感染者;二是可以联动医疗资源数据,协助更合理地调度各地医疗资源;三是可以对患者年龄、身体情况等关键指标进行分析,进而研究易感染者的共性及疾病特征;四是可以对患者的治疗方案及用药反应进行分析,进而研究适合多数群体的治疗方案;五是可以对正常人群的活动轨迹进行分析,进而开放低风险或无风险活动区域。因为目前对大数据的分析层次还停留在显性可视的层面,如果要完成上述设想,还需要借助机器学习、知识推理等专门算法。在数据分析中还要考虑到数据隐私和安全性,数据提取和分析等过程保密,即系统后台利用相关算法推导结论,人员不直接接触原始数据库。
3.3 决策(Decide)阶段——大数据决策
由于缺乏行之有效的专门算法,无法在某些领域内数据建模,目前疫情大数据决策还很不成熟。国内外在医学领域有一些利用数据建模开发的仿真应用或是辅助诊断应用的案例,但目前来看前景并不明朗,主要涉及以下几个因素:一是个体差异性。在某些领域海量数据影响决策中,我们可以推导预判某种可能概率增大,但每一个个体都具备与众不同的可能;二是数据代表性。原始数据库缺少足够的庞大而精确,我们选取的数据项也并非绝对科学可信;三是算法合理性。每个领域的专门算法、模型需要大量实验验证,如何建立一个科学有效的专门算法,这是大数据决策的难点;其他还有机器决策合法性等人文因素制约着大数据决策的发展。在大数据产生决策方面,我们还有很长的路要走。
3.4 行动(Act)阶段——大数据应用
在疫情防控中我们开发了几个简单的大数据应用,例如“健康码”。个体通过注册登录“健康二维码”出入公共场所,也可以查看哪些是危险等级高的区域,这为防疫后期的复工复产提供了一些便利。健康码是根据个体输入的数据,根据过去的行程与官方对各地的风险评级,生成一个表示危险性的健康码,在一定程度上提高了社区治理的效率。问题是这种应用目前缺少校验,在应用中可靠性较低;并且风险区域“一刀切”较为粗犷,在实际操作中过于武断,也影响到一些群众的生活出行。除此以外,大数据应用的成熟案例还较少,专业领域的开发瓶颈难以突破。
4 疫情大数据赋能提升路径探究
4.1 大数据采集过程优化
一是数据采集来源优化。数据信息应以公安部门户籍数据为基础,加入手机关联信息,从被动采集转变为主动采集;二是数据采集形式优化。开发基于北斗导航系统定位的轨迹记录数据系统,在法律允许的范围内采集不同精度的活动轨迹数据。三是数据共享优化。将医保、就诊、交通、住房等多个数据库数据共享,并进行数据校验与清洗。
4.2 大数据分析过程优化
数据分析过程的优化主要是建立公式,寻找规律。例如对确诊患者的活动轨迹进行分析,对同时段的活动轨迹进行筛选,可以发现疑似感染人群。可以对每个移动终端的移动轨迹进行时间轴的记录后,去发现同一时间相同轨迹交点的号码,这个发现的过程就是一个较为简单的数据分析。再如在调度医疗资源中,对各医疗机构床位、医护人员、医疗设备和药品等数据与感染人群分布数据建立一个算法,可以帮助科学选择。
活动轨迹数据分析最大的问题是数据安全问题以及采集个人隐私的法律风险。在相关法律尚未明确的情况下,可以采取被动采集的方式,即在一些重要的公共场所设置扫码登记,登记前由个人线上同意相关协议,再进行入场登记,用来记录进入该场所的人群数据,从而被动推导个人的活动轨迹。
4.3 大数据决策过程优化
数据分析后,如何辅助产生出科学的决策,这要求建立一个模型和专门算法。比如可以通过对搜索关键字和网上购物数据的分析推导出某个人的购物偏好,甚至对其年龄、生活状态、工作情况、个人喜好进行推测,进而自动向其推送相关的产品,这就是一个最简单的数据决策产生的过程。大数据决策过程,是基于数据分析模型而产生可能结果的推导,是对某一领域大概率结论的预测。在疫情大数据决策过程优化中,首先要确定目标,然后通过大量的数据实验优化模型。以疫情传染防治为例,可以建立一个类似的模型,这个模型可以分为不同的几个阶段。第一个阶段是发现可能感染者。根据公共场所的入场登记数据,分析活动轨迹重合的个体,一旦出现确诊者,决策者可以向其推送相关信息,这种结论并不一定能推导出感染人群,但是可以确定出可能会感染的人群;第二个阶段是确定疑似感染者。例如已有一个14天无症状即可排除的经验,可以利用这个经验对第一个阶段出现的个体进行居家隔离14天,但是这并非绝对,假如可能人群想要排除疑虑,则可能选择去做进一步的核酸检测。在这个阶段大数据可以智能的提供给可能感染者不同的选择应对方式,进一步去确认疑似感染者;第三个阶段是确诊。这个可以结合医学诊断指标进行确诊模型的建立。在实际就诊中,医生往往也是根据某些检测的指标及患者出现的症状进行判断,之所以难以建立模型是因为个体差异和相似疾病的种类较多,但是如果是排除某种疾病或是建立某个专门疾病的确诊因素,则是有可能实现的。第四个阶段是辅助治疗。此部分内容可以试图整理相似个体的最佳治疗方案,进而为医生提供一些参考,同时在医疗资源特别紧张时可以作为公共卫生紧急处理办法。
4.4 大数据应用过程优化
大数据应用过程的优化就是要使应用更加人性化,使用户有更好的体验。例如“健康码”就可以从以下几个方面优化,一是提高准确性,目前是以城市为单位的危险评级,可以进一步提高范围的精度;二是增加兼容性,对于没有智能手机的群体,除了委托通过他人的支付宝微信账户添加以外,还可以考虑采用另一些终端,如健康手环、智能手表等形式;三是注重便捷性,健康码的使用应更加智能,减少个人操作环节,甚至可以在社区、公共场所设置某些终端设备,出入的人员通过身份证或者人脸识别就可以自动验证。
5 结语
不断完善对大数据采集、分析、决策、使用过程,更好地实现数据赋能,对社会民生保障具有现实意义。本文以疫情大数据运行情况为例提出了大数据赋能效果的提升思路,由于缺乏实践层面经验,还存在诸多不足之处。大数据应用应加强理论研究和实践研究的结合,推动多学科性研究的融合,拓宽研究主题,促进研究内容的多维深化,从而为公众提供更为科学、高效的社会服务。