基于大数据的公共卫生事件精准应对策略探讨
2021-04-15谢文澜孙雨圻
谢文澜,孙雨圻
1宁波幼儿师范高等专科学校儿童研究院,浙江宁波,315000;2 德国汉堡大学艾本多夫医学院,德国汉堡,20251
与新型冠状病毒肺炎斗争中,大数据发挥了重要的作用,将大数据纳入公共卫生系统已得到全球共识[1]。精准公共卫生(Precision Public Health)是受技术进步推动的新领域,可以对个人和人群进行更精细的描述和分析,以期改善人群的整体健康状况[2]。其中,使用数据更有效指导造福人群的策略称为精准公共卫生策略,它需要强大的基础监控数据,快速精细复杂的分析来跟踪疾病的地理分布,以及根据此类信息采取行动的能力[3]。大数据及其支持技术作为一种新兴实践,可以帮助精准公共卫生实现以前无法达到的目标和速度,更精细地预测和了解公共卫生风险,并制定相应的策略和治疗方案[4]。基于此,本研究首先概述大数据在精准公共卫生领域中的应用,并以新冠肺炎疫情为例重点介绍大数据在突发公共卫生事件中的精准应用,阐述可能面临的困难和挑战,以期为大数据在公共卫生领域中更好的应用提供新视角。
1 大数据在精准公共卫生领域中应用
“大数据”是指大量、复杂、可链接的信息[5],主要应用于社交网络、物联网、云计算等平台中。公共卫生大数据通常包括: ①通过生物和环境测量的数据;②行政方式收集的病历数据;③由全球定位系统(GPS)设备或FitBit以极高的频率间隔自动进行的测量数据;④电子媒体所产生的数据流,例如搜索词记录,社交媒体发布的帖子等[6]。
大量临床实践和研究已经证明大数据可以提高多个公共卫生领域的准确性。如大数据能精准检测相关疾病信号,实时监控公众健康状态,建立相关疾病发生的数据库[7],而这些数据将会用于后期公共卫生风险的预测。此外,研究者利用大数据对各种健康问题和风险人群进行细分,促进相关研究和实验更加具体和可操作,提供更具针对性的治疗干预措施。同时,大数据还为精准公共卫生决策和管理提供循证。如中国研究者通过开发大数据智能平台,将电子健康记录数据二次使用,促进鼻咽癌研究,该研究为多医疗机构之间的数据共享提供支持,为后期基于数据的医疗公共卫生决策提供技术支撑[8]。
总的来说,大数据相关研究和干预结果都积极表明其在精准公共卫生中的价值。随着技术创新的步伐以及精准医疗从业人员接纳大数据的速度,大数据将在更多的公共卫生领域发挥支持性作用。
2 基于大数据的公共卫生事件精准应对策略探讨
2.1 大数据在公共卫生事件精准应对中的应用概述
早在1854年,现代流行病学之父约翰·斯诺(John Snow)就已具备大数据思维,通过记录霍乱病例家庭位置绘制“地图”,推断Broad Street水泵附近可能是疫情暴发源头,并建议移除水泵来阻止疫情传播。但如今,可以想象拥有大数据技术的斯诺,可能已经通过全球定位系统信息和流行疾病数据,在数小时内解决了问题[5]。由此可见,大数据及其相关技术在公共卫生事件精准应对上起着巨大作用。首先,与疾病相关的医学和遗传学数据为研发治疗方案,制定应对措施提供了基础。当新的或再生的病原体引起大暴发时,快速获取原始数据、分析数据,或与疾病相关研究结果对于制定快速有效的公共卫生应对措施至关重要[9]。来自社交定性评估和社交媒体对话的非结构化数据(如,自由文本)为远程监控危险行为和疾病暴发提供了重要途径[10],如研究人员使用来自Twitter的数据预测流感传播趋势[11]。 除此之外,相关的疾病监测(通常包括跟踪受影响的个体,即人类携带者,患者或受害者)所提供的数据可有效预测疾病扩散趋势,为非医疗干预措施提供数据支持[12]。
2.2 基于大数据的新冠肺炎疫情精准应对
新冠肺炎疫情暴发时,我国迅速采取相关应对措施,包括早期人口流动管理、交通管制政策出台,实时疫情地图和数据更新,后期的个体健康电子档案(如微信、支付宝绿码)的建立并确保居民生活无接触。这些措施都体现了大数据在此次疫情中的精准应对作用。
在疫情暴发初期,对新冠肺炎相关的数据信息进行收集,并进行全球分享,为全球精准抗疫提供有力支持 。中国疾病预防控制中心病毒预防控制所在1月2日接到标本后,1月7日从临床样本中成功分离病毒,1月24日全球首发了第一株新型冠状病毒毒株信息[13]。根据中国提供的相关数据,国内外研究者对病毒结构、起源、致病机制等做了大量的研究和报告。除了疾病大数据分享,中国还将大数据及其相关技术充分应用到病情诊断、药物筛选、医疗辅助等与医护工作直接相关的情境中。如通过病毒RNA序列构建蛋白3D模型,并采用深度学习对蛋白质-配体进行虚拟筛选,寻找能治疗新冠病毒肺炎的潜在药物[14]。此外,为缓解疫情期间医疗资源紧缺,避免聚集性交叉感染,许多“互联网+医疗”平台推出“在线问诊”服务等。
在疫情暴发中期,大数据主要通过疾病监测,精准锁定人员流动轨迹。通过电信运营商、交通部门、互联网等提供的大数据对确诊病患、疑似病患和相关接触者的地理位置和时间戳数据的挖掘,绘制患者行动轨迹,并根据患者确诊前一段时间的行动轨迹,来推断密切接触者[15]。这些个体流动数据可提供不同类别人群的区域内、区域间的流动情况。腾讯、百度等APP则通过绘制疫情地图将这些复杂流动数据可视化。每个用户均可查看每个城市的迁入、迁出走势。这些数据抓捕和挖掘,为精准施策提供有力指导,也为预测高危地区和潜在高危地区提供精准依据。
通过对疫情暴发早期的数据收集,以及中期的人员流动数据来构建模型,精准预测疫情传播趋势。疫情期间,依托于国家卫健委公开透明的实时最新大数据,研究者们掌握了疫情扩散模式,构建了传播动力模型,对预测和防控进行了大量的研究。如研究者根据百度地图上交通流量数据,以及1月1日至1月26日离开武汉的航空旅客数量,以当地人口和航空旅客人数作为预测变量,构建多重线性模型解释中国每个城市确诊病例的方差,从而量化潜在的感染人群。研究结果发现,武汉航空旅客的贡献逐渐减少,但当地人口的影响却在增加,这表明了疫情控制在本地,且本地传播趋势缓慢。这说明政府和社区采取了严格的控制措施[16]。
此外,研究者还根据武汉,以及从武汉迁徙到中国大陆以外城市的病例数,建立人口迁移模型,模拟了新冠疫情在中国大陆的传播。如研究者采集了2019年12月31日至2020年1月28日《官方航空指南》和腾讯数据库在中国大陆300多个地级市的人口流动数据。结果发现北京、上海、广州和深圳这些城市合计占中国所有大陆城市出境国际航空旅行的53%,占亚洲以外的国际航空旅行的69%。但武汉市的社区隔离措施,以及其他非药物干预(使用口罩,注意个人卫生)等措施的实施,可降低疫情的传播率。研究者认为,在“人传人”的感染期间,报告病例人数呈指数级增加时,实时分析和预测对于国内外突发公共卫生事件的规划和控制至关重要[17]。
在疫情稳定期和恢复期阶段,个人申报的“健康码”数据,为地方政府精准施策助力。多地方通过个人“健康码”等数字平台,对社区,交通出行,复工复产等进行疫情防控管理。针对重点地区,重点场所形成分级管理。例如浙江省等地区通过“健康码”作为本地区出入通行的电子凭证。市民或返工返岗人员自行在微信、支付宝等平台自主申报,实现一次申报,全市通用。公共场所也通过“健康码”,采取对应的措施,降低疫情传染风险。
政府机构根据上述大数据提供的疫情信息(病毒相关数据信息、人员流动、疫情传播速度与趋势预测、个人健康信息(健康码)等信息),有效的开展动态疫情监控、医疗物资统筹分配、民生物资供应、交通管制等策略,实现精准控疫。
2.3 大数据在新冠肺炎疫情期面临的挑战
2.3.1 需完善数据采集流程和管理制度。用于疫情分析的数据大部分来源于政府公开数据或企业根据自身产品采集的数据。而目前公开渠道获取的数据口径、统计时间维度不一致,数据源重复杂乱,影响真实数据获取。此外,数据收集过程中,往往采用人海战术,通过手工填表,电话问询等方式。这不仅给基层工作人员增加负担,也无法保证数据质量。如,在采集患者个人信息时,未区分手机号为病患或病患家属,可能导致运营系统核验过程中出现身份证号与手机号不一致结果,影响后续数据分析的准确性[15]。
2.3.2 需平衡公众知情权与公民隐私保护。疫情防控期间,多地区都在排查上报重点地区返乡人员和确诊信息,这能帮助卫生监察机构及时掌握信息,争取第一时间做出干预。尤其在疫情期间,尽管保障公众知情权和公共安全是稳定人心,帮助公众掌握疫情发展的重要环节,但是公民个人隐私仍然属于最重要的基本权利,因而如何平衡兼顾公众知情信息与公民个人隐私就显得尤为重要。
2.3.3 需甄别大数据中的“误差”(Big Error)。这些误差可能来源于早期的数据收集、预处理,也可能来源于后期不同模型带来的差异。此外,在大规模检查与疾病结果相关的推断时,可能引发许多错误警报。而当人们可以测量更多东西时,“发现”中的虚假警报比例可能会增加[18]。对于非基因组关联的数据,即使研究本身具有非常大的规模,但研究数据中存在的广泛的复制和强信号,也会由于混杂变量或其他偏差而导致误报。因此,在卫生健康大数据中,大数据的优势在于发现数据间的关联,但这些关联本身的意义并不会得到深究,因而需要认识到大数据研究中的数据可能存在虚假性[5]。
2.3.4 要正确处理数据舆情。在当今这个数据信息飞速迭代、移动网络和自媒体产业快速蔓延的时代,人们获得信息的方式更加多样,信息的种类更加繁多。新冠疫情期间,社交媒体传递出巨大的信息,同时也包含了巨大的噪音和干扰。一方面研究者可以根据社交媒体提供的生物医学数据对疫情进行分析;另一方面,公众通过社交平台可以了解疫情的相关信息。但是由于信息的延迟性获取等原因,使得大数据在早期并未发生期待性的作用[19];而巨大纷繁的信息中包裹着大量噪音信息也使得公众对疫情的认知产生了偏差,削弱了对疫情的精准解读。
3 大数据在公共卫生事件精准应对上的发展方向
首先,完善数据采集、管理、使用制度,平衡数据使用中的隐私、共享、安全等伦理问题。政府、医院、研究所等部门在采集、管理、使用个人健康数据过程中,需要形成统一标准,方便(不同机构)数据汇总和比较。此外,数据使用过程中还会涉及到个人隐私。一般情况下,个人健康数据在被加入到用于预测分析的数据库前,会隐去相关的个人信息,只包含用于分析的数据。这在一定程度上,可以解决个人隐私被泄露这一问题。但是,如果在医疗系统中不存储个人相关信息,则更难探索疾病因果关系[1]。为了解决这一问题,一种方式是将个人信息加密或去识别化,但这一过程,也面临着个人信息被盗用的风险。此外,大规模的数据收集,不仅涉及到个人隐私问题,还与公众利益、国家安全息息相关。因此,需要完善的制度来规范数据收集、管理和使用过程。在共享和开放的同时,也要保护个人隐私,维护公众利益,守护国家安全。
其次,甄别数据误差,完善分析方法。健康大数据是产生假设的机器,但是即使建立了牢固的关联,仍然需要与相关证据来支持其可能的因果关系。约翰·斯诺就是从一个合理的假设开始,至关重要的是,斯诺为了验证假设“做了这个实验”:他从水泵上拆下手柄,大大减少了霍乱的传播,证实了干预的有效性。这一过程,将结果从相关转向因果。此外,研究者需要明确大数据的分析潜力,不断完善分析方法,创新分析方法。在研发新方法(包括数据挖掘,丰富开放数据存储库等)时,需要更加关注临床数据(例如生物医学,基因组数据)与真实世界数据的整合。
第三,社交媒体数据正在迅速影响大数据研究,并已成为该新兴领域中使用的主流工具之一[20]。互联网提供了这些情境化健康数据的平台,人们愿意在社交媒体自由共享个人健康信息。实时地图(例如Google Maps),或者其他可视化技术,例如GeoCommons(http://geocommons.com),Google Public Data Explorer(http://www.google.com/publicdata/directory),可非常便捷获取这些数据。而这些数据可帮助监测传染性或慢性疾病的发展趋势。因此,监测社交数据可提供更多样的流行病学数据,用来预测与健康、疾病相关信息,提高通过大数据改善健康和预防疾病的潜力。政府、公共卫生当局需要关注社交媒体的重要性,并合理利用社交媒体提供的信息来评估、保护、促进公众健康[21]。当然,社交媒体的数据也可能存在局限性。比如,大数据分析主要基于互联网上的方便人群样本,容易影响结果的准确性。如果研究者将健康大数据分析嵌入到流行病学特征鲜明且具有代表性的人群中则可提高数据质量。因此,探索解决这些局限性的方法将提高媒体数据在监测健康行为和疾病暴发中的价值。同时,建立和记录在大数据研究中使用社交媒体的方法很重要,这样社交媒体数据才能更广泛地影响公共卫生和社会科学(例如基础科学和基因组学)以外的领域。
此外,重视大数据对个体健康的早期干预,创新大数据应用。以往公共健康领域的专家更关注基因、药物、疾病等,而忽视能够改善个体健康的社会决策。而大数据不仅能够继续在诊断、治疗上提供帮助,还帮助医疗科研人员更好的将视角前移,从“治疗疾病”,转移到通过“预测、预防”,改变发病率和死亡率,提高公众整体健康水平。大数据架起了基础研究和公共卫生应用之间的桥梁,将基础医学研究成果向疾病预防模式转化[22]。公共卫生领域的大数据应用也随着研究成果不断扩展、前移、创新,一方面大数据对医疗诊断、基因测序、疫苗药物研发等提供支持,另一方面通过公众健康大数据进行疾病预测,为改善个体健康的政策实施提供支持,促进大数据在公共卫生分析、预警、防治等方面创新应用。