“互联网+”时代下的数字流行病学研究现况与展望
2018-07-31林允照张海松林朦朦
林允照 张海松 林朦朦
当前,全球使用手机及互联网等现代通讯设备用户数已达数10亿。据文献[1]报道,2013年全球已有68亿部手机,27亿在线用户,其中有20亿移动上网用户,50%用户会上社交媒体网站。而大量电子数据与健康密切相关,每天产生的数据多达10万亿GB,这些信息拥有巨大及潜在的研究应用价值,对公共卫生机构、卫生工作者、公众、私有企业都将有所助益。从这些海量数据中提取有意义且与健康相关的信息是现今研究的热点,全球已有许多成功案例,如Bengtsson等[2]利用手机电话网络追踪海地地震后人口行为学表现;Ginsberg等[3]利用谷歌搜索引擎和Twitter软件对流感实时活动水平进行监测;Salathe′等[4]利用在线社交网站了解公众接种疫苗的情绪反应,进而作为传染病进展及控制依据。
在数字化时代背景下,数字流行病学(Digital Epidemiology)应运而生,Gunther[5]于2004年在美国预防医学杂志提出数字流行病学概念,并将其定义为:它是研究电子数据分布及其决定因素的一门学科。他认为电子数据具有如下特征:①数据产生于公众网络,如博客、网站、查询和导航信息等;②能够公开访问;③来源于无特定结构文本。数字流行病学是一个新兴研究领域,它能整合互联网上与人们健康相关的电子数据,并对其进行计量学分析,最终呈现出数据定性及定量趋势。本文旨在通过对国内外文献复习,进一步探索数字流行病学及其在公共卫生中的应用前景。
1 数字流行病学在公共卫生领域中的应用
1.1 公共卫生监测
公共卫生监测是公卫领域中的重要基础性工作,突发公共卫生事件存在高度不确定性、大规模性和复杂性等特点,这给公卫决策以及相关救援、管理工作带来了困难。随着互联网的快速发展,以互联网为基础的数据挖掘技术,为实现疾病和公卫领域突发事件的监测提供了新途径[6]。通过对社交网络、聊天室、博客、网络搜索记录及在线新闻媒体等数据库的搜索,再利用当前先进计算机技术,对网络信息进行整合分析,能够提升疾病监测准确性。同时,由于数据产生具有实时性,不存在地理条件限制,可以提高监测时效性[7]。基于互联网监测工具能实现公卫系统各个团体之间的信息放射性流通,有效避免了传统线型公卫监测所带来的信息滞后性,进而能及时掌握公卫事件进展并制定应对方案[8]。
数字化监测系统是指通过自动化流程,于每小时或每天内,将系统所收集的资料进行组织、整合、过滤和可视化处理,并实现信息在线传播,最终促进全球公共威胁事件的早期预警。例如谷歌公司在H1N1暴发之前,通过谷歌搜索引擎了解网民流感信息搜索情况,内容涉及纸巾、感冒药、维生素C及流感相关性词条。谷歌公司在后台对上述数据进行处理,预测实际流感暴发时间。结果表明,预测暴发时间比实际暴发时间提早了2周~3周[9]。谷歌在传染性疾病方面的成功预测,实际上是数字流行病学在公卫领域应用的早期雏形,具有重大卫生价值。因为提前预测某疾病暴发性趋势,可帮助政府机构以前瞻性眼光应对突发事件,统筹布局,尽可能降低疾病对公众造成威胁。另外,世界公共卫生智能网(Global Public Health Intelligence Network,GPHIN)是由加拿大公共卫生局与WHO在1997年一同合作研发的疫情监测平台[10],其每隔15min便会利用设备自带的强大搜索引擎对全世界新闻网站进行信息采集,并筛选出与监测主题相关条目,实时发现或追踪某重大疫情事件。这些灵活的监测方案使信息收集方式更具分布式,可达到流感疫情的高时间分辨率和空间分辨率,并可外推至其他疾病的公共监测。
1.2 突发事件调查与应对处置
随着全球化进程加速,人口流动性加快,各种社会经济活动也日趋频繁,这导致突发事件发生率亦随之攀升,例如2003年在我国发生却影响全世界的SARS疫情,2004年暴发的猪流感,2008年三聚氰胺毒奶粉事件及2012年H7N9流感等。而快速收集公卫信息资源,并及时将数据资源转化为信息优势,准确处理信息及响应决策,就可在早期有效干预突发事件,并为卫生行政部门应对措施提供合理选择。因此,信息技术的发展在突发事件处理中发挥了极其关键的作用。应急决策支持系统(Emergency Decision Support System,EDSS)[11]是近年来发展起来的一种综合性、整体性、系统性的危机管理应用系统。它综合应用计算机、网络、通信、多媒体、数据挖掘等技术,为突发事件监测和响应提供数据存储及管理服务,能准确采集、传输、存储、处理和分析电子信息,进而迅速作出应对突发事件的决策响应[12]。当前,EDSS已成为应急研究领域的重点方向,该系统能利用既往程序及经验,借助网络海量信息资源收集,由计算机自动生成应急决策方案,帮助决策者组织调度各方面力量,最大限度保障人民群众生命财产安全,促进决策科学化。另外,新媒体是一个良好的监测媒介和平台,它能实时监测公卫事件,还能即时掌握人群对重大公卫事件的关注度及防疫需求。再加上互联网受众和传播主体更为分散,形成速度更快,内容更丰富,能借助互联网将应对策略进行即时性、互动性、丰富性播散,滚雪球优势突出,应急成效更为满意[13]。
1.3 公众健康行为监测与评价
公众在面对某些重大灾难性事件时,会表现出不同程度恐惧、紧张、焦虑。而公众往往会借助社交网络或即时通讯软件进行负性情感宣泄,这就为其健康行为监测提供了极其丰富的数据源[14]。例如网民在流感暴发期间,在推特、微博等网页上更新自己即时状态,内容涉及情绪、认知、行为,这能作为网民在某一时间内健康行为变化的原始资料[15]。顾华等[16]曾从新浪微博及百度搜索指数中了解浙江省H7N9流行期间公众健康行为表现,并提出流感暴发后3天内是政策制定及实施的关键时间点。另外,数字流行病学不仅仅局限于公众在互联网上留下的信息,通过电子终端产品(手机、电话)人为收集的数据也在监测范围之内。Marloes等[17]利用互联网在线调查方式,了解荷兰出现个案H1N1感染病例对公众认知风险及健康行为的影响,结果发现,公众出现焦虑的严重程度与现实流感报道病例数呈正相关;随着认知风险的提高,公众对卫生决策依从性亦逐渐提高。由多伦多公共卫生实验室研发了一款概念证明型软件,称之为“infovigil”[18],其可对互联网和社会媒体中的数据进行识别、归档,进而分析与健康相关的信息,了解公众对某个具体事件的行为、态度、认知水平,起到远期追踪监测作用。该软件可将网络数据进行可视化分析处理,进而实现数据定性及定量分析。举例来说,“infovigil”软件在网络监测中曾用于研究公众“笑脸”与“哭脸”比值情况;其中“笑脸”和“哭脸”均由研究者定义概念,确定搜索关键词,计算相应数据流之间的比值,以曲线图方式予以表示。最终,“infovigil”软件较为准确地预测出H1N1流感暴发时间。
1.4 健康促进措施实施与评价
21世纪,随着人们生活压力水平的提高,抑郁症、2型糖尿病、心血管疾病和肺部疾病等慢性病逐渐成为重大健康问题,而上述疾病与患者高危行为密切相关。这些风险因素包括药物滥用、吸烟、不良饮食习惯及运动缺乏等,通常可在患病群体中可发现共性行为。上述不良行为已潜移默化成为患者生活中的一部分,如何在短时间内改变其原有认知观念,并接受卫生干预策略,是一个极具挑战性的难题,而数字流行病学在健康促进方面却大有可为。由于网络媒体交互性存在,通过分析不同人群的健康问题,联合不同信息工具使用情况及在各种社交媒体中的活跃度,可有针对性地投放健康教育和干预信息,通过将健康教育内容公布在多个主流门户网站或通讯软件上,在特定时间内比较各网站浏览量及转载量,利用计算机处理技术结合流行病学方法,评出在整个数据圈内影响力最广门户网站[19]。公共卫生机构可在该网站上发布有关信息,进而使健康营销行为影响力扩大化,最大程度改变患者认知水平,避免医疗资源浪费。另外,《大数据》的作者 Mayer-Schonberger曾指出[20],“现在能够通过电子终端产品实时了解自身心率及呼吸,还能通过UP腕带监测作用了解自己入睡及清醒时间,使自己每天保持在较佳身心状态。这些过去只有大的研究室才能调查获得的数据,现在只需要100美元的UP腕带就能实现个体化健康管理。”随后,各种商业化、电子化、便携式感应器逐步被开发,如睡眠测量仪Zeo、Bodymedia、健康感应器fitbit、智能感应手表Basis等。哈佛医学院和执业医师协会一同创办的Healthrageous公司,不仅成功制造了数字跟踪记录设备,如血压计、无线计步器、体重秤等,而且还创造了数据信息网络平台[21],便于用户实时上传数据至互联网记录健康动态,这在一定程度上类似于个人健康档案。而这些数据具有高增长性、长期保存性、时空性等特点,临床医生可整合多名同质慢性病患者的临床数据,并运用数字流行病学方法进行分析,为与生活方式有关的医学研究提供了坚实的数据基础,大大提升医疗效率,并提高全民健康水平。
2 数字流行病学相关技术
数字流行病学的监测系统是一个复杂的综合应用体系,涵盖网络信息挖掘、网络信息处理、海量数据存储管理技术以及Agent技术等多方面关键技术,是集多种高新技术于一体的智能信息处理系统[22]。
2.1 网络信息挖掘
网络信息挖掘是指通过数据挖掘技术、原理从网页内容、网页之间结构及用户访问信息中挖掘具有规律性及潜在意义信息,进而提高网络数据利用率[23]。根据网络信息来源及挖掘分析的对象不同[24],可分为挖掘信息内容、挖掘信息结构及信息使用挖掘。当前应用较广的技术为语义分析,该技术是指在分析句法结构和每个词义基础上,推出能反映该句意义的形式化表达。通过语义分析,可以理解人类自然语言,并深人获取推理,从而抽取出自然语句背后的语义信息,使计算机与人类能无障碍沟通[25]。整个语义信息提取的过程,主要包括语法处理、语句过滤、语句主干提取、句型识别、语义提取和语义信息生成6个过程[26]。
2.2 网络信息处理
以往人们获得数据的方式主要依靠抽样,即先用统计学方法获得数据样本,再将数据存储并进行分析,这类通常为结构性数据,可直接进行分类和统计,简单且清晰。但大多数网络信息为非结构性数据,不能用一个字段对应起来,例如音频、视频、图片、地理信息、时间信息等。但在大数据时代,依托云计算,对大量非结构性及半结构性数据进行解读将成为可能,而这类数据更能洞察计算机用户习惯,描述其行为特征,并为最终决策提供依据[27]。网络信息抽取是将分布于互联网上满足特定主题需求的数据提取出来,并采取更为清晰化结构表示,为后续信息进一步分析提供规范化数据来源[28]。对于突发事件信息的监测和处理,必须全面监控海量互联网信息,从中找到突发事件相关主题网页并行相应处理。当前,按照抽取信息技术工作原理不同,可划分为基于包装器的信息抽取方案[29](经典软件包括WIEN、Softmealy、Stalker等)、基于HTML结构的信息抽取方案(经典软件包括XWRAP和RoadRunner)及基于视觉特性的信息抽取方案(经典软件包括VIPS)。
2.3 海量数据存储管理技术
海量数据存储管理越发受到各行业的关注和重视。①分级存储是最具有影响力的存储策略,其在几乎不降低存储成本的同时,依旧保持着较高的存储效率,是极具性价比的存储方案[30]。②数据自动化归档技术是海量存储管理系统关键技术,尤其适用于卫星数据,将其按相关要求处理后可及时入库归档,一般设计为后台服务进程,开机即启动,7×24小时随服务器运行[31]。③海量数据存储管理系统通常还包括对外提供数据服务功能,这也是数据存储管理系统发挥价值的关键所在,提供服务方式一般包括API调用订单服务实时推送等[32]。
2.4 Agent技术
Agent技术可根据用户需求,利用某些特定网上功能和检索方式达到最快捷的个性化信息检索目的。信息检索智能Agent的机理是用户将自己信息需求提交给信息检索智能Agent,检索智能Agent启动信息检索程序,分析和理解用户信息需求,自动进入相应网站并与服务器对话,检索、分析和处理Web页面,并且对检索结果按照用户思维方式展开优化[33]。Agent实际上是以适应互联网环境而设计的一种能按照信息用户特点和思维方式自动检索Web页面、信息资源的智能系统[34]。
3 数字流行病学的特点
数字流行病学属于流行病学范畴[35],包括如下几方面。①它属于流行病学下面的一个分支,可以利用传统流行病学方法,对电子数据分布进行描述性分析。②数字流行病学最根本的目的是为公共卫生决策服务,这与流行病学目的相似。③流行病学研究对象为人,数字流行病学虽然是对电子数据的研究,但数据归根结底是由公众产生,故人群仍是研究核心。而从人口学角度考虑,数字流行病学具备传统流行病学无法替代的优势[36],包括如下几方面。①样本数量更大、更广泛,可实现大规模式全人群调查。②公众在互联网上接受信息到内化感知的时间更快,体现出高效性,为公共决策信息的普及制造了可能性。③数字流行病学可对特定公众健康行为、态度、意识进行实时监测,并能预测其未来结局或转归。传统的流行病学与数字流行病学关联性及优势体现见图1。
图1 传统流行病学与数字流行病学关联性及优势体现
图1 进一步揭示了流行病学(一门研究疾病分布及影响因素的学科)与数字流行病学(一门研究数据分布及影响因素的学科)的关系。传统流行病学数据来源主要是针对特定人群的资料收集,并通过统计学方法分析,得出某一结论,再将结果呈报给公共健康专家或政策制定者,最终得出卫生决策。卫生决策一方面可直接影响人群行为、态度及健康状况;另一方面可通过网络媒体活动使其影响力得以扩大化。这是传统流行病学常用思路,不过整个周期往往是一个耗时过程。例如想要探究某健康饮食习惯是否成功影响人群行为及认知水平,通常需数月或数年累积效应才能获取结果[37]。而随着互联网时代的到来,人群行为、态度及健康状况会随着网络信息的出现产生瞬间改变,这便是数字流行病学所体现的高效性。数据律动性是数字流行病学的内在属性,是指电子数据随着某特定主题热度变化情况而呈现波动性改变[38]。例如当人群中出现大面积流感暴发时,健康网站的日点击量将会上升,流感相关信息的搜索量将会增多,网友在QQ或微博中发表即时状态,如“我今天感冒了”等的频率将会增多,与流感相关书籍的销量将会增加等[39]。上述情形均是流感到来期间公众所表现出恐惧心理的另一种代替性形式。实际上,恐惧行为的波动变化与现实中流感疫情变化呈现相关性效应,所以,通过对电子数据监测可间接了解人群健康状况。
4 展望
数字流行病学的出现在当今“互联网+”的大数据背景下无疑是一场及时雨,它就像一座金库,能够引领科研学者探究未知的宝藏。通过数据挖掘技术全面检索互联网信息并结合语义分析,可获取目的数据源,并对其进行深入剖析,探究数据的内在性变化趋势,为卫生领域决策的制定提供依据[40]。国内关于数字流行病学的研究尚处于起步阶段,这为其在公共卫生领域的应用提供了广阔前景。数据流行病学带来了以下几方面革命性构想[41]:①从抽样调查到全人群调查;②从因果关系到相关关系;③从数据收集诚信转变为使用者伦理道德问题;④在流行病学领域,数据分析师将成为未来炙手可热的新兴人才。
当然,数字流行病学也面临着一系列挑战,包括如下几方面。①计算机技术:计算机技术是数字流行病学所面临的最大困难[42]。因为对大量的电子数据进行收集、储存、分析,需要建立大型基础设备、相应软件及复杂程序语言。其中基础设备需具备高带宽、低延迟计算机网络,以达到大量信息存储功能。通过对计算机云技术创新发展,达到较为经济的资源存储及自动计算功能。②人口代表性不高:代表性不高是数字流行病学面临的又一挑战[43]。因为,时常上网冲浪人群的人口学特征趋向于年轻化、高学历及高收入。这可能导致与传统流行病学类似的偏倚现象出现。当然,如果根据具体情况实施具体分析,则可有效降低偏倚。例如H1N1暴发期间,由于受影响人群以年轻人居多,因此,实施数字流行病学调研可收到事半功倍的效果。若想要研究罹患阿尔茨海默症的老年人的行为及认知状况,则数字流行病学显得不大适合[44]。③电子数据加工:电子数据之间的组合、分类、抽取、重新分布等内容亦是当前需要面对的主要挑战之一,数据成功加工与否直接影响后续趋势分析的开展,因此,探索一套科学、高效的数据处理指南是数字流行病学的基石[45]。
数字流行病学的发展应结合我国具体国情,并需深入研究百度或其他中文搜索引擎,改进计算机软件算法,并学习先进的监测技术,尽快建设传染病疫情监测体系,扩大预警监测范围,使之不仅局限于疫情常规监测,更是涉及公众健康、行为及认知水平的监测。
总而言之,“互联网+”背景时代下的大数据将开启一次重大的时代转型,并给公共卫生领域带来颠覆性影响。