大数据迎战传染病
2013-05-14马琳·麦肯纳
马琳·麦肯纳
在传染病史上,巧合扮演着举足轻重的角色。1706年,马瑟科顿买了一个名叫阿尼西姆的奴隶,而这个奴隶刚好来自实行天花接种的部落,于是天花的预防被引进了北美。1928年,弗雷明·亚历山大碰巧没关实验室的窗户,污染物飘落在装着金黄葡萄球菌的盘里,提供了制作青霉素的原材料。
2003年2月,中国南部一位至今身份不明的人向其在网络聊天室认识的美国教师发了一封请教问题的邮件,而这位教师刚好住在美国海军流行病学家隔壁。这位流行病学家——卡尼恩·史蒂芬博士,将这份电子邮件列表里的转述记录放在了电子邮件列表ProMED上,让世界知道了非典型肺炎,比中国政府确认这种疾病还要早几周。
五年以来,这份转述记录的案例广泛激发了从巧合中寻求爆发信息的尝试。布力连·拉里博士是世卫组织(WTO)消除天花试验的主席之一,如今是谷歌慈善事业的执行理事,他将这项成就称作“两步向左”,意为在传染曲线上后退两步,赶在疫情大规模爆发前容易控制的阶段发现。
新兴的检测系统回应了布力连的“两步”:他们在公共健康体系之外生成的数据中分析出最早的爆发预警。其中最新的词条是健康地图,这由波斯顿儿童医院信息学项目组的传染病学家布朗斯顿·约翰和软件开发员弗雷德·克拉克提出。
新的监测努力将一年前生效的修订版国际卫生条例付诸了实践。修订版正式承认“非正式消息”的价值与其在触发全球爆发预警中的作用。
新的尝试涵盖各种方式和系统。一些完全依靠人工输入,而其他则采取数据挖掘算法。一些对公众开放,其他则仅面向健康专业人士和政府官员。一些完全基于文本,而另外一些利用了新技术,比如地理信息系统或者GIS(谷歌地图采用的技术)来尽可能展示爆发地点。
新型监测系统的共同之处在于它们拒绝依靠现存的公共卫生预报系统,原有的系统依靠物理学家或当地卫生部门提交的电子或纸质报告,并在公共卫生体系中层层上交。那些报告由医学专业人员提出,也许十分精准,但是很慢。
新型系统通过搜集与评估新闻、博文、邮件,以及其他一切可见的或者能被网络爬虫程序找到的信息,平衡了为增加速度而牺牲准确性的风险。
这里面包括全球公共健康网。这个网站从1997年来代表WHO运行,自动从两大主流新闻采集器采样并自动翻译为8种语言;采集的故事由人来审核,然后发送给仅提供订阅服务的网络。2002年11月当地急诊室中有一份关于呼吸道疾病抱怨增加的中文叙述,SARS迹象的发现就归功于它。
健康地图,这个最新词条,在其他系统信息上扩展来源:它在网络上自动从14个信息收集器上获取信息,数据取自近2万网站。目前它可收集英语信息并自动翻译为四种语言,开发后还可多提供三种语言。它收集的这些报告自动筛选重复与错误信息,按紧急度排序然后按来源、日期、地点与疾病分类发布。
它最突出的创新点在于实时地将信息制图。报告用经度和纬度附码后,“钉”在世界地图上;点击这些“钉子”会出现报告的链接。所有的结果,地图、链接与报告,都被收集在一个单独的开放网页上。
新型报告的最新发展趋势是采取复杂而又简便的工具,比如用GIS绘图来监测。这激发了加利福利亚软件工程师PT李的灵感,在他的私人项目WhoIsSick.org中,将个人的疾病报告聚合在当地疾病趋势的“众包”快照里。
新型监测系统研发人员都赞同,合并地区报告将是系统发展的必要步骤。这可能是挑战最大的:业余人士收集的数据可能有更多的错误或无关信息。但是这对没有官方疾病监控的地区或对疾病报告有严格政治控制的地区,也许是唯一与世界分享的途径。事实上,来自23个国家的公共卫生系统人员在2007年12月“呼吁行动”中,呼吁工业化国家帮助改进非洲与南亚的疾病报告体系。
在印度,人们可以用手机短信向省级动物卫生机构报告疑似禽流感病例。一个名叫InSTEDD(紧急事件、疾病与灾难的创新支持)的新型非营利组织已经得到了洛克菲勒基金会和谷歌预测与预防计划的拨款,旨在把快速汇报疾病的工具带到东南亚湄公河流域的村庄。
“将来的路会是双向沟通,不仅仅是接收或策划,更是输入新数据。”哈佛医学院儿科助理教授、同时在儿童医院信息学任职的布朗斯坦说,“这个概念会将开放给全世界。”