用数据说话 疫情的发展未卜先知
2020-03-28郭毅可
郭毅可
数据科学对流行病学贡献巨大。
数据科学在流行病疫情控制上的应用,当然不止是统计每天的疫情数据,它是理解流行病的传染特性、传染规律和控制策略的有效性的重要手段。实际上流行病学本身是数据科学最重要的分支之一,数据科学对流行病学的贡献是巨大的。
传染病是指由特定的传染物(比如病毒、细菌),通过从受感体(人、动物、植物)直接或间接地传播给易感体,使易感体被传染的疾病。传染病有两个基本特点:①患病率影响发病率,患病率越高,发病率就越高,一个病例就可能是一个危险因素。②流行性传染病最大的特点是有感染的概率,这和人与人之间的接触模式是密切相关的。
流行病学就是研究传染过程、传染规律的学科。流行病学在最近几十年里的研究很多,实际上它不仅仅是研究流行病的问题,也还有很多其他的应用。有关流行的问题都可以用流行病学的方法来研究,比如市场的品牌效益、社交媒体里面消息的传播,等等。
流行病学的起源
流行病学起源于英国。19世纪中期,英国本土暴发了霍乱。当时英国的科学家、医生和政府官员对霍乱不了解,一筹莫展,眼看着疫情蔓延。有医生观察到,病人分布常常是住在穷人区域里的比较多。卫生条件不好,恶臭的地方比较容易得病,医生就提议用除臭剂来阻止霍乱流行。更有官员提出要把恶臭的东西彻底清掉,扔进泰晤士河里。清洗伦敦的运动发生在霍乱第一次暴发和第二次暴发之间,结果第二次暴发时死亡人数比第一次暴发多了3倍。
当时,伦敦有一个非常有名的医生,约翰·斯诺,他做了和别人不太一样的调查。斯诺走访了有家人因霍乱去世的家庭,了解有染病病人的家庭和没有染病的家庭的区别,并细致观察周围的环境;对比在同样状况下,感染霍乱的人和没有感染霍乱的人的区别,他们的生活条件、周边环境、生活方式有什么根本的不同,收集了很多数据。他针对这些对照比较的数据,来研究感染霍乱的主要决定性因素,并提出假设和进行验证。
当时在伦敦有许多家供水公司,同一地区的居民也可以选择不同的公司。斯诺调查时发现,在一个地区,使用供水公司A的家庭有1263人死于霍乱,而使用供水公司B的家庭则只有98人死于霍乱。于是,他随机地各选择了1万户使用供水公司A和B的家庭,然后进行比较,结果使用供水公司A的家庭死亡率是使用供水公司B的家庭的8.5倍。这样,他找到了霍乱暴发和水源的因果关系,提出解决霍乱暴发的方法:停止使用供水公司A的水。把伦敦苏荷区宽街与苏克莱星街交汇处的一处水井水泵的手柄拆除,不让大家喝这里的水。这个动作一下子就把伦敦霍乱的患病率降了下来。
斯诺发表了他的研究结果。30年之后,德国的微生物学家罗伯特·科赫发现霍乱的病原体“霍乱弧菌”,它是能够存活于水中的病菌,从而用科学证明了斯诺的假设。回头去看,人们认识到,供水公司A是在泰晤士河的下游取水,供水公司B则是在上游取水。上游没有受到市政府排污运动的影响;下游由于排污运动,政府在无意间创造了一个高效产生霍乱患者的社会环境,导致霍乱暴发。
斯诺通过比较两个人群组在统计意义上的不同,找出区分它们的关键因素,从而找到致病的原因,这个方法在统计学里叫做“假设检验”。斯诺以此为基础创建了一门非常伟大的学科叫流行病学(Epidemiology),他也被称为“流行病学之父”。为了纪念他,宽街的那口水井的水泵一直保留到现在,水井对面的酒吧就叫“约翰·斯诺”。
流行病学就是数据的科学
流行病学一开始就是数据科学的驱动,今天的流行病学就是一个完整的数据科学。流行病学研究要找到病原、病的生成期、潜伏期、传染性、严重性、确诊性、病毒传播的模式、风险分析、干預政策的设计和评估、疫情分析和预测。
流行病学的研究方法包括观察法、实验法、数理法都是以数据为基础的。斯诺做的产生假设、检验假设、验证假设都是统计学的基本思想。流行病学中的数据科学不一定很复杂。举一个最简单、最现实也很经典的例子,就目前暴发的新冠肺炎,伦敦帝国理工学院做了一系列报告。1月18日,伦敦帝国理工学院发表了第一份对武汉的疫情分析,这份报告影响很大,因为当时中国武汉确诊的病例是41例,但报告的预测是近4000。
这个预测是怎么做出来的呢?我们知道武汉的41例是已经确诊的,但我们并不知道到底有多少人被感染了。我们可以知道的比较准确的数据是离开武汉到了国外确诊的病例有7个,同时我们从国际航空报告里知道武汉每天有3300人出国,大概知道新冠病毒从发现到感染的平均时间是10天。
于是,我们把每天出国的3300人作为一个在武汉抽样的样本,患病周期是10天,所以总体样本空间有33000人,其中7人是确诊病例,这样就可以算出感染的概率(7/3300*10)。根据这个概率, 我们可以计算出武汉的感染人数。
武汉人口总数如果按照武汉及周边地区1900万人来算,估计被感染的有4030人。如果只考虑武汉市居民900万人,估计被感染的有1909人。这是非常粗略的估计,但它确实有统计学上的意义。我们知道2月之前, 武汉病人从有症状,到确诊也要有10天左右的时间。那么, 我们来看看1月28日官方公布的数据:湖北省累计确诊病例3554例,其中武汉市1905例。湖北省我们估算的结果多了一点,因为我们只算了1900万人,还不是整个湖北,加上实际还有未发现的病例,我们的估计是不错的。而武汉市我们估算的是1909人,官方公布的是1905人。所以,这个简单的预测还是相当准的。
这样的统计在防疫上当然是很有意义的。它告诉我们这个地方有多少人已经得病了,他们马上就要来医院了。这就为医疗资源的配置、准备,整个政策的制定争取了一段时间,这是传染病学预测非常重要的价值。
智慧城市要有免疫力和抗灾力
大家都在做智慧城市,有智慧交通、智慧安防等。但是一个城市真正想要有智慧,它就要有两个重要的方面:①它一定要知道现在,有很多信息可以采集;②还有最重要的一点,它必须能够预见未来。
中国是大数据非常丰富的国家,运营商、互联网公司有大量的数据,能不能够用好它,真正把城市的免疫力、防灾性建立起来,这很重要。
疫情发生后,我们有了AI疫情应急大数据一体化智能测温预警解决方案,一下子数据都收集起来了,但这个数据是“事后诸葛亮”,现在监控分析的是对有疫病的城市的监控。我们有了疫情应急决策系统,比如疫情应急管理资源物资大数据、教育局疫情大数据决策系统。但这些系统的数据,因为我们没有做过实验,没有在疫病之前,把这些预案都做好,所以我们只能在今天的实践中试错,错了再改,改好的代价非常大。所以,数据科学的可预见性非常重要。
做大数据研究不是仅仅把生活中的数据拿来考虑怎么做好物流、怎么让不买东西的人去买东西,这些不是数据科学的全部内容。真正的数据科学是真真实实地知道现在,从而可以精确地预见未来,这是数据科学对社会、对人民最大的重要性。
所有的这一切都应该在疾病到来之前准备好,这是智慧城市一个非常重要的标准。我认为我们将来的智慧城市要用数据来说现在,说未来,是一个数说的智慧城市。一个未来的城市应该是有免疫力和抗灾力的城市。