基于超几何分布的前瞻性时空扫描统计量在疟疾早期预警中的应用*
2015-03-09飞李晓松冯子健赵
陈 飞李晓松冯子健赵 星△
基于超几何分布的前瞻性时空扫描统计量在疟疾早期预警中的应用*
陈 飞1李晓松1冯子健2赵 星1△
目的探索基于超几何分布概率模型的前瞻性时空扫描统计量在疟疾早期预警中的应用。方法利用R语言编程实现两种前瞻性时空扫描统计量,分别基于经典的泊松分布概率模型和较新的超几何分布概率模型,模拟实时监测系统对四川省2009年疟疾病例中6月21日-30日连续10天数据进行逐日前瞻性分析。结果基于超几何分布的前瞻性时空扫描统计量和基于泊松分布的前瞻性时空扫描统计量在疟疾早期预警中效果相当,都能早期探测到疟疾的爆发。结论基于超几何分布的前瞻性时空扫描统计量在疟疾早期预警中有应用价值。
传染病预警 时空扫描统计量 超几何分布模型 泊松分布模型
近年国内外相继建立了传染病实时报告系统,使得传染病早期预警成为可能。然而其预警方法的研究仍处于探索阶段。目前国内外传染病时空预警方法中非常经典的是Kulldorff前瞻性时空扫描统计量[1-2]。
扫描统计量是一种广泛应用的统计学方法,其目的是探测局部时间和/或空间事件发生数的增加,并检验这种增加是否可由随机变异解释[3]。其基本思想是:设定一个扫描窗口,该窗口可在时间和/或空间移动,窗口的大小和位置均处于动态变化之中。对每一个扫描窗口,根据实际发病数和人口数可计算出理论发病数,然后利用扫描窗口内外的实际发病数和理论发病数构造检验统计量。统计学意义的评价采用蒙特卡罗法(Monte Carlo Method)。
经典的时空扫描统计量基于的概率模型主要是泊松分布模型和伯努利分布模型[4],基于超几何分布模型的时空扫描统计量是本文作者提出的一种新的方法[5]。该方法有着和传统方法一样的预警能力,都能给出预警信号空间范围和时间范围以及假设检验的结果。此外,当被预警疾病暴发发生于人口密度高,可能波及范围大时,基于超几何分布模型的时空扫描统计量有更高的灵敏度与阳性预测值[5]。目前尚未有现成的程序执行该方法,也尚未有利用该方法进行时空预警的探索。
本研究编制基于超几何分布模型前瞻性时空扫描统计量的R程序,并探索其在四川省的疟疾早期预警的应用。
数据收集与预处理
本研究中病例数据为2009年四川省区县级逐日疟疾病例数据,来源于国家疾病预防控制中心“全国传染病疫情信息网络直报系统”;人口数据为2009年四川省各区县人口数,来源于国家统计局;地理信息数据为四川省各区县地理坐标,来源于中国1:400万电子地图。数据清洗过程删除不能与地理信息相匹配的病例(现住地址编码不详),得到213例病例,其中1-12月份的病例数分别为14、18、11、9、24、27、24、19、19、20、19、9例。选取其中6月21日-30日连续10天的数据,进行逐日前瞻性分析。
方 法
以2009年6月21日作为预警日期对两种方法进行解释。
1.经典方法—基于泊松分布的前瞻性时空扫描统计量
(1)预警过程
首先,设定好扫描窗口的最大时间半径、最大空间半径和基线长度等关键参数(具体见下述)。由于前瞻性时空扫描统计量的扫描窗口存在两个连续变化的维度,即时间维度和空间维度;其中时间半径从0增加到预先设置的最大值,空间半径也从0增加到预先设置的最大值,因此扫描窗口的大小、位置均处于动态变化中,故在扫描过程中产生了很多扫描窗口[4,6]。
其次,对产生的每一个扫描窗口根据泊松分布模型构造检验统计量对数似然比(log likelihood ratio,LLR),用LLR来评价扫描窗口内发病数的异常程度。
令nz为三维扫描窗口Z中的实际发病数,mz为扫描窗口Z中人口数,令μ(Z)为根据无效假设得到的扫描窗口Z中预期发病数,令所有区域G的总发病数为nG,总人口数为mG,预期发病数为μ(G)。似然比检验统计量S的计算为公式(1)[4]:
其中,L(Z)是扫描窗口Z的似然函数值,L0是基于无效假设得到的似然函数值,S为所有可能的扫描窗口Z中最大的似然比。LLR=log(S)。扫描窗口Z的LLR越大表明越有可能存在聚集。选出LLR最大的窗口,该窗口为最有可能聚集信号(most likely cluster,MLC)。
最后利用蒙特卡罗法产生模拟数据集,对模拟数据集用跟真实数据集一样的方法进行计算,找出最有可能聚集信号,计算P值。本研究采用9999次模拟数据,对9999个模拟数据集计算最大的LLR,然后加上真实数据集的LLR进行由小到大的排序,若真实数据集的LLR排序为第500位,则P=500/(9999+1)=0.05。
(2)关键参数及其设定
①最大时间半径
时空扫描窗口的时间上限,也就是扫描窗口在时间维度上由零一直增加到设定的上限值。
②最大空间半径
时空扫描窗口的空间上限,可选择以人口比例或物理空间半径来设置扫描空间窗口上限,经典默认值为50%人口。
③基线长度
在逐日分析中每次分析纳入发病时间当天以及当天之前的n天的病例作为基线数据以提供基线信息。
④6月21日所对应的参数设置
时间半径选择7天,即最大时间预警长度为6月 15日-21日。
空间半径通过人口比例来设置扫描空间窗口上限,设定2009年四川省总人口数的10%作为上限值。本研究中选择30天作为基线长度,即5月23日-6月21日,主要考虑到疟疾潜伏期12-30日[7],30天既可提供足够的基线,也可避免纳入太多与当前无关的信息。国内也有研究认为对于痢疾,将4天的病例数按1阶权重取和后再进行空间扫描统计量预警运算,具有最优的预警效果[8]。
2.新方法—基于超几何分布的前瞻性时空扫描统计量
和经典方法一样,其目的也是探测潜在的聚集和检验该聚集有无统计学意义。具体参数设定和扫描过程与经典方法完全一致,但对于扫描窗口构造的检验统计量不同。本法应用了超几何分布概率模型,即从有限总体中不放回的抽出n个样本,成功抽出指定样本的概率。
时空扫描统计量零假设是疾病在所研究区域内是随机分布的,也就是说每个人都有同样的机会发病,概率计算公式如下:
此概率越小,表明病例在窗口Z内外随机分布的概率越小。最有可能聚集信号的概率应最小,
Φ与上述(2)式一致,S*为最有可能聚集信号所对应的概率值,该聚集信号的统计学意义的评价仍采用蒙特卡罗法计算P值。
3.R语言编程实现及编程结果的正确性验证
时空扫描统计量的标准软件SatScan[9]可执行泊松概率模型的算法,但没有基于超几何模型的模块,故本研究采用R语言编程实现该算法。为保证编程的准确,先用R编写基于泊松分布的算法,并和SatScan结果作比较,在二者结果一致的情况下再修改R语言代码实现基于超几何分布算法。这样可保证编制的算法除了检验统计量外,其他部分与SatScan完全一致。具体流程如图1所示
图1 验证R语言编程结果的正确性和可比性
结 果
1.编程结果的正确性
模拟实时监测系统,对四川省2009年6月21日-30日疟疾数据进行逐日前瞻性分析。表1是基于泊松分布和超几何分布模型的时空扫描统计量预警结果,分别是使用SatScan的泊松分布模型的运算结果、使用R编程的泊松分布模型的运算结果和使用R编程的超几何分布模型的运算结果。
根据表1、2可知,三种预警结果基本一致,只是在没有统计学意思(P>0.05)的预警结果存在些许差别,此处不再赘述,有统计学意义的预警结果(P<0.05)除了P值有微小差别之外,其余都完全一致。
2.预警结果的实际意义
综合表1、2中给出的不同指标可得出预警的实际意义。其中,最有可能聚集信号(MLC)表明最有可能发生聚集的窗口,相应的次有可能聚集性信号(secondary clusters)表明发生聚集可能性相对于MLC略小的窗口。预警信号空间范围和时间范围表明聚集在以下空间和时间范围发生,故在现实中可对该区域采取相应的控制措施,预警信号空间范围是用行政区划代码代替具体的地域(四川省各区县);P值可以计算无效预警发生率(Null Occurrence Rate,NOR),其定义为NOR=1/P天,NOR是指假设不存在聚集性,那么出现虚假预警信号的时间间隔[6],例如某预警信号P=0.01,那么意味着每100天可能出现这样一个虚假预警,由此可知P值越小,则NOR越大,说明聚集性越强;相对危险度可知预警区域内的疟疾发病率是预警区域外发病率的倍数[9],如6月21日所对应的MLC的相对危险度值为319.13,表明在代码510411所对应的区县疟疾的发病率是其他区县疟疾发病率的319.13倍,6月21日-30日MLC所对应的相对危险度最大值为607.88,最小值为19.38,且在0.05水平下基本上都是有统计学意义的(除了6月29日和30日),当然相对危险度值大小与聚集区域内的病例数和人口数有关。
所以结合NOR、相对危险度和预警信号的空间和时间范围可以综合判断疾病的聚集性,有助于政府有针对性的对该区域采取相应的控制措施,合理分配卫生资源,降低因传染病暴发而造成的人生和财产的损失。
表1 疟疾时空前瞻性预警最有可能聚集性信号(MLC)结果
表2 疟疾时空前瞻性预警次有可能聚集性信号结果
讨 论
本文采用R语言编程的方式实现了基于超几何分布模型的前瞻性时空扫描统计量,该算法在现有软件目前尚不能实现。由于篇幅所限且代码较长,不能将R语言程序代码添加在文章,可与通讯作者联系获取代码。
基于不同概率模型的前瞻性时空扫描统计量对传染病的预警,尽管概率分布模型不同,但都能得到时空二维的预警结果,相对于单纯时间扫描统计量有明显的优势。单纯时间扫描统计量只能提供时间信息,即某时间内有无聚集性存在,而时空扫描统计量不仅可得到有无聚集,还可得到聚集的准确时间和空间,由于其充分利用了数据中的时间和空间信息,其预警结果更准确、及时,因此时空扫描统计量的预警结果更有实际意义[1,10-12]。
本文实现了基于超几何分布的前瞻性时空扫描统计量,本方法和经典方法有着相似的预警能力。模拟研究表明,当被预警疾病暴发发生于人口密度高,可能波及范围大时,基于超几何分布的前瞻性时空扫描统计量,预警能力强于经典方法[5]。疟疾在西南地区发病率较高[13]。因此,可考虑基于超几何分布的前瞻性时空扫描统计量。此外,以上方法及结论还适用于其他传染病的早期预警。扫描统计量的正确应用除需要选择合适的模型外,还与窗口的形态,参数设置都相关,这些都是未来的研究方向。
1.殷菲,李晓松,冯子健,等.基于网络直报系统和时空聚集性探测的传染病模拟实时监测与预警.现代预防医学,2009,36(12):2204-2207.
2.Kulldorff M.Prospective time periodic geographical disease surveillance using a scan statistic.Journal of the Royal Statistical Society:Series A(Statistics in Society),2001,164(1):61-72.
3.Glaz J,Pozdnyakov V,Wallenstein S.Scan statistics:methods and applications,2009:Springer.
4.Kulldorff M.A spatial scan statistic.Communications in Statistics-Theory and methods,1997,26(6):1481-1496.
5.Zhao X,Zhou XH,Feng ZJ,et al.A Scan Statistic for Binary Outcome Based on Hypergeometric Probability Model,with an Application to Detecting Spatial Clusters of Japanese Encephalitis.PloS one,2013,8(6):e65419.
6.殷菲,冯子健,李晓松,等.基于前瞻性时空重排扫描统计量的传染病早期预警系统.卫生研究,2007,36(4):455-458.
7.张贤昌,林荣幸.疟疾防治知识.华南预防医学,2007,33(3):73-76.
8.李小洲,王劲峰,廖一兰,等.基于不同参数的空间扫描统计量方法在传染病暴发探测中效果比较.中国卫生统计,2014,(2):236-239.
9.Kulldorff M.SaTScan user guide for version 9.0.2011.http://www. satscan.org/
10.Goldenberg A,Shmueli G,Caruana RA,et al.Early statistical detection of anthrax outbreaks by tracking over-the-counter medication sales.Proceedings of the National Academy of Sciences,2002,99(8):5237-5240.
11.Lawson AB,Cressie N.11 Spatial statistical methods for environmental epidemiology.Handbook of statistics,2000,18:357-396.
12.Rogerson PA.Monitoring point patterns for the development of spacetime clusters.Journal of the Royal Statistical Society:Series A(Statistics in Society),2001,164(1):87-96.
13.康万民,陈怀录,文松,等.四川省疟疾形势.寄生虫病与感染性疾病,1993,2:003.
(责任编辑:郭海强)
The Application of Prospective Space-time Scan Statistics Based on Hypergeometric Distribution Model in the Early Warning of Malaria
Chen Fei,Li Xiaosong,Feng Zijian,et al.(West China School of Public Health,Sichuan University(610041),Chengdu)
ObjectiveTo investigate the application of prospective space-time scan statistic in the early warning of malaria.MethodsWe implement the R code for two prospective space-time scan statistics,based on Poisson and hypergeometric models,respectively.They were applied to the daily prospective analyses of malaria data of Sichuan province from June 21th to 30th,2009.ResultsThe prospective space-time scan statistic based on Poisson and hypergeometric models both could timely detect the outbreaks of malaria.ConclusionThe prospective space-time scan statistic based on hypergeometric distribution model has the potential value in the early warning of infectious diseases.
Early warning of infectious diseases;Malaria;Space-time scan statistic;Hypergeometric distribution model
四川大学青年教师科研启动基金(2015SCU11012)
1.四川大学华西公共卫生学院流行病学与卫生统计学系(610041)
2.中国疾病预防控制中心
△通信作者:赵星,E-mail:zhaoxing731@gmail.com