健康研究中的空间集群检测方法*
2014-04-03徐丽方亚
徐 丽 方 亚
健康是人们正常生活的基本保障,健康相关研究倍受国内外学者关注。健康变量大多与环境紧密相关,但传统的健康研究仅仅关注变量属性本身,忽略了与其相关联的地理信息,而空间集群检测方法(spatial clustering detection)能够同时考虑这两方面的信息,如今已逐渐成为空间分析的研究热点之一。空间集群检测的主要目的是探索变量的空间分布规律,通常将其与GIS结合,从而能够以可视化的方式呈现检测结果。它在许多领域均有重要应用,尤其在健康研究方面,如识别高危人群、分析健康服务可及性和评估疫苗保护功效等。本文旨在对应用于健康研究的空间集群检测的传统方法及其进展进行梳理,比较各方法的优缺点,为相关研究提供参考。
应用空间集群检测方法的文献检索结果
分别在CNKI核心期刊与ScienceDirect数据库检索中英文文献,检索过程如图1所示,检索结果见表1。
图1 检索流程图
表1 有关空间集群检测方法的文献检索结果
综合文献检索结果发现,国外从20世纪40年代就开始运用空间集群检测方法且主要集中于农业与生物科学研究,在健康研究中的应用始于60年代;我国从80年代开始应用该方法,且主要集中在经济管理领域,之后也有应用于健康研究,但其研究规模远赶不上国外。另外,从研究内容上,我国主要集中在疾病的空间分布,而国外不仅涉及的疾病种类更多而且在健康服务可及性、疫苗功效评估等方面也有不少应用。
传统的空间集群检测方法
传统上,集群检测的主要目的在于验证某个假说,即某地区某种疾病的实际发病率与随机出现的预期发病率相同,由此找到可能的统计异常值,确定该疾病是呈现一定的集群特征还是随机分布,主要方法如下:
1.Geary C 系数、全局Moran指数、全局Getis-Ord G系数、Knox检验、Cuzick-Edward 检验
Geary C 系数(1954)、全局Moran 指数(1948)和全局Getis-Ord G系数(1992)(简称G系数)主要从相邻区域的空间关联性判断变量分布是否存在空间集群,被广泛用于刻画疾病风险、医疗资源利用与疫苗功效评估[1-6]等的空间分布特征,其中,后两种方法应用较多。G系数克服了Moran指数不能区分空间数据是高值聚集还是低值聚集的局限,但有研究表明,当估计聚集区域位于研究区域的边缘时,Moran指数的结果更为可靠[7]。
Knox检验(1964)[8]将累计病例对子数与相同的距离和时间间隔内的随机预期数进行对比,由此判断疾病时空集群特征[9-11]。该方法能够有效检测潜伏期短、发病急但发病率并不高的传染病的时空交互作用,但其对时空临界值的选择较为主观,详见表2。
表2 空间集群检测方法的比较
Cuzick-Edward 检验(1990)[12]将观测到的k阶近邻病例对子数与病例组和对照组均为空间随机分布情形下的预期数进行比较,若前者明显大于后者则表明存在明显的空间集群。它主要用于人群密度不均匀的情形[13,14],其中,阶数k与病例对照比的选择是影响检测结果的关键因素,最佳k的选择依赖于先验知识或通过多重检验调整得到。
2.核估计、空间K/L函数
以上所述方法大多是以发病率确定疾病的高危区域,其结果可能受到人口规模与年龄结构的影响。为此,人们又提出一些方法,如核估计、最近邻估计和空间K/L函数,以消除疾病集群确定过程中的偏差[15]。
核估计(1955)直接从数据本身出发研究数据的分布特征,因此也可用于研究事件的空间集群特征。该方法可定量绘制出疾病分布的二维和三维图,直观地刻画疾病的空间分布特征,包括疾病分布的聚集中心及其程度,但其结果受窗宽大小的影响,其应用相对较少[16-19]。
空间K函数(1977)可检测达到一个给定距离范围内的集群或分散特征,其最大优点是能够在任意尺度下探索空间格局。K函数难以直观地解释,因此通常对其进行平方根变化,即用L函数来替代(1981)[20-21]。空间K函数只使用连续距离范围内点事件数目的计数,在应用时通常需要进行数据汇总而造成信息损失。有研究者通过对英国诺福克道路交通事故和兰开夏郡肺癌与喉癌两个案例的分析,认为生存分析可以更好地刻画事件间的距离分布,对空间格局分析更加深入,且对尺度效应更为敏感,从而可以作为K函数的有益补充[22]。
空间集群检测方法的发展
1.等值线图
近年来的研究超越了假设检验的思想,对空间集群检测方法进行了拓展且能够用于定义风险地形。等值线图(isopleth map)基于地统计数据,最初主要用于可视化气温、降水、地形等的连续变化,尤其适合于帮助查看潜在风险的地理分布,现已成为空间集群检测的方法之一[15,23-24]。传统上基于发病率确定空间集群的方法存在无法外推到其他地区的局限,因此,有研究者认为等值线图可以克服这一局限,且其结果更为稳健[15],但其结果容易受到人工插值的影响,从而产生偏倚[24]。
2.Besag-Newell 检验、LISA(local index of spatial autocorrelation)和Getis G*系数
全局Moran 指数等方法能够从总体上判断整个研究区域是否存在集群,但无法对集群的位置进行准确定位,从而存在捕捉人群分布和医疗地点的影响区域不充分等问题,由此产生了Besag-Newell 检验、LISA和Getis G*系数等方法。
Besag-Newell 检验(1991)[25]考虑了基础人群密度的异质性,专门用于罕见疾病如血吸虫病等的局部空间集群检测[14]。但它基于多重比较的思想容易产生集群的误检,且其在实际应用中通常需要同时指定不同的集群规模(只有在不同规模上均通过统计学检验才认为存在空间集群),因此倾向于检测到最高风险区域而忽略其他区域。
Anselin(1995)[26]和Getis(1995)[27]分别基于局域Moran 指数和局域Getis G系数提出LISA和Getis G*系数,它们被广泛用于识别某种疾病的高发区域及分析卫生和服务的可及性[1,28-33]。大多数情况下,这两种方法的结果相似,但也有研究者基于模拟的空间区域比较它们的检测结果,发现后者优于前者[34]。在识别累计发病率低但严重程度高的地区时,仅使用年发病率作为集群检测的唯一指标存在局限性。为此,有研究者利用LISA分析了三种时空指数即病例发生概率、平均每波持续时间和传输强度,不仅考虑了疾病发病规模,还考虑到疾病的潜在严重程度。通过分析,他认为国家和地方的卫生官员更应将重点放在持续时间长及传播强度高的疾病风险区域[31]。
3.空间扫描统计
总体来说,识别疾病高风险区域的方法较为丰富。然而,许多空间集群检测方法只能说明整个研究区域是否存在空间集群,而无法揭示出集群地点或组成方面的更多信息,且大多没有考虑基础人群异质性可能造成的影响。为此,Kulldorff(1997)[35]提出空间扫描方法,不仅能够检测疾病在研究区域是否存在集群,还能够对集群的大小和位置进行定位,已成为近年空间集群检测的常用方法。空间扫描统计(简称空间扫描)通常根据相对风险找出风险值较高的主要集群,并利用蒙特卡罗方法生成的抽样分布检验集群的显著性。
扫描窗口与被扫描区域的形状是否一致是影响检测结果的关键因素。在实际研究中,被扫描区域的形状可能不是规则的,因此,Kulldorff与Nagarwalla等研究者对扫描窗口进行了研究,其形状也由最初的圆形、椭圆形发展为任意多边形[35-37]。空间扫描能够同时考虑到多个空间尺度上的附近集群,而没有事先假定集群的大小或位置,避免了常见的选择偏倚问题且易于根据人口密度或年龄等协变量进行调整,从而能够消除因构成不一致而引起的偏差[14]。
空间扫描以其良好的统计性能成为近年来疾病群集检测运用最为广泛的方法之一,主要用于检测耶尔森菌鼠疫、血吸虫病、肝癌、儿童自闭症等疾病[13,14,38-46]的空间集群特征。其中,Chris Green(2003)[42]利用空间扫描与汇总到现有的行政区域这两种数据汇总方式进行回归分析,发现借助空间扫描的方式更为合理,可用于探索慢性病的病因。Zhijie Zhang(2008)[14]则同时利用Besag-Newell 检验和空间扫描检测我国贵池血吸虫病的局部空间集群,结果发现后者更适合局部集群的检测,因为它对多重比较进行了校正且对不同区域人口密度的异质性进行了调整。
然而,空间扫描也存在局限性,如该方法在流动人口较多地区或发病数极少的情形下检出率较低且当分析地点与实际地点不一致时(如疾病发生在工作单位,而由于工作单位对应的地理信息不容易得到,通常会采用家庭地址来代替)会产生统计偏倚[41,47],详见表2。
另一方面,有研究者认为空间扫描过于关注集群的统计显著性,可能会忽视那些相对风险适度但规模庞大的高危人群,即忽略了公共卫生的意义[48]。通过对肺癌病例的实证分析,他认为若干预的对象是具体的地点而不是个体时,归因风险百分比或许是刻画风险更有用的方法,因为它可以表明对具体哪个地方的干预会使疾病总体负担得到最大程度的减轻。
4.时空扫描统计
时空扫描统计(简称时空扫描)最早由Kulldorff等人1998年提出[49],用于洛斯阿拉莫斯国家实验室脑癌集群预警评估。它是空间扫描的扩展,即加入了时间要素,因此常用的扫描窗口由圆形变为圆柱形,底与高分别对应一定的地理区域和时间长度。相较于空间扫描,时空扫描的优势在于其充分挖掘和利用了疾病监测数据中的时空信息,且不依赖于人口数据,避免了因人口数据问题产生的统计偏倚,其主要应用于狂犬病、结核病、麻疹、非洲人类锥虫病(HAT)等[50-53]疾病的时空特征研究。
与空间扫描类似,时空扫描的效能依赖于扫描窗口子区域的大小及时间间隔的设定。若研究子区域相互之间距离过远或研究对象时间跨度过大,将会影响其检测结果的可靠性。另一方面,时空扫描假定研究区域内各子区域人口增长速度一致,这与实际情形不一定相符[47],从而可能引起分析误差。
小 结
空间集群检测方法是空间分析的研究热点之一,它在许多领域尤其在健康研究方面有重要应用。空间集群检测主要通过探索变量在空间上的分布规律识别疾病风险异常区域、分析风险地形及健康服务的可及性,识别高危人群或资源供给不足地区,提高人们对疾病成因及其演进规律的认识,加强疾病监测与风险管理,提高健康服务的质量与效率。
总体而言,空间集群检测方法较为丰富,发展也相对成熟。许多空间集群检测方法能够从总体上判断整个研究区域是否存在集群,但无法对集群的位置进行定位。而空间扫描能够对集群的大小和位置进行定位且易于对人群异质性进行调整,已成为空间集群检测的经典方法(关于上述方法的比较详见表2)。然而,空间集群特征可能较为复杂,单纯运用某种方法具有局限性,因此,在实际的健康研究中,研究者通常会结合不同方法来确定事件的空间(或时空)分布特征。
值得注意的是,近年来,许多研究者会借助贝叶斯平滑制图[54]、趋势面分析[55]或空间统计模型[56-57]的结果初步判断是否存在空间集群,然后可据此利用空间集群检测方法进一步验证是否存在集群及集群的具体位置,这大大提高了空间集群检测的效率,研究结果也更为可靠。
参 考 文 献
1.Lorant V,Thomas I,Deliege D,et al. Deprivation and mortality: the implications of spatial autocorrelation for health resources allocation. Social Science & Medicine,2001,53(12):1711-1719.
2.Joines JD,Hertz-Picciotto I,Carey TS,et al.A spatial analysis of county-level variation in hospitalization rates for low back problems in North Carolina.Social Science & Medicine,2003,56(12):2541-2553.
3.Hsueh Y,Lee J,Beltz L.Spatio-temporal patterns of dengue fever cases in Kaoshiung City,Taiwan,2003-2008.Applied Geography,2012,34:587-594.
4.Ali M,Emch M,Yunus M,et al.Modeling spatial heterogeneity of disease risk and evaluation of the impact of vaccination.Vaccine,2009,27(28):3724-3729.
5.Sridharan S,Tunstall H,Lawder R,et al.An exploratory spatial data analysis approach to understanding the relationship between deprivation and mortality in Scotland.Social Science & Medicine,2007,65(9):1942-1952.
6.Hollands S,Campbell MK,Gilliland J,et al.A spatial analysis of the association between restaurant density and body mass index in Canadian adults.Preventive Medicine,2013,57(4):258-264.
7.张松林,张昆.全局空间自相关 Moran 指数和 G 系数对比研究.中山大学学报(自然科学版),2007,46(4):93-97.
8.Knox EG,Bartlett MS.The detection of space-time interactions.Journal of the Royal Statistical Society.Series C(Applied Statistics),1964,13(1):25-30.
9.陈建国,柳标,姚红玉,等.启东县儿童恶性肿瘤死亡率分析.中国卫生统计,1990,7(2):12-15.
10.Rotela C,Fouque F,Lamfri M,et al.Space-time analysis of the dengue spreading dynamics in the 2004 Tartagal outbreak,Northern Argentina.Acta tropica,2007,103(1):1-13.
11.刘巧兰,李晓松,冯子健,等.Knox方法在传染病时空聚集性探测中的应用.中华流行病学杂志,2007,28(8):802-805.
12.Cuzick J,Edwards R.Spatial clustering for inhomogeneous populations.Journal of the Royal Statistical Society.Series B(Methodological),1990:73-104.
13.Hoar BR,Chomel BB,Rolfe DL,et al.Spatial analysis of Yersinia pestis and Bartonella vinsonii subsp.berkhoffii seroprevalence in California coyotes(Canis latrans).Preventive Veterinary Medicine,2003,56(4):299-311.
14.Zhang Z,Carpenter TE,Chen Y,et al.Identifying high-risk regions for schistosomiasis in Guichi,China: A spatial analysis.Acta Tropica,2008,107(3):217-223.
15.Ali M,Emch M,Donnay J P,et al.The spatial epidemiology of cholera in an endemic area of Bangladesh.Social Science & Medicine,2002,55(6):1015-1024.
16.王功军,骆福添.核估计在小地域分析疾病中的应用.中国医院统计,2005,12(3):231-233.
17.Xie Z,Yan J.Kernel Density Estimation of traffic accidents in a network space.Computers,Environment and Urban Systems,2008,32(5):396-406.
18.迟文学,王劲峰,李新虎,等.出生缺陷的空间点格局分析.环境与健康杂志,2007,24(4):238-241.
19.Brunsdon C.Estimating probability surfaces for geographical point data: An adaptive kernel algorithm.Computers & Geosciences,1995,21(7):877-894.
20.Ripley BD.Modelling spatial patterns.Journal of the Royal Statistical Society.Series B(Methodological),1977:172-212.
21.Weigand T.Introduction to point pattern analysis with Ripley’s L and O-ring statistic using the Programita Software.Department of Ecological Modelling,UFZ—Centre of Environmental Research,Leipzig,2004:25-26.
22.Reader S.Using survival analysis to study spatial point patterns in geographical epidemiology.Social Science & Medicine,2000,50:985-1000.
23.Boscoe FP,Mclaughlin C,Schymura MJ,et al.Visualization of the spatial scan statistic using nested circles.Health & Place,2003,9(3):273-277.
24.唐芳,薛付忠,王洁贞,等.疾病空间分布的“等值线-面积”多重分形模型及其应用.山东大学学报(医学版),2006,44(11):1154-1158.
25.Besag J,Newell J.The detection of clusters in rare diseases.Journal of the Royal Statistical Society.Series A(Statistics in Society),1991:143-155.
26.Anselin L.Local indicators of spatial association-LISA.Geographical analysis,1995,27(2):93-115.
27.Ord JK,Getis A.Local spatial autocorrelation statistics: distributional issues and an application.Geographical analysis,1995,27(4):286-306.
28.武继磊,王劲峰,孟斌,等.2003年北京市SARS疫情空间相关性分析.浙江大学学报(农业与生命科学版),2005,31(1):100-104.
29.冯昕,杜世宏,舒红.空间权重矩阵对空间自相关的影响分析——以我国肾综合征出血热疾病为例.武汉大学学报(信息科学版),2011,36(12):1410-1413.
30.Charreire H,Combier E.Poor prenatal care in an urban area: A geographic analysis.Health & Place,2009,15(2):412-419.
31.Wen T,Lin NH,Chao D,et al.Spatial-temporal patterns of dengue in areas at risk of dengue hemorrhagic fever in Kaohsiung,Taiwan,2002.International Journal of Infectious Diseases,2010,14(4):e334-e343.
32.山珂,徐凌忠,王兴洲,等.基于GIS的我国卫生资源配置空间分析.中国卫生统计,2013,30(3):339-342.
33.Archibald ME,Putnam Rankin C.A spatial analysis of community disadvantage and access to healthcare services in the U. S. Social Science & Medicine,2013,90(0):11-23.
34.张松林,张昆.空间自相关局部指标 Moran 指数和 G 系数研究.大地测量与地球动力学,2007,27(3):31-34.
35.Kulldorff M. A spatial scan statistic.Communications in Statistics-Theory and methods,1997,26(6):1481-1496.
36.Kulldorff M,Huang L,Pickle L,et al.An elliptic spatial scan statistic.Statistics in medicine,2006,25(22):3929-3943.
37.Duczmal L,Assuncao R.A simulated annealing strategy for the detection of arbitrarily shaped spatial clusters.Computational Statistics & Data Analysis,2004,45(2):269-286.
38.Forand SP,Talbot TO,Druschel C,et al.Data quality and the spatial analysis of disease rates: congenital malformations in New York State.Health & Place,2002,8(3):191-199.
39.Allepuz A,Lopez-Quilez A,Forte A,et al.Spatial analysis of bovine spongiform encephalopathy in Galicia,Spain(2000-2005).Preventive Veterinary Medicine,2007,79:174-185.
40.唐咸艳,仇小强,黄天壬,等.空间扫描统计在广西肝癌空间格局中的应用研究.中国卫生统计,2009,26(2):114-116.
41.Messina JP,Emch M,Muwonga J,et al.Spatial and socio-behavioral patterns of HIV prevalence in the Democratic Republic of Congo.Social Science & Medicine,2010,71(8):1428-1435.
42.Green C,Hoppa RD,Young TK,et al.Geographic analysis of diabetes prevalence in an urban area.Social Science & Medicine,2003,57(3):551-560.
43.康万里,郑素华.空间扫描统计在中国菌阳结核病分布中的应用.中国卫生统计,2012,29(04):487-489.
44.Bihrmann K,Nielsen SS,Tof N,et al.Spatial differences in occurrence of paratuberculosis in Danish dairy herds and in control programme participation.Preventive Veterinary Medicine,2012,103:112-119.
45.Mazumdar S,Winter A,Liu K,et al.Spatial clusters of autism births and diagnoses point to contextual drivers of?increased prevalence.Social Science & Medicine,2013,95(0):87-96.
46.Adegboye OA,Kotze D.Disease mapping of Leishmaniasis outbreak in Afghanistan: spatial hierarchical Bayesian analysis.Asian Pacific Journal of Tropical Disease,2012,2(4):253-259.
47.王小莉,王全意,栾荣生,等.传染病疫情早期预警的主要模型.现代预防医学,2008,35(22):4339-4341.
48.Yiannakoulias N.Using population attributable risk to understand geographic disease clusters.Health & Place,2009,15(4):1142-1148.
49.Kulldorff M,Athas WF,Feurer EJ,et al.Evaluating cluster alarms: a space-time scan statistic and brain cancer in Los Alamos,New Mexico.American journal of public health,1998,88(9):1377-1380.
50.Suzuki K,Pereira J,Lopez R,et al.Descriptive spatial and spatio-temporal analysis of the 2000-2005 canine rabies endemic in Santa Cruz de la Sierra,Bolivia.Acta tropica,2007,103(3):157-162.
51.刘云霞,李士雪,王忠东,等.基于时空重排扫描统计量的结核病聚集性研究.山东大学学报(医学版),2009,28(12):122-125.
52.彭志行,丁晓艳,陶红,等.地理信息系统分析技术在麻疹防治中的应用研究.中国卫生统计,2011,28(5):523-526.
53.Berrang-Ford L,Lundine J,Breau S.Conflict and human African trypanosomiasis.Social Science & Medicine,2011,72(3):398-407.
54.Moraga P,Lawson AB.Gaussian component mixtures and CAR models in Bayesian disease mapping.Computational Statistics & Data Analysis,2012,56(6):1417-1433.
55.Li XH,Tian HD,Heiner M,et al.Global occurrence and spread of highly pathogenic avian influenza virus of the subtype H5N1.Avian diseases,2011,55(1):21-28.
56.Alegana VA,Atkinson PM,Wright JA,et al.Estimation of malaria incidence in northern Namibia in 2009 using Bayesian conditional-autoregressive spatial-temporal models.Spatial and spatio-temporal epidemiology,2013,7:25-36.
57.黄秋兰,唐咸艳,周红霞,等.四种空间回归模型在疾病空间数据影响因素筛选中的比较研究.中国卫生统计,2013,30(3):334-338.