关于空间聚类应用的文献综述
2017-11-07吴越
吴越
摘 要 空间聚类分析是空间分析的一种重要的方法及技术,并广泛应用于城市规划、生态环境、交通、商业市场分析、公共卫生与社会等领域。因而,本文按照该五个领域,选取具有参考价值的代表性中外文献,针对空间聚类技术的相关应用进行综述。分析出空间聚类技术的普遍短板与未来发展方向,为相关学者的进一步研究提供参考。
关键词 空间聚类 空间分析 文献综述
中图分类号:TP274 文献标识码:A DOI:10.16400/j.cnki.kjdkz.2017.09.015
A Literature Review of Spatial Clustering Applications
WU Yue
(School of Resource and Environmental Sciences, Wuhan University, Wuhan, Hubei 430072)
Abstract Spatial clustering analysis is an important method and technology of spatial analysis, and is widely used in urban planning, ecological environment, transportation, commercial market analysis, public health and social fields. Therefore, according to the five fields, this paper selects representative Chinese and foreign literature with reference value, and summarizes the related applications of spatial clustering technology. The general short board and future development direction of spatial clustering technology are analyzed, which will provide reference for further research of related scholars.
Keywords spatial clustering; spatial analysis; literature review
0 引言
空間聚类分析是数据分析的一种重要方法及技术。通过对空间数据的凝聚趋势、分布规律的研究分析,GIS人员可以发现其隐含的模式和规律,甚至预测对象未来发展方向,为G1S智能化分析和GIS决策提供支持。
目前,空间聚类分析已广泛应用于城市规划、生态环境、交通、商业市场分析、公共卫生与社会等领域。国内外学者针对不同领域,提出多种改进的空间聚类算法。在此背景下,本文按照该五个领域,选取具有参考价值的代表性中外文献,针对空间聚类技术的相关应用进行综述。分析出空间聚类技术的普遍短板与未来发展方向,为相关学者的进一步研究提供参考。
1 空间聚类方法的现状
目前,根据数据类型、应用目的等的不同,聚类算法可以分为:划分法,层次法,密度法,网格法,模型法等五类方法。
(1)划分法,该方法为最早出现的经典算法,其典型代表为k-means聚类算法。该方法效率高且易于理解,所以应用广泛。该算法把n个对象分成k个簇,使簇内具有较高的相似度,而簇间的相似度较低。(2)层次法,该方法将数据对象组成一棵聚类的树。根据其层次分解方向的不同,可分为凝聚法或分裂法。(3)密度法,该方法按照区域密度进行划分,不同于传统距离划分得到的类圆形聚类区域,其可以获得任意形状的聚类区域。(4)网格法,该方法以多分辨率的网格数据结构为基础,计算以单个网格进行开展,从而节约大量计算时间。(5)模型法,该方法以数学模型为核心,通常基于数据符合一定的数学规律进行分布的假设进行研究。
2 空间聚类应用领域分析
2.1 城市规划方面
城市规划是以科学思想、客观数据、专家决策为基础,对城市经济结构、空间结构、社会结构等多方面发展进行规划,发挥着指导城市建设、确定城市发展方向的重要作用。而由于城市系统本身的复杂性,城市规划是一个需要反复修订,长期调整的决策过程。
在此背景下,GIS人员可以凭借空间聚类技术,通过研究不同设施的分布模式,从而合理设定、评估城市空间布局方案,为城市规划决策提供建议,提高城市居民的生活质量。
其中最典型的便是DBSCAN空间聚类算法的应用。针对空间聚类过程中对非空间属性的忽略问题,Sander(1998)在DBSCAN算法基础上提出了GDBSCAN算法,可有效结合点目标的空间属性和非空间属性。国内,李新延(2005)在城市规划领域,对DBSCAN空间聚类算法进行了实例研究。他的研究结果表明,该算法可以发现城市点状设施(如公共设施和市政公用设施)的聚集特征和分布模式中存在的问题。从而对规划设计中的某些规范或指标进行修正,为城市规划提供科学的依据和指导。
用空间聚类方法进行城市功能分区也是一种有益的尝试,它不仅能为准确地划分功能区提供依据,而且也可以减少主观性,具有较强的客观性。杨帆(2007)提出将面状统计单元进行网格划分,引入基于网格密度聚类算法的思想,克服传统面状聚类的诸多缺点。但其结果受k值选取的主观性影响。王艳(2009)分别运用K—平均算法、神经网络模型进行空间聚类计算,挖掘研究对象隐含的空间聚集信息。其研究结果表明,K—平均算法受分类过程的随机性与分类人员的主观不确定性影响较大,缺乏自学习能力。而神经网络模型由于具有较强的自学习和自适应能力,其分类结果更加客观。辜寄蓉(2011)则利用Delaunay三角剖分和格雷厄姆方法构造了功能区自动划分算法。该算法可以自动实现功能区划分,同样降低了人为主观因素对划分结果的影响。endprint
王海軍(2006)分析了传统城镇土地定级方法的不足后,提出了基于空间聚类的地价分区定级法,并以石狮市土地定级为例,验证了此方法。但该方法在城镇土地市场发育不成熟、土地市场机制不完善、土地交易样点较少的城镇应用受到限制。
在城市突发事件的应急管理方面,空间聚类技术同样有良好的表现。樊博(2008)研究提出的(COD-MEANS-CLASA)的空间聚类算法,综合考虑了空间障碍因素和空间环境因素,探索出基于数据驱动的城市应急机构选址方案。与其他空间聚类方法进行对比,在执行效率和解质量两方面具有更好的表现。
城市文化建设方面,Mommaas(2004)通过研究新西兰在过去五到十年间的城市文化聚类现象,探索了文化与经济发展之间的联系,为城市文化建设政策提供了指导意见。
2.2 商业市场领域
选址的正确与否对商业活动的成功起着举足轻重的作用,传统的商业选址方法多以数学模型或经验法则为主,而近年来随着城镇化进程的急速发展,利用传统数理方法进行商业选址不能满足商业选址的迫切需求。空间分析为商业选址决策提供快速有效的可视化定量分析方法。
姜亚莉(2014)以珠海市为例,通过地域性数据,如某区人口数目、某区道路数量等,加权平均得出某区域的商业发展潜力。其从宏观层面上利用空间聚类对商业选址进行可视化定量操作的结果较为满意,但微观层面(如选址因素、地点)仍有待进一步精确。
空间聚类应用于具体产业分析,对于该产业的设址、销售、服务等决策问题均发挥着指导作用。汽车业,高涛(2017)采用车载GPS技术和改进的DBSCAN算法将陕重汽的不同类型车辆的行驶GPS数据进行空间聚类分析,最终得到不同车辆的活动热点地区分布数据。分析结果对今后车辆的设计、销售及售后的相关决策问题有着重要的参考价值。餐饮业方面,Austin(2005)研究了学校周边的快餐店集聚现象,为快餐店具体选址提供了依据。
2.3 交通领域
随着私家车占有率的不断提高,出行安全与道路堵塞问题始终占据着民生问题的焦点。出行方面,肖慎(2002)采用基于模糊划分的模糊聚类方法,建立了公路交通事故黑点成因分析方法和模型。该模型可帮助交通管理人员归纳事故成因,促进其采取相应的道路改善和交通管理措施,有效治理和防范公共交通事故。
交通流预测同样对于路径诱导、路网管控有着重要的作用。许榕(2015)提出了基于空间聚类的短时交通流预测Cluster-NN模型,以遥控视频摄像数据作为预测模型的输入,对区域内交通流进行了聚类分析预测。
此外,随着电子商务的发展,物流作为供应链管理的组成部分,成为决定电子商务公司成败与否的关键因素。梅新(2008)通过研究地理信息系统与车辆运输导航、物流配送的结合并形成空间决策的过程,提出了一种基于城市道路距离的两次空间聚类的实现框架和算法思想,并以烟草企业的物流配送为例进行了验证。不单单在公路运输方面,海运方面,王加胜(2016)提出了基于空间聚类分析的南海主要航线提取方法。
2.4 环境生态领域
空间聚类可通过数字化的手段对环境问题、程度、过程进行描述,不仅可辨别出污染问题严重的地区,还可以研究与社会经济相关的不同范围的环境问题。
水污染问题中,农业非点源污染一直是主要原因之一。王少平(2000)探讨了空间聚类等GIS手段在农业非点源污染研究中的应用与发展趋势。戴晓燕(2005)结合遥感图像信息,运用空间分析,实现了在多种空间因素影响下研究区农业非点源污染负荷的流域分配。且在此基础上,同时运用K—均值法对研究区内的水系污染状况进行了聚类分析,得到了各支流受农业非点源污染的影响程度。该结果有助于评估导致水环境质量降低的影响因子,为科学化管理流域内农业非点源污染提供了参考依据。
赵玉婷(2009)对廊坊地下水的监测点位及监测指标分别进行了空间聚类分析,并对结果进行了空间变异性评价。其研究表明空间聚类分析是有效合理的。它一方面可以指导环境监测点的重新布置,提高监测效率、监测点的代表性,另一方面可为环境监测指标的确定与提供理论依据,进而为环境综合管理与利用提供基础依据。
大气污染方面,白永亮(2016)通过计算全国工业二氧化硫污染的全局空间自相关、局部空间自相关、空间核密度,对未来空间集聚趋势进行了预测。其发现:工业二氧化硫污染总体呈现多中心、条带状、不均衡的“两带六极”空间集聚特征;通过热点探测模型,发现污染呈现以长江为界北重南轻的空间聚类趋势。根据以上手段得出的污染区空间格局和聚类趋势可有效进行协同防控的空间协作、协同机制构建、分类分级分区管理和管理技术创新。
2.5 公共卫生与社会领域
在疾病卫生领域,空间聚类技术同样为疾病研究提供了新思路,并越来越受重视。该技术不仅帮助医学者了解其传播机理,还可以帮助控制有关疾病的传播。Kulldoref(1995)提出通过空间聚类观察研究疾病的新方法,并通过纽约北部的白血病数据进行了验证。Mammen(2008)验证了登革热病毒传播的空间相关性,并提出以学校为据点的检疫点可有效控制该病毒的传播。Tanser(2009)借助空间聚类手段,标识出南非农村HIV感染高危区域。
人口研究方面,Cuzick(1990)较早便进行人口的空间聚类研究。Francois(2006) 在隐马尔可夫随机场(Hidden Markov Random Field,HMRF)模型基础上采用新的贝叶斯聚类算法,对人口结构进行了研究。Combes (2006)针对劳动人口聚类进行了相关分析。Chen(2007)同样在贝叶斯聚类算法上有所创新,推断社会人口的空间分布结构。
3 展望
通过以上的研究分析,空间聚类分析通常存在以下两个普遍问题:(1)地理位置与属性特征未有效结合;(2)受人为主观因素影响。针对第一个问题,现在已有多种改进算法,可有效结合研究对象的空间属性与非空间属性。至于第二个问题,相比传统的划分聚类法,神经网络模型的应用可有效提高研究结果的客观性。endprint
應用方面,空间聚类分析的作用范围广泛,且越来越受到重视。该技术与传统研究领域相结合,可提供崭新的研究思路,打开研究瓶颈。将国内外应用领域进行比较,国外在公共卫生与疾病控制领域的空间聚类研究较多,而国内在该部分的研究相对比较空缺。
至于发展方向,空间聚类分析在宏观层面上的指导已相对成熟,在微观层面的准确度研究仍有待提高。未来,更加适用于微观层面的空间聚类分析技术将会是发展前景之一。
参考文献
[1] 徐芃,景海涛.基于GIS的河南省县级城市空间聚类研究与实现[J].测绘与空间地理信息,2016(9):50-53.
[2] 王加胜,刘永学,杨昆,李满春,孙超.基于空间聚类分析的南海主要航线提取方法[J].交通运输工程学报,2016(6):91-98.
[3] 高涛,王钊,雷正潮,吴晓龙,赵祥模.基于改进DBSCAN算法的汽车行驶热区提取方法[J].测控技术,2017(3):24-27.
[4] 姜亚莉,蔡心田,丁振兴.基于空间分析方法的商业选址研究——以珠海市香洲区为例[J].测绘与空间地理信息,2014(12):131-133.
[5] 许榕,缪李囡,施静静,陈启美.基于空间聚类的交通流预测模型[J].南京大学学报(自然科学),2015(2):251-256.
[6] 白永亮,郭珊,孙涵.大气污染的空间关联与区域间防控协作——基于全国288个地市工业SO_2污染数据的空间统计分析[J].中国地质大学学报(社会科学版),2016(3):63-72,171.
[7] 周翠竹,朱建军,石岩.一种基于双重距离约束的多层次空间聚类方法[J].测绘科学,2014(10):98-101.
[8] 辜寄蓉,陈先伟,杨海龙.城市功能区划分空间聚类算法研究[J].测绘科学,2011(5):65-67,64.
[9] 戴晓燕,过仲阳,石纯,吴健平.空间聚类在农业非点源污染研究中的应用[J].华东师范大学学报(自然科学版),2005(3):59-64.
[10] 赵玉婷,张征,吕连宏,牟向玉,李道峰.基于地下水多变量空间聚类分析的变异性评价[J].地球科学与环境学报,2009(1):79-84.
[11] 曾绍琴,李光强,廖志强.空间聚类方法的分类[J].测绘科学,2012(5):103-106.
[12] 杨帆,米红.一种基于网格的空间聚类方法在区域划分中的应用[J].测绘科学,2007(S1):66-69,5.
[13] 梅新,崔伟宏,高飞,刘俊怡.基于空间聚类的物流配送决策研究[J].武汉大学学报(信息科学版),2008(4):371-374+383.
[14] 王艳,宋振柏,吴佩林.城市功能分区的空间聚类方法研究及其应用——以济南市为例[J].地域研究与开发,2009(1):27-31.
[15] 柳盛,吉根林.空间聚类技术研究综述[J].南京师范大学学报(工程技术版),2010(2):57-62.
[16] 樊博.基于空间聚类挖掘的城市应急救援机构选址研究[J].管理科学学报,2008(3):16-24+26-28.
[17] 李新延,李德仁.DBSCAN空间聚类算法及其在城市规划中的应用[J].测绘科学,2005(3):51-53,5.
[18] 肖慎,过秀成,徐建东.模糊聚类法在公路交通事故黑点成因分析中的应用[J].交通运输系统工程与信息,2002(3):40-43.
[19] 王海军,张德礼.基于空间聚类的城镇土地定级方法研究[J].武汉大学学报(信息科学版),2006(7):628-631.
[20] 王少平,陈满荣,俞立中,许世远.GIS在农业非点源污染研究中的应用[J].农业环境保护,2000(5):289-292.
[21] 李新运,郑新奇,闫弘文.坐标与属性一体化的空间聚类方法研究[J].地理与地理信息科学,2004(2):38-40.
[22] Kulldorff M;Nagarwalla N.Spatial disease clusters: detection and inference[J].Statistics in medicine,1995,14(8).
[23] Fran?ois Olivier, Ancelet Sophie, GuillotGilles. Bayesian clustering using hidden Markov random fields in spatial population genetics.[J].Genetics(Print),2006.174(2).
[24] Chen, C; Durand, E; Forbes, F; Francois, O. Bayesian clustering algorithms ascertaining spatial population structure: a new computer program and a comparison study. [J]. MOLECULAR ECOLOGY NOTES. 2007.7(5).
[25] Sander J; Ester M; Kriegel HP; Xu XW. Density-based clustering in spatial databases: The algorithm GDBSCAN and its applications. [J]. Data Mining & Knowledge Discovery 1998.2(2).
[26] Cuzick J; Edwaeds R. Spatial clustering for inhomogeneous populations. [J]. JOURNAL OF THE ROYAL STATISTICAL SOCIETY SERIES B-METHODOLOGICAL. 1990.52(1).
[27] Mommaas, H. Cultural clusters and the post-industrial city: Towards the remapping of urban cultural policy. [J]. URBAN STUDIES. 2004.41(3).
[28] Austin, SB; Melly, SJ; Sanchez, BN; Patel, A; Buka, S; Gortmaker, SL. Clustering of fast-food restaurants around schools: A novel application of spatial statistics to the study of food environments.[J]. AMERICAN JOURNAL OF PUBLIC HEALTH.2005.95(9).
[29] Mammen, MP; Pimgate, C; Koenraadt, CJM. Spatial and Temporal Clustering of Dengue Virus Transmission in Thai Villages.[J].2008.5(11).
[30] Tanser, F; Barnighausen, T; Cooke, GS; Newell, ML. Localized spatial clustering of HIV infections in a widely disseminated rural South African epidemic.[J].2009.38(4).endprint