APP下载

利用位置签到数据探索城市热点与商圈

2014-06-27胡庆武王明李清泉

测绘学报 2014年3期
关键词:格网商圈武汉市

胡庆武,王明,李清泉

1.武汉大学遥感信息工程学院,湖北武汉 430079;2.武汉大学测绘遥感信息工程国家重点实验室,湖北武汉 430079

利用位置签到数据探索城市热点与商圈

胡庆武1,王明1,李清泉2

1.武汉大学遥感信息工程学院,湖北武汉 430079;2.武汉大学测绘遥感信息工程国家重点实验室,湖北武汉 430079

为及时、准确探测城市热点和客观高效分析商圈,提出一种基于社交网络众源位置签到数据的城市热点探测与商圈挖掘方法。针对大数据量、离散的位置签到数据存储和聚类分析效率问题,提出基于离散点栅格化签到数据预处理模型。对位置签到数据进行了空间自相关检验,表明其具有显著的空间聚类特征。提出基于位置签到数据探索性空间分析热点聚类方法,选取商业因素进行地理分布度量以获取商圈信息。以武汉市为例,对街旁网(www.jiepang.com)截至2011-09-30位置签到数据进行城市热点探测与商圈挖掘试验。结果表明,基于位置签到数据挖掘的武汉市商圈分布与城市规划商圈具有强相关性,可用于城市社会经济发展预测与区域经济规划。

众源地理数据;位置签到数据;数据挖掘;热点探测;商圈分布

1 引 言

城市商圈作为城市经济发展原动力的基础之一,是城市综合竞争力的重要组成部分。商圈动态测定是指导城市经济布局的重要依据,对充分发挥商圈的社会效益和整体功能,推进城市化进程,促进国民经济持续发展具有十分重要的作用。国内外商圈研究主要有宏观角度和微观角度两方面[1]。前者测定范围延伸过广,会使商圈测定掺杂许多其他因素,后者侧重于微观层面的企业商圈分析,都没有从整个城市视角去对城市商圈进行测定。另外,常用商圈测定方法一般采用问卷调查方法,需花费较多时间和精力,调查范围有限,影响商圈测定的准确性和全面性[2]。

众源地理数据(crowd sourcing geographic data)是指由大众采集并向大众提供的开放地理数据[3-5]。代表性众源地理数据有GPS行驶轨迹数据、用户协作标注编辑的地图数据、各类社交网站如Twitter、Facebook、街旁(www.jiepang.com)用户签到(check-in)的兴趣点(POI)等[6]。与传统地理信息数据相比,来自非专业大众的众源地理数据具有数据量大、现势性好、信息丰富、成本低等特点和优势,成为近年来国际地理信息科学领域的研究热点[5,7-10]。位置签到数据是利用带有GPS的智能终端记录某一时刻所处位置而产生的具有空间性、时间性和社会化属性信息的数据,它记录生活轨迹,反映了人的日常生活行为,是一种重要的众源地理数据。位置签到数据多集中在城市,并以大众签到的兴趣点为主要表现形式。以街旁网为例,自2010年5月13日街旁网正式上线以来,街旁网注册用户数量以每周20%的速度保持高速增长,截至2011年9月,街旁网用户数量已经超过120万。由于街旁网70%以上的注册用户都将签到信息与社交平台绑定,因此平均每一次签到会拥有400个受众。街旁网每5 s(以24 h为计算基础)更新一次用户签到信息,包含了丰富的位置信息、语义信息和行为信息。因此从街旁网获取的位置签到数据不仅数据量丰富,而且现势性好,从侧面反映城市经济、文化分布态势。本文以街旁网位置签到数据为研究对象,提出了一种基于众源位置签到数据的城市热点探测与商圈挖掘方法,通过数据预处理、探索性空间分析和空间聚类分析,得到了位置签到数据高值聚类热点。

2 位置签到数据探索性聚类与分析

位置签到数据是具有空间坐标和用户属性的离散GIS点对象,首先对离散签到数据进行格网化处理,将大数据量、离散签到位置点转化成具有空间连续性与邻接性并能够更好地反映签到事件集聚密度的格网数据。其次,运用探索性空间数据分析(exploratory spatial data analysis,ESDA)度量签到数据的空间相关性,量算其空间结构和全局分布模式,以确定热点探测和商圈聚类的最佳模式。再次,采用聚类分析识别出具有统计显著性的热点、冷点和空间异常值位置。最后,通过度量聚类分析结果的地理空间分布,得到具有统计显著性的聚类地理要素的空间特征:包括商圈范围、中心变化趋势和方向发展趋势,具体算法流程如图1。

图1 基于位置签到数据的热点探测与商圈挖掘算法流程Fig.1 Algorithm flowchart for hotspot detection and commercial area mining based on check-in data

2.1 位置签到数据格网化处理

位置签到数据为大量离散要素点,在空间上不具有明显的空间连续性和邻接性,不利于探索性空间数据分析方法度量其空间分布模式。为了使位置签到数据既能反映空间连续性与邻近性,又能够保存点状对象的签到次数特征以及关键属性的统计特征,本文选择以签到数据所覆盖区域为研究范围,构建固定像元大小的格网并对其进行空间连接,将存在空间包含关系的点状签到数据关键属性映射到对应的格网相应属性中去[11-12],如式(1)式中,G(W)表示格网G的签到次数;G(T)表示格网G的区域类型;n表示格网G中签到点的个数;NPi表示格网G中第i个签到点的签到总次数;σPi表示该签到点的权重等级;∑σP,Ti表示属于格网G中属于第Ti类的所有签到点的权重之和。图2给出了离散签到数据格网栅格化的算法流程。

图2 位置签到数据格网化处理示意图Fig.2 Grid processing for discrete check-in data

由图2,离散签到数据转换为以签到频次为灰度的格网化签到数据集,既简化了离散点状数据,又保持了签到数据时空特性和专题属性特征,满足探索性空间分析和数据挖掘要求。

2.2 位置签到数据空间自相关检验与分析

空间自相关是空间依赖性的重要形式,也是空间数据探索性空间分析(exploratory spatial data analysis,ESDA)的前提[13-17]。为对位置签到数据进行空间聚类分析,本文以Global Moran s I统计方法来度量研究区域位置签到数据的全局空间自相关性,以Ripley's K统计方法来探索签到特征性最强的空间分布模式,为签到数据挖掘提供依据。

2.2.1 签到数据空间分布模式分析

给定一组位置签到数据及其签到频次, Global Moran's I统计按式(2)评估其为聚类模式、离散模式或随机模式

由图3,用于检验的z得分值为8.003 898倍标准差,远大于2.58,表明其零假设概率p值为0,符合在99%置信度情况下对p值要求(概率似然值p<1%),说明位置签到数据空间分布模式的全局空间自相关性符合典型聚类模式统计特征,可进行热点和商圈聚类分析。

2.2.2 签到数据最优空间分布特征探索

本文以Ripley's K函数探索签到位置(或签到频次)在某一距离范围内具有统计意义上最显著的空间自相关性。如式(4)

式中,d为距离指标;n为签到位置数;A为签到位置或签到频次;ki,j为权重。以武汉市位置签到数据为例,按式(4)寻找位置签到数据空间结构的最佳模式,结果如表1及图4。

图3 签到数据空间自相关分析结果Fig.3 Spatial self-correlation analysis result of check-in data

表1 位置签到数据Ripley's K距离模式分析结果Tab.1 Ripley's K multi-distance mode analysis statistics result with check-in data

图4中,最下方曲线为K预期值,为各距离模式的期望值曲线;最上方曲线为K观测值,代表各距离模式的观测值曲线;中间曲线为K差值,代表各距离模式观测值与期望值的差值曲线。根据Ripley's K统计,若在某一距离的K观测值大于K预期值,该分布聚类程度高;若K观测值小于K预期值,该分布离散程度高。据表1及图4,K观测值曲线始终位于K预期值曲线之上,即在参与分析的空间分布模式(距离模式)下,研究区域内要素始终呈现聚类模式分布,验证了基于Global Moran's I统计法位置签到数据全局自相关性分析结果。

图4 签到数据Ripley's K多距离模式分析结果图Fig.4 Ripley's K multi-distance mode analysis result with check-in data

由表1及图4,在编号为4和5的距离模式上,观测值与期望值的差值达到最大值,可确定本文签到数据最明显空间聚类模式距离特征值为0.233 696。可根据该最优空间分布特征距离值进行探索性空间聚类分析。

2.3 签到数据局部空间自相关聚类与热点探测

全局空间自相关仅使用单一值来反映全局自相关特征,难以发现存在于不同区域的空间关联模式。局部空间自相关可分析局部空间系统分布特征的具体表现形式,包括空间聚集区、非典型的局部区域、异常值等,常采用Moran散点图、LISA、Anselin Local Moran's I等方法[14-15,18]。本文以Anselin Local Moran's I方法标识具有相似属性值的签到数据,如式(5)

Anselin Local Moran's I方法根据Local Moran's I指数、z得分和p值对参与分析的位置签到数据进行分类标识:

(1)若z>1.96,表示临近签到位置数据具有相似值(高值或低值),将具有统计显著性(0.05的显著水平)的高值聚类表示为H H,低值聚类表示为LL。

(2)若z<-1.96,表示其为具有统计显著性(0.05的显著水平)的空间异常值。

(3)其他为不具有统计显著性的签到位置。

以武汉市5082个位置签到数据按照本文方法进行局部自相关聚类,得到具有高值聚类特征的签到位置172个,4910项不具有统计显著性,聚类分析可视化制图如图5(a)。局部自相关聚类提取的具有统计显著性的高值聚类热点要素如图5(b)。

图5 签到数据局部自相关聚类分析与热点探测Fig.5 Cluster analysis using local self-correlation for hotspot detection

2.4 签到数据聚类热点的地理分布度量

利用局部自相关聚类探测的高值热点,可视为商圈中心,需进一步确定其范围、中心变化和方向发展趋势,本文通过对商业聚类热点的地理分布度量来研究商圈,具体步骤如下:

(1)标准差椭圆构造。以聚类热点为中心,以签到位置以及其关联属性值(签到频数)构造标准差椭圆。椭圆中心为聚类区域内要素的加权平均中心,以在x和y方向的标准距离定义包含要素分布的椭圆长、短轴,如式(7)

(2)基于标准差椭圆的商圈范围计算。以构造的标准差椭圆长、短半轴作为商圈地理分布的空间范围,其中长轴为商圈的中心变化趋势主方向。

(3)商圈方向确定。长、短半轴的比例关系表示商圈分布的扁平性,标准差椭圆的旋转方位角即为商圈的方向发展趋势。标准差椭圆的旋转角度按式(8)计算

xi和yi为聚类要素点相对于椭圆中心点的标准差。

对图5武汉市位置签到数据局部自相关结果按照地理分布度量方法构造热点标准差椭圆,计算各商圈的范围、中心变化趋势和方向发展趋势,得到了基于位置签到数据的武汉市各大商圈空间分布情况,如图6。

图6 基于签到数据的武汉市商圈地理分布度量结果Fig.6 Geographical distribution metrics result of Wuhan city commercial area based on check-in data

3 试验与讨论

3.1 基于位置签到数据的武汉市热点探测结果分析

根据各热点区域高值签到点的属性信息,本文将聚类得到的热点区域分为商业类热点(如江汉路)、教育类热点(如武汉大学)、旅游类热点(如东湖景区)、交通类热点(如轻轨站)、居住类热点(如南湖小区)及其他类热点(如餐饮酒店、图书馆)六大类,其空间分布如图7。

图7 城市热点分布图Fig.7 City hotspot distribution map

如图7,商业类热点在空间分布上呈明显集聚性,直观地反映了武汉市商圈分布。每个商圈集聚的商业类热点数量反映了商圈受欢迎的程度。对比图6、图7中的司门口和街道口,街道口地区商业类高热点数量多,说明街道口地区人流量比较大,经济一直保持着一种比较活跃的状态;而司门口地区则正好相反,该地区的商业类热点只有3个,表明司门口地区人流量不大,经济不活跃且有衰退迹象,与两个地区经济发展情况相符[19]。图8给出了不同热点类型统计分布,在172项高值签到要素中,商业类热点90项,教育类热点43项,旅游类热点12项,交通类热点10项,居住类热点3项,其他类热点14项。可见,商业热点在位置签到数据中比重最多,验证了采用位置签到数据进行商圈挖掘分析的合理性。

图8 城市热点分类图Fig.8 City hotspot classification map

3.2 基于位置签到数据的武汉市城市商圈分析

研究结果表明,武汉形成了以武昌、汉口、汉阳为主要格局的商业商务板块以及具有一定规模的数十个大中型商圈。既有传统意义上的老商圈,如江汉路、中山大道、王家湾、钟家村、徐东、司门口、水果湖、中南路商圈,又有近年来出现的新兴商圈,如武汉天地、街道口、鲁巷光谷商圈,还包括一些正在建设与发展中的商圈如菱角湖、沌口开发区商圈[19-20]。针对90项商业经济类热点,本文通过构造标准差椭圆计算各个商圈范围、中心变化趋势和方向发展趋势,并由此得到基于签到数据的武汉市各大商圈空间分布(图6)。通过空间叠加分析得出各商圈内签到点数、签到次数、注册用户数、用户平均签到次数等统计结果,如表2。

表2 商圈信息统计表Tab.2 Check-in information of different commercial area

由表2可见,基于位置签到数据分析得到的武汉各大商圈符合武汉三镇商圈实际分布情况[19]。根据武汉三镇商圈信息统计,武昌、汉口、汉阳在商业热点数、签到数以及用户数等统计分布特征与区域功能特征以及人口分布特征吻合。武昌商圈商业热点数已经超过汉口,其用户平均签到次数在三镇中最高,可见,武昌作为传统科教文化政治中心,在经济商业方面有赶超汉口这一个传统经济中心的趋势,主要原因是依托东湖高新技术开发区政策导向形成的鲁巷光谷商圈以及整合亚贸购物中心、广埠屯IT电脑市场的街道口商圈影响。相比之下,位于汉阳的武汉经济技术开发区商业规模处于起步与发展阶段,虽然平均签到次数与武昌相当,但商圈中商业网点相当较少。较汉口商业模式,武昌商圈在总体上地理分布较为离散,表现出了明显的商圈区域性分布。汉口方面,传统的江汉路商圈、武广世贸商圈依旧发挥着砥柱中流的作用,新兴的武汉天地商圈、菱角湖(万达)商圈也扮演着越来越重要的角色。

商圈POI数反映其商业网点数,平均签到次数则表示商圈活跃程度,图9进一步给出了各商圈POI数与平均签到次数的关系(为了绘图方便,将POI数归一化到[1,2]区间)。

图9 商圈POI与平均签到次数关系图Fig.9 Relationship between commercial POI and average check-in number

由图9可见,在武汉市所有商圈中,街道口商圈商业网点数与平均签到次数均处于全市最高水平,与该商圈汇集群光百货、新世界和武汉市最大的IT电脑市场相符,也与武汉市目前交通最为拥堵点相一致,可见,众源位置签到数据对于商圈热点探测非常有效。

从各商圈的空间特征来看,其中心趋势、分布范围以及方向趋势特征基本符合相关商圈研究结果[18-19]。以江汉路商圈为例(图10),江汉路商圈范围涵盖了江汉路步行街、民众乐园以及云集万达、大洋、王府井、新佳丽等大型购物中心的中山大道购物圈。商圈方向趋势方面,江汉路商圈以江汉路方向为主轴(图10中灰色直线区域),由于受到民众乐园与中山大道购物圈(图10中浅灰色圆圈区域)影响而偏向中山大道与民生路方向。商圈中心趋势方面,江汉路商圈中心落于江汉一路附近。总体看来,基于位置签到数据的武汉商圈分析结果符合客观事实,反映出当前武汉地区商业经济集散地的空间模式与分布特征。

4 结 论

众源地理数据出现,为空间数据更新提供了一种新的数据源,也为空间数据挖掘提供了一个新的研究方向。本文提出了一种以城市大众长时间累计签到的兴趣点为商圈热点探测和分析数据源,通过以兴趣点的签注人数为权重的聚类分析和构建标准差椭圆的方法可以精确确定城市商圈的范围与分布情况,从中观层面利用空间分析和挖掘等手段对城市热点和商圈进行探测与分析。与传统的商圈测定与分析方法相比,本文方法具有数据客观、实时性好、准确性高等特点。通过将试验结果与武汉市行政地图进行叠加验证,表明众源位置签到数据具有明显聚类特征,本文基于众源位置签到数据分析得到武汉商圈分布结果符合客观事实且更为细致。该结果反映了大众日常生活行为与武汉地区商业经济分布的高度相关性,为监测城市商业圈分布及其发展趋势提供了一种新的方法,也为武汉市相关部门的城市规划和行政决策提供了比较直观的参考。需要进一步研究基于位置签到数据的自动化热点探测方法。同时,利用实时获取的签到数据进行商圈分析可得到商圈动态变化情况,如商圈月均人流量变化、商圈范围变化等,实时监测商圈的兴起、成长和衰落过程,实现城市商圈动态监测和分析。

图10 江汉路商圈动态分析Fig.10 Dynamic analysis for Jianghan Road commercial area

[1] LI Yanming,YE Baiying.Determine the Average Retail Attraction Using Raleigh Rule[J].Market Modernization,2008(3):177-178.(李艳敏,叶佰英.运用雷利法则确定区域平均零售吸引力[J].商场现代化, 2008(3):177-178.)

[2] YANG Lijun,ZHU Hualan,WU Jianping.Market Area Analysis in Retailing Based on GIS[J].Remote Sensing Technology and Application,2003,18(3):138-148.(杨丽君,朱华岚,吴建平.基于GIS的零售业商圈分析[J].遥感技术与应用,2003,18(3):138-148.)

[3] GILES J.Wikipedia Rival Calls in the Experts[J].Nature,2006,443(7111):493.

[4] HOWE J.The Rise of Crowdsourcing[J].North,2006, 14(14):1-5.

[5] HEIPKE C.Crowdsourcing Geospatial Data[J].ISPRS Journal of Photogrammetry and Remote Sensing,2010, 65(6):550-557.

[6] GOODCHILD M F.Citizens as Sensors:The World of Volunteered Geography[J].GeoJournal,2007,69(4): 211-221.

[7] GOODCHILD M F.Commentary:Whither VGI?[J].GeoJournal,2008,72(3-4):239-244.

[8] GOODCHILD M F.Geographic Information Systems and Science:Today and Tomorrow[J].Procedia Earth and Planetary Science,2009,1(1):1037-1043.

[9] GOODCHILD M F,GLENNON J A.Crowdsourcing Geographic Information for Disaster Response:A Research Frontier[J].International Journal of Digital Earth,2010,3(3):231-241.

[10] FRITZ S,MCCALLUM I,SCHILL C,et al.Geo-Wiki.Org:The Use of Crowd Sourcing to Improve Global Land Cover[J].Remote Sensing,2009,1(3):345-354.

[11] LÜAnming,LI Chengming,LIN Zongjian,et al.Spatial Continuous Surface Model of Population Density[J].Acta Geodaetica et Cartographica Sinica,2003,32(4):344-348.(吕安民,李成名,林宗坚,等.人口密度的空间连续分布模型[J].测绘学报,2003,32(4):344-348.)

[12] ESRI.How Create Fishnet Works[EB/OL].Redlands: ESRI.2012[2012-10-10].http:∥help.arcgis.com/en/ arcgisdesktop/10.0/help/index.html#∥0017000000300 00000/.

[13] GENG Xiepeng,DU Xiaochu,HU Peng.Spatial Clustering Method Based on Raster Distance Transform for Extended Objects[J].Acta Geodaetica et Cartographica Sinica, 2009,38(2):162-167.(耿协鹏,杜晓初,胡鹏.基于栅格距离变换的扩展对象空间聚类方法[J].测绘学报,2009, 38(2):162-167.)

[14] ANSELIN L.The Future of Spatial Analysis in the Social Sciences[J].Geographic Information Sciences,1999,5 (2):67-76.

[15] ANSELIN L.Interactive Techniques and Exploratory Spatial Data Analysis[M]∥Geographical Information Systems: Principles,Techniques,Management and Applications.2nd ed.New York:John Wiley&Sons,1999:254-257.

[16] GETIS A,ORD J K.The Analysis of Spatial Association by Use of Distance Statics[J].Geographical Analysis, 1992,24(3):189-206.

[17] CLIFF A D,ORD J K.Spatial Processes Models and Applications[M].London:Pion,1981.

[18] ANSELIN L.Local Indicators of Spatial Association-LISA [J].Geographical Analysis,1995,27(2):93-115.

[19] ZHAO Wei.Functions of a Central City&Development of Wuhan Urban Agglomerations[J].Wuhan University Journal:Philosophy and Social Science,2005,58(3): 300-305.(赵伟.中心城市功能与武汉城市圈发展[J].武汉大学学报:哲学社会科学版,2005,58(3):300-305.)

[20] WU Di.A Study on the Current Situation and Development Strategies of Jianghan Road Tourism Business District in Wuhan[D].Wuhan:Wuhan University of Technology, 2010.(吴迪.武汉江汉路游憩商业区现状与发展策略研究[D].武汉:武汉理工大学,2010.

(责任编辑:丛树平)

Urban Hotspot and Commercial Area Exploration with Check-in Data

HU Qingwu1,WANG Ming1,LI Qingquan2
1.School of Remote Sensing and Information Engineering,Wuhan University,Wuhan 430079,China;2.State Key Lab of Information Engineering in Surveying,Mapping&Remote Sensing,Wuhan University,Wuhan 430079,China

Check-in data obtained by the social networking servicing(SNS)and the location based service(LBS)is a sort of crowd sourcing geographic data which would reveal mass daily life activities.An urban commercial area mining and analysis approach based on check-in data is proposed.In order to improve the storage and cluster analysis efficiency of large amount of discrete check-in data,a discrete to raster transformation model of check-in data is presented.A spatial autocorrelation validation is implemented for the check-in data to indicate its significant spatial clustering characteristics.An exploratory spatial analysis and hotspot clustering method,which take commercial factors for geographic distribution metric is proposed to obtain commercial area information.An experiment of urban commercial mining and analysis with the check-in data obtained from jiepang.com as of September 30,2011 in Wuhan is designed and implemented.The result shows that the urban commercial area distribution of Wuhan based on check-in data has a high correlation with urban planning and can be used for regional planning of urban society development.

crowd sourcing geographic data;check-in data;data mining;hotspot detection;distribution of commercial area

HU Qingwu(1975-),male,PhD,professor,majors in GIS,GPS and RS integration.

P208

A

1001-1595(2014)03-0314-08

国家自然科学基金(61172175);中央高校基本科研业务费专项资金(2012213020208)

2012-08-09

胡庆武(1975—),男,博士,教授,研究方向为GIS、GPS、RS集成。

E-mail:huqw@whu.edu.cn

HU Qingwu,WANG Ming,LI Qingquan.Urban Hotspot and Commercial Area Exploration with Check-in Data[J].Acta Geodaetica et Cartographica Sinica,2014,43(3):314-321.(胡庆武,王明,李清泉.利用位置签到数据探索城市热点与商圈[J].测绘学报, 2014,43(3):314-321.)

10.13485/j.cnki.11-2089.2014.0045

修回日期:2013-05-31

猜你喜欢

格网商圈武汉市
武汉市勘察设计有限公司
打造世界级文旅窗口 构建千亿级黄金商圈
武汉市中小学优秀自制教具评选活动成功举办
机器学习在商圈运用管理中的应用
遥感数据即得即用(Ready To Use,RTU)地理格网产品规范
实时电离层格网数据精度评估
矢量点状数据抽稀方法的研究与实现
武汉市勘察设计有限公司
农产品电商圈的“乌托邦”
商圈档案