利用签到数据的空间互动模型
2017-03-02温广槟於志勇陈羽中
温广槟 於志勇 刘 琦 陈羽中 沈 尧
(1.福州大学数学与计算机科学学院 福州 350108) (2.伦敦大学学院巴特雷特建筑学院 伦敦 WC1E 6BT)
利用签到数据的空间互动模型
温广槟1於志勇1刘 琦1陈羽中1沈 尧2
(1.福州大学数学与计算机科学学院 福州 350108) (2.伦敦大学学院巴特雷特建筑学院 伦敦 WC1E 6BT)
理解空间互动(即人们在城市不同区域间的流动)可以更加智能地辅助交通规划、商业选址等决策。空间互动模型利用开放的社交网络用户签到数据,计算各地区联系指数、内部用户流动指数、外部用户流动指数、出行质量指数等四个维度。聚合了多个社交网络的签到数据,进行了兴趣点匹配和起止点计算,并可视化了一个具体城市的模型实例。结果表明该空间互动模型能够反映城市的空间动态结构,为各行业用户提供直观的咨询信息。
空间互动; 计算模型; 签到数据
Class Number TP311
1 引言
我国对公共空间的规划、建设与管理尤为重视,于2016年2月发布的《关于进一步加强城市规划建设管理工作的若干意见》第十六条中提出“新建住宅要推广街区制,原则上不再建设封闭住宅小区。已建成的住宅小区和单位大院要逐步打开,实现内部道路公共化”。随着住宅小区的开放,城市规划将迎来大规模的调整和优化,如何优化城市交通,怎么建设有科学依据的城市道路,这一切工作都需要具体的数据和理论的支持,而本文的工作将为其提供真实有效的参考。
公共空间是城市功能的主要组成部分之一,是城市中为顺利进行各项经济活动和其他社会活动而建设的关键,空间互动表征的是城市空间中人的行为活动以及由此产生的社会生活与空间的内在联系。空间互动主要研究由人们在城市空间中的流动交互数据,本文通过建立一个空间互动模型将其转化为更直观的表现形式(四个维度的指数,每个指数都有客观实际的意义),得出城市的空间性与人们的日常生活的密切联系,为交通道路建设、城市规划、商业选址以及其他与城市公共空间建设相关的行业提供较为直观且准确的信息。
本文建立的互动空间模型,利用社交网络中的签到数据,计算出各地区联系指数、内部用户流动指数、外部用户流动指数、出行质量指数等指数,并通过可视化进行展示,提供了对一个城市中人口流通,互动的有效参照,其中各地区联系指数可以对加强对城市区域联系强度的认知,内部用户流动指数可以加强对小区域的活动强度的认知,外部用户流动指数可以加强对一个区域外部进入人流的数量的认知,出行质量指数可以加强对城市各种土地利用类型(例如商业,餐饮,娱乐等)在各个区域活跃程度的认知,这将会为城市规划提供有效的参考。
2 相关工作
对于空间互动的计算,许多学者针对此都进行了相应的研究,并提出了一些计算模型。
在城市规划领域里,文献[1]定性分析了当前兰州城市生活性街道在空间互动存在的问题以及建议,但数据来源采用问卷调查的形式,不够全面,导致收集的数据不够完备,存在一定的片面性。文献[2]采用卫星遥感图像为数据源获得土地覆盖情况,从而构建相互作用模型以确定城市空间的扩展方向,但遥感图像耗资大,缺乏时效性,且在建立模型时没有将人类活动考虑在内。
在地理信息系统空间分析中,文献[3]进行了石河子市建筑分布密度统计与分析,采用2005年Quick bird正射影像为主要数据源,但只计算了空间互动中建筑间联系强度情况,对于计量空间互动而言在维度上偏少,不能完全作为依据进行土地决策。文献[4]对北京地区进行Voronoi图空间剖分,收集车载GPS的信息作为数据,数据源单一,且只反映了空间互动中的区域内行车用户流动指数。文献[5]以上海市为例计算城区内的空间关联情况,得出老年与外来人口因子、商服与农业人口因子、住房情况等因子并进行分析,但使用的数据是采用2000年第五次人口普查的一个时间断面,存在一定的局限性,不能很好地揭示空间关联性的时空演化。
现今社会已经逐步跨入了全面信息化时代,越来越多用户使用开放的社交网络接触新鲜事物,利用所在的地理位置提供签到数据等,在计算机领域里,文献[6~8]采用了网络中用户提供的签到数据作为人口流动指标,但所计算的空间互动维度指数只侧重于某一方面(分别为商业选址、旅游业),缺乏普遍性,即其他行业的适用性不大。
3 空间互动模型和计算框架
本文提出的空间互动模型Mi包含四个指数〈UCIi,UIIIi,r,UEIIi,r,TQIi,r〉,分别是各地区联系指数UCIi、内部用户流动指数UIIIi,r、外部用户流动指数UEIIi,r以及出行质量指数TQIi,r,其中i表示地块编号(地块由路网划分而成,我们将市内道路交通网络划分的区域作为计算的基本单元),r表示可达范围。各地区联系指数是量化城市中区域的外向服务功能(即各地区与其他区域的联系强度)的指标,反映了一个城市的地区间人口交叉程度,对发展经济建设、区域定位等有重要意义。内部用户流动指数是城市的区域内部人口的自身流移程度,可以观察到区域内部的活动旺盛程度。外部用户流动指数是指在城市的区域外人口的流入程度。内部、外部用户流动指数有利于探索人口发展变化规律。出行质量指数刻画了城市居民从一地到另一地的移动过程中,对从出发到终止过程中各个交通环节所提供服务的满意程度,是目前宜居城市逐渐看重的指标。
得到城市空间互动变化情况后,还需将模型结果转化为一种视觉形式,即可视化,使我们更有效地观察、操纵、研究、浏览、探索、过滤、对比与理解大规模数据,并与之方便交互,从而可以及其有效地发现隐藏在信息内部的特征和规律,更直观地反应城市空间的动态结构,针对不同行业用户提供更为准确的咨询信息与建议。
图1 空间互动模型计算框架
空间互动模型的计算框架如图1所示,共分为三个子系统,分别是数据子系统、分析子系统和表现子系统。在数据子系统中,从各类社交网络平台获取数据并对其进行处理从而得到结构化的数据。在分析子系统中,根据得到的结构化数据进行四个维度的指数计算得到空间互动的结果。最终,在表现子系统中,将结果可视化表现出来。
4 签到数据处理
本文所用到的签到数据来源于大众点评网和带有位置信息的新浪微博。通过城市道路网络将城市划分为若干个地块,选取路网距离为可达半径(即一个地点通过城市道路网络能到达的距离),其中,路网数据为各个城市的道路交通构成的网络,可以很好的和人们日常出行的道路相匹配,而路网距离则是计算两个POI(Point Of Information)点(在本文中指代城市中具有实际意义的地点)通过路网连接的距离,这个数据可以很好地模拟来往于这两个POI点的用户的真正移动的路程,可达半径是作为指数计算的一个参数,本文认为用路网距离代替直线距离更为真实可靠。
4.1 数据介绍
数据分为兴趣点(POI)数据和签到数据,POI点数据即拥有具体经纬度坐标的点,它具有客观存在的意义,而签到数据则是基于POI点存在的表明用户在某时某刻在该POI点出现的一条信息。将采集到的原始数据做了简单的格式化处理并存储在数据库中,以下是对采集到的数据的举例说明。
1) POI数据
大众点评网的POI数据字段包括〈编号ID,名称NAME,归属城市CITY,经度LONGITUDE,纬度LATITUDE,土地使用类型CLASSIFY,地址ADDRESS,签到次数SIGN_COUNT〉。
下面是一条大众POI点数据:
{
“ID”:8897212,
“NAME”:青年快捷旅店,
“CITY”:天津,
“LONGITUDE”:117.64352,
“LATITUDE”:39.03744,
“CLASSIFY”:宾馆酒店,
“ADDRESS”:滨海新区车站北路仕嘉花园底商1-1-1129号,
“SIGN_COUNT”:3
}
2) 签到数据
大众点评网由于并没有签到功能,所以搜集了大众点评网用户的评论数据,将每一条评论数据作为一条签到数据。签到数据字段包括〈编号ID,所属POI编号TENANT_ID,所属POI名称TENANT_NAME,用户名USER,签到时间SIGN_TIME〉。
下面是一条大众签到数据:
{
“ID”:184952,
“TENANT_ID”:4510942,
“TENANT_NAME”:全明星滑冰俱乐部,
“USER”:包紫包紫,
“SIGN_TIME”:2014-02-20 21:13:00
}
本文数据收集的是大众点评网和位置微博的数据,将两种不同源的数据进行整合并以基于路网划分的地块为单位进行计算和展示,而不同来源的数据之间存在许多差异,如经纬度标准不同,同一个POI点可能名称不同等,因此需要进行数据处理,使其统一起来,其中包括基于名称和地址不同的数据源POI模糊匹配、POI与地块的模糊关联和OD(Origin-Destination,OD)计算,即一条有起点和终点的轨迹。基于名称和地址不同的数据源POI模糊匹配,是将POI的名称和地址相结合,判断两个数据源对应的POI点是否属于同一个POI点,过滤重复的POI。POI与地块的匹配,是将某个POI点归属到符合条件的一个地块中。OD计算,就是将用户的连续不同的两次签到分别作为起始点和终点,形成起止点关联矩阵。
4.2 不同数据源的POI模糊匹配
对于不同平台的数据,需要对其进行整合,即对指代意义相同的POI点进行匹配,并将整合其所包含的信息(签到,OD),但是,由于目前在国内GPS标准尚未统一,不同平台使用的GPS标准各不相同,国内一般存在的GPS标准有WGS84即GPS设备获得的坐标,GOOGLE地图坐标,百度地图坐标等,且不同平台创建POI点时使用的经纬度坐标可能存在偏差。为了解决这些问题,先进行数据样本的训练,获取不同网站相同POI的经纬度位置偏差,也就是计算出两个不同源的POI数据的大致偏移范围,然后基于名称及地址进行文本模糊匹配。具体步骤如下:
1) 从两个不同的网站中采集同城所有POI信息,其中包括名称、地址、经度、纬度等信息,这两个网站的POI数据构信息构成A数据集和B数据集;
2) 从上述两个数据集中找出名称完全匹配,且偏差在正常范围(经过试验为1km)的POI数据作为校准样本,计算数据集A和数据集B中所有相互对应的POI的位置偏差,计算平均位置偏差,即偏差的距离和角度,确定匹配范围,如图2所示;
图2 求平均位置偏差图解
3) 取数据集A中的一个POI作为待匹配点,找出数据集B中所有在匹配范围内的POI作为待匹配集;
4) 根据地址分词[9]字段集合对采集到的POI数据的地址信息建立逐级的父子关系,然后根据地址分词字段的关系将待匹配集元素和待匹配点进行逐级地址分词,并形成地址词典,根据地址词典过滤待匹配点和待匹配集中POI点的名称中的地址信息;
地址分词字段集合F如下:
F=[省,市,区,县,街道,镇,乡,社区,村,小区,大厦,里,弄,园,支弄,公寓,路,街,巷,号]。
5) 采用KMP算法[10~11]对待匹配点和待匹配集元素进行匹配,当某个元素使匹配率最大,并且大于某个阈值时,则该元素与待匹配点属于同一个POI。
4.3 POI与地块模糊关联
每个POI点对应一个地块,当POI点没有落在任何地块上并且离临近的地块距离较远时,会出现某个POI点不属于任何地块的情况。当POI点没有落在任何地块上,但是离临近的地块较近时,可视为该POI点落在两个地块之间的街道上,可划入最近的一个地块。具体步骤如下(如图3所示):
1) 判断POI点是否直接落在地块内部,地块可视为一个不规则的多边形。将POI点的经纬度和地块边缘点的经纬度转换成XY坐标,然后根据地块边缘点的坐标转换成多边形,再判断POI点所属的地块。
2) 如果POI点没有直接落在地块内部,那么需要进行进一步的判断POI点是否落在两个地块之间的街道上。取POI点周围1000m内的地块作为POI点可能归属的地块样本,将每个地块内部的边缘点两两连接(地块之间的边缘点不需要相连),计算POI点与这些连线的距离,当最短距离小于某个值时,则该POI点属于拥有这条连线的地块,如果最短距离大于某个值,那么该POI点不属于任何地块。如图4所示,该POI点位于街道上并且离箭头方向的地块较近,则该POI点属于箭头方向的地块。
图3 POI与地块模糊关联步骤流程图
图4 街道上POI所属地块
4.4 OD计算
OD计算是通过对某个用户在不同时间在某些POI的签到数据进行计算,假设在A点签到,2个小时后在B点签到,并且这两个点之间在时间范围内属于可达的,A、B两点为端点构成的边视为一条有效的轨迹。
轨迹数据过滤,即轨迹计算时数据过滤,同一个用户,从地点1移动到地点2,如果这个过程不在同一天内,那么此处移动视为无效;从地点1移动到地点2,如果移动速度超过80km/h,这种情况视为无效数据。
OD计算流程如算法1所示,把前面处理好的签到数据集{S}作为输入数据,将其按用户名字段(user_id),及签到时间字段(sign_time)排序,即先按用户名排序,同用户名的按签到时间排序。随后,依次读取数据集中的数据,若用户名相同且签到时间为同一天,本文则用2个签到生成一条OD数据,然后判断这条OD的有效性,若有效则将其加入OD集合{T}。重复这个过程,直到遍历完数据集{S}。
Algorithm 1. OD calculate
Input :dataset sign {S}
Output : OD data {T}
Steps :
{T}=?;
|S|=n;
Sort {S} by user_id and sign_time,in ascending order;
k=0;
FOR i=1:n
If((Si-1.username==Si.username)&&
isSameDay(Si,Si-1)&&){
Tk={Si,Si-1};
If(DataIsNormal(Tk)){
Add Tkto {T};
k++;
}
}
END FOR
5 互动指数计算
互动指数计算公式的公共参数含义:i为城市中划分的某个地块编号;r为可达范围,是以地块i中心坐标为圆心,r为半径的覆盖区域;α为是否在地块的可达半径内;o为签到用户的起始地坐标;d为签到用户的目的地坐标;T(o,d)为从起始地到目的地的OD数据;Mi为之于地块i的可达范围,即统计单元;N为OD数据总数;U为统计单元的个数,即地块数;k为土地利用类型总数。
5.1 城市各地区联系指数(Urban Connectivity Index-UCI)
UCIi是指i地通过OD关系与之相关的单元数。比如对于i地,它与10个POI有OD联系,但是10个POI分别属于3个单元,那i地的UCI就是3。这个指数有助于我们了解各个地区互相关联的强度。
5.2 内部用户流动指数(Urban Internal Intensity Index,UIII)
O坐标必须在i地的半径r范围内,D坐标也在其中,UIIIi,r为i地的内部用户流动数。
这里内部用户的判定在于一次出行的OD是否都在统计范围内,在制定计算单元区域内,完整OD都在其中的数量。即是内部用户一次出行完全在统计范围内的数量。这个指数有助于了解一个地区的活动强度。
5.3 外部用户流动指数(Urban External Intensity Index,UEII)
D坐标必须在i地的半径r范围内,而O坐标不在其中。
UEIIi,r是在指定的计算单元区域内,外部用户进入其内的数量。即统计D在统计范围,但是与之关联的O不在范围内的数量。这有助于了解一个地区是否有足够多的外来人流。
5.4 出行质量指数(Transition Quality Index,TQI)
6 模型实例化及可视化
6.1 实例化
本文以天津市为例求解空间互动模型,通过路网数据将天津市划分为2754个地块,选取1000m的路网距离为可达半径。共收集了2014年天津市大众点评网和位置微博的签到数据,其中大众点评网包括13333个用户、31496条签到数,位置微博包括277842个用户、796529条签到数。将收集到的数据以地块为基本单元进行POI匹配和OD计算,求得的数据再分别进行城市各地区联系指数、内部用户流动指数、外部用户流动指数、出行质量指数这四个维度的计算求出天津市区域内的空间流动情况。其中,出行质量指数与土地类型相关,模型中指定的土地类型为餐饮、娱乐、商业,土地利用类型可在采集时获得。
6.2 可视化
将用户的签到情况根据实验步骤进行转换后的数据可视化,能够直观地反映城市的空间互动情况,并作为评估互动的标准。如图5~10所示。
图5 天津市各地区联系指数
由图5可知,其联系最密集区域分布较为分散,但主要在天津中心区,且范围较小,次密集区域多分布在周边,且范围较广。
图6 天津市内部用户流动指数
由图6可知,天津内部人口流动不大,中部偏上区域有小范围的强流动,以其为中心的四周零散分布了一些次强流动,可见天津现在人口多往发达区域流动,符合城市居民的生活要求。
由图7可知,天津的外部用户进入流动大,中上部仍然为强流动区域,西部和东部都有大范围的次强流动,呈现随机分布的特点。外部用户的流动,与居民的生产生活息息相关,随机型分布可以照顾到居住在不同区域的城市居民,有利于外部用户在各个区域创造自身价值,并为一方区域的和谐建设贡献一份力。
图7 天津市外部用户流动指数
图8 天津市土地类型为餐饮的出行质量指数
图9 天津市土地类型为娱乐的出行质量指数
图10 天津市土地类型为商业的出行质量指数
区域由图8~10可知,天津作为环渤海地区经济中心,在餐饮业以及商业上尤为发达,在这两方面的出行质量几乎分布在整个市区,且颜色较深,可见指数较大,这种分布既符合城市居民的生活习惯又能满足城市居民出行的便利要求。但天津市的娱乐行业发展较为薄弱,最高指数零散地分布在中部地区,四周有较大范围的次高指数,可见天津市的人对娱乐要求较低,娱乐活动也相对低频。
7 结语
本文提出的空间互动模型利用大众点评网和位置微博的数据,以城市划分的地块为基本单位,进行POI模糊匹配,将不同数据源整合,并进行OD计算求用户连续两次签到的路径,得到各个地块的空间互动指数。通过实例化验证,具有一定的合理性,与实际情况较为符合。利用数字化、网络化的方式进行空间互动模型的分析高效可靠,可以应用于各行各业,适合在将来加大对这方面的深入研究。
[1] 李鸿飞,张晶晶.兰州市生活性街道空间互动性研究[J].西部人居环境学刊,2015(3):92-95. LI Hongfei, ZHANG Jingjing. A Study on the Interaction of Street Life Space in Lanzhou City[J]. Human Settlements Forum in West China, 2015(3): 92-95.
[2] Christiane, Weber,周彦(译),等.相互作用模型在城市规划中的运用[J].国际城市规划,2006,21(3):77-82. Christiane, Weber. Interaction Model Application for Urban Planning[J].Urban Planning Overseas,2006,21(3):77-82.
[3] 刘琳,张正勇,唐泽君.基于GIS石河子市建筑密度空间分布规律的分析[J].石河子大学学报(自然科学版),2012,30(1):92-95. LIU Lin, ZHANG Zhengyong, TANG Zejun. Spatial Distribution Pattern of Shihezi City’s Building Density Based on GIS[J]. Journal of Shihezi University(Natural Science),2012,30(1):92-95.
[4] 信睿,艾廷华,杨伟,等.顾及出租车OD点分布密度的空间Voronoi剖分算法及OD流可视化分析[J].地球信息科学学报,2015,17(10):1187-1195. XIN Rui, AI Tinghua, YANG Wei, et al. A New Network Voronoi Diagram Considering the OD Point Density of Taxi and Visual Analysis of OD Flow[J].Journal of Geo-Information Science,2015,17(10):1187-1195.
[5] 宣国富,徐建刚,赵静.基于ESDA的城市社会空间研究——以上海市中心城区为例[J].地理科学,2010(1):22-29. XUAN Guofu, XU Jiangang, ZHAO Jing.An Analysis of Urban Social Space Based on ESDA-A Case Study of the Central Urban District in Shanghai[J]. Scientia Geographica Sinica,2010(1):22-29.
[6] Dmytro Karamshuk, Anastasios Noulas, Salvatore Scellato,et al.Geo-Spotting: Mining Online Location-based Services for Optimal Retail Store Placement[J]. knowledge discovery and data mining,2013(13):793-801.
[7] Yu Liu, Zheng Weisui, Chao Guikang.Uncovering Patterns of Inter-Urban Trip and Spatial Interaction from Social Media Check-In Data[J].Plos One,2014(1):1-11.
[8] Lun Wu, Ye Zhi, Zheng Weisui, et al.Intra-Urban Human Mobility and Activity Transition:Evidence from Social Media Check-In Data[J].Plos One,2014(5):1-13.
[9] 程昌秀,于滨.一种基于规则的模糊中文地址分词匹配方法[J]. 地理与地理信息科学, 2011, 27(3):26-29. CHENG Changxiu,YU Bin.A Rule-Based Segmenting and Matching Method for Fuzzy Chinese Addresses[J].Geography and Geo-Information Science,2011,27(3):26-29.
[10] Han Guanghui, Zeng Cheng. Theoretical Research of KMP Arithmetic[J].Microelectronics & Computer,2013(4):30-33.
[11] Knuth D E, Morris J H, Pratt V R. Fast Pattern Matching in Strings.[J]. Siam Journal on Computing,1977,6(2):323-350.
Spatial Interaction Modeling Using Check-in Data
WEN Guangbin1YU Zhiyong1LIU Qi1CHEN Yuzhong1SHEN Yao2
(1. College of Mathematics and Computer Science, Fuzhou University, Fuzhou 350108) (2. Bartlett School of Architecture, University College London, London WC1E 6BT)
The spatial interaction is the human flow through different areas, which can make a more intelligent strategic decision of traffic planning, commercial location and many other industries. The paper aims at proposing a strategic analysis describing spatial interaction, and making an instantiation by check-in datum from some open social networks. There are four dimensions chosen to describe model: regional contact strength, natural flow index of internal users, entry index of external users and trip quality index, which can be estimated by popular check-in datum and have generality. The model firstly put many social networks’ check-in datum together, then matches them and calculates the distance from beginning to the end. After making a instantiation, the model provides data visualization solutions. The result shows that the strategic analysis has the ability of reflecting the cities’ spatial dynamic structure, providies advisory information to users of lots of types of industries.
spatial interaction, computation model, check-in data
2016年8月15日,
2016年9月30日
国家自然科学基金(编号:61300103)资助。
温广槟,男,硕士研究生,研究方向:移动社交网络。於志勇,男,博士,副教授,研究方向:普适计算、移动社交网络。刘琦,女,研究方向:移动社交网络。陈羽中,男,博士,教授,研究方向:智能计算和数据挖掘。沈尧,男,博士,研究方向:城市规划、智慧城市。
TP311
10.3969/j.issn.1672-9722.2017.02.012