基于手机数据的城市功能区识别算法
2018-12-17汤长猛廖海明吴乃星董路熙张瑞李燕敏高翔
汤长猛 廖海明 吴乃星 董路熙 张瑞 李燕敏 高翔
摘要:随着大数据的崛起,近几年基于手机数据来研究交通问题成为一大热点。论文的研究工作得到了深圳市科技创新委员会深圳市科技计划项目技术攻关类(项目编号JSGG20160229113054194,下达文号深发改【2016】627号)深圳市战略新兴产业发展专项资金的支持。由于土地利用对于城市规划和发展的重要性不断提升,本文提出了一种基于手机数据的城市功能区分类算法。首先選取不同时期的居民数量来表征土地的语义特征,然后应用无监督k均值聚类算法对城市功能区进行识别,最后确定城市功能区的四种模式,如工作区、居住区、临时工作区和混合区。基于本文的研究成果可对未来城市规划起到决策支持的作用,具有一定的现实意义。
关键词:手机数据;出行区域权重;K-MEANS;功能区
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2018)25-0285-05
Mobile Phone Data Based Urban Functional Area Classification Algorithm
TANG Chang-meng 1, LIAO Hai-ming 1, WU Nai-xing 1, DONG Lu-xi 2, ZHANG Rui 2, LI Yan-min 2, GAO Xiang 2
(1. China Unicom Company Limited, Shenzhen 518048, China; 2. Shenzhen Institutes of Beidou Applied Technology Ltd, Shenzhen 518035, China)
Abstract: With the development of big data,mobile phone data are used to study the characteristic of transportation system in the last few years. Since the importance of land use to urban planning and development, in this paper, an algorithm of urban functional area classification is proposed based on mobile phone data.Firstly the number of residents in different period are selected to characterizesemantics of land. Then an unsupervised K-means clustering algorithm is applied to identify urban functional area. Four patterns of urban functional area could be identified such as workspace, residence, temporary workspace and mixed area. All these findings could be helpful to the government for urban planning in the future.
Key words:Mobile phone data; Travel zones weights; K-MEANS; Functional area
交通小区是交通规划中研究交通发生与吸引、交通分布的而划分的交通调查基本空间单位。而交通小区与土地利用、居民的各次出行行为密切相关。传统的出行信息是通过人工调查收集,非常耗时且浪费资源,然而传统的集计分析方法,容易割裂出行模式的多样性与发生各类活动前后之间的关联,很难反映居民在城市功能区的时空特征。交通出行需求与城市功能区紧密联系,一方面,人口的快速增长增加功能区的负担,尤其是在工作区和居住地等[1-2]。另一方面,人们与城市功能区之间的互动随时发生。人们迁移到不同的功能区,从事不同的社会活动。因此,不同类型的土地利用(例如,人们通常离家外出工作和返回居住地,而在CBD中可以找到相反的模式),就会出现各种各样的出行行为[3-4]。
随着数据采集技术的快速发展,越来越多的交通出行数据被采集,将出行多样性与不同类型的土地利用建立联系,手机数据是近年来用于识别功能区域的最重要的数据之一[5-7]。Tranos和Nijkamp分析了旅游模式与官方土地利用类型划分之间的关??系,然后建立出行模式的时空模型,出行模式多样性可以用来确定土地利用[8-9]。Zhong等提出了一种基于智能卡系统的交通数据来推断土地利用水平的城市功能的方法。建立了出行需求、移动模式、建筑物等级三者结合的空间模型。首先,基于概率贝叶斯模型推导出移动模式。其次,通过基于空间日常活动与周边地区相结合的统计来推断土地功能。这种方法在实际应用中具有很高的准确性[10]。同样,Cecaj和Mamei等研究了基于手机数据自动检测城市发生的事件。他们的方法可以结合多种信息来源来改善结果[11]。基于两个数据集(CDR和Twitter)将研究成果在两个城市运行,分析此方法的优点和缺点。CDR数据可用于研究城市出行行为的类似模式,并确定特定类型的土地使用[12-14]。Liu等研究基于GPS数据的两种特定土地用途之间的空间相互作用模式,并验证空间相互作用模式的相似性。土地使用分类通过出行总时间变化和空间交互模式之间的变换来优化。而另一些研究方法则强调根据POI数据确定功能区[15]。Yuan等使用基于线性回归模型来发现每个地区的功能。但他们忽略了关于空间交互的详细信息,导致了分类出现错误功能块。应适当处理空间相互作用的因素以改善土地利用分类[16]。
与以往的研究不同,本文的两个贡献可以总结如下:
1) 基于模拟手机数据的不同位置群体流动性比较;
2) 基于群体流动特征的无监督聚类方法识别功能区。
综上发现,国内外都有基于手机定位数据的定位原理、采样精度等方面进行出行调查的相关研究工作。由于手机信令数据所包含的信息更加丰富、可获取性更高,在大数据时代更有利于城市出行需求与功能區进行定性定量的评估。因此本文的主体部分安排如下:第一、二部分介绍本研究中使用的手机记录,包括数据描述和数据预处理。第三部分提供了两个重要的模型指标:人口密度分布(不同区域的用户数量)和日常活动聚集和消散特征(每个10分钟用户数量在同一位置的分布)。之后采用无监督算法来识别城市功能区域。第四部分展示结果、可视化。最后,第五部分给出结论。
1 研究场景说明
1.1 数据说明
本文采用模拟的手机信令数据。数据内容主要包括用户编号(USER_ID)、时间戳(TIMESTAMP)、经纬度(LONGITUDE、LATITUDE)、小区编号(CELL_ID)。
1.2 基于VORONOI城市空间结构建模
根据手机基站定位用户的位置精度为60-1500m,基站密度越大,定位精度越高。本文采用Voronoi图来表示手机基站图,由基站所在的经纬位置共定义所有的基站小区。
本文研究对象是居民出行与城市功能区的有效对应关系,需要对模拟原始数据进行预处理,针对“噪声”数据的处理步骤主要有无效数据过滤、乒乓数据清洗,具体流程见图1。
2 数据预处理
模拟原始手机信令数据存在大量无效“噪声”数据,对后续提取人口分布和群体日常活动聚集和消散特征的研究产生干扰。因此本节将从以下三个方面对数据进行预处理,以提高数据质量。
2.1 去除基站没有切换的静止用户
手机定位信息受到诸多因素的干扰,例如相邻基站的信号干扰、移动网络建设的限制等,导致部分记录中没有记载该基站对应的通讯任务,体现在模拟原始信令数据中基站编号为-1,所以删除这部分无用数据。
针对上述步骤并不能完全剔除静止用户数据,手机信令数据中包含一部分用户在某天一个时段内基站没发生切换的记录,因此基站没有变化行为的连续记录对于分析居民出行链是没有意义的。本文的处理步骤具体如下:
Step1:找到一天内相同基站编号中连续时间段内第一条和最后一条的记录;
Step2:删除中间通讯记录;
Step3:保留基站发生切换的时间戳和相应的经纬度。
2.2 信令数据匹配
本文只研究居民出行链的提取方法,因此不考虑不同地区的基站对应情况。处理步骤具体如下:
Step1:保留研究范围内同一时间段的连续两次记录的基站编号;
Step2:删除其余不在研究范围的通讯记录。
2.3 信令数据去噪
某些情况下,手机信号在极短时间内从临近基站切换到相对较远的基站,在一段时间后又切回临近基站,这种现象称为“乒乓效应”。相对静止数据,乒乓数据的虚假定位信息对城市功能区中的用户日常活动聚集与消散研究产生更大干扰。由于信号突然切换到较远的基站,需要对数据之间的设置速度阈值[vmin、vmax],进行初步判断。然后根据数据中前后三条数据之间的距离权重比m,进行进一步判断。具体寻找步骤如下:
Step1:设初始值n=2,顺序选取USER_ID中第n-1、n、n+1三条数据;
Step2:判断速度是否满足:计算数据表中经纬度和时间戳的比值,得到相邻两条记录之间的速度差[vn],判断[vn]小于[vmin即20kmh]且[vn]大于[vmax即100kmh],则判定n为漂移数据;
Step3:判断距离权重比m是否满足:在上述情况下,计算n-1、n、n+1相邻三条记录之间的距离差分别为[?dn-1,n、?dn,n+1],距离差比值即为m。判断m大于3,则判定n为漂移数据;
Step4:删除上述不符合条件的数据。
按照上述的数据预处理,得到高质量、较为完整的手机信令数据。
3 城市功能区的识别方法
3.1 基于连续时间间隔的人口密度特征提取方法
为了分析不同时期的人口分布,在本节中选择人口分布特征作为功能区识别的一个指标。由于手机记录不能反映每个基站用户的实时数量,所以在每个基站中计算用户的相对数量。基点零时间是凌晨3点。然后统计每个基站的用户相对数量。
统计规则如下:
Step1:如果用户是以前没有记录的新用户,则相应基站的相对用户数加1;
Step2:如果用户以前已经记录过,那么我们应该判断用户是移动到基站还是留在基站。以下的条件将被判断;
Step3:如果用户进入,则前基站的用户数减1。如果是停留,基站的用户数量保持不变。
图2 工作日群体出行量分布
人口分布可以反映不同时期的出行需求见图2。上午7时30分至10时之间,大量居民迁入城市中心和市中心。这种现象在上午10点30分消失。并且晚上19点出现峰值,出行量随时间逐渐下降。而在城市副中心周围也可以发现聚合现象。这些城市副中心通常有该区域的交通枢纽汇集,并且转移某一地区的居民。结果显示:城市中心日均出行量的平均值大于郊区。
3.2 基于群体日常活动聚散特征提取方法
为了研究每个基站的活动特征,特征变量设定为BT,Fn为BT定义的一个二维矩阵BTn,[n∈1,…,8061]。 研究中每10分钟统计一次用户移动量。每个元素[ Fnt,ε]包含在[t∈1,…,7]和[ε∈1,…,144]中每10分钟时间间隔[ε]期间BTn的移动量。那么在一天总时间内的移动量包含144个时间特征,[Xnε]的特性计算如下:
在工作日和周末两种时间模式下,人的活动方式和活动量是不同的。两种不同时间类型的用户聚集和耗散特征:工作日(周一至周五,包含[α1])和周末(周六和周日,包含[α2])。每天的聚合和消散特征被定义为(++表示为串联):
[Xn,αiε=1αit∈αiFnt,ε] (2)
[Xn=Xn,α1+Xn,α2] (3)
其中,[Xn]是每个基站每天的活动聚集和消散特征,
最后选取的每10分钟的用户日常活动聚集和消散特征,为了消除不同量纲和数量级对分类结果的影响,对选取148个特征值进行归一化,计算公式如下:
[y=x-xminxmax-xmin] (4)
3.3 基于时空特性的加权K-MEANS算法
通过采用K-MEANS聚类方法寻找各时间序列间的相似性关系,k个初始类聚类中心点的选取对聚类结果具有较大的影响,因为在该算法第一步中是随机的选取任意k 个对象作为初始聚类的中心。相反我们的改进的算法首先根据城市功能区中人口密度和日常活动聚散特征定义初始簇,然后该算法在每次迭代中对数据集中剩余的每个对象,根据其与各个簇中心的距离将每个对象重新赋给最近的簇。当考察完所有数据对象后,一次迭代运算完成,新的聚类中心被计算出来。如果在一次迭代前后,J的值没有发生变化,说明算法已经收敛。收敛函数和算法目标函数计算公式如下:
[J=j=1kj=1njxji-cj2n-1] (5)
[intra-cluster= 1Ni=1kXn∈CiXn-ci] (6)
[inter-cluster=mini≠jci-cj2] (7)
K-MEANS聚类算法的基本工作过程:
输入:聚类个数k,以及包含n个数据对象的数据库。
输出:满足方差最小标准的k个聚类。
Step1:从N个文档随机选取K个文档作为质心;
Step2:对剩余的每个文档测量其到每个质心的距离,并把它归到最近的质心的类;
Step3:重新计算已经得到的各个类的质心;
Step4:迭代Step2~Step3步直至新的质心与原质心相等或小于指定阈值,算法结束。
4 基于加權K-MEANS城市功能区识别算法结果分析
4.1 基于时空特性的加权K-MEANS聚类算法结果分析
当聚类中心k = 3时,发现结果将很多差异明显的曲线归为一类,确定三种不同类型的土地利用:1)当第一个高峰(12a.m.)高于第二个高峰(7p.m.)时,表示CBD和/或工业区; 2)第二高峰高于第一高峰时,表示居住区;3)两峰高度相同时,表示混合区域。尽管如此,除了聚类中心k = 3所确定的明显区分外,我们还有兴趣确定各种土地利用方式。但聚类中心k = 5时,分类结果将很多明显的趋势一致、个别特征不一样的曲线分为两类。因此,本文的其余部分将着重分析聚类中心k = 4的情况,聚类中心k = 4时,分类结果将主要特征相对集中在同一类。因此功能区的四个典型特征被确定见图4。
第一类商业区:该区域的人口聚散特点是上午人口在快速流入,午后达到高峰,下午逐渐回落,到凌晨或落到全天最低点。
第二类临时工作区:上午和下午各有一个高峰,正午时间人少,因此该曲线代表了只有工作时间才有人口聚集的特别,而商业区在正午没有因人口流出产生低谷。
第三类居住区:晚上人最多,上午人口流出,中午达到最低点,下午人口慢慢聚集。
第四类混合区:该区域人口聚散的主要特点是上午人数处于低谷,下午人逐渐聚集,傍晚人达到峰值,然后人慢慢减少。
4.2 ARCGIS地图可视化
所有的功能区域已经确定。通过功能区域与实际情况对照,可直观展示城市功能区所在的地理区位。
通过比较本文算法和传统调查结果可知,本文算法在商业区、临时工作区和居住区的识别精度上达到85%以上,而混合区识别精度有73%,说明本文算法具有较好的可靠性。
5 结论
本文从模拟手机数据出发,分析了不同位置群体流动的特点,建立时空模型。采用无监督K-MEANS聚类算法识别城市功能区,所采用的方法考虑了基站用户时间变化和空间相互作用的。确定了四个典型的功能区域,包括工作区、居住区、临时工作区和混合区。结合GIS地图可以验证一些错误的识别。由于数据精度较低,为了今后开展更为完善的细粒度研究工作以及验证,我们计划提取精度更高的全样本手机数据来改善我们的方法以及后续模型。
参考文献:
[1] Chaberko T, Kretowicz P. Geographical input to local public transport planning in Poland[J]. Bulletin of Geography. Socio-economic Series, 2013, 22(22):35-46.
[2] Zhou J, Chen X, Wei H, et al. Jobs-housing balance and commute efficiency in cities of central and western China:A case study of Xi'an[J]. ActaGeographicaSinica, 2013, 68(10):1316-1330.
[3] Geoff Rose. Mobile Phones as Traffic Probes: Practices, Prospects and Issues[J]. Transport Reviews, 2006, 26(3):275-291.
[4] Hu S, Wang L. Automated urban land-use classification with remote sensing[J]. International Journal of Remote Sensing, 2013, 34(3):790-803.
[5] Jacobs-Crisioni C, Rietveld P, Koomen E, et al. Evaluating the impact of land-use density and mix on spatiotemporal urban activity patterns: An exploratory study using mobile phone data[J]. Environment & Planning A, 2014, 46(11):2769-2785.
[6] Loibl, Peters-Anders. Mobile phone data as source to discover spatial activity and motion patterns[M]// GI_Forum 2012: Geovisualization, Society and Learning. 2012:524-533.
[7] Toole J L, Ulm M, González M C, et al. Inferring land use from mobile phone activity[J]. Proceedings of the AcmSigkdd International Workshop on Urban Computing, 2012:1-8.
[8] Tranos E, Nijkamp P. Mobile phone usage in complex urban systems: a space–time, aggregated human activity study[J]. Journal of Geographical Systems, 2015, 17(2):157-185.
[9] Tranos E, Nijkamp P. Mobile phone usage in complex urban systems: a space–time, aggregated human activity study[J]. Journal of Geographical Systems, 2015, 17(2):157-185.
[10] Zhong C, Huang X, Arisona S M, et al. Inferring building functions from a probabilistic model using public transportation data[J]. Computers Environment & Urban Systems, 2014, 48(6):124-137.
[11] Cecaj A, Mamei M. Data fusion for city life event detection[J]. Journal of Ambient Intelligence & Humanized Computing, 2016, 8(1):1-15.
[12] Ferrari L, Mamei M, Colonna M. Discovering events in the city via mobile network analysis[J]. Journal of Ambient Intelligence & Humanized Computing, 2014, 5(3):265-277.
[13] Rubio A, Sanchez A, Frias-Martinez E. Adaptive non-parametric identification of dense areas using cell phone records for urban analysis[J]. Engineering Applications of Artificial Intelligence, 2013, 26(1):551-563.
[14] Ythier J, Walker J L, Bierlaire M. The Influence of Social Contacts and Communication Use on Travel Behavior: A Smartphone-Based Study[C]// Transportation Research Board 92nd Annual Meeting. 2013.
[15] Liu X, Kang C, Gong L, et al. Incorporating spatial interaction patterns in classifying and understanding urban land use[J]. International Journal of Geographical Information Science, 2016, 30(2):334-350.
[16] Yuan J, Zheng Y, Xie X. Discovering regions of different functions in a city using human mobility and POIs[C]// ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2012:186-194.
【通聯编辑:唐一东】