基于手机信令数据的城市通勤出行特征研究
2020-04-20丁鹏程郑长江
丁鹏程,杨 明,郑长江,朱 健
(1.南京市城市与交通规划设计研究院股份有限公司,江苏 南京 210000;2.河海大学,江苏 南京 210098)
随着大数据时代的发展,手机信令数据为通勤交通出行数据提供了新的采集手段,从而为提取通勤出行特征以及识别城市居民职住分布特征提供了有利条件。如何有效地从手机信令数据中提取城市居民通勤出行特征以及职住地分布特征成为研究城市通勤的关键。目前,利用手机信令数据对城市通勤和职住分布进行研究成为了国内外许多学者关注和研究的热点[1-6],国外有Gur Y[7],以以色列为例,建立了跨城市范围的手机信令数据交通规划模型,并由此建立以色列城市居民交通OD出行计划;V Angelakis[8]通过对手机信令数据的处理与分析,预测了国家和城市聚集层面的出行轨迹,并用可视化视图,对整体出行轨迹进行表达与展现。最后,以构造OD矩阵的方式,来划分交通拥挤路段。国内毕晓萤[9]从出行次数、出行目的分布、出行方式构成3个方面入手,将中小城市出行特征与大城市进行比较分析,同时对中小城市不同时期的出行特征进行对比分析;刘杰[10]等根据手机运营商提供的手机信令数据,建立交通模型得到各个交通小区之间的人员出行OD矩阵及其特性;毛晓汶[11]通过处理原始手机信令数据,并从中提取手机用户出行特征,用案例的方式分析了区域的交通出行特征;马亮[12]利用轨道交通刷卡数据,提出了绝对通勤圈和相对通勤圈的概念,对轨道交通刷卡数据进行了数据格式转换、数据清洗、数据匹配、空间映射、数据提取;本文通过参考文献[13-15]提出的基于DBSCAN的空间停留点提取算法对手机信令数据进行停留点的提取,然后提出一种职住停留点划分方法对停留点进行职住划分,并构建一种通勤出行特征提取模型,最后以案例应用的方式验证此方法与模型的可行性。
1 基于手机信令数据挖掘的关键技术
1.1 手机信令数据的构成
用手机收发短信、主被叫、上网、位置更新、小区切换等,会留下相应的位置信令数据。每一条手机信令数据包括4个字段,分别是:①MSID(匿名加密唯一用户标识):加密之后每位手机用户的唯一识别号;②TimeStamp(时间戳,精确到秒):时间发生时刻;③CellID(基站小区编号):事件发生时刻所处基站小区编号;④EVENT(事件类型):主被叫、发短信、接短信、开关机、小区切换、正常位置更新、周期位置更新等。
1.2 手机信令数据的清洗
手机信令数据具有如下三个特征:①存在大量脏数据②数据量庞大③信令数据时间间隔不均匀。针对以上特性,首先进行相应的数据清洗,包括无效数据的清洗、漂移数据的清洗和“乒乓效应”数据的清洗。
1.3 基于DBSCAN的停留点提取算法
本文采用文献[13]提出的基于DBSCAN的空间停留点提取算法对手机信令数据进行停留点的提取。此算法在传统的DBSCAN空间聚类算法的基础上进行改进,兼顾到空间和时间两个维度。其主要思路是遍历数据源并找出其中的核心对象,然后以核心对象为中心,找出所有与核心对象密度相连的对象,将这些对象圈成新簇,接着找出新簇里所有核心对象的密度相连的对象,并将它们加入到新簇,这样就可以保证簇的边缘都不是核心对象。随后寻找没有被归到簇里的对象,重复以上的步骤,直至遍历整个数据源。遍历整个数据源后,不被任何簇包含的对象为噪声对象。
1.4 职住停留点划分
本文设计一种职住停留点划分方法,如图1所示。考虑到大多数通勤者在早6:00是在家中,10:00在单位,所以取一个时间段(6:00—10:00),用此时间段的首尾两个停留点簇分别作为居住停留点簇和就业停留点簇。在得到居民的职住停留点簇后,可以提取出通勤出行距离,并且利用ArcGIS做出居民职住分布图。
图1 职住停留点划分示意图
2 基于手机信令数据的通勤出行特征提取模型
2.1 数据再处理
(1)
(2)
表1 新数据表字段
图2 数据再处理示意图
经过一系列数据处理,得到用户出行识别数据如表2所示。
2.2 通勤出行特征提取
1)出行次数。在上面得到用户出行识别表中,当Stay等于0时,说明手机用户处于移动之中;当Stay等于1时,说明手机用户处于停留状态。当Stay值从1变成0,又从0变成1时,表明用户完成一次出行。因此可以利用Stay值变化的次数来表征用户一天之内的出行次数,计算式如式(3)所示:
(3)
式中:Fj为手机出行用户j一天之内的出行次数;Stayi为手机出行用户j第i条信令数据的Stay值。
进而,可以用式(4)计算一天之内所有人的平均出行次数:
(4)
式中:F为1 d之内所有人的平均出行次数;n为每一个手机用户的所有手机信令数据总条数;M为手机出行用户总数。
2)通勤出行距离。本文用停留点间的直线距离作为出行距离,对于用户,第j个停留点与第j+1个停留点之间的距离可用式(5)计算:
(5)
式中:R为赤道半径,取6 138 km。
因此,手机用户i一天内的出行距离就可以用式(6)计算:
(6)
式中:n为手机用户i全天内停留点的数量。
可以利用上面的职住停留点的划分方法,提取出居住停留点和就业停留点,利用式(5)计算居住停留点簇代表点和就业停留点簇代表点间的直线距离,即表征为通勤出行距离。
进而可以计算所有手机用户的平均通勤出行距离:
(7)
式中:m为手机出行用户的数量;R为赤道半径,取6 138 km;
3)通勤出行时耗。居民出行时间可以通过出行过程中起止停留点之间的时间差来表征,即用出行开始时之前的停留点簇中最后一个停留点时间记为出行开始时间tf,用出行结束之后的停留点簇中第一个停留点记为出行的结束时间tl,则手机用户i通勤出行时耗tc即可用上午就业停留点簇中第一个停留点时间tl与居住停留点簇中最后一个停留点时间tf之差来表征,计算式如式(8)所示。
tc=tl-tf,
(8)
进而,居民平均通勤出行时耗以式(9)计算:
(9)
其中,m为手机出行用户总数。
4)通勤出行速度。经过上面分析,得到通勤出行距离和通勤出行时耗的计算式,则通勤出行速度的计算式如式(10)所示。
(10)
其中,S为用户的出行速度;tf、Lonf、Latf为出行前的最后一个停留点时间、经度和纬度;tl、Lonl、Latl为出行后的第一个停留点时间、经度和纬度;R为赤道半径,取6 138 km。
进而可计算得到所有用户的平均出行速度,计算式如式(11)所示。
(11)
其中,n为用户的出行次数总和;m为手机出行用户总数;S为所有手机出行用户的平均出行速度。
3 实例分析
本文利用扬州移动某一工作日内的手机信令数据,通过上文的算法进行清洗与挖掘,过滤了无效数据10 523条,占12%;过滤乒乓数据3 142条,约占全部数据的3.6%;过滤漂移数据1 136条,约占1.3%。经过信令数据的清洗后,剩余72 891条有效信令数据,约占全部数据的83%。经过数据处理后的数据表如表3所示,表中的字段含义如表4所示。
表3 数据处理结果示例
表4 数据处理结果字段含义表
deltaVstayTstimePointcenterLoncenterLat相邻点速度差停留点状态停留时间停留开始与结束时间停留点簇的中心经度停留点簇的中心纬度
下面利用通勤出行特征提取模型提取出行次数、通勤出行距离、通勤出行时耗和通勤出行速度,然后与居民出行调查数据进行对比分析,验证此模型的可行性。
1)出行次数。根据国内外研究对“手机出行”的定义,将停留距离的阈值设置为500 m,将停留时间的阈值设置为10 min,根据出行次数计算式(3)可以算出该工作日扬州市居民平均出行次数:
2.61次/(人·日)
扬州居民出行次数统计表如表5所示,所得结果可以看出,利用本文的出行特征提取模型对手机信令数据进行提取,可以得出居民出行次数为2.61次/(人·日),与居民出行调查分析所得的2.72次相比较为接近,误差在4%左右,说明本文的出行特征提取模型在出行次数的提取上具有可行性。
表5 扬州居民出行次数统计表
2)通勤出行距离。根据平均通勤出行距离计算式(7)可以计算出扬州居民的平均通勤出行距离:
扬州居民通勤出行距离分布图如图3所示,根据居民出行调查,居民平均通勤出行距离为3.46 km,大部分集中在5 km以内。
图3 扬州居民通勤出行距离分布图
提取所得结果与居民出行调查分析所得的3.46 km相比,误差在10%左右,误差原因主要为提取手机信令数据得出的出行距离是直线距离,与实际的路径距离相比有所减小,但在可接受范围内,大体能表征居民的出行距离,说明本文的通勤出行特征提取模型在通勤出行距离的提取上具有可行性。
利用式(5)对扬州居民通勤出行距离进行计算,可以得到居民通勤出行距离分布图,如图4所示。
图4 由手机信令数据提取的居民通勤出行距离分布
3)通勤出行时耗。根据通勤出行时耗计算式(8)和式(9)可以分别计算出每个手机用户的通勤出行时耗和所有用户的平均通勤出行时耗。平均通勤出行时耗为:
扬州居民通勤出行时耗折线图如图5所示,根据居民出行调查,全目的方式的平均出行时耗为22.06 min,主要集中在15 min及30 min左右。
图5 扬州居民通勤出行时耗折线图
提取所得结果20.15 min与居民出行调查数据中的22.06 min相比,误差在8.6%左右,在可接受范围内。提取居民通勤出行时耗后,可以得到居民通勤出行时耗分布图,如图6所示,可以看出居民通勤出行时耗主要分布在5~20 min和25~35 min内,与居民出行调查分析大体一致。说明本文的通勤出行特征提取模型在通勤出行时耗的提取上具有可行性。
图6 由手机信令数据提取的居民通勤出行时耗分布
4)通勤出行速度。按照平均出行速度计算式(11),可以计算得出扬州市居民出行的平均速度:
3.89 m/s=14.004 km/h
利用出行速度计算式(10)计算得出的出行速度分布如图7所示。
图7 由手机信令数据提取的居民通勤出行速度分布
4 结 论
本文选取扬州市居民通勤出行特征分析作为实例,利用基于手机信令数据的通勤出行特征提取模型对扬州居民手机信令数据进行数据挖掘,提取出相应的通勤出行特征,包括出行次数、通勤出行距离、通勤出行时耗以及通勤出行速度,并与居民出行调查分析进行对比验证,结果较为接近。说明本文基于手机信令数据的通勤出行特征提取方法具有可行性,为以后利用手机信令数据进行通勤出行特征的研究提供了理论依据。