大数据环境下基于职住地识别的公交通勤行为判断与特征分析
2023-12-29孙世超吕豪
孙世超, 吕豪
(大连海事大学交通运输工程学院,辽宁 大连 116026)
0 引 言
国内外长期实践表明,优先发展公共交通,尤其在早晚高峰时段吸引更多的城市居民使用公共交通出行是缓解城市交通拥堵、改善城市空气质量的有效途径[1]。为此,了解并准确掌握城市居民的公交通勤需求和通勤出行特征,是进一步合理规划公交基础设施建设、改善公交服务质量的重要前提。
问卷调查法和大数据分析法是当前获取公交通勤行为特征的两种主要方法。问卷调查法主要通过被调查人群的主观描述来获取数据,但通常受制于数据采集成本较高、样本规模有限、数据采集间隔较长等问题;大数据分析法更具经济性(数据来源于公交刷卡数据和公交车辆GPS数据)、覆盖的样本规模较大、数据采集间隔较短,能够支持长期且动态的公交通勤行为跟踪分析,可更为全面地反映公交通勤需求的实时变化。因此,近年来许多学者利用公交信息化数据开展公交通勤行为识别及特征分析研究。李军等[2]采用出行链匹配方法推算出乘客下车站点,根据出行链的出行次数和出发时间标准差识别公交通勤行为。王月玥[3]利用公交刷卡数据与公交车辆GPS数据的匹配关系,结合出行链结构确定乘客上下车站点,根据相似出行链的时空特征判别公交通勤行为。李淑庆等[4]利用上述研究中上下车站点的匹配及公交通勤行为识别方法得到公交通勤出行链,以重庆市主城区为例分析了公交通勤行为特征。翁剑成等[5]基于个体出行数据,利用最大刷卡间隔、出行天数等特征建立公交通勤行为判别规则,提取乘客的公交通勤出行链。
然而,上述方法存在一个潜在的问题,即识别出的高频出行链虽具有与公交通勤行为相似的时空特性,但未必是居住地与工作地的连线,这样的识别结果在分析职住分离等一些公交通勤行为特征时可能与真实情况不符。为此,另一部分学者考虑从职住地两端出发,从分析乘客的职住地入手,通过识别职住地进一步提取乘客公交通勤行为特征。陈君等[6]采用乘车频次统计和空间聚类方法识别公交通勤乘客的居住地和工作地。刘晓等[7]根据乘客整体和个体的出行规律识别乘客下车站点,结合出行时间链和地点-时间-时长(position-time-duration, PTD)模型识别乘客的公交通勤行为。彭飞等[8]基于包含上下车站点信息的公交大数据,从乘客在早晚高峰时段的首次出行站点中挖掘乘客的职住地并根据时空信息匹配公交通勤出行链。可以看出,大多数研究对出行链的提取或者职住地的识别需要下车站点的参与,但除了少数城市采用“两票制”收费模式外,多数城市普遍采用“一票制”收费模式,刷卡信息不包含下车站点信息。基于此类数据的研究通常借助下车站点推算方法进行下车站点识别,识别率在59%~79.5%范围内[2-5,9],较低的识别率不能保证提取的公交通勤出行链的完整性和职住地识别的准确性。
针对上述问题,利用公交信息化数据开展基于职住地识别的公交通勤行为分析方法研究。具体来说,该方法将公交刷卡数据与公交车辆GPS数据在交通小区级别下进行融合,通过分析乘客的公交出行频率、乘坐时间规律以及在早晚高峰时段首次乘车位置的稳定性等,对乘客的居住地和工作地进行识别,继而分析公交通勤需求特征。相比于上述文献中所采用的方法,本文方法不依赖于乘客的下车站点推算,因此避免了下车站点识别准确度不高的问题;本文方法是基于乘客在早晚高峰时段的首次出行站点进行职住地识别的,无须对乘客的多线换乘情况进行判断,为不完备数据环境下的公交通勤行为特征分析提供理论方法支持。
1 数据基础
1.1 公交基础数据
公交刷卡数据和公交车辆GPS数据是研究的基础数据,其构成见表1。目前,我国大部分城市公交系统仍使用“一票制”收费模式,在该模式下公交刷卡数据只能记录乘客的上车信息。由于我国大部分公交系统的信息化建设是分阶段进行的,所以公交刷卡数据和公交车辆GPS数据是采用不同的设备采集的,刷卡数据中并不包含乘车位置信息,而该信息记录于公交车辆GPS数据中。
表1 基础数据构成
1.2 乘车位置获取及其与交通小区匹配方法
乘车位置获取及其与交通小区匹配流程如图1所示,其中:t1为刷卡记录时刻;t2为刷卡车辆的GPS记录时刻;Δt=|t1-t2|;Δtmin=min{Δt}。
图1 乘车位置获取及其与交通小区匹配流程
(1)乘车位置获取。读取一条刷卡记录,让刷卡记录时刻分别与对应车辆的所有GPS记录时刻相减,得到时间差序列。通常,GPS设备的数据最大采集时间间隔小于60 s,当存在某个时刻使时间差最小且小于60 s时,将该时刻对应的坐标(x,y)作为乘客该次乘车位置。
(2)交通小区匹配。交通小区具有同质性,即其内部存在相似的交通强度或交通状态[10]。因此,利用交通小区的这一特性,将乘客的乘车位置与交通小区进行空间匹配,获取交通小区级别下乘客的公交出行行为信息,见表2。
表2 乘客公交出行行为时空信息
2 乘客职住地识别算法
公交通勤出行通常存在着较强的规律,如公交通勤时间、出行地点相对固定等,因此假设如下:①公交通勤乘客在工作日早晚高峰时段存在高频出行。②乘客的居住地为高频首次出行地。③公交通勤乘客的工作地为工作日晚高峰时段的高频首次出行地。④公交通勤乘客的每日通勤行为表现为早高峰结束前从居住地出发到达工作地,晚高峰开始后从工作地出发到达居住地。
基于以上假设,结合乘客职住地的时空联系,可以分别对乘客i的居住地和工作地建立识别规则,步骤如下:
步骤1提取乘客在早晚高峰时段的首次出行小区。为排除乘客偶然出行对职住地识别的干扰,文献[5-7]对连续5个工作日内出行天数不少于3 d的乘客进行公交通勤行为分析。若乘客i平均每周出行天数不少于3 d,提取其首次出行小区集合。若乘客i平均每周在工作日晚高峰开始后有不少于3 d的出行记录,提取其在晚高峰开始后的首次出行小区集合。
步骤2设置乘客潜在居住地和工作地。遍历乘客i的首次出行小区集合,提取出a个小区作为乘客i的潜在居住地,需满足:当其为首次出行小区时,每周出行天数>1 d。遍历乘客i在晚高峰开始后的首次出行小区集合,提取出b个小区作为乘客i的潜在工作地,需满足:当其为晚高峰开始后的首次出行小区时,每周出行天数>1 d。
步骤3根据出行时空联系确定居住地和工作地。遍历乘客i在工作日期间的出行记录,若乘客i在第j个工作日的首次出行地为潜在居住地且在早高峰结束前出行,以及该日在晚高峰开始后首次出行地为潜在工作地,则该潜在居住地为乘客的居住地,该潜在工作地为乘客的工作地,将其分别放入居住地和工作地集合。
乘客职住地识别算法流程如图2所示,其中:H1为乘客i的首次出行小区集合;W1为乘客i在晚高峰开始后的首次出行小区集合;te为工作日晚高峰的开始时刻;H2为乘客i的潜在居住地集合;W2为乘客i的潜在工作地集合;th为乘客i在第j个工作日的首次出行时刻;tm为工作日早高峰结束时刻;H3为乘客i的居住地集合;W3为乘客i的工作地集合。
若乘客居住地(工作地)集合中出行小区仅有一个,则该出行小区可直接作为乘客的唯一居住地(工作地)。若乘客居住地(工作地)集合中出行小区个数大于一个,且当这些出行小区质心之间的距离小于某个阈值时,则对于该乘客来说,这些出行小区可以视为其居住地(工作地),可将其聚合为一个小区(龙瀛等[11]的研究中,选取站点的平均间距作为该阈值,本研究是在交通小区级别下进行的,因此阈值选取为最邻近交通小区质心的平均距离,即2 km);若乘客居住地(工作地)集合中出行小区个数大于一个,且这些出行小区质心之间的距离大于该阈值,则认为该乘客可能存在多个居住地(工作地)或不存在固定居住地(工作地)。
现有研究中,职住地的识别往往是相互割裂的,对乘客的居住地和工作地分别建立识别算法,得到的公交通勤出行链缺少时空完整性。本文对居住地的识别是基于乘客潜在工作地小区,提取出乘客当日的出行链,进一步找到乘客居住地的,保留了乘客公交通勤出行链两端的时空联系。
3 应用案例分析
3.1 研究区概况
选择某市2019年4月15—28日的公交刷卡数据和公交车辆GPS数据对乘客的公交通勤行为进行分析。该市多数路段无自行车道,公交运营系统完善,居民通常选择公交车作为主要出行交通工具,且公交刷卡率达到91.5%,能够大幅度覆盖常住人口中乘坐公交车的样本总体,这为研究提供了可靠的数据支撑。数据包含10个连续工作日,共有有效出行记录1 267.2万条,其中工作日出行记录有1 032.8万条。该市共有交通小区561个,选取其中557个交通小区作为研究区域。
获取乘车位置后,将其与交通小区进行匹配,得到乘客乘车位置与所在交通小区的匹配率(达到97.2%)。绘制出不同交通小区的每日客流量,见图3。
图3 不同交通小区的每日客流量分布
根据刷卡数据,以1 h为间隔对工作日不同时段(时段1表示0:00—1:00,时段2表示1:00—2:00,以此类推)出行人数分布进行展示,见图4。由图4可知,8:00—10:00为该市公交乘客早高峰出行时段,17:00—20:00为晚高峰出行时段。
图4 工作日不同时段的出行人数分布
3.2 乘客职住地识别算法应用
3.2.1 提取潜在居住地和潜在工作地
为确定潜在居住地集合中出行小区个数a和潜在工作地集合中出行小区个数b,需结合公交乘客的具体出行情况进行分析。以该市的公交乘客出行为例,对所有乘客的首次出行小区集合和晚高峰开始后(17:00后)的首次出行小区集合中的出行小区个数进行分析,结果见图5。图5显示:①94%的乘客拥有1~6个首次出行小区。如果考虑乘客的重复出行(出行次数≥2的首次出行小区),那么99%的乘客拥有1~3个首次出行小区。因此,选择出行频率排在前3位的首次出行小区作为潜在居住地,就足以包含乘客的高频出行小区,即a=3。②97%的乘客拥有1~6个17:00后的首次出行小区。如果考虑乘客的重复出行(出行次数≥2的晚高峰开始后首次出行小区),那么96%的乘客拥有1~2个17:00后的首次出行小区。因此,选择出行频率排在前2位的17:00后的首次出行小区作为潜在工作地,即b=2。
(a)早高峰时段
3.2.2 乘客职住地识别算法结果分析
应用乘客职住地识别算法,共识别出13.9万名拥有职住地的乘客,共计422万条出行记录。将识别出职住地的乘客作为通勤乘客,未识别出职住地的乘客作为非通勤乘客。
对通勤乘客在早高峰结束前(10:00前)与晚高峰开始后(17:00后)的出行行为进行分析,结果见表3。第1类结果中,11.2万名乘客只有1个居住地和1个工作地,可直接作为他们的居住地和职住地。第2~4类结果中,2.7万名乘客的居住地或工作地并不是其在两个高峰时段的最高频首次出行地,此部分乘客占通勤乘客总数的20%,若直接将乘客在早晚高峰时段的最高频首次出行地作为职住地则会引起较大的识别误差。通过进一步分析发现,其中有2.6万名乘客的居住地或工作地不只有1个,对集合内满足质心距离小于等于2 km的出行小区进行聚合,得到:有2.2万名乘客拥有唯一职住地;另有0.4万名乘客的职住地集合内的出行小区质心距离大于2 km,该部分乘客可能存在多个居住地(工作地)或无固定居住地(工作地)。最终,识别出13.5万名具有唯一职住地的公交通勤乘客。
表3 乘客职住地识别算法结果分析
作为对比,利用文献[5]中的方法,将一周中最大刷卡间隔大于7 h、出行天数达到3 d以上的乘客作为通勤乘客,满足最大出行间隔的前后两次出行行为视为乘客的通勤行为,运用下车站点推算方法补全通勤出行链后,共得到90万条通勤出行记录。将文献[5]的方法与本文方法识别出的通勤乘客取交集后得到126 161名乘客;提取该部分乘客在早高峰结束前从居住地出发,且当日晚高峰开始后从工作地出发的出行记录作为乘客通勤出行链,共得到159万条通勤出行记录。可以看出,基于下车站点的通勤识别方法在同一数据源环境下识别出的通勤出行链完整性较差,这主要是因为在本研究数据环境下下车站点识别率只有56%。
3.3 乘客出行时空特征分析
以1 h为间隔,对具有唯一职住地的通勤乘客和非通勤乘客的出行进行分析,不同时段下出行人数占比见图6。由图6发现,该市通勤乘客和非通勤乘客在工作日和周末的出行模式存在显著差异:通勤乘客在工作日早高峰时段(8:00—10:00)和晚高峰时段(17:00—20:00)的出行人数占比达到79%以上,且在11:00—17:00的出行人数占比达到13.4%;通勤乘客在周末的出行仍存在明显的双峰分布,但在11:00—17:00的出行人数占比达到31.5%,说明一部分乘客在周末存在以休闲娱乐等为目的的出行;非通勤乘客在工作日和周末不同时段的出行较为均衡。
(a)工作日
基于乘客的居住地识别结果在交通小区级别下对通勤乘客的平均通勤距离进行分析得到,平均通勤距离为5.7 km,标准差为3.9 km,约72%的乘客的通勤距离在2~8 km范围内,20%的乘客的通勤距离在8 km以上。居住于不同交通小区的乘客的平均通勤距离如图7所示,通勤距离由城市外围到城市中心逐渐递减。
图7 不同交通小区的平均通勤距离
4 结 论
利用某市连续两周的公交刷卡数据,在交通小区级别下建立乘客职住地识别算法,对公交乘客的通勤行为进行识别分析。
与基于出行链的公交通勤行为识别方法相比,本文方法识别和提取出的通勤出行链更具完整性。在建立乘客职住地识别算法时,延续了职住地之间的时空联系,能有效识别出一日之内使用公共交通往返于职住地的通勤行为。一些研究直接将乘客在早晚高峰时段的最高频首次出行地作为乘客的居住地或工作地,从实例分析结果看,会使15.6%的通勤乘客的出行链识别错误或缺失,进一步分析发现此部分乘客中有78%的乘客在早晚高峰时段的最高频首次出行地与识别出的居住地或工作地高度相关,根据空间位置进行聚合后保留了该部分乘客的通勤客流,提升了该部分乘客通勤出行链的完整性。
本文研究能够为交通规划部门了解通勤行为特征、发展城市智慧交通提供方法上的参考。不足之处在于:本文研究是在交通小区级别下进行的,虽然提高了乘客上车站点的匹配率,但不可避免地会降低空间分辨率;数据源存在单一性,仅对某市公交通勤行为进行了实例分析。随着公共交通大数据的不断丰富,未来将利用更多城市的公共交通信息化数据对本文方法的可靠性和泛化能力进行验证。