基于网格划分的城市交通常发拥堵识别方法
2023-09-27赵训婷
冯 强,李 丽,赵训婷,李 杨,云 旭
(1.北京市交通基础设施建设项目管理中心,北京 100166; 2.北京交研智慧科技有限公司,北京 100073)
0 引言
路网常发性拥堵识别技术是支撑交通设施规划建设和管理的重要基础之一.常发性拥堵的识别、预测和改善措施等相关研究相继涌现,这些研究主要将浮动车GPS数据作为主要分析数据.GPS数据记录了车辆的速度、位置等实时信息,通过地图匹配算法将GPS数据匹配到路段上,统计路段平均浮动车速度,将其作为路段运行速度.在此基础上绘制路段速度时空分布图是拥堵识别最为直观的方法,能反映道路交通运行状态的动态变化[1].但此类方法具有一定的局限性,当研究区域较大,路网拓扑关系复杂或有存在多个常发性拥堵点时,识别任务变得复杂.
为改进上述方法的缺点,学者们[2-3]提出了基于路段拓扑与拥堵传播理论的瓶颈识别方法和基于网格划分的拥堵区域识别方法.前者考虑了路段之间的拓扑关系,深入挖掘常发性拥堵的传播扩散机理将常发性拥堵路段及上下游相邻路段的速度特征值差异性作为判断标准.张溪[4]将相邻路段的速度差、时间差和拥堵持续时间作为瓶颈点识别规则.冯嘉松[5]计算相邻路段速度时间序列相关性,判断是否为连续拥堵,构造“拥堵树”识别拥堵产生的瓶颈.此类方法当浮动车GPS数据难以精准与路段匹配造成速度缺失时,上游路段发生拥堵,无法完整构建拥堵传播树.
基于网格划分的拥堵区域识别方法主要思路是将城市路网划分为多个网格,将浮动车速度按网格单元进行统计,通过构建网格之间的传播关系,对网格进行聚类和拥堵识别.闫学东[6]通过对网格交通运行指数进行密度聚集类别,划分为“点—线—面”3个层次,对交通拥堵状况进行评估研究.程小云[7]在城市路网时空立方体数据模型框架下引用动态识别传播关系的STC(Spatial-Temporal Congestions Algorithm)算法构建拥堵传播树,利用动态贝叶斯网络计算拥堵子树的传播概率.杨海强[8]在边长为250 m网格的基础上,利用改进的基于密度空间聚类算法将常发性拥堵网格进行聚类,如果网格相邻或具有连通性,则认为是常发拥堵区域.此类方法将所有车辆的平均速度与网格进行关联,一定程度上减少了计算量.但用网格替代道路实际连接情况,会导致网格内部道路拥堵识别精度不高,难以识别具体道路.此类方法将所有车辆的平均速度与网格进行关联,一定程度上减少了计算量.但用网格替代道路实际连接情况,会导致网格内部道路拥堵识别精度不高,难以识别具体道路.
综上所述,在城市常发性拥堵问题中,学者常以GPS数据为基础,应用传播扩散机理对拥堵进行溯源分析.但当路段数据缺失,或由于路网成环等原因,识别拥堵瓶颈的精度降低,且对于大规模路网计算量较高.因此在交通网络常发性拥堵路段的识别问题中,简化路网拓扑关系并依据拥堵传播理论计算路段之间的速度时空关系是研究重点.基于此,本文以浮动车数据与道路电子地图为基础,通过路网网格化处理与时空相关性分析,在识别常发性拥堵路段的基础上提供1套拥堵瓶颈识别方法.
1 数据预处理
GPS技术的广泛应用,为浮动车交通信息的采集提供了数据基础.GPS数据包含车辆ID、时间、经纬度、速度和行驶方向等字段.本文采用2022-09-01—09-30工作日早高峰(07:00—09:00)和晚高峰(17:00—19:00)经过北京市朝阳区的所有出租车行驶轨迹数据.该区域路网密度较大,并拥有大型车站、商业区域等重要吸引点,存在大量的出租车活动,出租车GPS点位较为密集.出租车轨迹数据格式如式(1)所示:
P(id,x,y,v,t,sta)
(1)
式中,id为车辆ID标识;x,y为车辆所在位置经纬度;v为车辆行驶速度;t为采集点时刻;sta为车辆状态,包括满载与空车.
为得到研究区域内的路段在每1个采样周期的平均速度,需先将路网和GPS数据进行匹配.基于邻近原则的地图匹配算法是常用的匹配方法[9],设GPS点待投影路段的直线斜率为k,(xa,ya)为待投影道路的起点坐标,则对应路段上投影点C的坐标如式(2)所示:
(2)
待投影点距离直线的距离为:
(3)
在一定距离的缓冲区内,通过GPS轨迹点对所有待匹配路段进行投影,找到垂直距离最小的路段作为匹配路段,并将偏离道路过远的GPS轨迹点进行剔除,最终得到路段上的所有投影点,然后计算同一路段同一采样周期内所有投影的GPS点速度,将其作为该路段的平均速度.
2 城市交通网络常发性拥堵路段与瓶颈识别算法
在分析拥堵传播机理、识别常发性拥堵传播路径的研究中,考虑拥堵传播范围尤为重要.常用的道路电子地图以节点和路段的形式构成,区分道路方向并准确的记录了路段上下游关系,在相关研究中常作为基础数据,但在应用道路电子地图识别拥堵瓶颈点时,存在下述3个问题:
1)拥堵传播路径成环.拥堵溯源的过程中总是判断当前路段与上游路段是否发生拥堵,但当路段成环时(例如环岛或网格路网),计算陷入循环无法进行拥堵源头的确定.
2)多个合流点造成的计算量增加.拥堵溯源算法将路段合流点视作“树”结构,溯源过程需要对每1个树的节点进行遍历,当合流点较多时,计算量将成指数增加.如图1所示.
图1 拥堵溯源过程
3)部分路段速度缺失,造成拥堵传播路径的误判.采用浮动车GPS数据并进行路网匹配,将浮动车平均速度作为路段的速度是常用的表征方法.但受GPS采样周期和电子地图路段划分规则的影响,会存在某个路段长度较小且没有GPS匹配到路段上,造成采样周期内的速度为0.当路段上下游均发生严重拥堵时,会造成拥堵扩散趋势被该路段切分,进而导致拥堵源头由1个识别为2个.
为解决上述问题,本文将道路电子地图进行网格化处理,使用网格间的空间距离表征各路段之间的距离.网格划分能简化道路之间的拓扑关系,减少长度较小的路段对堵点扩散趋势判断的影响,在大规模路网瓶颈识别中能减小计算量,进而以网格为单元进行空间相关性分析,得到平均速度空间相关范围.
2.1 地图网格划分
常发性拥堵识别精度易受到网格大小的影响[10].在已有的相关研究中,网格尺度主要有200 m×200 m[11]、250 m×250 m[8]、2.7 km×0.926 km(将研究区域划分为40行×40列的网格)[12].考虑拥堵扩散空间相关性,引入Global Moran’s I[13]空间自相关测度指标,用于描述空间邻近区域的属性值相似度.计算方法见式(4)(5)[14]:
(4)
(5)
式中,yi为网格内所有浮动车的平均速度;n为影响范围内的网格总数;wij为要素i和j之间的空间权重.Global Moran’s I指数用于分析全局空间自相关,取值范围为[-1,1],如果指数大于0则为空间正相关,越趋近于1其相关性越强;如果指数小于0则为空间负相关,越趋近于-1其负相关性越强;若值为0则不相关,时空序列呈现完全的随机性.
在空间计算分析中,空间权重可表示为邻接矩阵和距离矩阵,考虑本文所研究的拥堵扩散范围可能包含多个网格,因此将空间权重定义为距离矩阵以衡量距离因素,并通过Z检验评价空间自相关的显著水平见式(6):
(6)
式中,E(I)和v(I)分别表示为Global Moran’sI的期望和方差;N(0,1)为标准正态分布.对于网格划分有2个影响因素需要确定:一是网格大小;二是拥堵扩散距离.计算一系列不同网格大小和拥堵扩散范围内Global Moran’sI和Z,其中网格边长取值范围为设置为[200,1 000 m],步长为100 m,拥堵扩散距离为[网格边长,10*网格边长],步长为一个网格边长.计算多天一系列不同取值的Global Moran’sI和Z的平均值,得到结果如图2所示.
图2 不同网格大小和拥堵扩散距离下的Global Moran’s I和Z
由图2可知,随着网格单元边长的增加,拥堵影响范围的增加,Global Moran’sI值越低,空间聚集效应越不显著.综合Global Moran’sI和Z的计算结果,本文将3 km作为拥堵扩散的最大显著影响范围.
2.2 常发性拥堵路段的识别
对于lanei的拥堵状态拥堵状态时间序列Seqi={Si1,Si2,…,Sit,…,SiT},Sit表示为lanei在时间窗的拥堵情况.依据北京市地方标准路段交通运行等级划分[2],得到路段运行畅通或拥堵状态如表1所示.
表1 北京市交通运行等级划分 km/h
按表1给出的拥堵划分规则将路段速度进行编码,将畅通和基本畅通定义为0,轻度拥堵为1,中度拥堵为2,严重拥堵为3.
本文将1 d内发生多次拥堵,且同时拥堵多天的研究路段认为是常发性拥堵路段,定义识别规则见式(7):
1)同一天早晚高峰所有采样间隔内的拥堵程度总和大于阈值δ,即:
(7)
2)按照拥堵频率进行判定,如果Sit在当天发生拥堵,则D(Sit)=1,否则D(Sit)=0,则对于lanei在所有观测日期内发生的拥堵总次数大于阈值θ,即:
(8)
统计研究范围内的所有路段,将满足上述2种情况的路段识别为常发性拥堵路段.
2.3 时序偏移的常发性拥堵瓶颈识别
采用时间偏移互相关来确定发生拥堵的先后关系.如上节所述,假设lanei的拥堵状态时间序列为Seqi,时间偏移量为k∈[-ε,ε],lanei的时间偏移拥堵状态时间序列Seqi的构建过程如图3所示.
图3 路段i时间偏移后的拥堵时序
通过上述步骤可得到每个路段的拥堵时序,进一步通过计算皮尔逊相关系数来计算两路段拥堵时序相关程度,见式(9):
(9)
3 案例分析
本文通过地图匹配算法计算得到路段15 min平均速度,并按表1交通运行等级划分规则对拥堵状态进行编码,并按式(4)(5)识别常发性拥堵路段,设置阈值δ为12(即早高峰或晚高峰各有1 h较为拥堵以上时序),θ为17(即1周内发生拥堵的天数大于等于4 d),得到早晚高峰常发性拥堵路段如图4所示.
图4 朝阳区早晚高峰常发拥堵路段
针对识别出的常发性拥堵路段,按2.1节的计算结果确定拥堵影响的范围为3 km,计算网格内常发性拥堵路段与其余路段逐天的早晚高峰时序相关性,并计算时间偏移量在研究时段内的平均值.平均时间偏移量为正,表示为同一网格内其他路段与常发性拥堵路段相比晚发生拥堵,反之则为其他路段与常发性拥堵路段相比早发生拥堵.
3.1 识别结果验证
选取常发性拥堵路段5125作为案例以验证算法准确度.通过计算与该路段时序强相关的其余路段多天平均时间偏移量,进而绘制拥堵扩散图,结果如图5所示.
图5 晚高峰常发性拥堵路段5125(健翔桥)瓶颈识别结果
图5中不同颜色表示了路段的平均时间偏移量,由图5可知主路16073和相邻辅路最先发生拥堵,最终导致拥堵分别向健翔桥的其余3个方向开始扩散.
本文通过绘制速度时空分布图以验证算法的准确度,由于时空速度图只能直观表示拥堵传播的1条路径,因此选取常发性拥堵路段5125所在的路径进行验证,绘制多天时空速度图以描述拥堵的传播过程,如图6所示.
图6分别绘制了2022-09-13—09-16速度时空分布图.通过多天数据的速度时空分布图可知,常发性拥堵产生瓶颈均是由路段16073与路段16072引起,速度时空图的结果与本文识别结果一致.
值得注意的是图5中除主路外,还有与研究路段5125拥堵时序强相关的路段,例如4513与16131,他们的长时间拥堵程度变化趋势与研究路段强相关,但由于路段之间不相连,因此这种强相关的关系无法识别为拥堵瓶颈.
为进一步说明路段之间不相连场景,以LinkID 14207的常发拥堵路段为例绘制拥堵时序相关图,如图7所示.路段位置位于北三环安贞桥—太阳宫桥,早高峰进城方向由北向南,导致纵向多条道路与研究路段的拥堵时序相关,但由于多条路段没有与研究路段相连,该结果不是由于某1个瓶颈点扩散导致的常发拥堵,而是北向南的交通需求过大,多条道路供给不足共同造成了常发拥堵.
图7 常发性拥堵路段14207(北三环安贞桥-太阳宫桥)拥堵时序相关性计算结果
3.2 常发性拥堵瓶颈频次统计
将同一网格内与常发性拥堵路段时序强相关且平均时间偏移量最小的路段视为引起常发性拥堵的瓶颈,统计瓶颈出现位置与次数,得到结果如图8所示.
图8中线条的宽度表示了该路段作为引起常发性拥堵的频次.通过频次统计可知,朝阳区早高峰常发性拥堵瓶颈频次较高的路段为团结湖路、呼家楼西里北和朝阳北路.晚高峰常发性拥堵瓶颈频次较高的路段为四惠桥、东四环中路辅路-朝阳北路和酒仙桥北路.
4 结论
本文以浮动车GPS数据和道路电子地图为基础,提供了1种基于网格模型的城市交通网络常发性拥堵识别方法,得到以下结论:
1) 通过分析长时间周期内路段速度空间相关性,基于Global Moran’sI确定了拥堵扩散的显著范围,即网格范围的大小.
2) 在识别常发拥堵路段的基础上,考虑拥堵扩散的时间,构建偏移拥堵时序并计算同一网格内常发拥堵路段与其余路段的时序相关性,得到显著相关路段所对应的时间偏移量,识别导致常发拥堵产生的瓶颈.
3) 针对具体案例,绘制速度时空分布图以验证识别结果的准确度.最终统计常发性拥堵瓶颈频次,所得到的结果有助于交通规划和管理者制定缓堵策略.
此外,在后续研究中,可在本文提出的算法基础上进一步识别路段连接关系,判断连续的拥堵蔓延路段,进一步识别导致拥堵的瓶颈点.