基于因果关联的交通拥堵传播分析
2021-01-19陈美林郑治豪郭宝王璞
陈美林,郑治豪,郭宝,王璞
(1.中南大学交通运输工程学院,湖南长沙,410075;2.轨道交通大数据湖南省重点实验室,湖南长沙,410075)
城市交通的发展与居民生活息息相关。随着城市化进程加快,机动车保有量逐年提高,各大城市交通拥堵普遍出现,制约了国民经济的发展[1],分析城市交通拥堵的演化过程显得十分重要。关于交通拥堵演化问题,国内外研究者大多使用交通流理论如元胞自动机模型[2-5]、跟驰模型[6-7]、流体力学模型[8-9]等进行研究。LONG 等[10]提出了基于元胞传输模型的交通拥堵传播模型,通过仿真发现该模型能有效识别出拥堵瓶颈道路。张晨琛等[3]采用元胞自动机模型研究了高速公路收费站的拥堵机理,发现收费通道开放数量和入口流量是造成高速公路主线收费站拥堵的主要原因;MICHALOPOULOS 等[8]改进流体力学模型,估计了交叉口车辆排队形成和消散的过程,揭示了交通流的时空流动关系;李树彬等[11]基于中观动力学模型研究了网络拓扑结构对交通拥堵传播的影响,发现网络中边介数较大的道路容易发生交通拥堵(某条道路的边介数定义为网络中所有最短路径中经过该道路的路径的数目占最短路径总数的比例)。拥堵是人类活动与路网结构共同作用的复杂非线性现象,以上研究主要基于研究者自主定义规则的仿真实验,然而,单纯依靠仿真模型很难反映路网拥堵时的真实状态。随着信息通讯技术的发展,越来越多的交通数据被采集,基于大样本数据的实证研究成为新的研究热点。近年来,众多学者通过数据挖掘技术从海量真实数据中探索交通拥堵的成因与扩散规律,如:MA等[12]结合深度受限的玻尔兹曼机和递归神经网络模型建立了交通拥堵预测模型,并利用宁波市出租车GPS 数据进行验证,发现该方法对拥堵的预测精度达到88%;SAEEDMANESH 等[13-14]提出了一种基于“SNAKE”相似性度量的动态聚类方法,该方法能快速将路网分类成若干个连通的同质区域,以捕获拥堵的动态变化;WANG 等[15]设计了一种视觉分析系统,该系统从出租车GPS 轨迹中提取拥堵信息并构建传播图,直观展示交通拥堵的传播过程;AN等[16-17]提出一种基于网格的拥堵检测方法,揭示了常发性拥堵的传播规律。以上方法主要集中于对拥堵事件进行独立分析,未对拥堵在不同区域之间传播的因果关联关系进行研究,无法定位出导致拥堵传播的重点传播源。为此,本文作者以蜂窝网格为单元计算网格速度并提取拥堵事件,提出基于时空特征的拥堵传播事件提取方法,通过分析网格之间拥堵传播的因果关联关系,定位出易发生且易传播拥堵的重点传播源,以便为交通部门处理交通拥堵问题提供决策依据。
1 数据描述与处理
1.1 路网信息
本文使用深圳市路网信息,如图1所示。该路网由21 115 条路段和13 109 个交叉口组成,每条路段包含路段编号、长度、起终点对应的经纬度以及交叉口编号等信息。以蜂窝网格为单元,对路网进行映射,并剔除无路段经过的蜂窝网格。蜂窝网格的速度由出租车速度计算所得,为了保证蜂窝网格速度计算结果的准确性,网格应足够大以确保当车辆通过该网格时,至少有1个轨迹点位于该网格中。本文计算了出租车相邻GPS 轨迹点的距离,发现96.8%的轨迹点与上一轨迹点的距离小于500 m,因此,选取相邻蜂窝网格中心的距离均为500 m。
图1 深圳市路网Fig.1 Road network of Shenzhen
1.2 出租车GPS数据
本文使用深圳市2016-09-01—2016-09-28 中工作日的出租车GPS 数据,该数据包含14 392 辆出租车提供的897 591 210 条记录,如表1 所示。每条记录表示1个轨迹点的信息,包括车牌、时间戳、经度、纬度和载客状态等。载客状态中,1表示载客,0表示未载客。
由于出租车运行过程可能产生异常的GPS 数据,本文参考文献[15,18]中方法,对获取的GPS轨迹数据进行清洗。首先,将每辆出租车的轨迹点按时间进行排序,删除具有重复时间戳的轨迹点;然后,剔除不在深圳市范围内的轨迹点。由于出租车处于空载寻客状态时车速一般较慢,速度不具有代表性,因此,删除出租车在空载状态下的GPS轨迹点数据[19],将连续载客状态下的轨迹点序列作为1次出行序列,进行以上操作后共获得出行序列4 913 315 条。出租车GPS 数据采样频率为15 s。由于少量出租车GPS设备出现故障,出行序列中部分相邻轨迹点在时间和空间上间隔较远,利用间隔较远的轨迹点计算速度时误差较大,因此,将相邻轨迹点空间间隔大于2 km 或时间间隔大于10 min的出行序列断开,形成2条或多条出行序列,经过该操作后共获得出行序列6 357 912条;同时,为了避免GPS 设备载客状态记录故障而生成的短序列的影响,删除轨迹点数少于5个或者总长度小于500 m 的出行序列,最终获得出行序列5 188 348条。
表1 出租车GPS数据格式Table 1 Format of taxi GPS data
1.3 地图匹配算法
采用ST-Matching 地图匹配算法[20]将出行序列与深圳市路网进行匹配。以出行序列p =[p1,p2,p3,…,pi,…,pn]为例:首先,获取轨迹点pi周围35 m 范围内的所有路段作为其候选路段集合然后,计算每条候选路段的观测概率相邻轨迹点两两候选路段之间的传递概率以及轨迹点各候选路段的综合概率最后,选取综合概率最高的候选路段作为轨迹点匹配路段。观测概率、传递概率和综合概率的计算方式如下:
通过以上步骤,得到出行序列p的匹配路段序列。将相邻轨迹点对应的最短路径长度与间隔时间的比值作为该出行序列在该路径的速度,并将该速度映射到对应路段上作为1次速度计数。设置时间窗长度为15 min,计算时间窗内某路段所有计数速度的平均值作为该路段的速度。为保证数据可靠,本文仅对每个时间窗内经过车辆数不少于5的路段速度进行研究[15]。
2 网格拥堵传播规律研究方法
2.1 拥堵事件检测方法
为消除不同道路等级造成的速度差异,定义相对速度(路段速度与该路段自由流速度的比值)量化路段的交通状态,自由流速度为该路段速度集由小到大顺序排列的85%分位值[15]。由于路段长短不一,同一路段可能在不同位置出现不同的交通状态,且交叉口的交通状态由多条路段共同决定,因此,以蜂窝网格为单元计算网格速度并提取拥堵事件,能更精确地描述各区域的交通状态。网格速度为路段相对速度的加权平均值,权重为路段在网格内的长度。网格拥堵判定采用WANG等[21]提出的方法,若网格n 在时间窗t 的速度小于该网格在所有时间窗速度平均值的0.5倍,则判定为拥堵,并记作拥堵事件C(n,t)。定义C(d)表示第d天中所有拥堵事件的集合。
2.2 拥堵传播事件提取方法
当网格交通状态为拥堵时,拥堵波会随时间不断向周围扩散。基于拥堵传播的时空关系,定义拥堵传播事件为一系列空间尺度或者时间尺度存在相邻关系的拥堵事件集合,用CP(i)表示第i个拥堵传播事件。
图2所示为拥堵传播事件的提取流程,具体实现步骤如下。
第1步:参数初始化,令d = 1,i = 1。
第2步:获取第d天的拥堵事件集合C(d)。
第3 步:从C(d)中随机选取1 个拥堵事件C(n,t),将其从C(d)中剔除并归至第i 个拥堵传播事件CP(i),将该拥堵事件进行标记。
第4 步:判断C(d)中是否存在拥堵事件C(n′,t′)与C(n,t)网格相邻且时间相邻,即编号为n′的网格和编号为n 的网格中心相距500 m,且|t′ - t|≤15 min,若存在,则将满足条件的拥堵事件从C(d)中剔除并归入CP(i),执行第5步;否则,直接执行第5步。
第5步:判断CP(i)中是否存在未被标记的拥堵事件,若存在,则选取其中1个未被标记的拥堵事件,记为C(n,t),并将其进行标记,返回第4 步;否则,令i = i + 1,执行第6步。
第6步:判断C(d)中是否存在拥堵事件,若存在,则返回第3步;否则,进一步判断是否完成所有数据的识别,即d是否达到最大值。若d未达到最大值,则令d = d + 1,返回第2 步;否则,执行第7步。
第7步:剔除只包含1个拥堵事件的拥堵传播事件,完成对所有拥堵传播事件的提取。
图2 拥堵传播事件提取方法流程图Fig.2 Flow chart of congestion propagation event extraction method
2.3 拥堵传播规律确定方法
拥堵传播事件汇聚了不同时间或空间的网格,这些网格存在直接或者间接的因果关联关系。在某一具体拥堵传播事件中,先发生拥堵的网格可能会直接造成其他网格接连发生拥堵,也可能是多个拥堵网格共同造成其他网格接连发生拥堵,因此,可认为先发生的拥堵事件对后发生的拥堵事件存在一定影响。
若在同一拥堵传播事件中存在2 个拥堵事件C(ni,ti)和C(nj,tj)满足ti≤tj,则在认为该拥堵传播事件中存在拥堵关联关系W(ni,nj)。为反映拥堵网格之间的影响程度,定义关联置信度为
式中:θ(ni,nj)为网格ni对网格nj的关联置信度;A为存在拥堵关联关系W(ni,nj)的拥堵传播事件个数;B为包含ni的拥堵传播事件的个数。关联置信度θ(ni,nj)具有方向性,由网格ni中心指向网格nj中心。
为反映目标网格对其他网格的综合影响度,定义传播源强度S(ni)。网格的传播源强度越高,则该网格在已拥堵情况下造成其他网格拥堵的可能性越高,且影响范围也越广,因此,需重点关注传播源强度高的网格区域。传播源强度计算公式为的出租车GPS 数据使得路段速度计算结果可靠,选取7:30—9:00(早高峰)和17:30—19:00(晚高峰)这2个时段进行分析。深圳市共有10大行政区即南山区、大鹏区、福田区、罗湖区、宝安区、盐田区、龙华区、龙岗区、坪山区和光明区,其中,大鹏区、坪山区和光明区未检测到拥堵事件,这是由于这3个行政区的出租车经过数量较少,因此,对剩余7大行政区进行研究分析。拥堵事件检测及拥堵传播事件提取结果表2所示。
图3(a)所示为早晚高峰时段各行政区拥堵事件和拥堵传播事件的可视化结果。结合图3(a)和表2可知:1)大部分行政区在晚高峰时段的拥堵事件和拥堵传播事件发生次数通常高于早高峰时段,这是由于晚高峰时段除了通勤出行外,娱乐出行产生交通量较大;2)在早高峰时段,南山区发生拥堵事件的次数最多,龙岗区发生的拥堵传播事件最多,而在晚高峰时段,龙岗区发生拥堵事件和拥堵传播事件的次数均最多;3)福田区在早晚高峰时段发生的拥堵事件次数存在明显差异,晚高峰时段的拥堵事件发生次数明显比早高峰时段的多,这是由于福田区是深圳市的中心城区,晚高峰时段该区域的出行次数较多。
为分析拥堵传播事件的严重程度,分别从时间(持续时间CT)和空间(影响范围CR)这2 个角度分析拥堵传播事件的特性。持续时间CT为拥堵传播事件中拥堵发生时间与结束时间之差,CT越大,说明拥堵传播事件产生连锁拥堵的时间越长。影响范围CR为拥堵传播事件中包含蜂窝单元的数量,CR越大,说明拥堵传播事件产生连锁拥堵的范围越广。
图3(b)所示为CT的概率密度分布。从图3(b)可知:超过80%的拥堵传播事件会在45 min 之内结束;早高峰相对晚高峰更易出现短时拥堵(CT≤45 min),而晚高峰更易于出现长时拥堵
3 拥堵传播实证分析
使用前面所述方法对深圳市蜂窝网格进行拥堵事件检测和拥堵传播事件提取。为保证有充足(CT>45 min)。
表2 拥堵事件和拥堵传播事件检测结果Table 2 Detection results of congestion events and congestion propagation events
图3 拥堵事件和拥堵传播事件分析Fig.3 Analysis of congestion events and congestion propagation events
图3(c)所示为CR的概率密度分布图。从图3(c)可见:早晚高峰时段拥堵传播事件影响范围均服从指数分布f (x)= a ·e-bx,拟合系数R2均达到0.99以上;早高峰时段函数参数a = 0.22,b = 0.29,而晚高峰时段函数参数a = 0.19,b = 0.24,这说明大部分拥堵发生时影响的范围都比较小。在早高峰时段检测到的拥堵传播事件中,单个时间窗获得的拥堵网格数量最多的1 个事件为33 个,而晚高峰时段则达到73个。
通过以上分析可知:深圳市早高峰容易出现范围小、持续时间短的拥堵传播事件,而晚高峰相对早高峰更容易出现范围广、持续时间长的拥堵传播事件。
基于拥堵传播事件,计算每个网格对其他网格的关联置信度θ(ni,nj),该值越大,说明网格ni在已拥堵的情况下造成网格nj拥堵的可能性越大。
为进一步分析早晚高峰各行政区拥堵传播的整体情况,依据关联置信度的方向性,计算各个行政区在东南西北4个方向的累积关联置信度。例如,某一关联置信度θ(ni,nj)的方向为东南方,则该关联置信度应同时分配到网格ni所在行政区的东向和南向,最后分别计算东南西北4个方向所有关联置信度之和作为累积关联置信度。累积关联置信度的大小和方向反映了各行政区拥堵传播的整体严重程度和传播方向。各行政区在东南西北4个方向的累积关联置信度如图4所示。
从图4可以看出:1)宝安区、龙华区、龙岗区和南山区的拥堵传播方向较均衡,但早晚高峰的累积关联置信度存在一定差异;2)福田区早高峰拥堵传播事件较少,因此,各方向的累积关联置信度也较小,而晚高峰时段拥堵主要向东北方向传播,累积关联置信度(>400)均比其他行政区的大,说明在晚高峰时段福田区发生的拥堵传播事件均较严重,影响范围大,持续时间长;3)罗湖区早晚高峰时段的整体拥堵传播方向正好相反,早高峰时段整体拥堵向西南方传播,晚高峰时段整体拥堵则向东北方传播,表现出明显的潮汐现象。4)盐田区由于发生拥堵事件和拥堵传播事件均较少,因而累积关联置信度均偏小(<35)。
图4 各行政区累积关联置信度分析Fig.4 Analysis of cumulative confidence correlation in different administrative regions
图5 传播源强度分析Fig.5 Analysis of propagation source intensity
进一步分析拥堵网格的地理分布,找出易影响其他网格的传播源网格,基于网格之间的关联置信度,计算每个网格的传播源强度。图5所示为各个网格的传播源强度分布情况。从图5 可以看出:1)早高峰时段,深南北环立交桥附近、沈海高速、福龙路、梅观立交桥附近、求水岭隧道和沙湾路等区域具有较高的传播源强度;2)晚高峰时段,上述区域的拥堵传播源强度均有所降低,但仍属于传播源强度较高的区域,应重点关注;3)晚高峰时段,传播源强度最高的区域处于福田区北环皇岗立交桥、深南皇岗立交桥以及罗湖区泥岗红岭立交桥附近。
4 结论
1)基于出租车GPS 数据,结合拥堵的时空特征,以蜂窝网格为单元提取拥堵传播事件,更精确地描述各区域的交通状态。晚高峰时段发生的拥堵事件和拥堵传播事件次数普遍比早高峰的多,早高峰容易出现范围小、持续时间短的拥堵传播事件,而晚高峰更容易出现范围广、持续时间长的拥堵传播事件。
2)提出关联置信度指标,挖掘网格之间拥堵的因果联系。通过计算网格之间的关联置信度以及各行政区的累积关联置信度,发现各个行政区整体拥堵程度和传播方向在早晚高峰时段都存在一定的差异。
3)分析传播源网格的地理分布情况,利用传播源强度指标定位易发生且易传播拥堵的重点传播源。早高峰时段的重点传播源并未分布在作为中心城区的福田区范围内,但晚高峰时段传播源主要集中在福田区且传播源强度明显比其他区域的高,传播源的动态变化规律可为交管部门制定管控策略提供科学依据。