APP下载

基于卡口数据的交通参数提取方法研究*

2020-03-14李建梅吴晓炜陈浩田

交通信息与安全 2020年6期
关键词:时距车头卡口

孙 猛 李建梅 孙 锋▲ 吴晓炜 陈浩田 朱 爽

(1.山东理工大学交通与车辆工程学院 山东 淄博 255049;2.淄博市公安局交通警察支队张店大队 山东 淄博 255000)

0 引 言

城市交通发展到信息化、智能化、智慧化的新时代,将大数据挖掘技术与智慧交通相结合,能够显著改善城市发展中的交通拥堵问题。随着电警、卡口等视频监控设备的增加,交通基础数据库得到了极大的丰富,为日趋智能的精细化交通管理提供了驱动力。

交通数据分析领域的1项重要研究内容是通过相应算法挖掘数据中的描述性指标参数[1]。张玺君等[2]结合交通数据的时空特性进行去噪和压缩等预处理并构建数据分析平台对预处理的数据进行挖掘。徐程等[3]针对交通数据的缺失问题,基于时空关联性对缺失数据提出了不同条件下应用的数据恢复方法。王殿海等[4]分析评述了数据采集技术的变革对参数估计方法发展的影响。张辉等[5]结合经典交通流与机器学习方法,提出1 种利用聚类最小二乘方法估计车辆速度的方法。H Y Sutarto 等[6]结合马尔可夫模型的转移矩阵和AR模型的参数,提出1种数据驱动的交通流参数估计方法。付凤杰[7]基于卡口数据针对不同交通流方向行程时间估计值的差异性,提出了考虑多因素的计算模型。姜桂艳等[8]通过分析交通流特性和地点交通参数与平均行程速度的关系,提出了城市主干路拥挤交通流路段平均行程速度的3种估计模型。马东方[9]通过分析流量、速度和时间占有率的相互关系,提出1 种基于上游断面信息的排队上溯识别方法并验证了其精度。李爱杰等[10]基于单截面低频定点检测数据结合交通波理论,构建了周期最大排队长度估计模型。赵淑芝等[11]以改进的METANET模型为基础,通过确定排队队尾位置从而获得车辆排队长度。Luo 等[12]提出了1种利用车牌识别数据和信号方案估计信号交叉口排队长度的新方法。Zhan等[13]提出了1种基于车道的车牌识别实时队列长度估计模型。蒋欢昕等[14]回顾信号交叉口几种延误的定义及各种延误之间的关系,对常见的信号交叉口延误的情况进行了归纳。张惠玲等[15]确定了流量比、车速比、空间占有率和排队长度比4个评价指标,研究了1种基于多指标融合的单交叉口运行状态实时评价方法。

已有的研究成果大都侧重于单一参数提取,缺少一整套针对需求及状态参数的处理流程,且过饱和状态下的提取精度不足。为此,笔者首先分析交通大数据预处理流程,进而通过挖掘卡口数据蕴含的时间及状态关联特性,构建过饱和状态下的参数提取及估算方法,最后选取Python 可视化库和Echarts等可视化工具对提取结果进行可视化展示。

1 交通卡口数据挖掘流程

本文数据来自淄博市张店区高清智能卡口系统,针对原始数据进行了结构化分析,并从不同角度进行了预处理,以提高数据质量。

1.1 原始数据结构

原始卡口数据的列项是车辆牌照号作为第一标识,此外还包括卡口名称、车道号、通过道口时间、车牌颜色、车身颜色等数据列,具体数据结构见表1。

表1 高清卡口数据Tab.1 HD bayonet data

1.2 数据预处理方法

原始数据普遍存在着很多缺陷:①数据的不一致性,包括标签的不一致、数据结构维度的不一致和数据范围值的不一致等;②数据中充斥着大量的无效数据和错误数据;③数据整体结构存在缺失性,需要进行重新架构。为此,需要对原始数据的无用数据进行剔除,同时对数据储存,结构等方面进行规约,构建统一的标准和框架对不同方式和平台采集的数据进行数据清洗、集成和转化。

1)异常数据处理。在处理过程中引入变异系数来判断数据对整体数据的偏离程度,选取合适的阈值进行筛除。

2)无效数据处理。剔除车辆颜色等对交通运行参数提取没有影响的数据,以减少数据的基础样本量。

3)缺失数据处理。数据缺失达到80%以上且重要性较低时进行删除操作,缺失较少且较为重要采用填充法,包括定值填充、插值法填充、模型填充、连续序列填充和历史数据填充等修复法等。

4)数据统一化处理。将不同格式进行数据统一化处理时要考虑数据的维度特性和结构特性。

5)数据整体结构处理。找寻数据的提取规律,选取数据正常的时段,进行样本提取,在样本提取过程中样本对整体数据的反应情况是重点。

6)缺失和补偿处理。由于硬件、软件和网络的原因,数据在平台上提取和整合的过程中会有缺失,在数据处理过程中会采取车道数补偿,漏拍补偿,总体补偿等方法。

1.3 总体框架

本文对交通数据的分析过程大体分为3 个模块:数据预处理模块;数据关联与筛选模块;参数提取模块。构建基于Python 程序的模型流程见图1。

图1 Python数据分析流程图Fig.1 Python data analysis flowchart

2 参数提取方法

在保证卡口设备识别率的前提下,依据车牌匹配算法可准确地获取交叉口之间的车辆行程时间;引入路段长度参数可获得车辆平均速度,利用采集的大量车速样本可估算同时段的路段自由流速度,结合行程时间和路段长度可得到每辆车的区间延误,基于时空轨迹图推导过饱和状态下的排队长度模型,并基于Python平台进行了算法实现。

2.1 基本参数获取

根据卡口数据中车辆通过停止线的时间记录,利用匹配算法可提取相邻路口之间的车辆行程时间,进而加入路段长度参数确定车辆平均速度。图2中P1和P2为道路停车线,车辆从停车线P1到达P2的时间即路段行程时间。

在实际应用中提取路段行程时间,要重点考虑以下2点。

图2 相邻交叉口示意图Fig.2 Schematic diagram of adjacent intersections

1)阈值区间设定。Pandas 处理时间数据时可设置1 个阈值区间来提取正常范围内的行程时间,区间下界可采用路段长度和最大限速的比值确定,区间上界可根据路段长度等因素而定。

2)时段划分。车辆多次经过卡口会使结果产生误差,因此,按照30 min的时段维度对数据进行块状提取,可有效减少大量的无效数据。见式(1)~(2)。

式中:T为某时段的路段行程时间,s;t1为经过卡口1 的时刻;t2为经过卡口2 的时刻;Δt为单辆行程时间差值,s;n为提取到的车辆数,otherwise为其他情况,null为无效数据。基于上述行程时间可以求出其行程速度和时间平均车速,见式(3)。

车辆延误可表示为车辆实际行程时间与自由行驶时间的差值,车辆实际行程时间已通过卡口数据求得,通过路段长度和自由流速度能计算出车辆自由行驶时间,在固定时段内通过车辆的延误即为车辆延误,单个车辆延误与固定时段最大延误见式(4)~(5)。式(6)简化了自由流速度的计算过程,将采样的前20%车辆速度求均值作为路段自由流速度。

式中:d为车辆延误,s;Δt为卡口间行程时间,s,Lr为路段的长度,m;Dmax为周期最大车辆延误,s;Vf为路段的自由流速度,km/h,vmax为路段的最大限速,km/h,v80%为速度集合中80%位速度,km/h。

2.2 排队长度估算

1)延误与排队长度。在给定路段条件、信号条件,以及交通流条件下,某周期内的排队最远点相对于停车线的距离越大,则本周期通过下游停车线的第1 辆车辆通过该路段所经历的周期数也越多,其相应的延误时间,即周期最大延误时间也越大。因此,高峰时段周期内的最大延误时间与排队最远点相对于停车线距离存在正相关关系,如果能够表达二者之间的函数关系模型,则可以利用周期最大延误信息来推测排队最远点位置进而来识别排队长度。排队的产生与消散过程见图3。

图3 高峰交叉口排队产生与消散Fig.3 Generation and dissipation of queue at intersection

在图3中,上1个周期的部分未被释放排队车辆会在下1 个周期红灯启亮的开始时刻形成初始排队。令周期i的初始排队位置点和排队最远点分别用Bi和Ai表示,车辆X在i-n周期的排队位置点为Ci-n。式(7)~(8)为过饱和交叉口最大车辆延误和最大排队长度的关系。

式中:Lp为i-1 周期内最大排队长度,veh;g为周期内绿灯时长,s;Sf为车队的释放流率,veh/h;Sa为车队的到达流率,veh/h;r为周期的红灯时长,s;t’为车辆X在i-1 周期排队之前的行驶时间,s;N为车道数。

2)车道排队车辆数。在每个周期中,部分车辆在到达交叉口停止线前,由于受红灯阻滞,在渠化车道内减速停车等待,绿灯启亮初期,渠化段内等候车辆开始向前运动,流率变化较快,从零逐渐达到饱和流量,并以饱和流量依次通过停车线,排队的车辆依次按照接近饱和流量的方式进行释放,直至红灯启亮或排队队列释放结束。绿灯期间某车道车头时距的变化见图4。

图4 车头时距变化Fig.4 Diagram of headway variation

由图4 可知:车头时距的变化分为3 个基本阶段,第1 阶段是车辆启动时的加速过程使得车头时距由大变小;第2 阶段是启动波在排队队列中的稳定传播使得车头时距稳定在某个区间内;第3 阶段是排队消散进而车头时距变大。现根据车头时距的周期变化来对周期排队车辆进行分析提取,首先利用每辆车通过停止线的具体时间可提取预设周期内经过交叉口车辆的车头时距,见式(9)。

式中:ti-1,i为统计范围内第i个车辆与第i-1 个车辆的车头时距,s;ti为统计范围内第i个车辆通过停止线的时间,s;ti-1为统计范围内第i-1个车辆通过停止线的时间,s。

获到车头时距集合后需设定2个初值作为车头时距的阈值来判断车队的连续性,并与配时方案进行时间线上的匹配,在绿灯通行区间内确定连续车辆集合为排队车辆集合,统计排队车辆集合长度为排队车辆数,见式(10)。

式中:Sp为某车道车头时距序列的连续长度;seri为计算连续序列的自定义统计函数;Sε与Sγ为seri统计函数的阈值函数;ε与γ是序列连续性判断阈值;k为第1阶段尾车车辆序列号;w为第2阶段尾车车辆数序列号。

3)排队长度获取。利用卡口等断面检测数据无法直接获取高峰时段排队长度等参数指标,只能通过深入挖掘卡口数据蕴含的关联信息,并结合路网时空逻辑关系,从而推导参数提取方法。综合考虑上述步骤获得的排队车辆数和车辆周期延误进而推断出排队长度。

式中:Lz为估计排队长度,m;φ为权重阈值;lc为车辆排队时车头间距,m;Sp为某车道车头时距序列的连续长度,veh;Lp为周期内最大排队长度,veh。

3 实例验证

3.1 交通调查

以淄博市张店区北京路主干道上北京路-人民路、北京路-华光路为例进行模型的应用,验证模型的实用性和有效性。北京路-人民路与北京路-华光路之间路段长度L为775 m,卡口检测设备均在各交叉口停止线位置。北京路-华光路与北京路-人民路交叉口的渠化结构和信号配时方案见图5~6。

图5 北京路-人民路交叉口渠化与信号配时Fig.5 Channelization and signal timing of Beijing-Renmin Road intersection

3.2 模型实现

验证数据为北京路主干道2020 年3 月5 日07:00—09:00 的卡口数据。利用 Pandas 和 NumPy对早高峰07:00—09:00北京路与人民路、华光路交叉口之间的行程时间进行预处理。见图7,行程时间处理前分布115~186 9 s之间,有明显异常数据,严重影响后续数据处理。数据进行筛选、补偿和统一化处理后分布在115~348 s之间,有显著的规律性。

图6 北京路-华光路交叉口渠化与信号配时Fig.6 Channelization and signal timing of Beijing-Huaguang Road intersection

图7 异常数据提取前后对比Fig.7 Comparison of abnormal data before and after extraction

早高峰 07:00—09:00 车辆的速度数据进行FFT 低通滤波处理后的平滑曲线更接近实际通行中车队速度变化。速度数据见图8。

图8 车辆的平均速度及其FFT低通滤波处理后的曲线Fig.8 Average speed of vehicle and its curve after FFT low pass filtering

早高峰07:00—09:00 延误在计算中会出现负值,将负值进行归零化可避免对结果产生负面的影响。延误变化见图9。

图9 早高峰车辆延误Fig.9 Vehicle delay A.M.Peak

此外,结合监控视频数据和记录数据进行对比分析,进而确定车队平均到达率绿灯开启后头3 辆车的阈值ε为 6.5 s,之后阈值γ为4.5 s 时,其处理结果和真实排队情况较为相符。早高峰07:00—09:00单条车道排队车辆数据见图10。

图10 早高峰周期排队车辆数Fig.10 Number of vehicles queuing A.M.Peak

利用卡口数据统计车队的车道平均释放流率Sf为1 600 veh/h,车队的车道平均到达流率Sa为450 veh/h,lc设为6 m,将权重阈值φ设为0.5,利用式(14)进行计算,得到排队长度见图11。

图11 早高峰周期排队长度Fig.11 Cycle queue length A.M.Peak

3.3 可靠性分析

基本参数的提取和设备关系密切,精度主要取决于识别率和传输率,因此主要验证排队长度的误差率,将分析结果与监控视频进行对比分析,误差率见图12。

图12 排队长度实例对比Fig.12 Comparison of queue length examples

从图12 可算出模型平均相对误差(MAPE)为15.6%,平均绝对误差(MAE)为18.4 m,模型精度达到了85%以上,可作为智能交通控制的有效支撑数据。

3.4 可视化实现

数据可视化的重点是对数据有效的展示和变换,使得用户得到易理解和有价值的信息。本文在交通数据可视化的实现中主要基于Python 的第三方库、Echarts 动态渲染图工具。原始数据经过Python 数据分析框架处理后,实现数据可视化有各种主题性的选择[16-19]。图13是结合Python第三方库中Timelines 和Zoomdata 等展示功能绘制的周期车辆动态变化图。

图13 各方向交通量统计图Fig.13 Traffic statistics in all directions

图14 区域车辆数统计图Fig.14 Statistics of regional vehicles

图14 为基于Echarts.js 绘制的分层区域车辆数统计图。

4 结束语

针对卡口数据结构特征,提出了一套预处理-指标提取-可视化一整套的交通卡口数据挖掘流程框架,在提取行程时间、平均车速和车辆周期延误的基础上利用排队车辆数构建了高峰时段排队长度估计模型,与传统的排队长度估算方法相比,模型实现了卡口数据参数的自动流程化处理且精度较高;基于Python和Echarts等工具软件,实现了交通运行参数自动提取及可视化一体展现,能够为智能交通管控的决策提供支撑。如何融合监控、地磁等多源异构交通数据建立更综合的参数提取模型,将做进一步研究。

猜你喜欢

时距车头卡口
趣味性进度提示设计对时距知觉的影响
高铁车头为什么是子弹头的?
学习障碍学生与普通学生短时距估计的比较
L卡口“马拉松”联盟的前世今生
“现在”有多长:空时距知觉的分段性研究
回溯式时距估计的计时机制*
在市场中成熟起来的大车头村
高速公路车道高清卡口系统实施方案
基于高清卡口识别的高速公路长隧道安全比对系统
RFID与高清卡口技术在广东联网收费的应用