基于结构化视频数据的交叉口评估及问题自动化诊断

2020-09-04李君羡童文聪沈宙彪吴志周

同济大学学报（自然科学版） 2020年8期

李君羡，童文聪，沈宙彪，吴志周

（1.同济大学道路与交通工程教育部重点实验室，上海201804；2.上海羡通交通科技有限公司，上海200092；3.上海市城市建设设计研究总院（集团）有限公司，上海200125）

城市交通通畅与交叉口高效运行高度相关，评价交叉口运行效率、识别其低效运行致因，对调整管控对策、避免拥堵有重大意义。交叉口运行情况可通过排队长度、停车次数、延误等微观参数表征。

Budi等［1］证明了道路通行能力手册算法相对仿真在评估上述参数方面有一定优势；高云峰等［2］基于仿真提出了停车延误及次数、排队车辆数等指标与信控方案关系的动态迭代估计方法；Shatnawi等［3］基于特定的检测器布局提出车辆延误自动检测算法，并以仿真验证。上述基于理论建模的方法涉及大量参数标定工作，对数据条件要求苛刻，且以仿真作为验证手段可靠性不足，实际应用受限。

数据驱动的交通运行检测方法可克服上述问题，智能交通设备的广泛布设为此类方法提供了条件。Chen等［4］基于浮动车数据提出了交通网格模型，标定交叉口各向延误总和、平均行驶速度等以表征交叉口运行状态；SeJoon等［5］基于蓝牙数据估计车辆行程时间实现交叉口运行评价；Almohanna［6］基于可自动定位和乘客计数的公共交通工具提出了估计平均延误以及排队长度的方法，可标定低效交叉口；刘磊等［7］以低频定点检测器采集流量、占有率、速度，结合交叉口离线信号配时方案，以路段平均行程速度为标签变量，提出了基于分类回归树模型的交叉口状态估计方法。

对比上述数据，视频数据信息量大、可溯源，随着图像识别技术发展与终端产品成本下降，城市核心区域交叉口视频采集设备覆盖率达到较高水平［8］，引起国内外学者的注意。张惠玲等［9］提出了基于视频双截面的交叉口延误检测方法；Zheng等［10］采用视频图像处理器配合特定系统提出观测排队长度和延误的方法，以仿真验证了方法可靠性；郑来等［11］基于计算机视觉构建信号交叉口排队车辆静态间距测算模型；曹倩霞等［12］提出了一种融合背景差分、块级帧间差分等视频图像处理技术的方法以检测排队车辆，进而获得延误、停车次数等参数，能较好地满足交叉口运行性能评价需要。以上研究都实现了利用视频数据获取交叉口运行关键指标并可关联交叉口效率评价，但对视频设备布设条件或图像分析处理技术依赖较强，应用于多交叉口大规模路网对算力要求高，实时性难以保证；环境变化可能影响图像清晰度导致算法精度下降；仅可检测参数，但仍完全依赖人工判断低效运行的原因，缺乏对信号控制方案调整的实时支持。

针对上述局限性，考虑车头时距对交叉口运行水平评价的效用［13-14］，提出一种基于结构化视频数据、以车头时距为主要观察对象的交叉口车道级运行效率分析方法。过程完全基于数值计算与统计，运算速度快，即使未与智能信号控制子系统联网，也可实时查找路网中的低效车道并实现指标与信控方案的同步比对，分析低效原因，进而支持包括信控方案实时优化调整在内的应对策略。

1 数据及预处理

收集某城市27km2核心区域内下列数据：第1组包括2017年6月2日37个交叉口电子警察视频数据；第2组包括同年6月2日至6月8日某2个交叉口电子警察视频数据。

上述视频数据为原始视频图像经过处理后的结构化数据，内容为细化到车道级颗粒度的过车记录，每条记录包含的属性及其数据类型如图1。

图1 视频数据属性及其类型Fig.1 Data types of attributes of video data

设备未完整采集上述所有信息时会标记缺失属性，图2为某设备24h过车车牌漏检数-时刻分布，该数据可以用于支持智能设施运行检测，也可作为后续做车牌属性相关分析如外地车标记、车型组合等时的扩样依据。

图2 车牌漏检情况分析Fig.2 Analysis of undetected plate records

原始数据存在同一车道连续2条数据过车时间完全一致的情况（此类异常占本次数据比例小于0.1%），为设备上传记录前对未成功获取过车时间的记录，以邻近前一条过车数据时间戳补全导致，应及时修正：对非高峰时段采用前后2次正确记录的时间戳对异常数据做线性插值补全；而高峰期间此类异常对后续计算影响较大，故对整段高峰数据剔除不用。

合理假设城市道路交叉口展宽段不存在车辆临时变道行为，则各车道过车数据无交叉重复。对经过上述清洗过程的数据，按车道对交叉口过车数据分组并按时间排序，以第2条过车数据开始，对其过车时间逐条做向前差分记作新列，为该条过车数据的车头时距属性。为方便后续分析，对该属性向下取整。

进一步处理过程中可能观察到其他异常，如单位时间流量急剧下降又迅速恢复、全日流量曲线严重震荡且多日交通完全不具可复现性等如图3，应及时剔除。

图3 分析过程异常数据示例Fig.3 Example of abnormal data found in analysis

经上述处理并做全面性、一致性评价后，第1组共有5个交叉口数据各向数据完整、准确，另外有4个交叉口虽缺失1到2个方向的数据，但获取到的数据完整性较好，予以保留；第2组仅第1个交叉口满足要求，下文单口分析方法说明均以其（下称示例交叉口）作为示例，其交通设计如图4，各向车道由内向外从1开始依次编号。

2 高峰时段查找

交叉口运行效率分析一般以高峰小时为对象，需基于数据查找各交叉口高峰时段作为分析基础。

以特定颗粒度分时统计各交叉口日流量，形成交叉口流量-时刻序列并进一步查找流量最大时段，示例交叉口连续多日对比高峰小时分布如图5。

图4 示例交叉口交通工程示意图Fig.4 Traffic design of example intersection

图5 示例交叉口连续7日高峰小时对比Fig.5 Comparison of peak-hour at example inter⁃section for 7 consecutive days

可见虽然同一交叉口每日最大流量存在差别，但性质近似的日期其高峰时段相近。可考察流量曲线的可重现性以简化高峰时段查找工作。借鉴向量间相似性系数［15］概念，并做最大归一化计算归一化相似性系数s ab。

式中，f a和f b表示要比较的向量，Cov(f a，f b)为两者协方差，D(f)为向量方差。本研究中向量即指定交叉口两日流量-时刻序列分别对应的向量。

计算示例交叉口一星期每日流量-时刻序列两两间归一化相似性系数，构成矩阵并绘制热力图如图6。

该交叉口工作日相似性较高，可统一标定高峰时段；2个休息日与工作日整体差异较大，且彼此也存在差别，需分别分析。对各交叉口单独分析时可以此方法基于历史数据充分利用流量分布相似性，节约高峰小时查找工作量。提取出的高峰时段数据是后续视频与信控数据同步关联的基础。

图6 示例交叉口日流量曲线相似性系数热力图Fig.6 Heat map of normalized similarity coeffi⁃cients of daily flow at example intersection

3 视频与信控数据的同步关联

提供视频数据的电子警察和高低位视频设备分属智能交通管控系统中的违法监测和视频监视子系统，与信号控制子系统间无时间轴信息同步关系；后者多依赖于配套的地感线圈、地磁等数据作为配时优化依据，此类设备难以采集车牌、交通违章、行人干扰、交通事件以及不同交叉口之间的交通流分布与扩散关系等信息，应用于交叉口效率问题诊断及原因排查受到限制，而视频数据在上述参数检测方面占据优势［16］，可为信控方案精细化调整提供多维信息，实现视频数据和信号控制方案同步关联。

3.1 分析条件

管控方案优化需求集中在高峰小时，提取前文查找出的高峰时段数据作为分析对象。为排除干扰，剔除不受信控约束的车道数据。

3.2 信控周期识别

连续过车时，车道车头时距序列为连续的较小值；发生拥堵、绿灯空放和红灯期间则会出现较大车头时距。其中，拥堵和绿灯空放时车辆通过体现出随机性，大车头时距值不稳定；由红灯导致的大车头时距则呈现一定周期性，且数值远大于一般情况。据此可仅基于车头时距数值识别交叉口该时段内信控周期时长，原理如图7。

汇集同一时段交叉口各受控车道的车头时距，并根据交叉口流量规模估计周期时长下限值，取该下限值以上的所有车头时距值并聚类，分离出大车头时距中的周期时长数据。为排除嵌套相位、未饱和车道、提前停止过车等影响，令所有受控车道均参与识别，以其中的最大稳定值作为最终周期时长。

图7 基于车头时距曲线识别周期方法原理Fig.7 Principle illustration of recognizing cycle by headways

示例交叉口星期日均流量为81 753pcu·h-1，估计周期下限为60s，采用K-means算法对车头时距时间序列聚类，如图8。

分别取聚类数k=2，3，4考察效果，k=2时不能排除异常大值，效果较差；k取3或4时效果近似，最终确定聚类参数k=3用于识别周期。将识别出的周期数据按时间顺序排列，设定容许变化阈值，自动实现周期分段，整理示例交叉口周期时长T结果如表1。

表1 示例交叉口高峰时段周期分析结果Tab.1 Cycles in peak hours at example intersection

3.3 相位分离与相序查找

确定周期后，可提取高峰时段各车道车头时距曲线，并以进口道方向分组分析。根据上述分段周期时长，取示例交叉口6月2日17：20—17：30数据进一步分析，如图9。

图9 各向车头时距曲线图及信控方案对应关系Fig.9 Headways of all directions and signal control schemes

各车道车头时距曲线由高值回落后的第1个车头时距是该车道绿灯放行后第1个排队车辆经过视频检测区域留下的记录，代表绿灯启亮时间；此后密集的小车头时距代表绿灯期间车辆连续通过；车头时距陡然上升至高值且一段时间内不再回落代表本车道本周期停止通行。相邻相位体现为各车道连续小车头时距曲线的搭接，即某一方向停止放行，下一相位开始放行。

图9中示例交叉口所有车道受控，各向车道小车头时距独立成簇、各自起始时间一致，可见为单口放行方案；同方向各车道车头时距陡升点及绿灯末期波动程度不相同，均有左转2根车道先于直行车道停止过车，由于是单口放行，可推测左转车道在优先清空排队，直行车道饱和度更高。根据曲线搭接关系，交叉口按东—北—南—西—东进口的顺序放行，各相位绿灯时间由小车头时距带宽观测。与实际方案对比如表2。

表2 识别相位时长与实际对比结果Tab.2 Comparison of recognized phase duration and actual value

实际操作中可查找各个车道的大车头时距并标记其起终点位置，从而实现相位切分。基于视频数据提取的车头时距推断交叉口信控方案周期时长及相位相序信息，可实现交叉口运行参数和信控方案的对照关联，是特定信控方案下交叉口效率分析与问题诊断的基础。

4 交叉口效率分析与问题诊断

基于上述关联结果，可进一步从信控方案低效相位识别和交叉口低效车道识别2个方面诊断交叉口低效致因，以便分别从时间、空间资源角度对提升交叉口服务水平提出建议。

4.1 信控方案效率分析及低效相位查找

根据实时识别的交叉口信控方案及相应各进口道方向、各车道的分车型流量，可计算车道i在第j周期归一化平均通行效率系数（简称效率系数）----E ij。

式中，V ij为由过车车型换算得到的车道i在第j个周期通过的标准车当量流量，pcu；G ij为车道i在第j周期分配的绿灯时长，s；算式除以max{E}表示将计算结果做最大归一化。在实际应用时，也可用其他时间颗粒度（如15min）各车道总流量替代V ij统一计算，用于车道相对效率对比。综合比较同一相位各车道效率系数统计参数可反映如下问题：

（1）均值。代表该相位绿灯时间综合利用水平，高值代表接近饱和。

（2）方差和极差。代表该相位通行车道饱和水平的接近程度，低值代表各车道饱和水平接近，如同时均值较高，说明该相位效率较高。

以示例交叉口6月2日17：00—17：15为例，基于其结构化视频数据集计分向分车道流量如图10。

图10 示例交叉口高峰时段分车道流量统计Fig.10 Lane volume in peak hours at example in⁃tersection

结合前文分析，该时段信控采用单口放行配时方案，所以按方向将车道分组计算效率统计值等同于按照相位计算。计算15min各车道效率系数及相位统计值如表3。表中相位1、4、3、2分别对应东西、南、北进口。

表3 示例交叉口车道效率系数Tab.3 Lane efficiency coefficients at example in⁃tersection

可见，相位2、3各车道效率相近，效率均衡较好，其中相位2最大值水平相对其他相位较低；相位1、4各车道效率不均衡情况较严重，其中相位4左转车道相对直行空放情况明显，相位1存在同样问题且综合效率较低。

4.2 车道效率分析及低效车道查找

针对高峰小时，对应不同配时方案分割时间窗，提取其中各车道车头时距展开分析：分区间统计不同车头时距出现频率，并求解各区间k车头时距加和占总时长的比例P k。

其中C k为隶属该区间的车头时距个数；h i为该区间第i个车头时距，s；T为统计时长，s。

短车头时距频数、时长比例占优代表该车道车流连续通行；中、高车头时距（红灯除外）频数、时长比例占优说明绿灯时间未得到充分利用；红灯时长比例间接反映了该车道分配时间资源情况。

图11 单个车道车头时距组成分析Fig.11 Composition analysis of lane headways

图11 统计6月2日示例交叉口2条车道17：00—8：00车头时距分布情况并计算各区间P k值。按上述分析，无论从小车头时距区间频数占比还是占总时长比例，均显示图11a的通行效率更高，而图11b虽然分配到更多绿灯时间，但因存在干扰导致车辆不能连续通过或存在绿灯空放等，浪费了时间资源。

可针对指定区域内所有车道展开分析，按日进行车道通行效率排名，对筛分出的低效车道，可结合车头时距形态分析其低效原因。

4.3 车头时距形态聚类及特征分析

4.3.1 车头时距形态含义

选择示例交叉口2个受控车道，截取其高峰时段时间窗观察各自车头时距曲线如图12。图12a车流通过相对连续性好、车头时距稳定，各绿灯末期均体现车头时距值略有增加，显示车队平稳清空；图12b各周期全程数据相对不稳定，过车数量相对少，且后期有较大震荡，可能存在同时放行其他流向干扰或绿灯浪费。

不同车头时距分布形态可体现车道通行效率并解释其低效原因，也能揭示交叉口的时间空间资源的浪费问题。据此，将各车道绿灯期间的车头时距曲线聚类，可快速识别区域内的低效车道并结合交叉口功能、交通工程设计、信号控制方案及所在交叉口区位等诊断其问题致因。

图12 单个车道车头时距分布形态Fig.12 Shape analysis of lane headways

4.3.2 车头时距形态聚类

为快速将最新近出现的车头时距序列分类，需预先建立一个基本的分类库，再从中选择典型曲线用于实时比对。由于各受控车道每个周期至少产生一个数据样本，车道时距曲线不存在数据稀疏问题，基本分类模型训练效率可以保证。

因各车道绿灯时长不同，且绿灯期间过车数量也存在差异，不同车道的车头时距曲线关键点彼此不对应，上述问题可转化为基于趋势的时间序列相似性度量及聚类问题。考虑连续小车头时距曲线关键点数较少、阈值相似，采用动态时间规整（dynamic time warping，DTW）算法计算曲线相似度，步骤如下：

（1）提取高峰期间各车道2次红灯之间车头时距时间序列，记为hij；其中i为车道编号，j为该序列对应的周期编号，构成序列集合H，设其中包含N个序列。

（2）选择H中2个序列，记作h x和h y，设其序列长度分别为|X|和|Y|，构造代价矩阵D，以D(|X|，|Y|)表示2个序列之间最终规整代价最小路径距离。基于DTW边界条件、连续性、单调性等基本约束，有

(max(|X|，|Y|)≤K≤|X|+|Y|-1)

其中K为规整路径的元素数，wk为当前规整路径中第k个元素，其对应D(i k，j k)元素为

其中，Dist(i k，j k)为h x第i k个点和h y第j k个元素的距离。本聚类问题不存在唯一的参考数列，不必通过差异距离矩阵分析曲线彼此相似性，绝对关联度矩阵即可表征。按照上述步骤可计算出H中任意2个序列的规整代价最小路径距离，并构造最小路径距离矩阵M r，M r为对称矩阵，M r(m，n)代表第m和第n个序列的规整代价最小路径距离。

以图13所示3个车道高峰时段车头时距曲线为例，其中各包含2个周期，共构成6个车头时距时间序列。以其中3、4这2段曲线为例进行时间规整过程如图14所示。

图13 用于比较的车头时距序列示例Fig.13 Example headway-series to be used for comparison

图14 2条示例曲线时间规整及距离求解Fig.14 DTW and distance of 2 example curves

按上述过程对示例序列两两进行时间规整，计算M r如表4。

在算法执行过程中，T r的取值将影响分类结果，考虑流量数列可能存在不规则波动区段、关注重点时间段的不同，根据M r元素的取值范围适当选择T r从而实现不同水平上的车头时距曲线聚类。以上述6个车头时距曲线为例，聚类过程如图16。

表4 示例车头时距曲线最小路径距离矩阵Tab.4 Matrix of minimum path distances of exam⁃ple headway-series

图16 示例车头时距曲线聚类过程Fig.16 Processing of clustering of example head⁃way curves

基于二元数组(H，M r)，以H中某元素h为顶点构造最小树并绘制谱系图。采用灰色聚类思想［17］，通过设定不同聚类门限值T r∈(0，max{M r})，对关联系数大于T r的部分剪枝，可得到一个不连通的树，其连通的分支构成了在T r水平上的聚类。流程如图15。

图15 基于灰色聚类的车头时距曲线聚类流程Fig.15 Flowchart of clustering of headway curve based on grey clustering

还可通过控制较大T r值查找离散点，即将车头时距曲线趋势独特、无法合理聚类的车道进行单独分析，这类离散点通常与特殊原因导致低效、交通事故、交叉口死锁、设备完全失灵有关，可精准判断设备异常、特殊事件。

考虑对应绿灯时长本身就是车道交通特征的一部分，为提高计算速度和聚类精度，可初步按照绿灯时长区间分类，并对子类分别采用动态时间规整方法；如有绿灯时长差距较大的对比情况，可对较长绿灯序列用强制执行局部性约束方法对动态时间规整进行提升，加快运算速度。

4.3.3 车头时距曲线特征分析及诊断

本次综合5个数据完整性较好、饱和度较大的交叉口所有受控车道数据，以车头时距12s作为连续通行判定阈值，截取早高峰30min时段内连续通行的完整车头时距序列计216条，按上述算法，取T r=15，有效将其中171个序列分为5种类型，综合其曲线特性分别命名，典型示例曲线如图17。

图17 车头时距分布形态类型举例Fig.17 Shape types of headway curves and examples

需要在线对新产生的车头时距曲线h n聚类时，可将其与各类型典型曲线求解规整代价最小路径距离，选择满足T r限制且距离最小的一组作为类别。对于已识别出的分类，可基于交通工程理论，结合实际情况，总结可采取的优化措施如表5。

表5 不同车头时距分布交叉口对应管控方案优化建议Tab.5 Suggestions on optimization control and management of intersections with different types of head⁃way curve

续表5

5 结语

以结构化视频数据为基础，提出通过分析信控交叉口车头时距特性评价交叉口效率的方法，并可用于车道级分析低效问题的致因。数据形式简单、对算力要求低，可用于同时用于实时在线交叉口评价及历史情况分析。

（1）提出交叉口流量-时刻曲线复现性评估方法，并在此基础上实现单个交叉口高峰小时查找。

（2）提出视频数据同步实时信号控制方案的方法，作为高峰时段交叉口各车道运行效率对应信控方案分析及问题诊断基础。

（3）结合信控方案及过车数据，引入各周期归一化平均通行效率系数，实现信号控制方案合理性初步判断并进一步提出车道效率分析及低效车道查找方法。

（4）基于动态时间规整和灰色聚类方法，由真实车头时距曲线聚类得到5类典型的周期绿灯期间车头时距曲线，分析其特征及问题，作为实时车头时距曲线聚类基础，便于快速诊断交叉口问题。

本文所述方法有较强适用性，也可用于平峰期间的结构化视频数据处理，基于车头时距曲线类型进行管控方案优化。但本文采用的数据质量不稳定，在完整性和准确性方面均有欠缺，随着视频设备的普及率和质量提升可逐渐改善，比如视频设备尤其是电子警察如能将视频识别到的信号灯灯色信息记录为结构化数据，参与上述分析可大幅提升分析效率；在聚类过程中，连续通行车头时距阈值及T r的取值有一定主观因素，且与所在城市相关，目前数据仅来源于一个城市，故未研究其与已有车头时距曲线的统计关系；另外，本次采用数据中无完整的2个乃至多个连续交叉口数据，未开展交叉口数据关联分析工作。未来可进一步利用视频数据分析实现车辆轨迹、相邻交叉口交通特征关联分析；此外，其他监测手段的数据融合也可提升视频数据分析效率及准确性。