基于车辆身份检测数据的城市道路使用特征*
2022-06-08邹兵余志何兆成黄敏陈开颖沙志仁
邹兵,余志,何兆成,黄敏,陈开颖,沙志仁
1. 中山大学智能工程学院/广东省智能交通系统重点实验室,广东 广州 510006
2. 广东方纬科技有限公司,广东 广州 510006
城市路网在规划设计上可分为快速路、主干路、次干路和支路4类[1]。分析道路在整个网络的动态使用特征,挖掘道路随着交通出行需求演变的使用模式,有助于交通管理部门更科学地进行城市道路交通管理和决策。目前,国内外学者在道路使用特征的研究上主要分为2 类[2-4]。李彦瑾通过网络特性分析筛选道路网络中脆弱道路集合,并以此为基础设计了一种路网矩阵压缩算法[5]。尹洪英、戢晓峰分别提出了基于贝叶斯网络的道路脆弱动态识别模型[6]和粗糙集的路网瓶颈路段识别方法[7],并验证了方法的可靠性。钟茹则建立了路网关键节点和路段的分析方法,并提出了针对性的管理建议[8]。Jiang 从道路的连通性[9]角度研究了街道是如何被使用的,并表明城市街道的连通性具有类似于复杂网络的二八法则。Pu Wang[10]通过手机信令数据估计出行需求,研究道路在空间拓扑中的中介中心性和来源小区数,以此进行城市道路的分类。此外,一些研究基于出租车轨迹数据分析路段行驶频次,或基于运行速度分析挖掘城市道路动态层次性[11-12]。
以上研究主要通过将出行映射到路网,利用交通流集计产生的交通状态参数研究道路的实际使用特征,尚未有研究利用身份检测数据的“身份”信息蕴含的出行规律,从车辆个体角度出发进行城市路网的使用特征的认知。而随着检测器技术的发展,以电警卡口、RFID 为代表的具有身份标识的检测数据愈发普遍。道路身份检测系统通过视频分析、图像识别等技术的应用,实现了对车辆个体的精准感知,检测信息包括车辆的身份信息(如车牌)、经行的道路及其车道、过车时刻等,为量化研究特定出行车辆个体与道路之间关系、挖掘道路使用特征提供了有效的数据支撑。
本文将借助基尼系数相关理论,根据洛伦兹曲线提出“平均分界点”的定义,基于车辆身份检测数据研究城市道路使用的不均衡特性以及时空特征,从车辆个体的角度提出一种进行城市道路使用模式分类挖掘的方法,为城市道路规划、建设以及交通需求管理提供科学参考。
1 车辆出行信息提取
本研究通过城市道路中电子警察系统、治安卡口系统所产生的身份检测数据进行车辆个体出行信息获取。车辆身份检测是面向路网全体车辆、明确车辆个体及其时空信息的全量精准检测。然而,车辆身份检测数据只是车辆经行时空戳的简单记录,尚未具备车辆出行趟次、出行路径、旅行时间等交通信息。因此,需要融合车辆身份检测相关的多源基础数据,进行车辆出行重构,才能全面获取完整的车辆出行信息,进而开展道路出行的分析。本文采用卡口产生的车牌识别数据开展研究,图1为车辆出行信息重构分析框架。
图1 车辆个体出行信息重构分析Fig.1 Analysis of vehicles′mobility reconstruction
1.1 数据预处理
针对由于车牌识别错误,通信异常等因素产生的脏数据进行清洗,以提升数据的质量。处理过程如下:
①重复冗余数据剔除。针对检测过程中出现的检测记录重复,如车牌号、检测卡口点位等记录一致的数据进行去重;针对车牌号识别失败,如出现“车牌”识别记录的数据进行剔除;对车牌号位数不正确等不合理数据进行剔除。
②异常数据剔除。将检测数据组织为车辆个体卡口检测序列,若车辆veh 当前共产生n次卡口检测,则其卡口序列记为Iveh=(I1,I2,…,In)。每次检测的In=(veh,tn,pn),其中veh 为车辆身份标识,tn为检测时间,pn为卡口标识,且pn包含卡口编号及其车道编号,可关联到路网。根据两次卡口检测序列之间的时间得到时间差△T =tn-tn-1,剔除时间差小于最小路段行驶时间tmin的数据记录。
式中l为路段长度,vmax根据城市限速情况选取。
1.2 单次出行辨识
单次出行辨识的问题是:依据车辆个体在卡口的检测记录,判断车辆的连续两次卡口检测属于“同次出行”还是“前后两次出行”。设定旅行时间阈值T,车辆经由一对相邻卡口检测器的旅行时间为△t,当△t≤T时属于同次出行,当△t>T时其分属前后两次出行。学习旅行时间阈值T是无监督学习中的二分类问题,采用k-means(k= 2)聚类算法,具体流程为:
①利用长期(1个月)的历史卡口数据,获取卡口对的旅行时间样本集D={x1,x2,…,xm}。
②采用标准的k-means(k= 2)聚类算法将旅行时间样本集D划分为同次出行簇C1和两次出行簇C2,如图2 所示。那么,阈值T可取为同次出行簇C1的上界值,即
图2 某相邻卡口对的旅行时间样本聚类Fig.2 Travel time sample clustering for adjacent bayonet pair
通过旅行时间阈值T,将卡口检测序列分割为车辆个体的若干个单次出行记录。
1.3 出行轨迹重构
在提取车辆个体的单次出行卡口检测序列后,进一步修复其连续的出行路径。本文针对卡口密集分布的车辆身份检测网络,城市路段围成的土地区块可用网格状表示。那么,相邻两次卡口检测的位置关系如图3所示。图3(a)的相邻检测属于路段上下游交叉口关系,图3(b)的相邻检测属于交叉口位于网格的对角位置。基于Dijkstra 最短路算法置信地认为相邻检测的出行路径是图中I1而非I2,因为路径到达后次检测交叉口的进口道方向与观测不一致。
图3 相邻卡口检测I1和I2的位置关系Fig.3 Location relationships for adjacent bayonet detection I1 and I2
基于车辆个体的单次出行卡口检测序列重构其出行路径后,最终得到车辆个体出行的起始卡口、终点卡口、路径经过卡口、出行出发时间、出行结束时间,将车辆每次出行时空轨迹通过卡口设备和路网关联关系映射到路网,进一步基于路网道路基本信息得到车辆每次出行的出行距离和出行时间。
1.4 道路出行需求获取
基于车辆的个体出行路径信息,借鉴网络流重构问题的一般思路,路径流可集计得到节点流、路段流、OD 流,从而获得城市道路的多尺度交通需求。在固定时间间隔内,统计所有经过某道路的车辆(折算为标准车辆数)即得到道路的交通需求,同理可得交叉口、路径、OD 的交通需求。通过“身份标识”,可以开展特定车辆个体在道路使用中的不均衡特性研究。
2 道路使用评价模型
2.1 洛伦兹曲线与基尼系数
洛伦兹曲线是一种反映社会收入或分配不平均的工具。横轴为家庭或人口的累计百分比,纵轴为家庭或者人口所占收入的累计百分比,表示收入最低的前p1%占据了p2%的财富,如图4 所示。折线OHL 通常称作“绝对不平均线”。对角线OL为“绝对平均线”,表示收入分配绝对公平。
图4 洛伦兹曲线Fig.4 The curve of Lorenz equation
基尼系数是在洛伦兹曲线的基础上提出的用于衡量国家和社会收入分配不公平程度的指标[13],也被广泛应用于描述资源分配的均衡程度。基尼系数G的计算公式为[14]
式中A表示洛伦兹曲线与绝对公平线之间的面积,B表示洛伦兹曲线与绝对不公平曲线之间的面积,f(x)是洛伦兹曲线的函数式。通用的基尼系数标准如表1所示。
表1 联合国基尼系数标准Table 1 The Gini coefficient criterion of United Nations
2.2 适用性分析
基尼系数本质是将不同的个体按照其某个属性量进行升序排序,计算其分布的不均衡程度。在交通研究领域,黄志远、肖雪梅将基尼系数相关理论用于轨道交通客流网络分布均衡性评价[15]与客流在入口、车站、线路的分布均衡性研究[16],验证了方法的可行性;代洪娜和房晋源则分别将基尼系数用于高速公路的流量分布不均衡[17]和公交线网不均衡性评价[18],证明了基尼系数在交通领域的适用性。
由于道路周边土地利用性质的不同,不同车辆个体在特定道路出行的频率、距离、时间会存在较大的差异。如:对于核心区域,少部分车辆往往固定选择通过这些道路出行,造成固定选择该道路出行的很小一部分车辆占据了这些道路的大部分时空资源,而其余大部分车辆只占据了少部分的出行资源,表现出类似收入分配中“贫富差距不均衡”的现象。基于车辆出行的道路基尼系数反映具有身份标签的不同车辆使用该道路的不均衡程度,基尼系数越小,表示车辆个体在该道路的出行越均衡,即车辆长期使用该道路的不均衡程度越小;反之,少数车辆越集中使用该道路,车辆长期使用该道路的不均衡程度越大。道路的基尼系数能从车辆个体出行角度直观地反映车辆个体与道路出行之间的不均衡规律,侧面反映道路使用的特征与模式。因此,本文采用基尼系数进行城市道路车辆出行不均衡程度的度量。同时,基于洛伦兹曲线的变化规律提出平均分界点,用于提取二分阈值。
2.3 道路使用基尼系数评价模型
道路使用特征与模式是在车辆个体长期出行过程中逐渐形成的潜在规律。构建车辆出行的道路基尼系数模型对道路使用进行量化评价。目前,计算基尼系数常用的方法有几何计算法、相对平均差法、矩阵方法以及曲线拟合法。本文基于车辆个体在全网道路的出行需求,以车辆个体出行次数为例,采用曲线拟合法进行城市道路车辆出行不均衡模型的构建。具体方法如下:
1)按照特定道路出行车辆个体i的出行次数si的大小将出行车辆i进行升序排序,得到i1≤i2≤…≤in。
3)以Xk为横轴、Yk为纵轴,得到n组数据的散点图,如图5所示。
4)采用最小二乘法拟合确定待定系数、最小化拟合模型与实际观测值的误差平方和,得到曲线y如公式(5)所示:
5)基于车辆个体出行的洛伦兹曲线进行车辆个体使用道路的不均衡评价,进一步计算得到道路使用基尼系数G为
2.4 平均分界点定义
按照特定道路出行车辆个体i的出行次数si从小到大排序,假设f(s)为出行次数分布的密度函数,F(s)为出行次数≤s的累计密度函数,图5 的横轴可以表示为
图5 车辆个体出行洛伦兹曲线Fig.5 The Lorenz curve based on vehicles′trip number
纵轴的累计车辆出行百分比可以表示为
特定道路车辆个体出行的平均次数μ为
令p=F(s),则图5的洛伦兹曲线可以表示为
车辆个体出行的洛伦兹曲线L(p)随着横轴累计车辆百分比的增加,其斜率呈现出逐渐增大的趋势。设洛伦兹曲线上与绝对平均线平行即斜率为1 的点为M(x*,y*)。可以看出,在M点之前,曲线随着车辆数累计百分比的增加其累计车辆出行百分比缓慢增加,曲线坡度较缓和;在M点之后曲线随着车辆数累计百分比的增加,累计车辆出行百分比迅速增加,曲线坡度较陡。曲线斜率为
当其斜率平行于绝对平均线时,令L′(p) = 1,得p=F(μ)或x=μ,可以得到洛伦兹曲线上斜率为1 的点与车辆个体的出行次数是一致的。定义M(x*,y*)为洛伦兹曲线上的平均分界点,其值为
M点将车辆个体分为了占据较多出行的少数车辆和占据较少出行的多数车辆,其划分阈值为该物理量的平均值。
3 实 例
3.1 案例描述
以安徽省宣城市城市路网为例,截止2017 年市区建成面积达65.5 km2,道路总长度191.3 km,主次支道路比例为1∶1.09∶0.16。同时,机动车保有量的增加以及城镇化的加速,导致路网与交通需求的矛盾日益加剧,路网使用模式与规划服务等级不符,亟待科学合理的交通管理。
宣城市智能交通信息化基础较好,核心城区建有108 个道路新型卡口式电警,覆盖率高达76%。选取该市2018年8月城区电警卡口的车牌识别数据进行分析,数据示例如表2所示。
表2 车牌识别数据示例Table 2 Example records of license plate recognition data
通过卡口数据的预处理、单次出行辨识、出行路径修复等步骤获取道路的车辆个体出行信息。本研究的日均出行车辆约8万辆,单次出行记录约28万条。提取车辆个体8月道路出行信息进行模型构建及道路使用评价。
3.2 基尼系数计算及时空特征分析
以宣城市路网中的核心城区有向路段为例,依据上文描述的方法,以车牌号码作为车辆个体标签计算宣城市各道路的基尼系数,同时进行不同时段的基尼系数对比。
3.2.1 空间特征分析 从图6 可以看出,宣城市区不同区域的基尼系数大小的分布是不均匀的,路网中各道路的车辆出行不均衡程度不同。按照国际标准,基尼系数大于0.4时表示某道路车辆出行不均衡程度较大,即少数的车辆在该道路出行较频繁,宣城市区出行不均衡程度较大的道路主要集中在:
(1)宣城市田字格中心区以及景德路梅园路附近,即图6 中区域①。该区域道路位于中心城区,出行不均衡程度较高,说明少数车辆需要经常在该道路出行,道路可能承担着较为重要的交通枢纽功能。
图6 宣城市路网基尼系数Fig.6 The road segments′Gini coefficient in Xuancheng City
(2)宣城市部分新开发的居住地区域,即图6中区域②。该区域道路附近车辆来源较少,出行车辆主要为集中于这些居住地的少部分车辆,道路的流量较少,但基尼系数较大,意味着该区域道路连通性差,主要服务区域车辆。
(3)一些重要的进出城区的主干道路,即图6中道路③、薰化路、向阳大道等。该部分道路连接的出行小区数量较少,经常经过该道路的车辆较为固定。此种类型道路相较于第一种中心城区主干道路,实际主要承担外围主干连接型道路的功能。
因此,基尼系数通过描述特定道路上车辆出行的不均衡程度,能很好地从车辆个体的微观角度反映道路的出行特征。不同城市均可以通过各道路基尼系数的对比,清晰直观展现道路使用的空间特征。不均衡程度较大的道路,其使用集中于较少数的车辆,在日常的交通管理中,可以针对性地对这些少数车辆进行管理。如区域①部分的道路,可以通过路径诱导、错峰出行等手段引导经常使用其的少数车辆避开该拥堵道路,将需求出行降低到承载力以下。
3.2.2 时间特征分析 路网中各道路基尼系数会随时段变化而动态变化,出行不均衡程度的变化能从侧面反映了城市道路在使用上的时变特征。而道路的这种使用特征也能从车辆出行的角度展现城市不同区域的土地利用功能现状。
将宣城市道路的高峰(7:00 - 9:00)与平峰(10:00 - 12:00)时段的基尼系数进行对比,表示为高峰和平峰的比值G高峰/G平峰,观测到不均衡程度相差较大的道路(线段较粗)主要分布在城市外围区域。这些道路往往承担着重要的通勤功能,即在高峰时段固定出行的车辆数多,而平峰时段固定出行的车辆数相对较小,从而导致其两个时段的差异明显。基尼系数变化不敏感的道路(线段较细)主要是分布在中心城区的道路,由于出行不均衡程度均很大,两个时段的基尼系数差异不明显,如图7所示。
图7 路网高峰和平峰时段的基尼系数比值Fig.7 The ratio of road segments′Gini coefficient between peak hour and off-peak hour
在日常的交通管理中,应该加强对高峰与平峰时段基尼系数比值较大道路的管理和服务。如:针对日常通勤需要经过此类道路的车辆,根据其常驶道路形成的常驶路径及时段设置弹性绿波带,降低平均旅行时间,提高平均不停车通过率。
3.3 道路使用模式分类
道路的使用模式分类是对道路使用的更加精细的量化手段。一方面,通过道路的分类,形成对城市道路在实际出行需求下的真实使用状态的认知,帮助交通管理部门及时地对已建成道路进行更加科学的设计,如根据现有道路使用上的不足进行基础道路设施的规划和扩建;另一方面,有助于交通管理部门针对不同的道路使用类型,开展个性化管理,既可降低管理成本,又可提升管理效率。
本节从车辆出行的不均衡特征这一微观角度出发,提出一种道路使用模式分类方法。研究发现,将基尼系数与传统的道路交通流量结合,能够很好地刻画道路的使用特征。道路的交通流量反映“很多车辆出行需要使用该道路”,而道路基尼系数反映“固定的很少车辆经常使用该道路”的出行不均衡程度。首先对两个指标进行相关性检验,宣城市路网道路交通流量与基尼系数存在很弱的相关关系,如图8(a)所示,说明道路交通流量与基尼系数并不具有显著的正相关关系,也就是道路的交通流量大并不意味着该道路出行不均衡程度大,道路交通流量小并不意味着道路出行不均衡程度小。
图8 道路交通流量与基尼系数的分类Fig.8 The road segments traffic tlow and Gini coefficient classification
本文通过“平均分界点”分别提取流量和基尼系数的二分阈值,将道路交通流量与其基尼系数结合进行四分类。根据平均分界点与物理量平均值相等的证明,将道路流量(基尼系数)大于路网平均流量的道路定义为流量高道路(基尼系数高),其余的定义为流量低道路(基尼系数低),如图8(b)所示。定义交通流量很大,基尼系数很大的道路为枢纽型道路,承担重要的连接和中转作用,如宣城市枢纽型道路主要为城市中心城区和外围进出城区的道路。交通流量很大但是基尼系数小的道路为过境型道路,承担服务过境需求的功能。交通流量小但基尼系数很大的道路为区域生活型支路,如宣城市区域生活型支路多位于新开发居住区域或者连通性较差的居住区域,以及服务于少数居民的固定居住区域。其他为开放生活型支路,其周边土地利用性质多样,承担连接高等级道路的支路功能。宣城市道路使用模式分类如图9和表3所示。
图9 道路使用模式分类Fig.9 The road segments usage patterns classification
表3 道路使用模式分类Table 3 The road segments usage patterns classification
针对枢纽型道路,在日常的交通管理中,保障其连接和中转的重要功能,提升通行效率;并基于使用该类型道路的少数车辆开展个性化服务,如共享出行,公交优先等。同时可考虑进行城市土地利用调整,将混合利用的土地功能向城市周边疏解,缓解中心城区拥堵。针对过境型道路,由于其服务的车辆大多数为过境型车辆,可重点开展安全管控、货运车管理。规划方面应避免其他性质土地干扰过境干道的使用功能,保障其过境服务的功能。针对区域生活型道路,可着力发展其周围区域,承接中心拥堵城区的功能,并改善道路的连通性和可达性。针对开放型支路,保障其连接功能,提升其交通流的疏散效率,更好地与其他类型道路进行协调。
4 结 论
本文从车辆个体出行的角度,提出了基于车辆身份检测数据和基尼系数的城市道路使用特征分析和模式分类方法,并根据洛伦兹曲线及其物理意义提出平均分界点的概念。以安徽省宣城市为例,基于身份检测数据进行了案例分析。结果表明:在日常的交通管理中,需要对承担着重要功能作用的道路进行重点管理;在城市建设和交通规划中,应着重发展尚未被充分利用的区域和利用高等级但服务强度小的道路。基于基尼系数和平均分界点的城市道路使用特征分析方法简单直观、易于操作,能够从时间、空间维度对道路使用特征进行量化分析,同时从车辆个体出行不均衡的角度对道路模式进行分类。