基于无线探针数据的区间车速估计方法与分析*
2020-06-03暨育雄周进华李双姐
陶 莎 栾 翔 暨育雄* 周进华 李双姐
(同济大学交通运输工程学院1) 上海 201804) (江苏省泰州市公路管理处2) 泰州 225300)
0 引 言
目前,道路行程时间、区间车速及路网交通流向主要通过卡口车牌识别、电子标签识别、手机信令和浮动车数据进行采集.其中,卡口系统归属公安部门所有,可实现重点治安地段的全天候实时检测与记录,但搭建卡口龙门架的费用较高,高密度、广覆盖的布设方式耗资巨大[1].基于RFID技术的电子车牌识别系统中,电子标签的覆盖率难以把控,前期推广应用较难[2].手机信令数据主要用于高速公路的交通状态判别,但基站较低的建设密度导致估计精度较低[3].浮动车数据是城市交通状态判别及行程时间估计的主要数据来源[4],浮动车数据的采样率较低,时空分布不均匀导致无法满足实时应用的需求.近年来,随着无线通信技术的发展,我国手机用户超过12亿人,智能手机普及率达到58%,蓝牙设备也日益成为车辆的标配,无线探针数据将成为用户基础庞大,获取成本低廉的交通检测数据源之一,出现了基于无线探针的交通数据采集技术,并已在国外得到试点应用.
1 检测原理与研究现状
无线探针技术通过监听道路上智能手机或车载设备中的蓝牙或Wi-Fi模块发射的信号,获取设备的MAC地址,实现车辆感知.在研究中通常将Wi-Fi探针(wifi media access control scanners,WMS)、蓝牙探针(bluetooth media access control scanner,BMS)统称为无线探针.从原理上来说,蓝牙探针是一种检测周围蓝牙设备存在的检测设备.探针向周围已开启蓝牙功能且设置蓝牙为可见状态的设备广播信息,通过侦听设备的回复信息确定其存在.Wi-Fi探针的工作原理与蓝牙探针不同,并不主动发射信息,而是通过侦听邻近区域内各种不同类型的帧来感知不同的无线设备.与蓝牙设备的查询时间10.24 s相比,Wi-Fi的总查询时间仅为8 ms,这允许Wi-Fi探针检测1次/s,以更快的速度检测穿过区域的车辆.此外,二者在检测原理、操作模式、普及程度等方面也存在着差异,导致Wi-Fi和蓝牙数据特征的不同,参考Pengfei (Taylor) Li等提出的蓝牙、Wi-Fi在MAC捕获中的差异,汇总二者差异见表1.
表1 蓝牙、Wi-Fi探针技术及数据差异
除了针对Wi-Fi、蓝牙的差异研究外,研究者针还对无线探针数据的交通参数提取进行了全方面的研究.高速行驶的车辆在检测区域内停留时间较短,导致探针有一定的几率无法完成对该设备的有效检测.Bhaskar等[5-7]对无线探针技术的检测可靠性进行了研究.无线探针技术由于检测范围较大,通常被研究者称为区域检测技术[8].检测区域的形状和覆盖面积与天线的类别及天线增益相关.移动端经过这一检测区域时,往往会留下多条检测记录,在原始数据清洗中需制定规则选择唯一时间戳.Araghi等[9-10]对不同的时间戳提取方式对行程时间估计的影响进行了分析.作为一种以MAC地址为索引的数据信息,无线探针的检测数据不区分对象的出行方式,使得估计结果产生偏倚[11].因此,需经由数据过滤实现非机动车和行人数据的清洗.常用的数据清洗方法包括基于统计特征[12]的非机动车数据剔除和基于出行模式识别[13]的非机动车数据甄别两类.
目前,国际上利用无线探针进行交通信息感知已有一些落地的应用,加拿大多伦多在该市一条主要的进城干道上安装了能够覆盖8条车道的无线探针一体化集成设备,总覆盖里程达12英里.加拿大卡尔加里市也在市内已安装了30个蓝牙检测系统用以获取交通信息.此外,丹麦奥尔堡、澳大利亚布里斯班等地也安装了类似的检测设备.
2 区间车速估计方法
基于目前无线探针数据的研究现状,本文提出如下区间车速估计方法,包括单个移动终端区间车速提取,异常区间车速过滤,时间窗口区间车速特征值提取,数据融合数据平滑五个步骤.
2.1 单个移动终端行程时间提取
单个移动终端的区间车速提取通过匹配两台无线探针获取的MAC地址,获得以MAC地址为索引的区间车速记录列表.移动终端i的区间车速记录获取方法如下.移动终端i在探针A处留存下m条记录,在探针B处了留存下n条记录.将两点记录下的数据分别按检测时间戳字段正序排列,并将各条记录依次编号为A1,A2,…,Am以及B1,B2,…,Bn,见图1.
图1 单个移动终端的行程时间估计方法示意图
由图1可知,在获取移动终端i经过两台探针处的时刻中,需在连续探测记录中选取时间误差和定位误差最小的记录作为最优记录.为了尽可能减少检测区域范围过大造成的误差,本文设计了如下选取原则:移动终端i经过探针的时间由记录中最中间一条给出,则由探针数据给出的移动设备i通过探针A处的时刻为ti(A|m/2|),通过探针B处的时刻为ti(B|n/2|).故移动终端i通过路段AB的区间车速计算式为
(1)
式中:ti(A|m/2|)为移动终端i经过检测器A时的时间戳;ti(B|n/2|)为移动终端i经过检测器B时的时间戳;LAB为AB间的距离;|x|为向上取整函数,如,|4|=4,|4.5|=5.
2.2 异常区间车速过滤
针对无线探针数据特征的分析表明,原始探针数据存在一定的测量误差,包括时间误差和定位误差.此外,车辆在两探测器间可能产生减速、加速或停车行为,导致行程时间离群点的产生.因此,对于降低交通状态估计的偏倚而言,剔除异常值十分关键.考虑到区间车速的波动性,制定如下原则进行异常值过滤.
1) 区间车速上限值 路段限速值vlimit与扩张系数δ的乘积δ×vlimit.
2) 区间车速下限值 时间窗口nt的区间车速下限值为
(2)
2.3 时间窗区间车速特征值提取
时间窗区间车速特征值提取包括划定整合对象和确定特征值两部分.时间窗的区间车速提取按照整合数据对象的差异分为三种:①以在规定时段内从起点出发的所有车辆为区间车速提取对象;②以在规定时段到达终点的所有车辆为区间车速提取对象;③以规定时段内完成全部里程的车辆为区间车速提取对象.考虑到算法的实时性,应采用方案2进行区间车速的提取为宜.
根据车辆在上下游留下的MAC地址及捕获时间戳,可获取车辆在该路段内的行程时间记录,并计算区间车速.考虑到对异常数据的规避,可选择中位数作为特征值,取该区间车速记录集合的中位数作为该时间窗口的区间车速.路段区间车速的计算公式为
(3)
2.4 数据融合
在实现时间窗区间车速特征值提取后,可基于规整区间车速,建立基于蓝牙、Wi-Fi数据融合的区间车速估计框架.包括历史数据与实时数据融合、Wi-Fi数据与蓝牙数据融合、多路段数据融合三个部分.
2.4.1实时数据与历史数据融合
Wi-Fi与蓝牙区间车速数据融合过程建立在有Wi-Fi、蓝牙检测数据的基础之上,对于没有检测数据的时间窗口,需结合历史标准数据库,实现无样本时的数据填补.利用上月内相应类型天的所有数据运算生成当前标准库(滚动更新),为
(4)
(5)
式中:Vnt,l为当前时间窗口的行程时间特征值;nMAC为当前时间窗口匹配到的移动设备数;Vnormal(nt,l)为当前时刻的历史经验值;Vreal(nt,l)为当前时刻实时获取的区间车速值;N为参数,用于调节历史经验值和实时车速值的融合占比.当前时刻匹配设备数nMAC为0时,Vnt,l=Vnormal(nt,l).
2.4.2蓝牙数据与Wi-Fi数据融合
蓝牙和Wi-Fi作为两个不同的数据源,具有各自的数据特征,同时又具备一定的相关性,在路段交通状态的估计当中,可互为补充,优化估计结果.本文采用集合Kalman滤波(ensemble kalman filter,EnKF)模型,将Wi-Fi和蓝牙作为两个区间车速子数据集,结合数据融合技术,建立区间车速估计与预测模型,数据融合处理流程见图2.
图2 数据融合处理流程
数据融合主体采用EnKF模型,辅以自回归差分移动平均模型(autoregressive integrated moving average model,ARIMA),具体算法流程如下:
步骤2基于Wi-Fi、蓝牙检测数据,计算检测误差协方差Rnt.
步骤4基于测量值和Kalman增益值对原始预测值进行优化.
Kalman滤波为序列数据同化算法最早出现的形式和基本理论,标准Kalman滤波为了得到无偏最优的估计需要系统满足线性化和噪声满足高斯白色噪声的假设条件,但是实际的系统状态的预报模式大多是非线性系统.EnKF模型作为标准Kalman滤波的改进算法,用集合的思想替代了标准Kalman滤波单一的预测轨迹.集合的传播允许预报不确定性的存在,如果所有的集合预测了一个相似的状态,例如:在集合传播密集的地方,即离散程度较低,则分析状态是高度可信的;相反如果集合的预测轨迹是广泛传播的,则分析状态是低度可信的.在本文中,将蓝牙数据和Wi-Fi数据作为两个子数据集合带入EnKF模型.
式(6)为ARIMA模型下获取的预测值.
vnt=ARIMA(p,d,q)+ηnt
(6)
式中:ηnt为过程噪声,为均值为0的高斯分布.在每一个时间窗内,测量值ynt被描述为噪声干扰下的实际速度状态.
ynt=Hntvnt+χnt
(7)
式中:Hnt线性观测向量;χnt为观测噪声,服从均值为0,协方差为Rnt的分布.
EnKF是一个用于递归和循环计算的模型,其流程见图3.
图3 基于EnKF的数据融合结构示意图
步骤2预测 根据下式(8)更新K个子集的均值和协方差:
(8)
步骤3分析 获取测量值,计算Kalman增益,更新估计值:
(9)
步骤4返回步骤2.
2.4.3多路段数据融合
τk∈{τ|SO(τ)≤j,SD(τ)≥j+1}
(10)
(11)
3 实验路段数据分析
3.1 实验路段基本情况
依托上海南北高架的道路设备箱,本文在试验段共安装了三处无线探针设备,自南向北的安装位置分别为ND007,NX045及ND084.每个点位分别装配两个无线探针主机设备,每个无线探针主机同时具备Wi-Fi和蓝牙的探测功能.数据包括2018年10月12日—11月30日近50 d的无线探针数据,以及2018年10月15日—11月15日1个月的卡口数据,编号分别为ND016,ND096,将卡口数据作为基准数据.无线探针及卡口的点位见图4a).
无线探针南部点位ND007至北部点位ND084的总里程约为2.3 km,卡口设备南部点位ND016至北部点位ND096的总里程为2.47 km.其中,ND007至ND016距离为210 m,ND084至ND096距离为384 m.实验路段的流量情况,由ND016和ND096两处的卡口数据估计获得,见图4b).两个断面的流量峰值均出现在08:00—09:00,ND016达到5 000 veh/h,ND096达到3 700 veh/h.07:00—22:00时段,小时流量均维持在2 000 veh/h以上.
图4 无线探针安装位置及车流基本情况
3.2 Wi-Fi、蓝牙估计结果准确性比较
为了比较Wi-Fi与蓝牙数据源在区间车速获取中的准确性,定义以下变量.在区间车速的计算中,设置时间窗长度为10 min,则全天共有时间窗口144个.
定义1以单个时间窗为比较对象,将时间窗口nt内数据源α获取的区间车速与数据源β获取的区间车速之差定义为Δvnt,如式(11)所示.Δvnt中包含负值,为了更加直观的比较二者的差异,同时采用绝对值|Δvnt|,作为比较指标.
(11)
(12)
Wi-Fi、蓝牙的区间车速趋势线与卡口趋势线呈现相同走势,贴合度较好,表明Wi-Fi或蓝牙作为交通参数提取手段均具备一定的可行性.卡口、Wi-Fi和蓝牙数据获取的区间车速曲线见图5.
图5 卡口、Wi-Fi和蓝牙区间车速对比图
与Wi-Fi数据源相比,蓝牙数据获取的区间车速估计偏差绝对值|Δvnt|更小,整体上更接近卡口区间车速,5 km/h以内误差的时间窗数量达到75.69%,Wi-Fi仅为62.5%.见图6a).
图6 Wi-Fi、蓝牙区间车速估计误差对比
3.3 区间车速偏差与速度相关性
图7 无线探针区间车速估计误差与速度相关性
从速度与Wi-Fi差值的相关性上来看,二者的Pearson相关系数为0.81,具有很强的正相关性.采用普通最小二乘回归法对这两个变量进行线性回归,得到截距为-6.958,斜率为0.184,R2为0.655,拟合效果较好.从速度和蓝牙的差值相关性上来看,二者的Pearson相关系数为0.71,具有较强的正相关性,采用最小二乘回归法进行线性回归,得到的截距为-7.679,斜率为0.151,R2为0.492,拟合较好.二者的拟合情况见图7b).
图8 临界速度和箱型图
3.4 Wi-Fi、蓝牙区间车速融合分析
图9 方案A和方案B小时估计偏差绝对值均值时变图
方案A和方案B估计偏差绝对值|Δvnt|箱型图见图10.经过修正融合的早间和晚间估计误差下降效果明显.144个时间窗中有63.2%的时间窗误差下降,下降幅度为56.8%.整体上来说,方案A的误差均值为3.08 km/h,B方案为2.52 km/h,降幅为18.2%.
图10 方案A和方案B估计偏差绝对值|Δvnt|箱型图
4 结 束 语
无线探针区间车速趋势线与基准区间车速趋势线贴合程度高,估计误差在可接受范围内,无线探针作为交通检测领域的新型技术进行交通参数的提取具备一定的可行性.当速度位于40~50 km/h区间时,原始数据的估计误差最小,低速或高速均会造成估计误差的增大.在Wi-Fi和蓝牙数据的对比研究中发现,不同时段Wi-Fi和蓝牙数据的估计精度有差异,白天时段的Wi-Fi估计精度较高,而晚间和凌晨时段的蓝牙估计效果更好.且Wi-Fi在40 km/h左右时,估计误差最小,蓝牙在50 km/h时估计误差最小.本文提出的基于EnKF的Wi-Fi、蓝牙区间车速融合方法,结合两种数据各自的特点,可实现对估计精度的提升.
在后续的研究中,可采用更加精细化的模型刻画Wi-Fi和蓝牙的数据特征,以实现更高精度区间车速的获取.