行程时间异常值处理方法研究*
2012-12-01李晓莉石建军
李晓莉 石建军
(北京工业大学北京市交通工程重点实验室1) 北京 100124) (天津市市政工程研究院2) 天津 300074)
行程时间数据可以用来进行行程时间的预测以及行程延误的计算[1-2]等,但是将行程时间样本数据应用于研究之前,需要对行程时间中的异常值进行处理.异常值在数据挖掘技术中被称为离群点,是指背离了数据的一般行为表现或模型的数据[3].在行程时间异常值处理方面,Clark总结了三种异常数据处理的统计分析方法,分别是分位值检验法、偏移值检验法和均值迭代法[4];Shuyan Chen等人将数据挖掘技术中的离群点检测算法应用于行程时间异常值的数据处理[5];刘浩等人提出了基于信息提取计算技术的行程时间异常值处理算法[6],本文在总结以上行程时间异常数据处理方法局限性的基础上,受其启发,提出了一种更为简单、有效,且易于操作的行程时间异常数据处理方法,充分应用了行程时间异常值的表现形式及行程时间数据的分布特性.
1 基于车牌识别数据的行程时间计算方法
图1为典型的车牌识别设备的安装示意图.A,B代表两个检测点编号.其上小标为方向代码(取车牌识别数据库中的方向代码,0,1,2,3分别代表东、南、西、北四个运行方向).设车辆i沿0方向经过检测点A的时间记为t0iA,经过检测点B的时间记为t0iB.则车辆i沿0方向从检测点A运行到检测点B的行程时间为=-.同理可得车辆j沿2方向从检测点A运行到检测点B的行程时间为=-.
图1 典型车牌识别设备的安装示意图
2 行程时间异常值原因分析
2.1 较小值的产生原因
较小值是指行程时间小于有效值的数据,其产生原因如下:(1)驾驶员不遵守交通规则或冒险的驾驶习惯带来的自身行程时间的节省;(2)某些特殊车辆,如救护车,为争取时间无需遵守交通规则和速度限制,其行程时间较短;(3)车牌识别有误.在真正的车辆还未到达之前,将车牌号相似的车辆识别成该辆车.
2.2 较大值的产生原因
较大值是指行程时间大于有效值的数据,其产生原因如下:(1)驾驶员绕行.两检测点之间存在多个交叉口,驾驶员由于需要,不采用直接路径,而是绕路行驶,会增大行程时间;(2)驾驶员中途停车.驾驶员因需要停车一段时间后,继续前行经过下游检测点时被成功识别,由此得到的行程时间会偏大,该类情况包括私家车驾驶员的中途停车和出租车、公交车因乘客上下车的中途停车;(3)驾驶员并不以最快达到目的地为目的.出租车在空车的情况下,为招揽客人会以低于其正常车速的速度在外侧车道前行,出行者的出行的目的是为了观光或寻找某一建筑时,也会以低于正常车速的速度行驶;(4)车辆在一段时间内连续多次经过同一检测路段,将该现象称为车辆在该路段的多次出行,计算行程时间时,将不同次出行的时间信息匹配,计算出的行程时间将大于实际的行程时间;(5)车牌识别有误造成的.车辆前一次经过某检测路段时,未被下游检测点检测到,而另外一辆车由于被错误识别成为该辆车的“替身”,由此可能会产生较大的行程时间数据.
3 行程时间异常值的处理方法
本文的行程时间异常值处理方法,主要由以下几个步骤组成.
步骤1 行程时间上限值TTu的设置 同一辆车在一天之中,可能会多次经过同一路段,称为在该路段多次出行.行程时间计算过程中,会将不同次出行的通过时间进行匹配,造成部分行程时间远远大于实际值.为了尽可能降低这种情况的发生,需为行程时间设置一个上限值.为简便起见,考虑到道路中检测点之间的间距不是很长,可将行程时间的上限值设为1 h(3 600 s).
步骤2 行程时间下限值TTL的设置 设置行程时间的下限值,目的是初步过滤行程时间数据中的较小值.正常情况下,车辆的行程时间应不低于自由流情况下车辆在该路段的行程时间.由于信号控制设施的存在以及车辆性能、驾驶员类型的不同,自由流情况下,车辆之间的行程时间也是有差异的.将自由流情况下,第10%位的数据作为行程时间的下限值,低于该下限值的行程时间值背离了实际情况或一般车辆的速度行为(表现为超速、闯红灯等),应予以剔除.
步骤3 多次出行行程时间异常值的剔除行程时间上限值范围内,将车辆的出行信息,按车辆的出发时刻从早到晚、行程时间从小到大进行排序,按车辆牌照分组,将同一车辆在同一时刻出发的行程时间数据的较大值剔除.
步骤4 行程时间异常值的大幅过滤.经过以上三步的粗略过滤,过滤掉了行程时间数据中最为明显的异常数据,下面的几步是异常值剔除的关键步骤.
1)设定统计时窗Tw交通流在一天之内的波动性导致了行程时间随时间的波动,平峰时段的异常值在高峰时段可能属于正常值的范围,因此需设定一统计时窗,认为同一时窗内的行程时间数据具有相同的模式.统计时窗的设定是异常值处理的一个关键环节,统计时窗不应设置过小,否则不仅计算负担重,且样本量较少时,有效值不能表现出明显的数据规律,不易区分异常值和有效值;统计时窗不宜设置过大,否则一个时间窗内,交通流状态发生了较大的变化,也不能有效识别出异常值.
2)以均值和两倍标准差为条件过滤行程时间 第j时窗内的行程时间构成行程时间样本集TDSj1,计算TDSj中行程时间的均值TTmeanTDSj1和标准差σTDSj1,过滤掉距均值2倍标准差以外的行程时间数据,剩余的行程时间构成行程时间样本集TDSj2,即
3)定位统计时窗内行程时间的中位值 将TDSj2的行程时间按从小到大的顺序排列,计算行程时间的中位值TTjmedian,其计算公式如下.TTjmedian=TTjm,且
其中:i为行程时间的序号;max i为j统计时间窗内,行程时间的最大序号,也即TDSj2内行程时间的样本个数.
4)以中位值和平均绝对偏差为条件过滤行程时间 计算每个行程时间样本与中位值的绝对偏差,即Dji=TTji-TTjmedian,并以中位值为分界分别计算行程时间样本中前、后各半部分的行程时间与中位值的平均绝对偏差,分别记为Difmean,Djamean,二者的计算公式如下.
经本步骤过滤,剩余的行程时间样本集为TDSj3,即TDSj3={TTji|TTjmedian+3Djfmedian≤TTji≤TTjmedian+3Djamedian}.
5)重复3)和4),直至行程时间样本数据不再发生变化,则统计时窗j的有效行程时间样本集为TDSj,经大量实践表明,一般重复5~6次,数据趋于不变.
4 实例计算
以北京市2008年5月份的车牌识别数据为依托,采用本文的方法对行程时间异常值进行处理.由于一般城市道路与城市快速路交通条件以及交通流特性有一定的差别,分别就两种道路类型的数据验证方法的适用性.
4.1 实例1
以平乐园路口西到劲松西这一段道路自东向西方向的行程时间为例,采用本文方法对行程时间数据进行处理.
1)设定行程时间上限值,TTu=3 600 s.
2)计算行程时间 一般情况下,人们在夜间的出行较为畅通,因此本文将研究的时间范围设为6:00~22:00.以2008年5月8日为例,车辆在平乐园路口西到劲松西自东向西方向的行程时间原始数据见图2.
图2 不同出发时刻行程时间原始数据分布(设定了上限值)
由图2可以看出,行程时间数据中含有较多的明显的异常数据,且在一天之中行程时间存在早晚高峰.观察行程时间数据的分布可以发现,在平峰时段的某些可能异常值在高峰时段则属于正常值,这为统计时间窗设定的必要性提供了依据.
3)设定行程时间下限值 计算在该段路凌晨0:00~4:00车辆的行程时间作为自由流条件下的行程时间,取第10%位的数据作为行程时间的下限值,TTL=101 s.
4)设定统计时窗,Tw=10 min.按文中提到的方法对行程时间进行处理,经过步骤2及其之间步骤的过滤,行程时间的分布见图3.由图3可以看出,经过以上步骤的过滤,大量行程时间异常值被过滤掉,但是数据中还存在明显的异常值.
图3 不同出发时刻行程时间分布(设定了下限值且过滤掉多次出行异常值)
5)按步骤3、步骤4继续过滤行程时间,并重复该步骤直至行程时间数据趋于不变,过滤后行程时间的分布见图4.
由图4可以看出,经过以上几个步骤的过滤,行程时间在一天之中的分布趋势保持不变,过滤掉了绝大部分的行程时间异常值,过滤效果很明显.
图4 不同出发时刻行程时间分布(过滤后)
4.2 实例2
由于城市快速路与一般城市道路的道路特征以及交通流运行特性有一定的区别,本文选择远通桥西到国贸桥东自东向西方向这一段快速路验证方法的适用性,该段道路属于京通快速路.
按照实例1的步骤进行行程时间异常值的处理,其相关参数如下:TTu=3 600 s,TTl=226 s,Tw=10 min.过滤前和过滤后行程时间数据分布如图5~图6所示.
图5 不同出发时刻行程时间行程原始数据分布(只设定了上限值)
图6 不同出发时刻行程时间分布(过滤后)
由图6可以看出:快速路行程时间数据经本文提出的方法过滤后,行程时间在一天之内的分布趋势没有改变,各出发时段的行程时间集中在一个小波带之内,与一般城市道路相比,快速路在同一统计时窗内的行程时间分布较为集中、行程时间波动性较小.
5 结束语
本文分析了行程时间异常数据的分类及其产生原因,在已有行程时间异常值处理方法的启发下,提出了基于异常值数据特征和行程时间分布特征的异常值处理算法,最后将该方法应用于实际车牌数据的处理,并考虑到一般城市道路与城市快速路道路条件和交通流特性的差异,分别选择了一段城市主干道(短路径)和城市快速路(长路径)对方法进行了验证,处理结果表明该方法能较好地剔除行程时间异常值.
[1]宋俪婧,陈金川,石建军,等.应用车辆牌照自动识别系统自动检测行程延误的算法研究.交通运输工程与信息学报,2008,6(2):107-112.
[2]邵 杰,黄 山.城市道路路段车辆旅行时间检测系统的研究[J].道路交通与安全,2002(5):2-5.
[3]Chen Shuyan,Wang Wei,Henk van Zuylen.A comparison of outlier detection algorithms for ITS data[J].Expert Systems with Applications ,2010,37:1 169-1 178.
[4]Clark S,Grant-Muller S,Chen H.Cleaning of matched license plate data[J].Transportation Research Record,2002,1804:1-7.
[5]Shuyan Chen,Wang Wei,Henk van Zuylen.A comparison of outlier detection algorithms for ITS data[J].Expert Systems with Applications,2010(37):1 169-1 178.
[6]刘 浩,张 可,汉克·范少伦.行程时间噪声数据处理技术研究[J].交通运输系统工程与信息,2008,9(4):66-71.