车辆检测器异常数据清洗及修复方法研究
2015-11-10鲍东玉王军
鲍东玉+王军
摘 要:车辆检测器检测数据作为一种基础数据在交通领域具有重要的作用,其数据质量极大地影响着以其作为参考基础数据的交通规划、交通控制、交通行为分析等应用领域研究分析结论的准确性和合理性。文章首先分析了车辆检测器异常数据的表现形式及产生原因,根据交通流理论及客观限制条件研究,提出了基础筛选、阈值筛选和基于交通流理论的筛选方法,并在此基础上,根据交通运行状态的统计相似性进行了研究和对比,选择了IQR法作为数据修复的方法。从而在一定程度上解决了车辆检测器数据质量的问题。
关键词:车辆检测器数据;数据筛选;数据修复;四分位距IQR法
中图分类号:TP274 文献标识码:A 文章编号:2095-1302(2015)10-00-02
0 引 言
车辆检测器是检测道路交通流运行参数的设备,是智能交通系统中的一个重要组成设备。然而,在实际运用中,由于车辆检测器存在诸多应用选型不当、设备老化、恶劣环境影响、维护检修不到位等原因,其检测数据往往存在很多质量问题。
车辆检测器数据常被用于交通流状态描述及事件检测,交通流参数的统计分析在交通规划领域、交通控制领域、交通行为分析领域有着极其重要的基础数据支持作用。因此,车辆检测器数据的质量与其在各应用领域的作用效果存在极大地影响。如何筛选并修复车辆检测器数据中的异常数据,是车辆检测器数据应用的基础。
1 异常数据清洗方法研究
1.1 主要筛选目标
异常数据筛选的主要目标即发现车辆检测器数据记录中因设备性能、运行状态、检测环境异常所导致的异常数据,根据异常数据的表现形式,可将筛选目标分为四类。
(1)错误数据[1,2]。数据记录出现不在最大值的上限范围内或字段之间不满足机理关系的现象,这是车辆检测器异常数据中出现频率最高的一种异常数据。
(2)冗余数据[3,4]。冗余数据是指在检测时间段内存在相似或重复的数据记录,使实际记录数多于理论上应有的记录总数的数据。
(3)丢失数据[5]。由于车辆检测器、数据传输设备或存储设备等出现故障等原因造成的不能记录在数据库中的检测数据。
(4)时间点漂移[6]。由于车辆检测器或网络设备不稳定而造成的数据记录中的时间点间隔存在误差,导致实际时间点体系与标准时间点体系无法匹配,为数据的分析带来干扰。
1.2 交通流异常数据筛选方法
通常要以占有率、总交通量与速度之间的联系为依据,判断检测数据是否存在异常。在总交通量无异常的情况下,有时会出现分车型交通之和明显大于或小于总交通量的现象。即总交通量的正确性并不能反映分车型流量的正误,因此需要在判断占有率、总交通量与速度数据是否异常之后,判断分车型流量是否异常,若两者中有一个判断为异常,则为异常记录。
1.2.1 总交通量的筛选方法
总交通量的筛选方法采用交通流理论相结合的方法与阈值法,主要分为三步,第一步:利用交通流三参数的机理关系做基础筛选,去除明显不符合逻辑的数据记录;第二步:将车辆检测器检测数据三参数的范围设定在一个合理的理论值区间内,除掉不符合情况的阈值溢出值;第三步:再根据交通流三参数之间的严格计算关系来进一步推断并去除不符合规律的数据记录。交通量的筛选共有三种筛选方法,分别为基础筛选、阈值法筛选、基于交通流参数间关系的数据筛选。
(1)基础筛选
表1展示了车辆检测器检测数据的参数表现形式以及各表现形式下数据筛选的规则。
a.表 1中情况(8,9),可通过最大阈值法排除检测总交通量数值超过道路通行能力的情况。
b.表 1中情况(5),可通过前5分钟和后5分钟的数据判断是否出现停车或拥堵状况判断异常数据。
c.表 1中情况(1),可以对不同天同一时段的交通流量的数据进行比较判断异常数据。
(2)阈值法筛选
(3)基于交通流参数间关系的数据筛选
在对车辆检测器检测数据进行粗略筛选后,在研究中我们发现,还有一种较为隐蔽的数据异常情况(主要发生于表1中8、9的参数形式下):同一记录的三个交通流检测参数无不符合逻辑的异常值,且各检测值均在各检测参数阈值范围内,但三个参数之间的关系不严格满足高速公路的三参数之间的计算关系,即其中两个测量值的计算推测值与另外一个真实测量值之间存在较大差异,因此也要判断其错误。
本研究所采用的具体筛选步骤如下:
①将时间占有率换算为车流密度形式表示。
(1)
其中:occ为时间占有率([0,1]);
l为有效车长(m)(可取车辆长度的平均值)。
②根据交通流三参数关系,根据测量车流密度计算出的流量与测量出的流量差值比例筛选,筛选公式如下:
|q测-k测v测| ≤θ%
q测 (2)
其中:q测为车辆检测器总流量检测值;
k测为车辆检测器交通密度检测值,通过式(1)检测的占有率转化得来;
v测为车辆检测器速度检测值。
由于车辆检测器检测数据本身为计算值,且检测精度并没达到100%,故检测数据的参数不可能严格满足q测=k测v测,因此,可设定一个可接受误差范围,《高速公路监控技术要求》中规定:车辆检测器交通量、车辆速度、占有率准确度大于或等于85%。根据此标准以及公式,当流量取准确度范围内上限值,密度和速度取准确度范围下限值时取最大值:
1.2.2 分车型流量数据的筛选方法
将总流量的异常数据过滤掉后,需要判断分车型流量数据是否有错误。当总流量为真值时,分车型流量的和与总流量相比相差不应过大,因此,分车型流量的筛选通过以下公式判断:
(3)
其中:qi为分车型流量的值(i=1,2,3分别表示大、中、小型车的检测流量值);
q为总交通量;
δ%为设定误差,通常根据车辆检测器的精度参数进行标定。
2 交通流量检测数据修复方法
2.1 修复条件
数据清洗后,数据的完整率降低,影响后续对数据的分析应用,因此,数据清洗后需要进行数据修复工作[7,8]。
当车辆检测器某月的检测数据异常数据较多时,数据进行修复后,真实性和可靠性就大大降低,后续分析和处理的意义也会降低。因此,数据修复的对象应主要针对筛选后有效数据完整性较高的月份。因此修复条件需满足公式(4)。
有效数据条数
理论总数据条数 ≥D (4)
其中:D为日有效数据完整率的众数。
2.2 修复算法研究
2.2.1 修复基础
由于出行者出行需求的规律及相对普遍的出行习惯影响,使得交通流在同一断面相同性质(工作日、双休日)的统计日内在同一时间会出现相似的交通流特征,这是车辆检测器数据修复的基础。
2.2.2 修复算法
当数据分布符合正态分布时,IQR不如标准偏差有效;但如果数据中存在噪声和孤立点,则在估计数据的离差时,它比标准偏差更具代表性。本研究基于大量的历史检测数据验证表明,检测周期的流量值不服从正态分布,因此采用IQR方法修复。
首先,判断异常数据的统计日是双休日还是工作日,然后将数据库中一年内与待修复数据具有相同统计时段、相同统计日性质的数据进行汇总排序,分别取数据的上、下四分位点作为修复数据的上限和下限。将剩下50%的数据保留下来求均值作为修复值。
2.3 效果验证
本文选取三种方法对比验证效果:①采用相邻时段数据的平均值修复;②采用前一天的历史趋势数据修复;③本文修复方法。各修复数据分别与原有检测值进行对比。
结果表明:本文提出的四分位间距(IQR)修复算法比传统的修复算法的修复结果误差更低,更贴近车辆检测器的检测值。原因是由于修复的数据源样本多,且都较贴近实际情况。
图1 数据修复算法对比效果图
3 结 语
车辆检测器数据作为交通状态的基础数据,其清洗与修复方法深刻影响着其置信程度、应用范围。因此,本文对车辆检测器异常数据的清洗与修复方法研究,在一定程度上合理地解决了车辆检测器异常数据所带来的部分应用问题,从而使车辆检测器数据能够更加准确、完整的被应用于交通规划、交通控制、交通行为分析等交通应用领域。
参考文献
[1] 蒋锐,王均.道路交通流数据检验与修复方法[J].交通与计算机,2006,24(6):65-67.
[2] 耿彦斌,于雷,赵慧.ITS数据质量控制技术及应用研究[J].中国安全科学学报,2005,15(1):82-87.
[3] 刘伟,曹先彬.对基于MPN的相似重复记录识别算法的改进[J].微计算机信息(管控一体化),2005,21(8):147-149.
[4]伍建国,王峰.城市道路交通数据采集系统检测器优化布点研究[J].公路交通科技,2004,21(2):88-91,95.
[5]周永华,陆化普.交通流数据处理系统的设计与开发[J].交通与计算机,2006,22(5):37-39.
[6]耿彦斌.城市道路交通流数据质量控制理论与模型[D].北京:北京交通大学,2006.
[7]姜桂艳,江龙晖,张晓东,等.动态交通数据故障识别与修复方法[J].交通运输工程学报,2004,4(1):121-125.
[8]姜桂艳.道路交通状态判别技术与应用[M].北京:人民交通出版社,2004.
[9] Gerlaugh D L, Huber M J.Traffic Flow Theory[M].Beijing:China Communications Press, 1983.
[10]王晓华,苏宏业,渠瑜,等.面向电信欠费挖掘的数据质量评估策略研究[J].计算机工程与应用,2011,47(12):220-224.