路口交通数据的分析与挖掘研究
2017-02-27李英杰李晋宏
李英杰,李晋宏
(北方工业大学 计算机学院,北京 100144)
路口交通数据的分析与挖掘研究
李英杰,李晋宏
(北方工业大学 计算机学院,北京 100144)
交叉路口是道路的枢纽, 影响道路畅通的瓶颈。本文以相邻的两个交叉路口作为研究对象, 分析挖掘相邻路口之间的历史交通数据,同时构建多元线性回归的模型对两路口之间的车流量进行预测。研究结果表明,相比只考虑车流量的单因素预测基础上加入限号、天气因素能更加准确地预测未来5到15分钟的车流量。
数据挖掘,数据分析,多元线性回归,交通流预测
0 引言
随着大中型城市人口和私家车的数量不断增加,交通拥挤现象越来越严重。在有限的城市道路基础上,方便快捷的出行日益成为人们关心的问题。很多城市都在大力发展智能交通系统(Intelligent Transportation System,ITS),将其作为解决城市车路矛盾的重要途径之一,也因此提出了很多智能预测模型如:ARIMA[1]、神经网络[2]、非参数回归模型[3]等。其中对交通影响较大的莫过于交通路口,它是城市道路的主要交通节点,也是城市道路交通流汇集、交汇、混杂的瓶颈之处,日常交通堵塞和事故大部分与其有关[4]。一个交通路口出现拥堵情况,与其相连的交通干线以及交叉口都会受到相应的影响,所以交通路口在整个交通体系中扮演“牵一发而动全身”的角色。而影响交通路口的主要因素是两路口之间的车流量,所以能准确的预测出两路口之间的车流量对于解决拥挤现象具有很大的现
实意义。
1 交通流
一般描述交通流特征的三个参数是:交通量、速度和密度[5]。
三者的关系为:F =V*D。其中F为平均流量(辆/ h),V为空间平均车速(km/h),D为平均车流密度(辆/km)。速度和密度反映交通流从道路获得的服务质量,而交通量可度量车流的数量和交通设施的需求状况。三个参数是交通流最基本的度量指标,其变化规律反映交通流的基本性质。
交通流预测一般分为:长期交通流预测、中期交通流预测、短期交通流预测。
本文主要采用短期交通流预测,其中短期交通预测一般以分钟(5到15分)作为时间单位,大部分用于道路交通的实时控制和诱导,如交通信号灯的控制策略、主干道的绿波控制以及辅助发布交通诱导信息。
表1 数据样例1
表2 数据样例2
2 数据处理分析
本文的数据来源于北京市2015年1月到2月河阴西路口、湖光北街西口和望京西路南湖中园路口(整体三路口为南北方向一条线连通,首先是河荫西路口为十字路口,中间是湖光北街西口为丁字路口,最后是望京西路南湖中园路口为十字路口)的交通历史数据,包括两类车辆数据,第一类数据是由监控设备间隔一分钟拍摄的车辆信息,其中有效字段包括:车牌号、通行时间(年月日时分秒)等。第二类数据是经过设备初步处理过的车辆信息,其中有效字段包括:日期时间(年月日时)、占有率、流量、速度等,两类数据都记录了东、西、南、北四个方向的车辆记录。数据样例如下表所示:
2.1 数据处理
针对原始数据存在的噪声数据例如重复数据:同一车辆记录好几条,无效数据:与实际情况存在很大偏差的,由于机器本身原因造成的错误数据等[6]。本文采用基于Hadoop平台之上的Hive进行筛选有效数据,对第一类数据主要是获取在同一个方向上出现在相邻路口的车辆数据,就本文的数据以及相对应的路口实际位置而言,主要获取南北方向上的车辆信息,因第一类数据中有效字段包括车牌号、车辆出现在该路口的时间,无法确定其中的拐弯车,所以需要把在同一时间段内一个路口四个方向的所有车辆进行综合,通过设定时间段范围筛选出同时出现在相邻路口的车辆记录。对第二类数据处理工作是去掉重复记录以及不符合实际情况数据记录。
2.2 数据分析
对第一类数据的处理分析得到结果与第二类经过初步处理的数据进行对比,对筛选数据的合理性进行再验证,找出差异性较大的问题再进行相应处理。第一类数据,就同一日东、南、西、北四个路口(间隔1 min,记录时间为00:00—23:59)的交通流量进行统计分析,根据路口每日(本文采用2015年2月共28天的数据)的交通流求和取平均值,统计各路口每个方向上每小时车流量,分析结果如表3所示:
表3 样例一数据分析表
通过以上数据看出三个路口东西方向车流量相对较少在这里不作为主要的研究对象,南北方向总体车流量大,可以推测南北方向是主干道,对于交通的诱导控制要多加研究来尽量避免拥堵情况、意外情况的发生。望京西路南湖中园的总车流量要大于其它两路口的,说明此路口发生拥堵的可能性更大一些。由于湖光北街是丁字路口朝东方向的车辆大多来自河荫西路口和望京西路南湖中园路口两个路口的拐弯车,所以此方向上的车流量的增加或减少与相邻路口的同时增加或减少有很大关系。整体三个路口的车流量结合路口的实际地理位置来看南北方向相邻路口之间的车流量存在一定的关联。第二类数据分析发现,针对有效字段车流量(flow)来看三个路口从1月到2月份的每一天的历史数据有一个共同的特性(如图1所示):车流量每天从7:00左右到9:00左右达到第一个峰值,到13:00左右有一定的回落,之后从17:00左右车流量开始增多到18:00左右达到第二个峰值。每天的两个峰值区几乎都在8:00-11:00和17:00-20:00时间段内,因此要保证峰值段道路畅通,避免拥挤、交通事故的发生就需要做出相应的交通诱导控制。同时在三个路口车流量增加的同时车速都在相应减少,占有率在相应增加,也反映出车流量在一定条件下与速度呈现反比关系与占有率成正比关系。
图1 流量时间图
3 预测
3.1 多元线性回归基本概念
基本原理和计算过程与一元线性回归相同,如果有两个或两个以上的自变量,就称为多元线性回归(Multivariate linear regression)[10]。一个问题是与多个因素条件相联系的,由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更有效,更符合实际。因此多元线性回归比一元线性回归的实用意义更大。
3.2 多元回归模型车流量预测
通过对数据的分析两个相邻路口中间路段的车流量直接影响路口交通情况,同时也是诱导控制依据的关键[9]。本文采用多元线性回归模型对湖光北街西口和望京西路南湖中园口中间路段的车流量进行预测,一个方向的车流量显然受其它三个或两个方向(丁字路口)方向的车流量的影响。上文以对数据进行单方向车流量处理,所以在这里可以排除其它三个方向的影响,直接考虑预测方向上的单方向车流量。
F(t+1)=G(f(t),f(t-1),L,W)其中F(t+1)表示下一个5分钟的车流量,f(t),f(t-1)分别为前两个五分钟内的车流量,L表示限号,W表示天气情况,G(x)为预测函数。
实验选取出现峰值左右的8:00-11:00和17:00-20:00两个时段,实验选择2月3目至2月25日为训练样本,2月26日至2月28日为评估样本。如下表4所示:
表4 实验数据
通过以上数据训练出来的预测模型:偏相关系数达到0.65左右说明对预测结果作用明显,复相关系数达到0.45左右,说明线性回归效果良好。总结来看交通数据采用多元线性回归模型来预测交通流量效果良好,在加入限号和天气的因素下正确率提高4%左右。所以在辅助交通的诱导控制和优化信号配时方案的作用方面有很大帮助。
4 总结
本文在充分分析交通流和多元回归模型特点的基础上,提出了基于多元线性回归模型预测交通流量的方法,在传统的多元回归模型基础上加入限号与天气因素,提高了预测的准确率。同时考虑到相邻路口之间车流量对实际交通所带来的影响不单纯就本文提出的因素,所以对于本文提出的算法还有很多可以修改的地方,在今后的工作学习中进一步完善提高。对于今后我们还需要深入研究交叉口交通以及交叉口与相邻交叉口之间的影响同时在建模方面也需要深入研究与实验,以此来达到更加令人满意的结果。
参考文献
[1] 宋子房. 公路短时车流量预测模型研究[J]. 科学决策. 2014(04). SONG Z W. Research on short term traffic forecasting model of highway[J]. scientific decision making, 2014(4). (in Chinese).
[2] 郇洪江, 宫宁生, 胡斌. 改进的BP神经网络在交通流量预测中应用[J]. 微电子学与计算机. 2010(01). HUAN H J, GONG N S, HU B. Application of improved BP neural network in prediction of traffic volume[J]. Microelectronics and computer. 2010(01). (in Chinese).
[3] 周桐, 杨智勇, 孙棣华, 魏方强. 分车型的高速公路短时交通流量预测方法研究[J]. 计算机应用研究, 2015, 07: 1996-1999. ZHOU T, YANG Z Y, SUN L H. Research on short term traffic flow forecasting method of sub models[J]. computer application research, 2015, 07: 1996-1999. (in Chinese).
[4] 廖晓强. 城市道路平面交叉口交通组织与渠化设计研究[D]. 南京林业大学, 2013. LIAO X Q. Study on traffic organization and design of urban road intersections[D]. Nanjing Forestry University, 2013. (in Chinese).
[5] 傅贵. 城市智能交通动态预测模型的研究及应用[D]. 华南理工大学, 2014. FU G. The research and application of the dynamic prediction model of urban intelligent traffic[D]. South China University of Technology, 2014. (in Chinese).
[6] 许子鑫. 基于支持向量机回归的短时交通流预测研究与实现[D]. 华南理工大学, 2012. XU Z X. Research and implementation of short term traffic flow forecasting based on support vector machine regression[D]. South China University of Technology, 2012. (in Chinese)
[7] 张景阳, 潘光友. 多元线性回归与BP神经网络预测模型对比与运用研究[J]. 昆明理工大学学报自然科学版, 2013(6): 61-67. ZHANG J Y, PAN G Y. Comparison and application of multiple linear regression and BP neural network prediction model[J]. Journal of Kunming University of Science and Technology, Natural Science Edition, 2013(6): 61-67. (in Chinese).
[8] 徐伟, 刘广应. 多元线性回归分析中慎用偏最小二乘法[J].统计与决策, 2014(24): 90-92. XU W, LIU G Y. Multiple linear regression using partial least squares[J]. statistics and decision analysis, 2014(24): 90-92. (in Chinese).
[9] 曹洁, 李振宸. 相邻交叉路口神经网络模糊协调控制的研究[J]. 工业仪表与自动化装置, 2011(2): 101-103. CAO J, LI Z C. Study on Fuzzy coordinated control of adjacent intersection neural network[J]. industrial instrumentation and automation device, 2011(2): 101-103. (in Chinese).
Analysis and Data Mining of Intersection Traffic Data
LI Ying-jie, LI Jin-hong
(College of Computer ,North China University of Technology, Beijing 100144, China)
Intersection is the key of the road, and the bottleneck of the road is affected. In this paper, we take two adjacent intersections as the research objects, and analyze the historical traffic data between adjacent intersections, while building a multiple linear regression model to predict the traffic flow between the two intersection. Research results show that compared to only consider the single factor based on the traffic flow to add a limited number, weather factors can more accurately predict the traffic flow of next 5 to 15 minutes.
Data Mining; Data Analysis; Multivariate Linear Regression; Traffic Flow Forecasting
TP399
A
10.3969/j.issn.1003-6970.2017.01.028
李英杰(1986-),男,北方工业大学,研究生,研究方向:数据挖掘;李晋宏(1965),男,北方工业大学,教授,研究方向:数据挖掘。
本文著录格式:李英杰,李晋宏. 路口交通数据的分析与挖掘研究[J]. 软件,2017,38(1):131-134