APP下载

用于短时交通流预测的多项式分布滞后模型

2011-12-03杨晓光

关键词:阶数交通流精度

谢 军,吴 伟,杨晓光

(同济大学 交通运输工程学院,上海201804)

先进的出行信息系统(advanced traveler information system,ATIS)作为智能交通的一部分,能够向出行者提供实时的路况信息,诱导驾驶员做出合理的路径抉择,以缓解交通拥挤.交通状态的短时预测能力是ATIS 不可或缺的一部分,而ATIS 提供的信息服务需要基于短时预测得到的交通状态生成.如果没有短时预测能力,ATIS 提供的交通状态信息会有滞后性.因此,随着ITS(intelligent transportation system,智能交通系统)的进一步发展,国内外学者针对短时交通流预测进行了大量的相关研究,文献[1-5]对交通短时预测就有比较详细的综述.

目前,常用的短时交通流预测模型主要分为两类[1],一类是以数理统计和微积分等传统数学和物理方法为基础的预测模型,一类是以现代科学技术和方法(如模拟技术、神经网络、模糊控制)为主要研究基础而形成的预测模型[3-4].后者不追求严格意义上的数学推导和明确的物理意义,一般具有能够识别复杂非线性系统的特性,在实验室条件下预测精度比较高.但因对数据量要求大、模型复杂、收敛速度慢、可移植性差等特点,大多还处于验证研究阶段[6].在此不对该类模型进行讨论.基于传统统计理论的方法是用数理统计的方法处理交通历史数据,预测流量、速度和行程时间等交通参数,假设未来预测的数据与过去的数据具有相同的特性[2].这类方法主要有历史平均模型、参数回归模型、时间序列模型和卡尔曼滤波方法等.

时间序列模型是目前研究和应用最广泛的一种短时交通流预测模型.1976年,Box和Jenkins创立了ARIMA——自回归整数移动平均模型,该模型能够将交通流量等参数看成更为一般的非平稳随机序列 来 处 理[1].该 模 型 在1984 年 就 被Okutani 和Stephanedes 应 用 到UTCS(urban traffic control system,城市交通控制系统)中,1993年又被Kim 和Hobeika应用到高速公路交通流量预测.1995 年,Hamed用其预测城市道路的短时交通流量,通过对5条不同城市干道的交通流量预测分析,给出了(0,1,1)的模型结构[7];1999 年,Williams基于传统的ARIMA 模型,建立了用于单点交通短时预测的周期性ARIMA 模型——SARIMA 模型[8].该模型比其他时间序列模型具有更高的预测精度,然而它的建立和参数标定也更为复杂.标定一个单点的SARIMA 模型,需要30d的历史数据,耗费6d时间才能完成[4].参数回归方法是一种通过分析事物之间的因果关系和影响程度进行预测的方法,对数据的平稳性没有要求,能够分析多个参数或者多条路段.多项式分布滞后(polynomial distributed lags,PDL)模型[9]是一种动态的回归模型,不仅考虑了解释变量跨时段的影响关系,还加入因变量自身的滞后项对其的影响,集合了时间序列模型和回归模型的优点.

笔者基于交通流理论,将多项式分布滞后模型应用于短时交通流预测,提出了用于点速度短时预测的PDL模型,其建模思想是交通状态时间序列同时受自身滞后项之外的多个因素影响,并分布到多个时段.

1 问题定义

交通预测是利用预测算法,分析研究道路交通流数据,及时准确地预测未来一段时间内的交通流状态,是制定交通控制和管理策略的重要前提[10].未来的交通状态受到管理控制策略与发布的交通信息的影响,准确的预测需要在交通网络上敷设大量的检测设备,要求系统能够掌握实时的交通状态并跟踪过去的状态变化.单点的交通状态预测可以描述为一个时间序列问题,即在给定当前和过去一系列预测时段的交通状态前提下,预测下一时段的状态.检测器可以实时检测当前数据,并形成一个历史数据库.一个有效的预测模型必须能够充分利用数据库里的数据.除此之外,上游检测器的数据也可以为预测模型提供有用的信息.在此不作研究.

单点交通状态预测模型可利用的数据包括断面的速度、流量和时间占有率.速度参数能够表征道路的交通运行状态,故对速度建模分析.假设在当前时刻t,模型能够利用的数据包括当前的速度vt、流量qt和时间占有率ot,以及前几个预测时段的真实数据.单点预测模型可能的输入输出表达如下:

预测输出值:vt.

预测 输 入 值:vt,vt-1,…,vt-k;qt-1,…,qt-k;ot-1,…,ot-k.

短时预测的时间间隔一般为5~15min.预测间隔太小,会降低预测信息的应用价值;随着预测间隔的变大,由于不确定的偶然事件发生的概率变大,会影响预测的准确性.因此,综合考虑,选取10min.

2 模型建立

2.1 PDL模型定义

PDL是一种动态的回归模型,不仅考虑了解释变量跨时段的影响关系,还加入因变量自身的滞后项对其的影响,是一种解释能力比较强的预测模型.解释变量每单位变化的影响分布到多个时段,形式如下:

式中:C为常数;yt-i是因变量的滞后项;ci为因变量滞后项系数;xt-j为解释变量的滞后项;βj为解释变量的系数,反映x在j期后对y的乘数作用;ut为误差项;t为时刻;n为滞后项数;i和j代表滞后量.PDL模型中可以只存在一个解释变量,也可以同时存在多个解释变量;而滞后项的个数可以是有限项,也可以是无穷项,具体由解释变量对因变量的解释能力决定,模型只保留对因变量影响大的滞后项.

此外,当模型参数j从1开始取值时,该模型可以利用历史数据对yt预测.

2.2 流量、密度和速度的关系

在交通流理论中,在密度不变、速度均匀时,流量q、密度k和速度v之间满足如下关系:

如果它们是时间t的函数,即分别为qt,kt和vt,那么上述关系仍然成立

当路段上车辆的速度相等或者是所有车辆的平均速度趋于一致时(密度较大的情况),可以近似认为区间平均速度与时间平均速度相等,则密度k和时间占有率ο之间有如下关系:

式中,L为检测器长度与车辆平均长度之和.

则根据以上两式得到速度、流量和时间占有率之间的关系如下:

对式(5)两边同时取对数,并且考虑数据分布的随机性,速度与流量和占有率之间存在如下线性关系:

式(6)服从双对数线性关系,表示某一观测点在t时刻的速度与该点t时刻的流量和时间占有率的对数之间存在线性的相关关系.而t时刻的流量和占有率又可以由各自的滞后项回归得到,即

将式(7)代入式(8)可得

式中:a0,b0为常数;ai,bj为滞后性乘数.

式(9)表明,同一观测点的流量和占有率对速度产生影响,而且这种影响在时间上分布到了多个时段.

2.3 模型建立

速度的对数序列与流量和占有率序列存在双对数线性相关,基于此可建立用于速度预测的PDL 模型.具体如下:

式中:lnvt+1为预测值;lnvt-i,lnqt-j和lnot-k分别为速度、流量和占有率的时间序列,包括当前值和过去的一系列历史值;αi,βj和γk分别为各解释变量的系数,解释变量的滞后项个数和系数需要根据实验数据验证确定;m为速度的滞后项阶数;n为流量滞后阶数;p为占有率滞后阶数.

2.4 模型确认

利用PDL模型预测速度时,首先需要利用样本数据确认模型的3个参数:速度的滞后阶数m、流量滞后阶数n和占有率滞后阶数p.标定好这3个参数后,模型的基本形式就可以确定,可以表示为MPDL(m,n,p).

(1)速度滞后阶数m确定AR(自回归模型)模型的参数时,一般利用样本数据的自相关系数,当自相关系数在p处截尾时,则可确定该样本数据符合MAR(p)模型.PDL 模型的速度滞后项实质上是对速度预测值的自回归,因此,m可以利用自相关系数的截尾性质来确定.

(2)流量滞后阶数n速度与流量之间符合双对数线性关系,即同一观测点的流量会对速度产生影响,而且这种影响在时间上分布到了多个时间间隔.换句话说,t时刻的速度受到t之前多个间隔的流量的影响.由于交通系统运行受多种随机性因素(天气、突发事件等)干扰,观测数据的波动性较大,越靠近t时刻的流量对速度的影响越大,距离t时刻较远的流量对速度的影响可忽略不计.因此,n一般小于5,具体还需要根据模型的预测精度调整.

(3)占有率滞后阶数p占有率与流量同为预测速度的解释变量,因此,p的确定方法与流量相同,需要根据预测精度调整.

2.5 系数估计

假设已经选择好PDL模型的m,n,p,现在需要估计模型的系数向量α,β和γ.利用给定的样本数据,选择的系数向量必须使真实值与估计值之差的平方和最小.当PDL模型的解释变量与随机误差项不相关时,可以直接使用OLS(最小二乘法)估计系数.但是当滞后项较多时,直接估计会耗费很大的自由度.更重要的是,解释变量的当前项和滞后项之间很可能存在高度共线性,其直接后果是参数估计量失去意义,不能解释各滞后量对因变量的影响.因此,PDL模型利用次数较低的多项式对每个系数逼近.例如,如果模型的滞后阶数最大为4,假定用一个2次多项式来描述系数βi的取值,则表达式如下:

PDL模型对βi拟合的多项式要复杂一些,具体算法请参考文献[8].利用该方法对PDL 模型的系数估计时,减少了待估系数,避免了解释变量之间的共线性.

3 模型分析

为验证模型的预测精度和适应性,利用实际数据验证模型,并与ARIMA 模型对比分析.

3.1 数据

分析所用的数据是由视频检测设备Citilog采集的.Citilog能够采集包括流量、速度、时间占有率、排队长度等在内的6种交通参数,全天24h采集,采集间隔为1min.利用加和平均方法,将1 min为间隔的数据转化为10min为间隔的数据.为了消除实测数据中的高频干扰,提高预测的精度,需要对实测数据预处理[11].本研究对实测数据进行了3项移动平滑处理,处理前后的数据如图1所示.

3.2 ARIMA 模型

图1 平滑曲线与实测曲线对比Fig.1 Smooth curve and real data curve

为验证PDL模型的预测精度,应用ARIMA模型作为基准模型对预测结果对比分析.一个简单的ARIMA 模型包括三部分:①自回归部分;②差分部分;③移动平均部分.差分部分是将任何一个非平稳的时间序列转化成平稳时间序列,因为大部分时间序列模型只对平稳时间序列有效.时间序列Yt的MARIMA(d,e,f)模型的表达如下:

其中

式中:Zt为白噪声序列;B为滞后算子;d,e,f分别代表自回归过程、差分过程和移动平均过程的阶数.

目前,确定ARIMA 模型阶数最常用方法就是AIC准则——一种在预测精度与回归阶数之间选出恰当的折中方案的方法.由该方法所确定的回归阶数,既能保证较好的精度,又不会使回归阶数过大,造成计算过于复杂[12].

3.3 预测精度指标

用于预测模型评价的统计指标通常有3个:平均绝对误差、平均相对误差和均方根误差.由于交通数据在高峰时段和平峰时段的差异比较大,因此主要采用平均相对误差衡量各模型的预测精度.

此外,偏差比例度量预测值的均值与序列实际值均值的偏离程度,表示系统误差;方差比例度量了预测值方差与实际序列方差的偏离程度;协方差比例衡量剩余的非系统误差、三者比例之和为1.如果预测结果好,那么偏差比和方差比应该较小,协方差比较大.

3.4 预测精度分析

以10min为预测间隔,1d共有144个样本值,利用前100个样本值建模.可以确定PDL 模型的基本形式为MPDL(11,2,2),可以确定ARIMA 模型的基本形式为MARIMA(2,1,2),然后估计模型的系数.模型建立后,预测剩下的44个样本值,以检验模型的预测精度,建模和预测结果列于表1和表2.为了更加直观地表现预测模型的预测精度,绘制了模型的预测效果图(图2a,b).图中均绘制了1d的144个数据点,实线为实际速度变化曲线,虚线为模型预测的速度曲线.

表1 模型的建模精度对比Tab.1 Comparison of modeling accuracy

表2 模型的预测精度对比Tab.2 Comparison of prediction accuracy

图2 模型MARIMA(2,1,2)和MPDL(11,2,2)的预测效果Fig.2 Fitting curve and real data of MARIMA(2,1,2)and MPDL(11,2,2)

从表1和表2能够看出,PDL 模型和ARIMA模型的建模精度和预测精度都很高(平均相对误差均为1%左右,R2统计量大于0.9,协方差比例接近1,且预测精度与建模精度的差距很小(平均相对误差相差小于0.5%),说明模型具有较好的预测能力.从表2 可以看出,PDL 模型的预测精度略低于ARIMA模型,平均相对误差仅相差约0.06%,说明PDL模型已经能够逼近ARIMA的预测精度.

从图1和图2可以看出,速度时间序列在一天内高峰时段和平峰时段的差异性大,起伏波动变化大;交通序列受各种随机性因素的干扰,在高频上呈现出强烈的锯齿形波动.PDL 模型既能预测出速度时间序列在总体趋势上的波动和突变,又能反映出各种高频干扰分量的影响,具有良好的强壮性,能够很好地满足短时交通预测的要求.

4 讨论

交通流参数能够被预测需要满足三个条件[4]:①能够得到过去的信息;②能够量化历史数据;③历史数据呈现出的某些特征能够延续到未来.换句话说,预测模型要有稳定输入的数据,包括当前数据和历史数据;同时,交通流要有一定的规律性,不是绝对随机的,而这种规律性是可以通过检测和统计找到的.然而,不同时间、不同地点的交通流的规律性会有较大的差异,比如不同日期,比如进口道和出口道.一个好的预测模型既需要充分利用历史数据的可预测特性来获得更准确的预测,又能够适应交通流时间和空间上的差异性,以保证预测结果的稳定性.下面从时间可移植性和空间可移植性两个方面讨论PDL模型.

4.1 时间可移植性

为不失一般性,选取某观测点连续5 个工作日的数据,利用PDL 和ARIMA 模型进行预测,预测精度用平均相对误差表示,如图3所示.PDL 模型在预测精度方面与ARIMA 模型非常接近,预测的平均相对误差都在0.8%~1.6%范围内;而在第2 d和第5 d,还高于ARIMA模型.

交通检测数据在每天都呈现出一定的波动,为保证模型的预测精度,一般需要每天修正预测模型参数和系数.表3列出了预测模型5 d所用参数对比,可以发现,ARIMA 模型几乎每天都需要修正参数才能达到高精度,而PDL模型采用固定的参数就能达到同等的精度.说明PDL 模型更强壮,具有较强的时间可移植性.

图3 连续5d的预测精度对比Fig.3 Comparison of prediction accuracy for 5days

表3 模型在不同时间所用参数对比Tab.3 Comparison of model parameters used in different times

4.2 空间可移植性

为验证不同检测地点模型的预测精度,选取3个不同观测地点,分别是:①进口道直行车道;②出口道直行车道;③出口道右转车道.利用PDL 和ARIMA 模型进行预测,预测精度用平均相对误差表示(图4).表4列出了该预测精度条件下两种模型采用的参数.

图4 不同观测点的预测精度对比Fig.4 Comparison of prediction accuracy for different sites

表4 模型在不同地点所用参数对比Tab.4 Comparison of model parameters used in different locations

对比分析发现,PDL 模型在不同的观测地点同样具有较强的可移植性.对于同一区域内,不同道路、不同观测地点来说,应用同一个PDL 模型就能够获得最优的预测精度.

5 结语

PDL模型是一种动态的参数回归模型,能将解释变量的影响分布到多个时期,同时加入了因变量自身的滞后项影响.借鉴PDL 建模原理,与传统的交通流密速理论相结合,建立了用于短时交通流预测的PDL 模型.分析表明,该PDL 模型不仅具有较高的预测精度,而且具有很好的时间和空间可移植性,比已有的时间序列模型简单、强壮.PDL 模型本质上是一种参数回归模型,对预测数据没有平稳性要求,而且参数估计相对比较简单.因此,无论在模型计算复杂性和实施的难易程度上,PDL 模型都比ARIMA 模型具有优势.

本文的PDL 模型的基本思想是利用多个解释变量在多个时段上的观测值预测因变量,体现为速度不仅与自身的滞后项有关,还与同一观测点的流量和密度有关系.因此,考虑了更多因素的PDL 模型在预测精度和预测稳定性上都具有一定的优势,也正因为如此,利用PDL 模型预测的时候也需要更多的输入量.

[1] 刘静,关伟.交通流预测方法综述[J].公路交通科技,2004,21(3):82.LIU Jing,GUAN Wei.A summary of traffic flow forecasting methods[J].Journal of Highway and Transportation Research and Development,2004,21(3):82.

[2] 高慧,赵建玉,贾磊.短时交通流预测方法综述[J].济南大学学报:自然科学版,2008,22(1):88.GAO Hui,ZHAO Jianyu,JIA Lei.A summary of traffic flow short-term forecasting methods[J].Journal of Ji’nan University:Natural Science,2008,22(1):88.

[3] Van Arem B,Kirby H R,Van Der Vlist M J M,et al.Recent advances and applications in the field of short-term traffic forecasting,[J]Int.J.Forecast.,1997,13(1):1.

[4] Smith B L,Williams B M,Oswald R K.Comparison of parametric and nonparametric models for traffic flow forecasting[J].Transportation Research Part C—Emerging Technologies,2002,10(4):303.

[5] Bidisha Ghosh,Biswajit Basu, Margaret O ’ Mahony.Multivariate short-term traffic flow forecasting using timeseries analysis [J].Ieee Transactions on Intelligent Transportation Systems,2009,10(2):246.

[6] ZHANG Xiaoli,LU Huapu.The simulation research of nonparametric regression for short-term traffic flow forecasting[J].International Conference on Measuring Technology and Mechatronics Automation,2009,3:626.

[7] Mohammad M Hamed,Hashem R Al-Masaeid,Zahi M Bani Said.Short-term prediction of traffic volume in urban arterials[J].Journal of Transportation Engineering-Asce,1995,121(3):249.

[8] Williams B M.Modeling and forecasting vehicular traffic flow as a seasonal stochastic time series process [D].Charlottesville: Charlottesville University of Virginia,Department of Civil Engineering,1999.

[9] 高铁梅.计量经济分析方法与建模[M].2版.北京:清华大学出版社,2009.GAO Tiemei.Econometric analysis and modeling[M].2nd ed.Beijing:Tsinghua University Press,2009.

[10] 窦慧丽,刘好德,吴志周,等.基于小波分析和ARIMA 模型的交通流预测方法[J].同济大学学报:自然科学版,2009,37(4):486.DOU Huili,LIU Haode,WU Zhizhou,et al.Study of traffic flow prediction based on wavelet analysis and autoregressive integrated moving average model[J].Journal of Tongji University:Natural Science,2009,37(4):486.

[11] 陈淑燕,王炜,李文勇.实时交通数据的噪声识别和消噪方法[J].东南大学学报:自然科学版,2006,36(2):322.CHEN Shuyan,WANG Wei,LI Wenyong.Noise recognition and noise reduction of real-time traffic data[J].Journal of Southeast University:Natural Science Edition,2006,36(2):322.

[12] 贺国光,马寿峰,李宇.基于小波分解与重构的交通流短时预测法[J].系统工程理论与实践,2002(9):101.HE Guoguang,MA Shoufeng,LI Yu.Study on short-term forecasting for traffic flow based on wavelet analysis[J].System Engineering Theory and Practice,2002(9):101.

猜你喜欢

阶数交通流精度
基于LSTM的沪渝高速公路短时交通流预测研究
京德高速交通流时空特性数字孪生系统
热连轧机组粗轧机精度控制
确定有限级数解的阶数上界的一种n阶展开方法
超高精度计时器——原子钟
一个含有五项的分数阶混沌系统的动力学分析
分析误差提精度
复变函数中孤立奇点的判别
基于DSPIC33F微处理器的采集精度的提高
交通流随机行为的研究进展