APP下载

基于OLAM的高速公路交通量多维预测研究

2013-07-31许宏科程鸿亮

交通运输系统工程与信息 2013年2期
关键词:数据仓库交通量收费

钱 超,许宏科*,徐 娜,代 亮,程鸿亮

(1.长安大学电子与控制工程学院,西安710064;2.西安公路研究院,西安710054)

基于OLAM的高速公路交通量多维预测研究

钱 超1,许宏科*1,徐 娜2,代 亮1,程鸿亮1

(1.长安大学电子与控制工程学院,西安710064;2.西安公路研究院,西安710054)

OLAM是联机分析处理与数据挖掘的有机结合,本文以高速公路收费数据为基础,提出一种基于OLAM实现高速公路交通量多维预测的方法.该方法构建了多维数据雪花模型,建立起收费数据的数据仓库并得到交通量多维统计结果;在构建季节ARIMA预测模型过程中,检测出因节假日、恶劣天气导致的交通量异常值并对模型进行修正;最后利用修正后的模型实现了交通量的预测.与一般季节ARIMA模型相比,修正后模型的白噪声方差和AIC值显著降低,数据拟合程度明显提高.实验结果表明,该方法具有较高的预测精度,其中MAE和MAPE分别为50.43和1.59%,能够满足高速公路管理部门利用收费数据分析、预测交通量时空变化趋势的要求,从而为制定各项政策提供理论依据和决策参考.

公路运输;多维预测;OLAM;收费数据;交通量;季节ARIMA模型;数据挖掘

1 引 言

交通量预测是利用模型与算法,对采集的数据进行分析研究,及时准确地预测未来一段时间内的交通状态.交通量预测是交通运输规划与管理领域中的核心问题之一,也是正确制定交通控制与诱导措施的重要前提.由于人—车—路所构成的交通系统中存在的大量不确定影响因素造成交通量具有高度复杂的非线性特征,使得准确实现预测并不容易.高速公路收费系统包含海量数据资源,是交通量信息的客观真实记录,蕴藏着丰富的内在关系和隐含信息[1].本文的目标是研究利用高速公路收费数据实现多维统计分析,为多维交通量构建预测模型,从而实现交通量的多维预测.

交通量预测的主要模型有多元线性回归模型、历史趋势模型、神经网络模型、时间序列模型、卡尔曼滤波模型等.时间序列模型自20世纪70年代由美国统计学家Box和英国统计学家Jenkins在文献[2]中正式提出以来,在金融经济、气象水文、信号处理等众多领域被广泛应用.自回归滑动平均求和模型(简称ARIMA模型)是一种常用的时间序列模型,其又被称为Box-Jenkins模型.近年来国内外一些学者开展了利用ARIMA模型对高速公路短时交通量进行预测的工作,其中文献[3]实现了模型的识别、建立、选择与预测过程,结果表明季节ARIMA模型预测精度较高;文献[4]在考虑高速公路月度交通量季节性周期特点的基础上,构建季节ARIMA模型并应用于高速公路月度交通量预测.由于研究大都是基于单路段的统计数据,因此预测模型在推广和扩展应用上往往存在许多局限性.高速公路收费数据中包含大量记录着车辆通行的原始信息,具备为其他智能交通应用子系统提供统计数据及信息服务的功能[5].如何利用这些数据中蕴含的时间、空间等维度信息,准确预测路网内多维度交通量,成为高速公路管理部门的迫切需求.

传统交通量统计的方法一般利用收费系统集成的报表工具,通过结构化查询语言(Structured Query Language,SQL)对收费原始数据库进行查询实现;而对交通量预测一般根据统计时间间隔选取不同的算法对交通量进行建模预测.对于存储海量收费数据的数据仓库,采用传统统计方法需要大规模并行计算网络的支持,巨大的存储、连接、传输及聚集归并等代价使得采用SQL引擎查询算法的执行效率和响应速度无法满足实际需要;而对于多维度(时间、空间、车型等)交通量统计结果,传统预测方法也无法实现在不同粒度下灵活、快速预测的要求.

联机分析挖掘(Online Analytical Mining, OLAM)是联机分析处理 (OnlineAnalytical Processing,OLAP)与数据挖掘(Date Mining,DM)的有机结合,一方面利用OLAP的多维数据模型,根据实际需要选取维度指标对交通量预计算聚合,提高了查询响应速度及复杂计算能力;另一方面在OLAM中可以根据实际挖掘需要灵活选择或添加挖掘算法及可视化工具,为用户动态更新不同挖掘任务提供了灵活性.

本文在相关研究的基础上提出一种基于OLAM技术利用收费数据实现交通量多维预测的方法,首先选取合适的时间、空间等维度对收费原始数据建立多维数据模型,实现交通量的多维统计;然后根据预测需要选取多维统计结果作为序列数据样本,通过对数据样本分别进行平稳化、模型识别、异常值检验、参数估计、模型诊断等步骤,建立经异常值修正的最优季节ARIMA(p,d,q)(P, D,Q)s模型;最后利用建立的预测模型实现交通量多维预测.

2 OLAM技术概述

2.1 数据仓库

根据数据仓库创始人William H.Inmon的定义,数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失数据的数据集合,支持管理部门的决策过程[6].数据仓库是多维数据模型的物理实现,为数据挖掘和数据分析提供高质量的数据源,能够更好地支持管理决策.

2.2 多维数据模型

多维模式中的一些属性作为对数据对象性质的观察角度,称为维(Dimension),维决定着数据对象的属性,反映数据对象特性的属性称为度量(Measure),一般为可以累计的数值.常见的多维数据模型主要有星型模型和雪花模型(分别如图1和图2所示).雪花模型是星型模型的变形,是对星型模型的维度规范化表示.

2.3 联机分析处理

OLAP是由关系数据库之父E.F.Codd于1993年提出,能够对海量数据按维度分类和按度量聚合,形成多维数据模型.对多维数据模型中的数据按照不同维度和度量的组合进行分析,能够了解历史数据及其潜在规律.OLAP具有多维性、响应快速性、数据海量性等优势,满足高速公路收费系统不断增长的业务数据量及频繁变化的统计需求.

图1 星型模型Fig.1 Star schema

图2 雪花模型Fig.2 Snowflake schema

2.4 联机分析挖掘

OLAM由Jiawei Han于1997年首次提出[7],它将OLAP与DM结合起来,通过OLAP对多维数据立方体进行在线分析后提交给数据挖掘模型进行预测,从而发现潜在的规律.OLAM的挖掘预测是建立在数据仓库系统的数据立方体基础之上的, OLAM为用户的在线挖掘预测提供数据接口,运用预测模型与算法,将预测结果以可视化的形式展示.OLAM的体系结构如图3所示.

3 交通量季节ARIMA预测模型

3.1 ARIMA模型

ARIMA模型的基本思想是:将预测对象随时间推移而形成的数据序列视为一个随机序列,用一定的数学模型来近似描述这个序列.这个模型一旦被识别后就可以根据时间序列的过去值及现在值来预测未来值.

设{Yt,t=0,±1,±2,…}是一随机变量序列,延迟算子(Backshift operator)记为B,即BYt=Yt-1.对MA(q)模型,Yt=θ(B)et;对AR(p)模型,φ(B)Yt=et.合并这两个模型,一般ARMA(p, q)模型可以表示为φ(B)Yt=θ(B)et,et为白噪声序列,其中

记∇=1-B,称∇为差分算子,此时∇Yt= (1-B)Yt,一般有∇dYt=(1-B)dYt,如果存在非负整数d使得式(3)成立,则称{Yt}为自回归滑动平均求和模型,记为ARIMA(p,d,q),其中d为差分阶数,p为自回归系数,q为滑动平均系数.

图3 OLAM体系结构Fig.3 Architecture of OLAM

3.2 季节ARIMA模型

如果研究的时间序列中含有周期性特征,则可以对ARIMA模型进行季节差分,设时间序列{Yt}的周期为s,季节差分算子∇s=1-Bs,则有

对于D阶季节差分,则有

如果存在非负整数d和D使得{Yt}满足差分方程式

其中则称{Yt}为季节周期为s,非季节阶数为p,d, q,季节阶数为P,D,Q的季节ARIMA模型,记为ARIMA(p,d,q)(P,D,Q)s.

3.3 多维季节ARIMA模型建模流程

结合OLAM体系结构,将多维季节ARIMA模型建模过程分解为以下几个阶段.

(1)时间序列生成.

根据预测需要在多维数据模型中选取时间、空间等相关维度,对收费原始数据进行快速汇总分析,生成交通量统计的时间序列.

(2)序列平稳化.

对非平稳时间序列进行变换,直到满足ADF单位根测试,确定季节ARIMA模型的d、D和s值.

(3)模型识别.

利用ACF和PACF估计出模型阶数p,q,P和Q的可能取值,通过赤池信息准则(AIC, Akaike's Information Criterion)选取最佳的模型阶数.

(4)异常值检验.

检验时间序列中由于受到干扰而存在的异常值并对模型进行修正,进一步优化模型.

(5)参数估计.

用极大似然估计得到季节ARIMA模型中所有参数的估计值.

(6)模型诊断.

检验模型拟合效果是否充分即残差序列是否为白噪声序列.

(7)模型预测.

利用上述步骤得到的多维交通量预测最优季节ARIMA模型,对交通量未来趋势进行预测,同时根据精度指标检验预测效果.

具体建模流程如图4所示.

图4 季节ARIMA模型建模流程Fig.4 Modeling process of seasonal ARIMA model

4 实例应用

4.1 交通量多维模型

本文选取深圳区域高速公路收费原始数据构建数据仓库,根据交通量预测的实际需要,选取时间、空间、车型、车种等维度建立多维模型,采用雪花模型的交通量数据仓库结构如图5所示.

交通量数据仓库的雪花模型围绕收费数据组织,收费数据中包含相关维表的键及度量值,通过建立的时间、空间、车型、车种等维度可以对收费数据立方体进行不同模式操作(如上卷、下钻、切片、切块和旋转等),实现多维交通量的统计分析.

为研究高速公路交通量季节性变化规律,本文选取粤东区域盐坝高速所有车型ETC日交通量作为维度和度量查询依据,查询得到的时间序列结果如图6所示.为对比OLAM下多维交通量统计的高效性与灵活性,编写SQL脚本完成相同查询,两类方法对比如表1所示,表1也进一步说明了OLAM在处理数据海量时具备多维性、响应快速性等优势.

图5 交通量数据仓库的雪花模型Fig.5 Snowflake schema of data warehouse of traffic volume

表1 两类查询方法对比Table 1 Comparison of two query method

4.2 序列平稳化

利用查询生成的时间序列数据具体说明季节ARIMA模型的建模过程,选取最近17周共计119日统计结果作为序列样本(记作{Xt}),其变化趋势如图7所示.

由图7可见,交通量时间序列{Xt}存在季节性且非平稳,需要对其进行变换处理.根据文献[8]提出的变换方法,对{Xt}进行对数和季节差分变换,其中季节周期s=7.

变换后的交通量时间序列记作{Yt}(如图8所示),此时季节性消失.为验证{Yt}的平稳性,对{Yt}进行ADF测试,结果如表2所示.

图6 多维交通量查询结果Fig.6 Query results of multidimensional traffic volume

图7 交通量时序样本{Xt}趋势图Fig.7 Trend of traffic volume time series sample{Xt}

图8 样本{Xt}经对数和季节差分后的时间序列图Fig.8 Time series plot of logged and seasonal differences of sample{Xt}

表2 ADF单位根测试结果Table 2 Results of ADF unit root test

根据表2可知,ADF检验t的统计量小于置信水平下的临界值,拒绝单位根假设,即变换后的时间序列{Yt}是平稳的过程.

4.3 模型识别

时间序列{Yt}自相关函数图和偏自相关函数图如图9和图10所示,根据自相关函数图建议q= 1或q=2,由偏自相关函数图建议p=1或p=2.

图9 样本{Yt}的自相关函数图Fig.9 ACF of sample{Yt}

图10 样本{Yt}的偏自相关函数图Fig.10 PACF of sample{Yt}

对所有符合ARIMA(p,1,q)(P,1,Q)7模型要求的阶数进行组合,根据赤池信息准则[9]AIC计算各模型AIC值,根据计算结果模型ARIMA(2, 1,1)(0,1,1)7的AIC值最小,因此模型最优.

4.4 异常值检验

对于时间序列而言,可识别的异常值有两种,即加性异常值(Additive Outlier,AO)与信息异常值(Innovation Outlier,IO),分别表征基础过程在某时间受到可叠加性的扰动与某时间误差受到的扰动.通过检验交通量时间序列{Xt}在t=27、t= 49和t=107存在IO,分析序列数据可知,上述三个时间序列的日交通量与同期相比存在锐减变化,进一步分析可知,上述三个时间点分别为端午节和两次强台风登陆日,由此可见节假日与恶劣天气对交通量影响显著.

4.5 参数估计

对检验出的异常值,文献[10]提出一种将异常值纳入模型,然后反复修正模型进行异常值检验的方法,直至不再发现新的异常值为止,本文采用这种方法对模型进行修正.

采用极大似然估计,分别对未经异常值处理的季节ARIMA模型和将异常值纳入模型并反复修正后的季节ARIMA模型进行参数估计,结果分别如表3、表4所示.

表3 ARIMA(2,1,1)(0,1,1)7模型的参数估计Table 3 Parameter estimation of ARIMA(2,1,1)(0,1,1)7model

表4 修正后的ARIMA(2,1,1)(0,1,1)7模型的参数估计Table 4 Parameter estimation of corrected ARIMA(2,1,1)(0,1,1)7model

由表 3与表 4对比可知,修正后的季节ARIMA模型白噪声方差σ2估计值与AIC值显著降低,根据赤池信息准则,修正后的季节ARIMA模型显著优于未经异常值处理的一般季节ARIMA模型.

4.6 模型诊断

采用标准残差时间序列图、残差的样本ACF和Ljung-Box检验统计量的p值对模型进行诊断.误差指标分析结果来看,修正后模型比未修正模型分别降低40.71和1.34%,说明经异常值修正的季节ARIMA模型降低了由节假日及恶劣天气等导致的交通量异常值干扰,具有更高的预测精度.

图11 模型诊断结果Fig.11 Results of model diagnostics

表5 交通量预测结果及指标Table 5 Prediction results and index of traffic volume

式中 yt是t时刻真实交通量;^yt是模型预测的交通量;N是预测时期.

为验证模型预测效果,分别利用未经异常值修正和经过异常值修正的季节ARIMA模型对盐坝高速ETC车辆未来一周的日交通量进行预测,对比结果如表5所示.由表5可知,两种模型均能较好地拟合周内交通量变化趋势,但从MAE与MAPE

5 研究结论

利用高速公路收费数据中记录的车辆通行信息进行交通量统计、预测可以极大节约进行交通量调查的投入,具有低成本、高精度的优势.本文提出一种基于OLAM的高速公路交通量多维预测方法,该方法将多维查询分析与交通量预测结合起来,一方面在时间、空间、车型、车种等维度条件下快速汇总交通量统计结果,能够为交通量调查提供准确统计资料;另一方面对多维交通量在不同粒度下统计结果可以选用不同的挖掘算法进行建模预测,能够提高多维交通量的预测精度和系统的适用性.

本文运用OLAM的雪花模型对高速公路收费数据快速汇总交通量多维统计结果,由于选取的数据样本是带有周期特征的日交通量数据,故选用季节ARIMA模型进行建模预测.通过验证可知,经过异常值修正的季节ARIMA模型能够有效提高预测精度;而对随机波动较大的短时交通量,可以考虑采用人工神经网络、支持向量回归机等非线性方法以提高模型预测精度,具体建模分析方法还有待进一步研究.

值得注意的是,收费系统的业务需求导致收费数据仅能统计部分断面(高速公路出、入口)交通量,对于路网中的交通量调查及预测还应结合专用交通量调查设备采集的数据进行.交通量受多因素影响,尤其是重大节假日和恶劣天气对交通量影响显著.对于重大节假日交通量高峰的预测可以考虑在数据仓库多维数据模型中增加节假日维度,根据预测需求汇总统计历次节假日交通量多维时间序列,然后通过为序列构建独立的ARIMA模型预测未来节假日交通量趋势.

[1]Han J W,Micheline K.Data mining:Concepts and techniques[M].Second Edition,San Francisco: Elsevier Inc,2006.

[2]Box G E P,Jenkins G M.Time series analysis:Forecasting and control[M].San Francisco:Holden-Day,1976.

[3]童明荣,薛恒新,林琳.基于季节ARIMA模型的公路交通量预测[J].公路交通科技,2008,25(1): 124-128.[TONG M R,XUE H X,LIN L.Highway traffic volume forecasting based on seasonal ARIMA model[J].Journal of Highway and Transportation Research and Development,2008,25(1):124-128.]

[4]芮少权,匡安乐.高速公路月度交通量ARIMA预测模型[J].长安大学学报(自然科学版),2010,30 (4):82-85.[RUI S Q,KUANG A L.ARIMA model of expressway traffic volume monthly forecasting[J]. Journal of Chang'an University(Natural Science Edition),2010,30(4):82-85.]

[5]翁剑成,刘力力,杜博.基于ETC电子收费数据的信息提取技术研究[J].交通运输系统工程与信息,2010,10(2):57-63.[WENG J C,LIU L L,DU B. ETC data based traffic information mining techniques[J].Journal of Transportation Systems Engineering and Information Technology,2010,10 (2):57-63.]

[6]Inmon W H.Building the data warehouse[M].San Francisco:Wiley,2005.

[7]Han J W.OLAP mining:An integration of OLAP with data mining[C]//Proceedings of the 7th IFIP 2.6 Working Conference on Database Semantics,Leysin: Switzerland,1997,1-9.

[8]Box G E P,Cox D R.An analysis of transformations [J].Journal of the Royal Statistical Society.Series B (Methodological),1964(26):211-252.

[9]Brockwell P J.Time series:Theory and methods[M]. New York:Springer-Verlag,2009.

[10]商安娜.基于异常值检测的电梯交通流预测方法[J].计算机工程,2009,35(12):172-174.[SHANG A N.Forecast method for elevator traffic flow based on outlier dectction[J].Computer Engineering,2009, 35(12):172-174.]

OLAM-Based Multi-dimensional Prediction of Expressway Traffic Volume

QIAN Chao1,XU Hong-ke1,XU Na2,DAI Liang1,CHENG Hong-liang1
(1.School of Electronic and Control Engineering,Chang'an University,Xi'an 710064,China; 2.Xi'an Highway Institute,Xi'an 710054,China)

The online analytical mining(OLAM)is the organic combination of online analytical processing and data mining.On the basis of expressway tolling data,this paper proposes a method of multi-dimensional prediction of expressway traffic volume based on the OLAM.The method formulates the snowflake schema of multi-dimensional data.It also establishes the data warehouse of tolling data and gets multi-dimensional statistics of traffic volume.In the seasonal ARIMA predicting model,traffic outliers caused by holidays and severe weather are detected and the predicting model is modified.Finally,the prediction of traffic volume is realized by the improved predicting model.Compared with the general seasonal ARIMA model,the white noise variance and AIC value of the model is significantly reduced and the fitting degree of data is obviously improved.The experimental results show that the proposed method provides high prediction accuracy and theMAE and MAPE are calculated to be 50.43 and 1.59%,respectively.This not only assists the expressway administrations to analyze and predict the space-time changing trend of traffic but provides theoretical foundation and decision support for the work of making policies.

highway transportation;multi-dimensional prediction;online analytical mining(OLAM); tolling data;traffic volume;seasonal ARIMA model;data mining

U491

A

U491

A

1009-6744(2013)02-0048-09

2012-09-25

2013-02-04录用日期:2013-02-27

国家自然科学基金项目(60804049);教育部创新团队发展计划资助项目(IRT1050);中央高校基本科研业务费专项资金资助项目(CHD2012JC056).

钱超(1984-),男,江苏新沂人,博士生.

*通讯作者:xuhongke@chd.edu.cn

猜你喜欢

数据仓库交通量收费
基于ETC门架数据的高速公路交通量转换探究
行政法上之不利类推禁止*——以一起登记收费案为例
自由流收费技术解决方案的创新应用
基于数据仓库的住房城乡建设信息系统整合研究
基于动态差法的交通量监测技术应用
论高速公路收费服务水平的提高和收费服务设施的完善
Python与Spark集群在收费数据分析中的应用
高速公路补偿交通量模型研究
基于四阶段法的公路交通量预测研究
分布式存储系统在液晶面板制造数据仓库中的设计