基于数据融合的高速公路短时交通量预测模型
2018-10-24李松江弓晋霞
李松江,弓晋霞,丁 岩,王 鹏
(长春理工大学 计算机科学技术学院,吉林 长春 130022)
0 引 言
目前,短时交通量预测模型主要分为时间序列模型[1]、卡尔曼滤波模型[2]、历史平均模型[3]、人工神经网络模型[4]、支持向量机模型[5]和组合预测模型[6,7]等。同时,国内外专家学者对天气条件、时空因素以及交通状态等因素对交通量的影响,进行了定性和定量的研究,将其应用于交通量预测中并取得了一定的成果。Koesdwiady A等[8]利用决策层数据融合技术将天气数据与交通量数据融合,提高了交通量预测精度;Li等[9-12]结合上下游特性和时间序列性,提出了时空特性交通量预测模型;杨春霞等[13]对不同时间尺度的周期相似性进行分析,提出了基于相似性的短时交通量预测模型。然而,大多数研究只是在分析上下游关系和时间序列性的基础上进行交通量预测,没有同时考虑时间周期性对交通量预测的影响;且仅对输入特征进行讨论,尚未对预测结果进行优化。针对上述两方面的不足,本文综合考虑了高速公路交通量的时间序列性、周期相似性以及空间序列性,对不同特性的状态向量进行定义。以BP神经网络预测模型为基础,结合自适应加权数据融合算法构建了基于数据融合的高速公路短时交通量预测模型。利用相关性计算方法对时空特性进行分析,研究不同维度的输入数据对模型预测精度的影响。
1 时空数据融合交通量预测模型
1.1 时空特性变量定义
在高速公路路网中,历史时刻交通量、人们出行选择的总体规律性以及上下游实时交通状态变化均对路段交通量产生一定的影响,使得交通量呈现3个明显的时空特性:时间序列性、周期相似性和空间序列性。高速公路路段上的交通量,会随着时间的变化而变化,当前时段的交通量与前几个时段的交通量之间存在着必然的联系,即时间序列性。
定义1 设m个时间段的交通量数据构成一个时间序列列向量,前n个时刻的交通量时间序列列向量构成时间序列矩阵Xtime。Xtime表示为
(1)
由于高速公路交通量产生于人们的出行,人们的生活作息出行整体上呈现相似程度不同的周期规律性,这将直接影响着交通量的数据特征,导致高速公路交通量存在着以日、星期、月、季度等为单位的周期规律性,即周期相似性。
定义2 设m个时间段的交通量数据构成一个周期列向量,p个周期的交通量数据列向量构成周期相似矩阵Xperiod。Xperiod表示为
(2)
高速公路路段之间相互连通,上下游相邻路段的交通状态相互影响,当本路段的上游路段或下游路段交通量发生变化时,必然会对当前路段的交通量产生一定的影响,即空间序列性。
定义3 设m个时间段的交通量数据构成目标路段空间序列列向量,l个相邻路段的交通量数据构成空间序列矩阵Xsection。Xsection表示为
(3)
1.2 时空数据融合高速公路交通量预测模型构建
高速公路交通量受到人文地域、自然环境、天气条件、实时路况等多种因素的影响,又具有不确定性、复杂性、非线性的特点。故本文选取应用最广泛、适用于非线性且难以用数学模型表示的复杂系统的BP神经网络[14]作为基础模型,对时空特性交通量进行预测。在短时交通量预测中,时间特性预测与空间序列预测在性质上存在着不可忽视的差别。为了充分考虑时空因素对交通量预测的影响,以总均方误差最小为原则,结合自适应加权数据融合算法,对时间特性预测值和空间序列预测值进行融合,使融合后的预测值更接近于真实值,构建如图1所示的基于时空数据融合的高速公路交通量预测模型。
图1 时空数据融合的高速公路交通量预测模型
该预测模型主要分为3部分:一是时间特性交通量预测;二是空间序列交通量预测;三是利用时空数据融合算法对时间特性预测值和空间序列预测值进行融合。具体步骤如下所示:
(1)确定目标路段、预测日期和以15 min为时间间隔的时间段数m。
(2)时间序列交通量预测
选取预测日期目标时刻前n个时刻的时间序列交通量数据组成的时间序列矩阵Xtime,作为神经网络预测模型的输入;建立BP神经网络时间序列交通量预测模型,设置隐含层层数、隐含层神经元数、激活函数和各层传递函数,选取网络优化函数;对模型参数进行初始化,利用选取的样本数据集进行训练;利用训练好的神经网络预测模型进行预测,输出时间序列交通量预测值,记为ut。
(3)周期相似性交通量预测
选取预测日期同一时刻的前p个周期的交通量数据组成的周期相似性矩阵Xperiod,作为神经网络预测模型的输入;建立BP神经网络周期相似性交通量预测模型,设置隐含层层数、隐含层神经元数、激活函数和各层传递函数,选取网络优化函数;对模型参数进行初始化,利用选取的样本数据集进行训练;利用训练好的神经网络预测模型进行预测,输出周期相似性交通量预测值,记为up。
(4)时间特性交通量预测
采用步骤(2)和步骤(3)得出的预测值ut和up,作为时间特性神经网络预测模型的输入;建立BP神经网络时间特性交通量预测模型,设置隐含层层数、隐含层神经元数、激活函数和各层传递函数,选取网络优化函数;对模型参数进行初始化,利用选取的样本数据集进行训练;利用训练好的神经网络预测模型进行预测,输出时间特性交通量预测值,记为u1。
(5)空间序列交通量预测
选取预测日期目标路段相邻l个上下游路段的交通量数据组成的空间序列矩阵Xsection,作为空间序列预测模型的输入;建立BP神经网络空间序列交通量预测模型,设置隐含层层数、隐含层神经元数、激活函数和各层传递函数,选取网络优化函数;对模型参数进行初始化,利用选取的样本数据集进行训练;利用训练好的神经网络预测模型进行预测,输出空间序列预测值,记为u2。
(6)基于时空数据融合的交通量预测
采用步骤(4)和步骤(5)得出的时间特性预测值u1和空间序列预测值u2,构造自适应加权数据融合算法的输入特征X
(4)
利用自适应加权数据融合算法,在总均方误差最小的条件下,自适应调整时间特性预测值和空间序列预测值加权因子,对其进行融合,得出高速公路短时交通量的最终预测值,记为u。其表达式为
(5)
式中:w1+w2=1,w1为时间特性预测值的权值,w2为空间序列预测值的权值。
根据多元函数求极值理论,加权因子w1与w2由式(6)计算可得
(6)
(7)
其中,upre(t)为交通量预测值,ureal(t)为交通量实际值,t为总的时间段。此时,总均方误差σ2最小为
(8)
2 数据准备与时空特性分析
2.1 数据准备
本文研究的高速公路短时交通量预测模型,需要充分考虑上下游路段交通量、历史时段交通量以及同周期相同时段的交通量对本路段的影响,故实验数据选用东北某省2015年5月11日到8月9日去除端午节所在星期外的十二个星期的高速公路部分路网的收费数据。如图2所示,选取距离为34.11 km、平均行程时间为28 min 9 s的路段作为研究路段,记为“0”路段。通过分析收费站之间点到点的OD交通量数据、出入口的收费数据,以及对相邻路段、枢纽之间的连接关系进行研究,以15 min为时间间隔计算出了该路段与相邻6个路段的交通量数据。
图2 路段
2.2 时空特性分析
高速公路交通量预测性能的提高,不仅依赖于预测模型的优化,且输入特征的选取也会影响模型的预测准确度。本文对目标时刻交通量数据与历史时刻交通量数据之间的相关性进行分析,上、下游路段交通量数据之间的相关性进行讨论,不同时间尺度的周期相似性进行研究,选取较优时空特性样本数据作为时空数据融合交通量预测模型的输入。
(1)交通量时间序列分析
交通量时间序列的连续性,表现在历史时刻的交通量数据会随着时间的延续对目标时刻交通量数据产生影响。本文推测研究路段目标时刻的交通量数据与前10个时刻的交通量数据具有较强的关联性,并利用皮尔森相关性计算方法对目标时刻交通量时间序列列向量与前10个时刻组成的10组交通量数据时间序列列向量进行相关性分析。如图3所示,为第十二周星期一到星期日目标时刻时间序列交通量数据与前10个时刻时间序列交通量数据相关性趋势。从图中可以看出前10个时刻的交通量数据与目标时刻交通量数据的相关性都大于0.65,说明相邻时间间隔的交通量数据都具有一定的相关性。但是观察曲线趋势可知,随着时间的推移相关性逐渐下降,故不再对与目标时刻时间距离更远的交通量数据进行研究。图中显示,t-3时刻时相关性急剧下降,在t-4时刻部分时间序列的相关性低于0.9。利用BP神经网络预测模型进行预测分析,随着时间距离的增加逐渐增加输入样本数据。实验结果显示逐渐增加t-1、t-2、t-3时刻的交通量数据,模型预测性能逐渐提升、误差逐渐减小。继续增加样本输入,模型预测性能误差呈现波动性增加,但都大于前3个时刻作为模型输入时的预测效果。同时参考文献[15],本文选取前3个时刻的时间序列交通量数据作为模型时间序列预测部分的输入进行预测。
图3 时间序列相关性趋势
(2)交通量周期相似性分析
时间尺度不同,可能会导致周期相似性与交通量预测效果的不同。本文利用皮尔森相关性计算方法,分别对两两周期之间的相关性进行计算,然后计算它们之间相关性的平均数作为周期相似性的衡量标准。分别对以“天”为时间尺度和以“星期”为时间尺度的交通量数据周期相似性进行计算。表1所示为,第九周到第十二周交通量数据的周期相似系数,可知每周特定日期同星期“几”的相似系数都大于0.94,而连续“几天”的工作日相似系数在0.9129~0.9446之间波动,连续两天休息日的相似系数在0.9036~0.9361之间波动。综上得出,以“星期”为时间尺度的同星期“几”的交通量周期相似性高于以“天”为时间尺度的交通量周期相似性。利用BP神经网络预测模型分别对两组交通量数据进行预测,对比可知以“星期”为时间尺度作为模型的输入,预测精度优于以“天”为时间尺度的交通量预测。故本文选取以“星期”为时间尺度前3个星期同星期“几”的交通量数据作为模型周期相似性预测部分的输入。
表1 四周交通量数据的周期相似系数
(3)交通量空间序列性分析
高速公路上下游路段相互连通,交通量数据具有相似的变化趋势,而交通路况实时变化,导致目标路段交通量数据具有不确定性。利用皮尔森相关性计算方法,分别对图2所示路段“1、2、3、4、5、6”的交通数据与目标路段“0”同一时刻交通量数据的相关性进行计算,见表2。结合图2和表2可知,路段“1”相比于其它上游路段与目标路段相关性最高,路段“4”相比于其它下游路段与目标路段相关性最高,随着相邻路段与目标路段距离的增加,相关性在不断下降。利用BP神经网络预测模型进行预测分析,考虑上下游最近的一个路段时预测精度最高。随着考虑上下游路段数量的逐渐增加,模型预测精度逐渐下降。由于本文是对交通量的实时预测进行研究,故选取距离最近的上游路段“1”的交通量数据作为模型空间序列预测部分的输入进行预测。
表2 相邻路段相关系数
3 实验结果与分析
3.1 评价指标
为了进一步对所提出预测模型的预测性能进行评价,本文选用平均绝对误差百分比(MAPE)、均方根误差(RMSE)2个指标来衡量。MAPE用于评价预测模型性能的好坏,RMSE用于评价模型的预测精确度,具体公式如下所示
(9)
(10)
3.2 模型参数
本文实验模型均采用TensorFlow架构,Python语言进行编程实现。通过对时空特性相关性分析,确定时间序列预测模型、周期相似性预测模型、空间序列预测模型的输入层神经元个数分别为3、3、1;经过实验对比,含有2个隐含层的预测模型训练时间和复杂度明显减小,故选取4层架构的神经网络预测模型;隐含层神经元数利用式(11)计算,并利用试凑法确定,时间序列预测模型隐含层神经元数为7、7,周期相似性预测模型隐含层神经元数为8、6,时间特性预测模型隐含层神经元数为5、5,空间序列预测模型隐含层神经元数为5、3;由于模型在训练之前需要对数据进行归一化处理,故选取sigmoid函数作为激活函数,线性函数作为各层连接函数;利用自适应梯度下降法更新权重和阈值;学习率设置为0.001,训练次数为1000;时间特性预测值和空间序列预测值的加权因子,初始值设置为0.5和0.5
(11)
式中:i为输入层神经元个数,o为输出层神经元个数,a为1到10之间的整数。交通量预测只有一个预测值,故o为1。
3.3 实验结果
在实验分析与验证阶段,将数据集分成两部分:第一部分为2015年5月11日到7月12日前八周的交通量数据,用于模型的构造与训练;第二部分为2015年7月13日到8月9日后四周的交通量数据,用于对模型进行验证。由于人们在工作日与休息日作息规律的不同以及休息日远途旅行的增加,导致交通量数据特征存在区别,故本文分别对其进行预测分析。
图4所示为工作日2015年8月5日星期三基于时空数据融合的交通量预测结果,时间特性预测值和空间序列预测值加权因子为0.489和0.511。从图中可以看出,交通量预测值曲线与实际值曲线趋势基本一致。其中,预测值与实际值偏差较大的位置出现在高峰时段,主要是由于高峰时段实际交通量波动性较大而导致的。图5所示为休息日2015年8月8日星期六基于时空数据融合的交通量预测结果,时间特性预测值和空间序列预测值加权因子为0.733和0.267。观察图可知,预测值曲线规律基本与实际值曲线规律一致,偏差较大的位置主要出现在高峰时段和波动性较大的位置,但误差在可接受范围内。
图4 工作日交通量预测值
3.4 预测模型比较
将基于时空数据融合的交通量预测模型与时间序列预测模型、周期相似性预测模型、时间特性预测模型、空间序列预测模型进行比较,结果见表3。为了避免随机性,表3列出了2015年8月3日到8月9日一周交通量预测性能评价值。从表中可以看出,星期三的时间特性预测值MAPE为5.57%低于时间序列预测模型和周期相似性预测模型的值,RMSE的值为15.518低于时间序列预测模型和周期相似性预测模型的值;本文所提出的时空数据融合预测模型MAPE的值为2.52%,低于时间特性预测模型和空间序列预测模型,RMSE的值为11.655,低于时间特性预测模型和空间序列预测模型的值,休息日同理。可知本文提出的预测模型优于其它单变量预测模型,MAPE预测性能都控制在5%以内。故基于时空数据融合的高速公路短时交通量预测模型,预测性能较优,适用于实际高速公路交通量预测中。
4 结束语
本文综合考虑了高速公路交通量的时间序列性、周期相似性和空间序列性,以BP神经网络预测模型为基础,结合自适应加权数据融合算法,提出了一种基于数据融合的高速公路短时交通量预测模型。通过对时空特性相关性进行计算,分析了交通量的分布规律,并根据相关性强弱选取模型输入样本数据。选用高速公路收费数据,对该模型与时空特性单变量预测模型比较,结果表明该模型预测性能更好、预测精度更高,其预测值可为智能交通管理系统提供数据支持。由于BP神经网络预测模型易陷入局部极小值,下一阶段将对神经网络预测模型进行优化改进,提高模型的预测性能。