APP下载

基于MI-CEEMDAN-ADABOOST的快速路短时交通流预测

2022-08-03奇兴族

公路交通科技 2022年6期
关键词:交通流分类器分量

奇兴族

(深圳市城市交通规划设计研究中心,广东 深圳 518000)

0 引言

短时交通流预测是当前针对快速路状态判别的一个重要领域。目前,国内外关于短时交通流预测方面的研究成果较多,并建立了大量预测模型[1-4]。针对交通流短时预测的模型主要有以下几类:统计模型[5-6]、非线性预测模型[7-8]、深度学习模型[9-10]、组合预测模型[11-12]等,其中,将不同预测模型相结合的预测方式逐渐成为研究重点。如Guo等[13]提出了一种基于图注意网络(GAT)和时间卷积网络(TCN)的深度学习流量预测框架,利用GAT处理空间特征和TCN处理时间特征的组合预测模型。Liu等[14]提出了一种邻域信息烟花算法,通过产生不同阶段的烟花亚种群,将相邻种群的烟花信息融合并结合极限学习机进行交通流预测。Lu等[15]提出了一种基于自回归积分移动平均(ARIMA)和长短时记忆(LSTM)神经网络的短时交通流预测模型。该模型基于历史交通数据对未来交通流量进行短时预测,利用滚动回归ARIMA模型及LSTM网络进行训练捕捉,并通过滑动窗口的动态加权进行交通流预测。

由于交通流的非线性及不确定性较为突出,在短时交通流预测方面通常需要进行先验分析,有助于提高模型的预测精度。Wu等[16]提出了一种基于集成经验模态分解(EEMD)的算法,该算法能够依据数据自身的时间尺度特征来进行信号分解,无须预先设定任何基函数,但该算法在分解时间序列的过程中会残留一定的白噪声,影响后续的分析和预测,而本研究使用CEEMDAN算法[17],将自适应正负高斯白噪声加入到时间序列的分量中,有效地解决了白噪声从高频到低频的转移传递问题。在交通流预测方面,针对常规的BP神经网络具有容易陷入局部极小值和收敛速度慢的缺点,目前许多学者们提出了许多改善优化算法,其中包括Adaboost算法、粒子群算法、多目标遗传算法等[18-20]。而Adaboost算法则将多个BP神经网络弱分类器组成的强分类器,预测准确率得到大幅度的提升。

为了提高城市快速路交通流的预测准确性,本研究提出一种基于MI-CEEMDAN-Adaboost的组合预测模型,并采用美国西雅图快速路数据验证模型的有效性和可行性。

1 MI-CEEMDAN数据分解与重组

1.1 互信息量确定历史交通流相关性

本研究以历史交通流数据为基础,首先确定目标路段历史交通流之间的相关性。由于互信息量(MI值)可以估计任意一种随机变量之间的关系,包括线性与非线性关系,并且目前已有多种方法使用互信息概念来进行交通流分析和预测。因此,本研究选用MI值对历史交通流进行分析与选择。

MI值可由两个离散随机变量X和Y定义,其中p(x,y)为X和Y的联合概率密度函数,而p(x)和p(y)分别为X和Y的边缘概率密度函数,并在连续随机变量的情况下可替换为二重定积分,即:

(1)

MI值在选择变量方面必须满足以下2个条件: (1)所选择的变量必须为高度相关。(2)每个选定的变量与选定变量子集内的任何其他变量之间的冗余应该很小。

假设输入的数据标签有M个变量,则变量的总数可能为2M个,很难遍历所有变量的子集。因此,选择基于互信息的贪心搜索,用于选择出目标路段交通流相关性强的时间序列,即:

(2)

式中,Xi和Xj分别为要添加到子集S的候选变量和在t时刻已选择的变量;C为目标变量;X为所有变量的集合;St为t时刻所选变量的子集;|St|为子集St的基数。

式(2)中的第1项为给定变量Xi与目标变量C之间的相关性,第2项为候选变量与被选变量之间的冗余度,第3项描述了C中的候选变量与St子集变量之间相互作用的程度。在时刻t,通过式(2)从变量集合St中选择第(t+1)个变量Xt+1,通过选择使得J(Xi)最大化的变量并将其加入到集合St中,得到新的集合St+1。

(3)

St+1←St∪{Xt+1}|。

(4)

利用该等式,可以选择出与目标变量相关性最大的变量子集,同时降低变量之间的冗余度。

1.2 CEEMDAN数据分解与提取

经验模态(EMD)是一种用于分析非线性非平稳信号的自适应方法,它将时间序列在不同的波动频率下进行分解,将一维的时间序列转换到多维的相位空间中。然而,EMD在分解过程容易出现一些问题,例如在模态中存在振幅相差很大的振荡,或在不同的模态中存在非常相似的振荡,称为模态混合。为了克服这些问题,提出了一种新的方法:集合经验模态(EEMD)。它在信号中加入高斯白噪声的集合上进行EMD,通过加入高斯白噪声,利用EMD的二元滤波器组特性填充整个时频空间,解决了模态混合的问题。然而,EEMD也产生了新的问题,由于重构信号中包含了残余噪声,不同信号加入噪声后可能会产生不同数量的分量,为解决这一问题,本研究将使用EEMD的改进方法自适应经验模态分解(CEEMDAN)。首先,将一维交通流时间序列分解为有限个本征模函数(IMF),所分解出来的各个IMF分量包含了原始交通流序列的不同时间尺度的局部特征信号,并且分解出来的各个IMF分量需要满足以下条件才可判断为真分量,否则为假分量,若为假分量则需要进一步分解:

(1)数据至少有2个极值点,1个极大值点和1个极小值点。

(2)数据的局部时域特性是由极值点间的时间尺度唯一确定的。

(3)如果数据没有极值点但有拐点,则可以通过对数据微分1次或多次求得极值,然后通过积分来获得分解结果。

设1个一维的交通流时间序列为s(n)={si|i=1, 2,…,I},则第i(1, 2,…,I)次添加的标准正态分布的白噪声序列为vi(n),则进过i次经验模态分解后的交通流序列为si(n)=s(n)+vi(n)。根据嵌入延时理论,如果嵌入维数m和时间延迟τ选择适当,则进行重构后的相空间与原始相空间等价,具有相同的拓扑结构。则重构后的相空间表示为S={Si|Si=[si+si+τ,…,si+(m-1)τ],i=1,2,…,M}。其中,M=N-(M-1)τ为相点数,在重构相位空间中,每个相点包含了m个元素,并且每2个相邻的元素之间的间隔为τ。其中,嵌入维数和时间延迟的确定可决定相空间重构与原信号的相似程度,在近几年的研究中发现,嵌入维数m和时间延迟τ有密切关系,可利用延迟时间窗τw=(m-1)τ建立2个未知参数之间的关系。通过C-C算法建立关联积分并构建统计量和时间延迟之间的关系求解τ和τw,从而计算得出嵌入维数,关联积分定义为:

(5)

式中,M为相点数;r为邻域半径;dij为相空间中两点之间的欧氏距离;H(z)为Heaviside阶跃函数,可定义为:

(6)

将交通流时间序列为s(n)={si|i=1, 2,…,I}划分为n个不相交的子序列,对于每个不相交的子序列有:

(7)

对所有的s(m,N,r,t)取平均值:

(8)

式中,M为嵌入维数;j为r的个数。本研究定义ΔS(m,t)为r的最大偏差,则:

ΔS(m,t)=max{S(m,rj,t)}-min{S(m,rj,t)}。

(9)

研究表明,当样本量小于1 024时,嵌入维数m通常取值小于6,当样本量大于1 024时,嵌入维数m取值范围在6附近可以获得稳定的排列熵。为了更加精确地求得嵌入维数和延迟时间,分别计算以下3种统计量:

(10)

(11)

(12)

2 BP-Adaboost预测模型构建

自适应增强(Adaboost)算法是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后将这些弱分类器集合起来构成1个强分类器。开始时,每个训练样本的权重是相同的,在此样本下训练第1个弱分类器,对于分类出现错误的样本,增加其对应的权重,而对于分类正确的样本,则减小其对应的权重,之后得到了1个新的样本分布,在新的样本下再次对新样本进行训练得到第2个弱分类器。以此类推,经过N次循环得到N个弱分类器,最后将这N个弱分类器进行组合,通过加权的投票机制让分类效果较好的弱分类器具有较大的权重,而分类效果较差的分类器具有较小的权重。具体算法步骤如下。

步骤1:从训练样本中随机选择N组训练数据构建训练数据集T={(x1,y1), (x2,y2),…, (xN,yN)},初始化训练样本的权值分布:D1=(w1,1,w1,2,…,w1,i),w1,i=1/N,i=1, 2,…,N,根据样本的输入输出维数确定神经网络结构,初始化BP神经网络权值和阈值。

步骤2:弱分类器预测。使用具有权值分布Dm的训练集进行学习,训练BP神经网络并预测训练输出,得到弱分类器Gm(x),计算Gm(x)在训练集上的分类误差率:

(13)

步骤3:计算Gm(x)在强分类器中所占的权重:

(14)

步骤4:测试数据权重调整。根据预测序列的权重更新训练数据集的权重分布:

(15)

步骤5:构建强分类器。通过进行N轮的弱分类器训练,将各个分类器按照分类精度重新分配权值组合,构成一个强分类器进行分类:

(16)

通过上述5个步骤构建BP-Adaboost组合预测模型,并对CEEMDAN分解后的有效分量IMF进行预测和重组。

3 模型验证

选用美国西雅图高速公路检测器数据进行验证,选择该高速公路路段104号检测器的历史数据作为训练集。数据采集时间为2019年10月1日至2019年10月31日,采集时间间隔为5 min,每天采集144组数据,共采集4 464组数据,试验环境为MatlabR2019b。

计算样本中的交通流数据之间的互信息量,并从中选出相关性最高的10 d的数据作为模型的训练集,MI值计算结果分布图如图1~2所示。i,j分别为目标交叉口的第i天和第j天的交通流栅格化数据,其中亮度越高表明相关性越高,任意2个变量之间的MI值反映了两者之间的相关性。副对角线MI值均为1,是由于各个数据的自相关性最高。

图1 MI值相关性分布值三维图Fig.1 Three-dimensional plot of MI correlation distribution values

图2 MI值相关性分布值二维热图Fig.2 Two-dimensional heatmap of MI correlation distribution values

通过对31 d数据计算MI值,选择出其中相关性最高10 d的交通流数据作为模型的训练集进行训练,将前9 d的数据作为训练集训练模型,将第10 d数据进行验证。

通过MATLAB编程将训练集中的原始交通流数据进行CEEMDAN分解,并在分解时添加标准差为0.2的白噪声。原始交通流数据被分解为12个不同尺度的IMF分量,相邻IMF分量之间的波动程度相似,其中IMF12为时间序列的残余分量。

为了验证该方法的有效性,本研究将原始交通流序列分别使用EMD和CEEMDAN进行分解,并对分解过程进行分析。通过观察2种方法分解分量的数量和迭代次数来评价方法的优劣性,分解结果如图3所示。使用EMD分解后的分量数与CEEMDAN分解后的分量数相同。但是,EMD分解过程中的迭代次数远远大于CEEMDAN,因此,使用CEEMDAN算法分解更加高效。

图3 与IMF箱线图Fig.3 Boxplot of IMF components

由于交通流数据具有一定的随机性和非平稳性,使得分解后得到的交通流IMF分量较多。因此,为了减少与原始信号相关性较小的IMF的干扰,通过计算各个IMF的时间序列复杂性,选择流量序列相关性最高的几个IMF分量。

图4 交通流量时间序列的曲线和 Scor(t)-t 曲线Fig.4 and Scor(t)-t curves of traffic flow time series

将计算得出的嵌入维数和延迟时间代入排列熵中,计算各个IMF的排列熵值,选择其中最大值的1/10作为阈值进行筛选,由图5可得分量IMF8的排列熵为最大值,因此筛选阈值为PE(IMF8)/10=0.087 35,图中位于虚线以上的IMF即为有效分量,分别为IMF1,IMF4,IMF5,IMF6,IMF7,IMF8,IMF9,其中IMF12为余项分量,在重组阶段添加。

图5 有效分量选取Fig.5 Effective component selection

选用神经网络-自适应增强(BP-Adaboost)对交通流进行预测分析。自适应增强是一种提升方法,将多个弱分类器组合成强分类器。该方法可充分利用不同分类算法的优势进行建模,这样训练的模型精度高于单一设置的模型。BP-Adaboost模型是将BP神经网络作为弱分类器,反复训练BP神经网络预测样本,通过Adaboost得到多个BP神经网络弱分类器组成的强分类器。

图6 BP-Adaboost模型预测结果及有效性Fig.6 Prediction result and effectiveness of BP-Adaboost model

使用BP-Adaboost模型对各个分量进行训练和预测,并将各分量预测重组得到最终的预测结果。各个分量及分量预测结果重构如下,真实值与预测值之间相关系数达到0.97。

为验证本方法的有效性,分别构建KNN,SVM,ELM,CEEMDAN-KNN,CEEMDAN-SVM,CEEMDAN-ELM进行对比试验,预测评价指标选取平均均方误差MAE、均方根误差RMSE、平均绝对百分误差MAPE。

(17)

(18)

(19)

由表1及图7可知,与其他预测模型相比,经过本研究的MI-CEEMDAN-Adaboost组合预测模型的MAE,RMSE,MAPE均低于其他模型,说明其预测误差最小,预测精度最高。ELM模型与真实值的拟合度最低,而SVM和KNN模型的拟合度逐渐提高,但仍低于经过经验模态分解后的CEEMDAN-ELM,CEEMDAN-KNN,CEEMDAN-SVM的模型预测精度,表明经过MI-CEEMDAN重构后的模型预测效果有所提高。

表1 各模型预测结果对比Tab.1 Prediction results of different models

图7 各模型经过MI-CEEMDAN处理后的预测结果对比Fig.7 Comparison of prediction results of different models after MI-CEEMDAN processing

综上所述,基于MI-CEEMDAN-Adaboost的组合预测模型对快速路短时交通流预测有较好的预测效果。

4 结论

本研究利用快速路历史交通流时间序列,提出了一种基于MI-CEEMDAN-Adaboost的快速路短时交通流量预测方法,该方法与其他经典模型相比,交通流预测值更加接近真实值,并且MAE,RMSE,MAPE均低于其他模型。

利用互信息量对历史交通流时间序列进行相关性分析,选择相关性较高的时间序列,剔除相关性低的样本,能够保证训练样本的有效性。

通过对模型进行MI-CEEMDAN分解并重构,各模型的预测误差均明显降低,预测精度明显提高。

猜你喜欢

交通流分类器分量
基于LSTM的沪渝高速公路短时交通流预测研究
京德高速交通流时空特性数字孪生系统
基于朴素Bayes组合的简易集成分类器①
画里有话
一斤生漆的“分量”——“漆农”刘照元的平常生活
基于特征选择的SVM选择性集成学习方法
一物千斤
基于ANFIS混合模型的短时交通流预测①
论《哈姆雷特》中良心的分量
基于差异性测度的遥感自适应分类器选择