APP下载

基于相似性聚类的交通流概率组合预测模型

2022-07-06王旭鹏王梦灵

关键词:交通流相似性聚类

王旭鹏, 王梦灵

( 华东理工大学信息科学与工程学院,上海 200237)

交通流预测在交通控制以及交通出行诱导等方面都起到了重要的作用。准确的交通流预测模型可以辅助交通管理者制定控制和诱导措施[1]。短时交通流预测模型主要有ARIMA、机器学习、深度学习等。基于ARIMA模型[2-4]的建模方法结构简单、应用广泛,但对于非线性强度较高的场景,其应用具有一定的局限性。针对非线性较强的交通流应用场景,研究者采用支持向量回归(SVR)[5-7]、树模型[8]、深度神经网络[9-11]等机器学习方法实现交通流预测。由于交通系统具有高度的复杂性、非线性,而单一预测模型各有特点,不同的模型都存在一定的适用场景,因此采用单一模型的建模方法很难完备地表征交通流数据的所有特征。为了提升对复杂交通流的建模性能,有学者提出利用组合模型[12-14]方法进行交通流预测,将多种预测模型组合,基于组合加权的方式提高整体的模型预测精度。组合模型的组合方式、权重参数确定及训练数据集的平衡问题是组合模型研究上的难点,有学者对此进行了探讨[15-16]。但目前的组合模型仅采用对全部历史数据集进行训练的单一模型进行加权,并未很好地考虑交通流数据本身的物理特性。实际过程中交通流状态的变化呈现出一定的周期性和相似性,如节假日、工作日、早晚高峰等,不同时段的交通流变化具有相似性特征。针对状态变化的交通流数据,把相似状态的交通流聚类在一起进行建模分析,可以放大数据的局部特征,更准确地把握交通流的变化趋势。

基于以上分析,本文提出了基于相似性聚类的交通流概率组合预测模型,对交通流的周期性和相似性特征加以利用,提升交通流预测模型的准确性。首先利用自适应k-means++聚类方法[17]对历史交通流数据进行聚类,将具有一定相似性的数据聚集起来。自适应k-means++聚类方法相比k-means方法,解决了聚类簇数k以及初始聚类中心选择的问题。经过聚类得到多个具有相似性的数据聚类集后,分别在不同的聚类集上训练组合模型,组合模型可以对复杂、多变的交通流进行更全面的建模。针对新输入的交通流数据,分析输入数据与各聚类集的相似度计算概率权重。最后,基于概率融合计算,加权融合输入数据对应各组合模型预测值,得到最终的结果。

1 问题描述

交通流预测建模的目的是为了寻找到时间序列数据间的关联关系,利用历史数据对未来时刻的交通状态进行预测[18],可以描述为

其中:Xt−1,···,Xt−n为t时刻前交通量的观测值,即历史数据;yˆt为对t时刻交通量的估计值。模型f的选择和设计是预测建模的关键,决定了交通量的预测值yˆt与实际观测值yt之间的误差大小。一般来说,组合模型在不同交通流场景都有较好的稳定性与准确性,可以有效地对具有复杂性和随机性的交通流进行预测。组合模型的一般表达式为

其中:g1,···,gm为根据历史数据训练的多个子预测模型; α1,···,αm为各子模型的权重。

目前的组合模型中,训练子模型大都采用全部历史数据集为训练集,并未很好地考虑交通流本身在时间维度上的特性并加以区分和处理。本文针对交通流存在的早晚高峰、平峰、工作日流、休息日流等周期性现象,充分挖掘交通流数据潜在的时段相似性特征,利用相似训练样本集提升预测模型的性能,提出了基于相似性聚类的交通流概率组合预测模型,流程图如图1所示。

图1 基于相似性聚类的交通流概率组合预测模型Fig. 1 Combination forecasting model of traffic flow probability based on similarity clustering

2 基于相似性聚类的交通流概率组合预测模型

首先利用自适应k-means++聚类方法对交通流数据进行聚类,基于不同聚类集构建多个子模型,并采用基于误差的自适应加权方法进行组合,得到不同聚类集对应的组合预测模型。在线预测时,根据输入数据与不同聚类集之间的相似性计算概率权重,利用概率权重融合多个组合模型得到最终的预测输出。

2.1 基于自适应k-means++聚类的相似性特征分析

本文采用一种自适应k-means++聚类方法对数据进行聚类。k-means++聚类方法的过程:首先随机选择第一个初始中心,然后通过距离度量来寻找下一个聚类中心,公式如下:

式中:m为训练样本数;k为类别个数;Bk为类别之间协方差矩阵;Wk为类别内部数据协方差矩阵;tr 为矩阵迹。当类别之间的协方差较大,类别内部的协方差较小,即CHI较高时,说明分类效果较好。为防止聚类的簇数过多影响聚类效果,自适应聚类过程中还需设置最大类别个数阈值kmax。自适应k-means++聚类方法流程图如图2所示。

图2 自适应k-means++聚类流程Fig. 2 Adaptive k-means++ clustering process

鉴于交通系统的复杂性与随机性,在对数据集进行聚类后,利用多模型组合的方法对聚类后各类别形成的不同聚类集进行建模。首先在聚类后形成的不同子类数据集Li上分别训练n个模型,然后利用基于误差的权重调节方法计算n个模型的加权和,作为该子类组合模型的预测值。

2.2 子类组合模型

利用聚类算法得到不同类别的数据集后,训练不同子类集对应的组合模型。将交通流数据转化为有监督数据形式S=[Xt,Xt−1,Xt−2,···,Xt−w] ,将数据集分为离线训练集L=[Xt,Xt−1,Xt−2,···,Xt−w]L和在线测试集H=[Xt,Xt−1,Xt−2,···,Xt−w]H。利用自适应k-means++将离线训练集聚成k类,每类的训练集Li=[Xt,Xt−1,Xt−2,···,Xt−w]Li,i=1,2,···,k。对于训练集Li,根据该训练集输入向量XLi=[Xt−1,Xt−2,···,Xt−w]Li与输出向量YLi=[Xt,]Li,训练n个不同子预测模型,子类Li组合模型的预测结果由n个子预测模型加权得出,如式(6)所示:

本文提出了一种基于误差的在线自适应权重调节方法,确定子类Li组合模型中各子模型权重,···,流程图见图3。获得离线模型后,需要预测下一时刻输出时,首先计算各子模型对t时刻的预测值,···,,然后确定子模型对t时刻的预测误差,···,。利用当前预测时刻具有较小误差的预测模型的输出作为最终输出,利用评价函数获得误差评价,···,s,然后对评价值进行Softmax归一化,最后确定t+1 时刻类别i上的组合模型中各子模型权重,···,,具体计算公式如下:

图3 基于在线误差的自适应权重调节流程图Fig. 3 Flow chart of adaptive weight adjustment based on online error

(4) 采用Softmax函数对评价值进行归一化;

2.3 基于概率融合的模型预测输出

得到各子聚类集组合模型后,利用输入数据与各个聚类中心的欧式距离计算输入数据与各类之间的相似度,并利用相似度估计输入数据属于各类数据集的概率,将此概率值作为权重对各聚类集的组合模型进行加权融合,最后将该结果作为预测值输出。基于概率的加权和计算原理如下:

其中:P(Li|x) 为后验概率;P(x|Li) 为条件概率;P(Li)为先验概率。设输入样本与类Li中心的欧式距离为,di聚类集L上i的样本个数为ni。利用di作为输入样本与x类Li相似度的判断依据,进而可以计算属x于类Li的概率,将此概率值作为条件概率。于是,式(11)中和P(x|Li)P(Li)计算公式为

基于相似性聚类的交通流概率组合预测模型方法的步骤如下:

输入:离线训练数据集L=[Xt,Xt−1,Xt−2,···,Xt−w]L,在线测试集H=[Xt,Xt−1,Xt−2,···,Xt−w]H

输出:交通流的预测值

(1) 利用自适应k-means++聚类方法对离线训练集L进行聚类;

(2) 在不同聚类集Li上分别训练相应的,,,···,;

(3) 计算输入样本与各聚类中的欧式距离;

(4) 根据距离确定输入样本与每一类的相似度;

(5) 分别计算训练集Li上得到的组合模型对输入样本的预测值,计算后验概率P(Li|x) ;

(6) 计算加权和P(L1|x)1,t+1+···+P(Lk|x)k,t+1;

(7) 输出交通流预测值。

3 实例分析

3.1 数据描述

在美国加州交通性能测量系统(PeMS)提供的数据集上对本文模型进行有效性评估。实验数据为加州高速路I-405N上某个检测点从2017年6月15日到2017年9月18日收集的采样间隔为每5 min一次的车流量数据。图4示出了该位置上检测器采集的交通流数据。从图中可以清晰地看到交通流存在着周期性和日相似性特征,即不同日的相同时段有着类似的变化规律,同时同一天的不同时段间的状态有较大差异。为了获得交通数据中时序关系的变化,采用时间步长为8,即利用前40 min的数据来预测下一时刻的流量。为了进行模型训练,将原始时间数据转化监督形式的样本,获得共28 215个样本,前65%(18 339个样本)为离线训练样本,其余为在线测试样本。

图4 交通流量数据图Fig. 4 Traffic flow data graph

首先对训练集数据采用自适应kmeans++聚类方法进行聚类。由于过多簇会影响聚类效果,本文设置聚类上限为9,因此k的取值范围为 [2,9] 。k取不同值时的CHI值如图5所示。由图5可见当k=3时聚类效果最佳,因此将训练数据集分为3类,在各个子训练集上分别训练模型。对于组合模型的子模型选择,从模型预测精度以及计算复杂度两方面考虑,本文选择了PLS(偏最小二乘)和LSTM(长短时记忆神经网络)为组合模型的子模型。PLS模型结构简单,训练速度较快,而且在交通流量变化不复杂时,预测效果也较理想。图6示出了PLS预测的效果,从图中可以看出,对于流量变化不复杂的时段,PLS也可以较好地预测该时段的流量,即利用PLS可以对交通流数据中线性信息进行较好的挖掘。LSTM的网络结构复杂,在训练计算上较耗时,但是对于变化复杂的交通流预测精度较高。LSTM训练时长与模型的训练代数相关,因此若选择合理的LSTM网络训练代数,可以在获得较理想预测精度时又能保证模型训练的计算时长较短。组合模型子模型涵盖了非线性模型和线性模型,可以提升组合模型对复杂交通数据的建模能力。为了更好学习到数据间的规律,所有的输入输出数据都事先进行归一化处理,采用如下归一化公式:

图5 不同k值的CHIFig. 5 CHI with different k values

图6 PLS预测效果图Fig. 6 Prediction results of PLS model

预测性能的评价指标上,选择均方根误差(RMSE)和平均绝对误差(MAE),以及平均绝对误差百分比(MAPE):

式中:yt为交通流量的真实值;yˆt为模型预测值;N为测试样本集的个数。

3.2 结果分析

本文预测模型(PLS-LSTM)在测试集上的预测值与真实值的对比结果如图7所示。从图7可以看出,本文预测模型的精度较高,相比未分类直接组合的模型预测结果好,且在出现高流量、交通状况比较剧烈时仍具有较好的预测效果。

图7 预测模型效果对比图Fig. 7 Prediction comparison of model effects

为进一步说明模型的性能,计算了PLS-LSTM预测模型在测试集上预测结果的RMSE、MAE以及MAPE,同时与未使用聚类的针对由所有训练集训练的PLS-LSTM组合模型、ARIMA-BP[13]组合模型、支持向量回归SVR以及单个LSTM模型的结果进行对比,结果见表1。可以看出PLS-LSTM预测模型与其他交通流预测方法相比,RMSE、MAE以及MAPE都有较明显的改善。

表1 预测指标对比Table 1 Evalution of prediction models

由于子数据集采用两个子模型进行训练,会增加模型训练复杂度。表2列出了LSTM模型取不同训练代数(Epoch)时,模型训练计算时间与精度指标(RMSE)之间的关系。由表2可以看出,当Epoch大于60,模型训练运行时间大于50.75 s时,虽然模型精度有提升,但是提升的程度并不显著,与训练复杂度及耗费的算力资源相比得不偿失。因此在衡量了计算复杂度与精度后,本文选择LSTM的Epoch参数为60。

表2 计算时间与精度的关系Table 2 Relationship between calculation time and accuracy

4 结束语

针对交通系统的复杂性以及交通数据特有的日周期性规律,本文提出了基于相似性聚类的交通流概率组合预测模型。首先采用自适应k-means++聚类方法对交通流数据进行聚类,聚焦相同特征的交通流数据,采用不同子类数据集训练相应的组合模型。构建多个子组合模型后,在预测过程中,根据输入数据与各子训练集的相似度计算概率权重,最后基于概率权重融合各子组合模型的输出。通过仿真实验证明了本文模型的有效性与准确性。

猜你喜欢

交通流相似性聚类
一类上三角算子矩阵的相似性与酉相似性
浅析当代中西方绘画的相似性
基于DBSACN聚类算法的XML文档聚类
交通流随机行为的研究进展
低渗透黏土中氯离子弥散作用离心模拟相似性
路内停车对交通流延误影响的定量分析
基于改进的遗传算法的模糊聚类算法
一种层次初始的聚类个数自适应的聚类方法研究
具有负压力的Aw-Rascle交通流的Riemann问题
自适应确定K-means算法的聚类数:以遥感图像聚类为例