基于MLS-SVM和时空特性的短时交通流量预测方法

2020-02-24黄振盛汪玉美韩江洪魏振春

合肥工业大学学报(自然科学版) 2020年1期

黄振盛, 汪玉美，韩江洪,3, 魏振春,3

(1. 合肥工业大学计算机与信息学院,安徽合肥 230601; 2.陆军炮兵防空兵学院无人机应用系，安徽合肥 230031； 3.安全关键工业测控技术教育部工程研究中心,安徽合肥 230601)

随着人们生活水平的提升和城市人口密度的增大,城市中的汽车数量快速增长,然而交通效率却逐渐降低,进而诱发交通拥堵甚至交通事故等问题。及时预测城市主干道的短时交通流量,是出行路线规划和交通流量疏导的重要参照指标,对避免交通拥堵、提高通行效率、减少交通事故等有一定程度的帮助[1]。

道路交通流量的变化是一个实时、非线性、非平稳的随机过程,预测时间间隔越短,其随机性和不确定性就越强。在城市路网下进行短时交通流量预测,其中“短时”是指时间序列数据间隔或预测步长为5、10、15 min,一般把时间序列数据间隔或预测步长短于15 min的交通流量预测称为短时交通流量预测[2]。国内外研究短时交通流量预测的方法在不断变化,从传统统计理论的时间序列预测模型到非线性理论预测模型,再发展到智能学习算法预测模型,近期组合模型的应用比较广泛。

文献[3]利用时间序列模型,在样本数据不完备的情况下,得出了相对较准确的高速路网交通流量时间序列预测模型;文献[4]综合考虑了滑动自回归平均积分模型和指数平滑模型,提出了周期性自回归模型。传统时间序列模型在高速公路上有很好的预测效果,同时也对城市路网交通流量预测有着很大启发。文献[5-8]采用延时神经网络、模糊神经网络、BP神经网络和小波神经网络对短时交通流量进行分析预测,能够有效地解决线性求解效果的波动性问题,但是其预测效果常常局限在当前路段,采用经验调优的优化方式,预测效果并不稳定。组合模型[8-13]也常用于研究短时交通流量预测,能够弥补单一模型的局部最优、迭代缓慢等缺陷,但组合搭配的理由并不充分,常常导致模型的复杂化。文献[11-15]考虑了时空特性等多种影响因素,建立交通流量预测模型。文献[11]率先提出考虑时空依赖特性来研究交通流量预测问题,拓展了交通流量的研究思路,提高了预测模型的性能。

前人对短时流量预测的方法已经趋向成熟,然而应用在城市路网短时交通流量预测中,路况复杂性与随机性使得预测效果不是很好。多数考虑空间维度本质上仍然只是研究交通流量因素,也有一些独立考虑时间序列因素和空间连接因素,少数研究多因素预测模型也是直接组合多数据源影响因素。这些都不能很好地处理各个因素的影响关系,不同数据源的影响因素都同等处理导致效果不佳,因此本文提出一种基于组合最小二乘支持向量机(multi-group of least squares support vector machine,MLS-SVM)的城市道路短时交通流量预测模型,综合考虑多种数据源影响因素,联合分析城市道路短时交通流量预测问题。

1 基于时空特性的预测模型

1.1 物理模型

交叉路口是城市交通的重要组成部分,可以将整个城市交通路网抽象成各个交叉路口的连接组成,研究城市道路短时交通流量预测的重点是交叉路口的单步短时预测。简化物理场景模型,对一个十字路口的某个方向路段的交通流量短时预测,左行规则结构图如图1所示(左行和右行规则不影响问题的本质)。无论预测点相连路段的角度是否完全垂直或水平,或者相连路段是否有直连、左连和右连,本文研究问题的属性是空间上影响因素的组合。由于城市中人们生活习惯的缘由,路段交通流量在宏观上呈现出工作日的周期性变化,与假期呈现出的流量趋势有很明显的差异,如图2所示。交通流量预测通常将工作日和假期数据分开研究,本文主要研究工作日的城市路口短时交通流量预测问题。

图1 十字路口简化模型左行规则结构示意图

图2 路口1周内的交通流量趋势

1.2 影响因素量化与标准化

并不是所有的影响因素都能直接量化,尽量规避无法描述的影响因素,提炼出有效的影响因素,将不可量化的都规约在影响余量中。

时间序列中时间段序号为t(t∈{1,2,3,…,n}),时间序列长度计算公式为:

(1)

其中,Td为整个采样时长,采样总时长一般以工作日或假期每天的某个时间段;T为采样统计周期(通常是固定值)。

一般把选定时间内通过道路上某一观测点截面的实际车辆数量称为交通流量,常用交通流量速度qt来描述交通流量,计算公式为:

(2)

其中,Tt为时间段序号t的周期时长(通常为固定的采样周期);Nt为采样周期Tt内通过的车辆数。

道路环境参数如下:Si为路段编号(为了准确描述相邻路段汇入流量,双向路段有方向之分);Li为路段长度;NLi为路段车道数;NPi为路段人行横道数;NBi为公交地铁站牌数;NCi为路段交叉口数;NSi为路段大型场所数;NAi为路段维护点数;NRi为降雨量,一般取当前累计量;NSi为降雪量。

实际情况下各个影响因素的单位不统一,需要抵消单位不统一的情况下带来的差异化问题。为了简化问题的求解,并使模型更具拓展性与适用性,构建量化参数之间的关系,使单位抵消或转化成比值,建立影响因素与交通流量之间的联系,进而抽象出时间维度上3个层面的影响因素。

针对每条路段,使用类似空间占有率的方式来侧面描述路段交通流量情况,本文将其与路段长度、路段车道数相结合,同时弱化路段的特殊性,提出“流量率”来间接衡量交通流量,计算公式为:

(3)

其中,Vti为时间段序号t期间i路段的流量率;Nti为时间段序号t期间i路段通过监测点的车辆数;Li为i路段的长度;NLi为i路段的车道数;lc为标准车辆长度;ld取固定安全跟车距离。

人行横道和路段交叉口一般都会有车辆交替行驶的情况或设有交通信号灯,易引发交通流量断层;路段旁边若设有公交地铁站、商场、银行或大型公共场所等,人流量也会相对增大;路段若发生交通事故或道路维护等情况必定会因为占道而影响交通流量。这些影响参数有共同特性,因人群易聚集而妨碍交通运行或阻断交通运行。本文将分布在路段上的这种类型地点数目之和定义为“兴趣点数”,记为Pti,计算公式为:

Pti=NPti+NBti+NCti+NSti+NAti

(4)

其中,Pti为时间段序号t期间i路段的兴趣点数;NPti、NBti、NCti、NSti、NAti分别为t期间i路段的人行横道数、站牌数、交叉口数、大型场所数、维护点数。

天气因素中的降雨量和降雪量大小可以用“雨雪强度值”来描述,记为Wti,计算公式为:

(5)

其中,NRti、NSti分别为当前降雨量和降雪量;NR、NS分别为当前城市影响交通出行的降雨量与降雪量的定值指标。

兴趣点数Pti与雨雪强度值Wti的更新频率一般不及流量率Vti,在实时交通流量预测系统中需要顺延补齐。

1.3 影响因素与交通流量的相关性

影响因素与交通流量的相关性在建模过程中至关重要,关系到影响因素的时空范围的选取。采用相关系数ri(-1≤ri≤1)来描述,计算公式为:

(6)

相关系数绝对值的大小表示相关性的强弱。本文选取相关系数超过0.5的影响因素的时空范围,这样来缩小选取的时空范围即弱化低于这个标准的影响效果。取实测数据集5个监测点1周的数据,计算量化的影响因素与预测结果的相关性系数,结果如下:2段时间序列延迟(道路前2个时间段)的交通流量数据与预测交通流量数据的相关系数为0.89,极强相关性;空间一级道路参数与预测交通流量数据的相关系数为0.63,强相关性。

因为无法选取影响因素的所有数据来进行研究,根据影响因素相关性程度来选择合适范围,所以本文基于物理模型选取空间维度上一级相邻和时间维度上2段时间序列延迟的路段数据作为后续研究的数据基础。

2 预测算法描述

2.1 预测问题分析

短时交通流量预测具有很强的随机性,各个影响因素之间的关系不是很明确,这是典型的多因素影响的非线性回归分析问题。结合物理模型,城市道路短时交通流量预测问题可以抽象为一个多元非线性回归分析问题。

设有自变量x=[p1,p2,…,pn],属性pi与因变量y具有非线性关系(或部分具有非线性关系),定义该函数关系f,即

f(x)=θ0+θ1φ1(p1)+θ2φ2(p2)+…+θnφn(pn)

(7)

其中,pi为城市道路交通流量的影响因素抽象为多元非线性回归模型中的属性;y为交通流量值抽象为多元非线性回归模型中的因变量。

预测问题的最终目标就是使得预测精度更高,可以将整个问题的优化目标即最小化平均绝对误差设为:

(8)

其中,l的取值与测试样本容量相关,测试样本的选取需要体现模型的时效性与泛化性。

然而直接将问题转化为(7)式多元非线性回归问题,多维度的权重θ和关系函数φ(p),无形中使得求解难度提升,求解过程不可控。

2.2 LS-SVM多元非线性回归分析

支持向量回归(support vector regression, SVR)是支持向量机的重要应用分支,在处理非线性、高维度问题有出色的表现,较简单的模型和适量样本就能拟合出接近实际的函数关系。单二乘支持向量机(least square SVM, LS-SVM),选择误差ξi的L2范数,采用等式约束替代不等式约束,避免了求解二次规划问题的耗时过程。

设有训练集{(x1,y1),(x2,y2),…,(xl,yl)},其中xi∈Rn,i=1,2,…,l,该估计问题的最优决策函数为(9)式,xi即是属性组合的一条样本输入,yi是对应属性的一条样本输出,不同于原始问题的函数(7)式,此时采用相同的关系函数(核函数)通过调节权重矩阵来映射关系,即

f(x)=ωTΦ(x)+b

(9)

原始问题的优化目标(8)式转化为LS-SVM的优化问题,即

s.t.yi=ωTΦ(xi)+b+ξi,i=1,…,l

(10)

其中,Φ(x)为输入空间到某高维空间H的一种映射;ω∈H;ξi∈R(i=1,2,…,l)为松弛变量;γ为惩罚参数。

2.3 组合最小二乘支持向量机(MLS-SVM)

SVR与LS-SVM本就可以解决多元非线性问题,但两者都回避了支持向量特征值因素关系的确定,把每个因素都列入同级别特征值范畴,直接组合特征向量,再利用核函数对特征向量对应的样本进行高维空间映射,使得非线性问题转化为线性求解。

针对多因素的短时交通流量预测问题,影响因素的来源不同,特征值的作用效果也不会等同;支持向量机在进行训练学习的过程中,样本容量和特征值维度都影响着模型的训练效率与预测精度,在高维空间映射下样本特征值维度过高会使内积运算的计算量剧增。在支持向量回归分析的求解过程中,直接组合特征值构建样本进行训练学习的方法存在不足之处。

考虑到每个特征值的各自影响程度不同与多特征值在高维映射时的维度剧增,本文决定建立组合最小二乘支持向量机(MLS-SVM)预测模型,降低单个回归分析模型的特征值维度,并且各子模型支持并行训练,模型为:

Tpre=c0T0+c1T1+c2T2+…+cmTm

(11)

其中,T0为与输出结果相同维度的全1余量矩阵,是子模型间进行线性规划寻优的常数余项;Ti为对应分组的LS-SVM模型输出的预测交通流量矩阵;ci为权重,采用线性规划中的最小二乘法求解,其优化目标同样是模型误差最小化;m的取值是分类处理数据源之后的特征值分组数,当m接近数据源个数,细化各因素的影响效果但也增加模型的复杂度,因此m的取值是多元非线性回归分析问题在标准化影响因素过程中决定的。

组合模型中预测误差分2步优化。预测问题的总优化目标为:

(12)

每个Ti的回归分析目标是子模型的误差最小化,单独优化每个Ti的预测精度,是保证总误差最小化的充分条件,综合各子模型优化目标为:

(13)

线性规划确定各子模型的权重,其优化目标是预测问题的总优化目标(12)式,削减单个子模型的误差来进行全局优化。

2.4 构建MLS-SVM模型的步骤

(1) 分析数据集,提取有效信息,剔除不完整或失效监测点,选取有效监测点与关键影响因素。

(2) 采用限幅滤波算法对原始交通流量数据进行降噪优化,削减20%差值幅度,为了尽可能保证原始数据的变化趋势,降幅需同时满足2个条件:流量差值超过阈值;流量增大超过2倍或减小超过1/2。

(3) 参数化影响因素。从原始数据集中提取量化,再标准化影响因素,使用本文定义的流量率、兴趣点和雨雪强度来处理数据。

(4) 根据标准化后的关键影响因素组合数据,结合时空特性来组建每个子模型的输入输出矩阵,拆分输入输出数据为训练数据、验证数据和测试数据。

(5) 对每个LS-SVM模型使用相应的训练数据独立进行训练学习,选取RBF核函数并结合验证数据单独进行参数寻优。

(6) 联合考虑子模型,使用验证数据集对各个子模型的输出进行线性规划,最小化误差来确定子模型的权重系数。

(7) 综合子模型,采用测试数据对组合模型进行实验误差评估。

3 实验仿真

在MatlabR2014a平台上实现本文提出的MLS-SVM模型,使用相同数据集与单支持向量机模型、小波神经网络时间序列预测模型和多因素模式识别模型[15]进行对比分析。

3.1 数据来源

由于模型需要的参数较多,很难直接找到涵盖所有需求的公开数据集,本实验采用多个数据源融合,尽可能满足需求。实验数据来源:从爱尔兰官方公开数据门户网站(data.gov.ie)上获取都柏林的交通流量数据信息;从谷歌地球信息系统获取对应时间的路段道路参数;从城市气象部门获取对应时间的天气情况数据。由于数据集的限制,并不是每个监测点的数据都是完整或有效的,选取其中比较有代表性的十字路口监测点来进行实验。最终挑选5个交叉口处的监测点数据进行实验,挑选结果如图3所示。

取C1～C5监测点在2012年2月6日至10日这5 d工作日的数据进行实验训练,训练数据取20%空余作为验证数据。为保证时效性取C1～C5未被训练的下周工作日13日至15日数据作为测试数据。各监测点的数据采样周期均为6 min。测试数据的时间分2个阶段评估误差:全天(0:00-24:00)和高峰时期(6:00-11:00)。最终结果展示的是路段交通流量,模型输出的数值在计算误差时需要从流量率转换成原始交通流量。

图3 模型训练的监测点

3.2 实验设计

模型的输入输出矩阵的参数设置如下:p1为时间序列中时间段序号；p2为直连路段兴趣点数；p3为直连路段雨雪强度值；p4为直连路段上一时间段流量率；p5为直连路段当前时间段流量率；p6为右连路段兴趣点数；p7为右连路段雨雪强度值；p8为右连路段上一时间段流量率；p9为右连路段当前时间段流量率；p10为左连路段兴趣点数；p11为左连路段雨雪强度值；p12为左连路段上一时间段流量率；p13为左连路段当前时间段流量率；p14为预测路段兴趣点数；p15为预测路段雨雪强度值；p16为预测路段上一时间段流量率；p17为预测路段当前时间段流量率；p18为预测路段未来时间段流量率。

其中,p1～p17为影响因素输入；p18为预测结果输出。LS-SVM模型直接对所有影响因素进行回归分析预测,将p1～p17作为输入,p18作为输出;而MLS-SVM模型进行预测时,将输入矩阵中直接与流量率相同量纲的p4、p5、p8、p9、p12、p13、p16、p17归为一组,将输入矩阵中道路兴趣点p2、p6、p10、p14归为一组,将输入矩阵中道路天气情况p3、p7、p11、p15归为一组,每组的输入都得带上时间序列参数p1,每组输出都是预测路段下一时间段的流量率p18。每一组构成一个LS-SVM预测子模型,因此组合模型简化为:

Tpre=c0T0+c1T1+c2T2+c3T3

(14)

在构建小波神经网络时间序列预测模型(WaveNN-TS)时,由于本实验学习的是区域内多个监测点的连续时间序列的交通流量数据,使用循环函数组建输入矩阵时需要区分监测点并注意时间次序。经验试凑多次实验后,最终时间序列的延迟设置为4,隐含节点设置为6,这样迭代收敛后的效果相对较佳。

多因素模式识别模型(MPRM)直接将影响因素全归结为模型的输入特征值来构建输入输出矩阵,采用人工神经网络拟合影响因素与交通流量之间的关系。

设定人工神经网络的均方误差目标为0.001(过小也达不到且无明显效果),学习率为0.1(过大容易过拟合),循环迭代次数设为1 000(样本有限次迭代足够收敛),这样设定的多因素模式识别模型对于区域监测点C1～C5的预测效果更佳。由于人工神经网络的预测效果不太稳定,取20次收敛的预测结果的中位值。

3.3 对比分析

C1、C2的交通流量峰值较小,C4、C5的交通流量峰值较大,C3的交通流量峰值居中,呈现3个交通流量数值梯队。测试数据在星期一高峰时期监测点C3的预测效果如图4所示。

从图4可以看出,WaveNN-TS预测模型的预测结果与真实值存在平行偏移的情况,这是时间序列预测模型的通病;考虑多因素的预测模型的预测值贴合实际交通流量波动趋势且倾向于平缓过渡;MLS-SVM预测模型的预测结果更平缓,更能体现交通流量的宏观趋势。

图4 C3监测点高峰时期交通流量预测结果

在路段交通流量基础值较小的情况下,模型的预测误差和预测精度差不多,当路段交通流量基础值较大时,MLS-SVM模型的预测误差更小,预测精度更高。各模型预测的平均误差对比结果见表1所列,详细的时段平均绝对误差对比如图5所示,表1中,MAE为平均绝对误差,MSE为均方误差。从图5可以看出，MLS-SVM模型在全天和高峰时段的平均预测效果都优于其他3种模型,全天24个时段有11个的平均绝对误差小于其他3种模型。因此,MLS-SVM模型同样适用于城市交通短时流量预测,比神经网络模型更快收敛和趋向稳定的预测结果,且考虑多种影响因素使预测效果更优。

表1 对比实验预测效果

4 结论

本文研究城市道路短时交通流量预测问题,考虑多种数据源影响因素,抽象道路结构,结合影响因素的时空依赖特性,综合分析短时交通流量预测问题,提出一种基于组合最小二乘支持向量机的城市道路短时交通流量预测模型。选取关键影响因素并量化,结合道路结构提出流量率来侧面描述交通流量,考虑道路环境因素,将不同数据源影响因素分组建立支持向量回归模型,然后线性组合各个支持向量回归模型,最终采用组合模型来分析交通流量预测问题。通过实验对比分析,预测效果优于只考虑历史交通流量变化或直接组合影响因素的预测模型。模型采用区域多路段数据同时训练学习,摆脱路段的局限性,同时也给在多影响因素间关系不确定时建立预测模型提供一种思路。