机器学习在交通流预测中的应用
2022-08-03李凯
李 凯
(四川智慧高速科技有限公司,四川 成都 610000)
0 引言
交通流预测是交通流数据建模、交通管理和运营的重要组成部分。对实时交通流进行准确的预测,可为公众提供较为准确的交通信息,并对公众出行的决策进行指导,也可为政府部门提出缓解拥堵的对策建议,以降低管理和运营成本。随着基于高分辨率交通流数据的智能交通系统(Intelligent Transportation System,ITS)的应用,可通过历史数据集和实时的在线数据驱动法来解决问题。从定义上来讲,交通流预测是一个时间序列的问题,即根据一次或多次基于特定时空环境下收集到的前一个时期的位置数据,来估计未来某个时间的车流量。基于机器学习的交通流预测模型可分为参数模型和非参数模型。
1 基于传统机器学习模型的交通流预测
现阶段,主流的交通流预测模型有差分整合移动平均自回归模型(Autoregressive Integrated Moving Average model,ARIMA)、神经网络模型以及非参数模型(见表1)。为了提高预测的准确率,学者们通过借鉴工业设计的理念,如用于时变参数的裁决性调整技术和自适应估计,以及用于估计参数的回馈环路结构。Chen等[1]基于天气和时间提出了一种交通流运动的预测和管理模型,即在模型中将天气分为好天气和坏天气,并采用一种基于时序聚类的算法,对工作日和周末的交通流进行预测,而其中的均方根误差(Root Mean Square Error,RMSE)作为模型的一个评价指标,通过研究发现,模型在30 min内的预测效果良好。Lin等[2]提出了一种名为CORSIM的微观模型来对短期交通流进行预测。Lin等[2]和Yu等[3]在模型中引入了城市交通网络(Urban Traffic Network,UTN)的拓扑结构,这种模型是基于彼此链接的空间关系,将实时道路交通状态作为UTN模型的输入来预测交通流,将24 h分为四个阶段,每个阶段分别建立对应的统计模型,并满足二项分布。该模型通过引入n个邻居的平均流量来提高UTN的利用率,Yu等[3]建立的模型中的数据集来自2015年6月23日至7月8日的秦皇岛交通流数据。另外,基于K最邻近法(K-Nearest Neighbors,KNN)非参数回归[4],以及基于自回归集成移动平均误差(Autoregressive Integrated Moving Average errors,ARIMAX)的多变量预测模型在生产中都有着相应的应用。
表1 基于传统基于机器学习的交通流预测常用的模型策略
2 基于支持向量回归在交通流预测中的改进
支持向量回归(Support Vector Regression,SVR)适用于处理连续性数据值,而支持向量机(Support Vector Machine,SVM)则更适用于处理分类问题。核函数可将低维数据映射到更高维,超平面则用来预测目标值。超平面的边界线可划定相应的区域,支持向量既可在边界线内的区域,也可在边界线外的区域,而最接近边界的数据点则成为学者们最关心的重点。
SVR可用于多步骤的交通流预测。有学者[5-7]通过引入四种类型的参数作为模型输入,即工作日、双休日、节假日以及天气,数据集则来自大连高尔基路取样的实时数据,并在SVM模型中引入径向基核函数(Radial Basis Function,RBF),输入变量分别为T、P T、HT、H PT,分别对应4种不同的SVM。研究结果表明,SVM-HPT模型的预测值比其他3个模型更好。在异常情况下,采用在线支持向量回归(Online-Support Vector Regression,OL-SVR)[8]对交通流进行预测,与高斯最大似然模型(Gaussian Maximum Likelihood,GML)、霍尔特指数平滑模型(Holt Exponential Smoothing)[9]和人工神经网络模型(Artificial Neural Network models)相比,OL-SVR模型的预测结果更优异。
Wang等[10]基于RBF和引入了核参数的SVR模型,对短时交通流进行预测。Dimitriou等[11]提出了一种节假日期间的交通流预测模型,即通过引入离散傅里叶变换(Discrete Fourier Transform,DFT)[12]来预测节假日和工作日的交通流的共同趋势,同时使用SVR预测残差。而在预测城市间交通流方面,基于蚁群策略优化的SVR比集成移动平均模型的季节性自回归更有效。
3 基于深度学习的交通流预测
由于交通流具有随机性和非线性,常量预测模型因其自身存在的设计缺陷,难以应对复杂多变的外界环境。非常量预测模型逐渐成为机器学习中最有效也应用最广泛的方法,人工神经网络(Artificial neural network,ANN)就是其中的佼佼者,其也被学界公认为机器学习系统的范式。Bowen等[13-15]建立了一个深度神经网络模型,并与以前的常量预测法进行比较,研究结果表明,深度神经网络模型预测高峰期交通流的表现要远优于其他模型;Zhan等[16]对反向传播神经网络(Back-propagation Neural Network,BPNN)在交通流量、速度和道路占用率等方面的预测进行研究,发现其也具有良好的应用前景。深度学习模型被广泛地应用于交通流预测中,而为了提高深度学习模型的性能,将传统的KNN和SVR等方法进行改良后应用于深度学习模块中。
受混合机器学习模型不同模块特征的启发,可将机器学习算法用于预测道路连接处短时间内的交通堵塞。例如,Chang等[17]通过对不同的交通流模式进行分组归类,然后再用神经网络对交通流进行计算。为了应对复杂的环境,而将混合机器学习的模块引入渐进式预测模型中,但学术界提出了另一种思路:当外界环境和系统出现变化时,如系统框架的迭代和更新,离线模型可基于历史信息进行训练;而当模型在线时,可通过V2X或V2N通信的方式对数据进行即时处理和运算。
由于深度学习模型的结构复杂度高,可捕获数据间的复杂关系,故可获得较好的预测结果,深度学习技术已在图像、视频以及音频的处理中得到了应用,但其也存在着可解释性缺乏的问题,而传统机理模型因其固有的限制,导致其预测精度往往不及深度学习模型,但其能够较好地剖析交通现象,模拟演化过程,揭示路段间的交互规律。由于交通堵塞和交通流量的变化规律是非线性的,深度学习模型甚至能在没有足够信息时获得所需的数据。Ozbay等[18-20]开发了一种基于堆叠式自动编码器的深度学习方法用来预测交通流量。而以循环神经网络或时间递归神经网络(Recurrent Neural Network,RNN)为代表的多模态深度学习方法也被广泛地应用于交通流预测中,来应对更加复杂的环境。在不同的交通情况下,如事故、天气情况、高峰期等会受到社会环境和自然因素的影响(见表2)。
表2 影响交通流预测的环境因素
研究证明,与浅层机器学习的预测模型相比,长短期记忆神经网络(Long-Short Term Memory,LSTM)模型在不同环境中具有更好的可操作性。LSTM可通过时间信息的组合来对缺失的观测值进行预测,平均绝对误差(Mean Absolute Error,MAE)、平均相对误差(Mean Relative Error,MRE)和均方根误差(Root Mean Square Error,RMSE)可作为评价对比LSTM和其他深度学习模型的指标。单预测模型的缺失可通过结合一个或两个模型来克服,如Cheng等[21]将CNN和RNN进行结合,即将一维CNN模块和两个LSTM模块进行结合,来构建模型,LSTM可用来捕捉长短期的时间依赖性,而CNN则用来记录局部趋势特征。Zhang等[22-25]将蚁群优化和ANN结合来构建模型,ANN可减少数据预处理流程,蚁群优化则是基于数据集的特征结构来构建交通流预测模型。Wu等[26-28]将GRU和LSTM应用于交通流的预测中,LSTM和GRU网络可用于研究不同环境条件下的交通系统的时空相关性,二者由许多存储单元组成,通过对500个观察点每隔5 min收集数据,对收集到的数据进行汇总,即可得到数据集。数据集的训练一方面是对LSTM和GRU的训练[29],另一方面是基于分类流量异常的方法训练,最终得到的预测结果比传统的深度学习预测模型要好[27]。相关深度学习方法在交通流预测中的优缺点见表3。
表3 相关深度学习方法在交通流预测中的优缺点
周相似性的时间序列、日相似性的时间序列和小时时间序列是由源时间序列直接生成的。移动平均数、指数平滑法、ARIMA法通常被用来预测这三种时间序列的数据,并将其作为神经网络预测结果的预处理数据源。这种模型的时间处理策略比单个模型的效果要更好[30]。而基于遗传算法的多层次结构优化策略可协助时间和空间特征,以及选择适当的神经网络模块,能够更有针对性地处理长短时和空间地的依赖关系。此外,其还可以用于单变量和多变量交通流数据[31]。
4 结语
为了能够服务公众出行,以及为政府部门的交通管理模式建言献策,交通流预测需要考虑相关因素,并选择恰当的建模策略,以便能及时匹配各种环境情况和数据资源。本研究探讨了机器学习技术在交通流预测中的发展和应用。尽管机器学习离真正的大规模生产应用还有不短的距离,但作为未来智能交通系统的关键一环,随着以GPU为代表的数据运算硬件的不断改进和升级,深度学习算法也在逐步演进,人工智能关键技术也将得到长足发展,将人工智能引入交通行业是大势所趋,这可有效控制因公路容量有限、可达性较差所引发的交通需求增长。通过对交通拥堵的治理,来提高交通资源利用率,这对节约出行成本、降低环境污染等具有重要意义。