基于多路口车辆感知预测的协同信号配时技术
2021-07-25赵晋芳
赵晋芳
摘 要:为了缓解大城市的交通拥堵现状,交叉口信号灯配时的研究越来越有必要。普遍的交通信号配时技术,是基于单路口、传统车辆检测方法而设计的,没有考虑影响实际交通状况的流量,存在配时不准确、不智能的局限性。通过基于强化学习的深度Q网络,提出基于多路口车辆感知预测的协同信号配时技术,将每个路口建模为一个代理,每个代理被训练从道路环境接受交通状态并采取最佳行动。实验表明,该方法不仅可以有效地进行交通流量预测,解决多路口协同的信号灯配时问题,还可以提高配时技术的智能性。
关键词:Q网络 强化学习 协同交通信号控制 交通流预测
中图分类号:U491.2 文献标识码:A 文章编号:1674-098X(2021)02(c)-0113-04
Cooperative Traffic Signal Control with Vehicle Perception Prediction in Multi-Intersection
ZHAO Jinfang
(Xi'an Vocational University of Automobile, Xi'an, Shaanxi Province, 710600 China)
Abstract: In order to alleviate the current situation of traffic congestion in large cities, it is more and more necessary to study the signal timing at intersections. The universal traffic signal timing technology is designed based on single intersection and traditional vehicle detection method. It does not consider the flow affectsing the actual traffic situation, and has the limitations of inaccurate timing and intelligence. Based on the deep Q network of reinforcement learning, this paper proposes a cooperative signal timing technology based on multi intersection vehicle perception prediction. This technology will model each intersection as an agent, and each agent is trained to accept the traffic status from the road environment and take the best action. Experiments show that this method can not only effectively predict traffic flow, solve the problem of multi intersection coordinated signal timing, but also improve the intelligence of timing technology.
Key Words: Q network ; Reinforcement learning; Collaborative traffic signal control; Traffic flow prediction
最近,交通擁堵已成为大多城市的严重问题[1]。由于有限的道路通行能力,使得交通流量增加越来越快。目前,传统的静态信号灯长度,使得交通系统不能有效地应对交通拥堵现状[2]。为了应对这些局限性,自适应交通信号控制根据路口处观察到的交通量[3],实时切换交通信号相位。
各种传统的机器学习算法被用于研究自适应交通控制。其中,基于图像处理技术的自适应交通信号控制是主流方向[4],虽然有部分通过提取车辆位置和速度信息进行模拟的多路口协同交通信号控制研究,但是大多数快照效率不高,而且不能处理影响交通状况的现实变量,例如温度和天气等。
另外,强化学习被广泛应用于交通信号控制研究[5],以寻找最佳解决方案。其中代理的最佳行动策略是在不确定的环境中学习到的。在信号灯配时控制研究中,代理将通过交通流环境获取状态,并根据学习之后的策略采取最佳措施。然后,代理会收到奖励,并学会最大化折现的累计奖励。鉴于此,本文提出基于多路口的车辆感知预测的协同信号配时技术。
1 技术框架
强化学习的最佳策略是基于Q学习之后选择的,但是Q学习本身在维数上有不能处理高维空间的弊端,因此提出了将两者结合起来的深度强化学习。DQN通过神经网络近似高维空间而显示出有效的性能[6]。由于DQN的高性能,通过估计来自其他交叉口的车流量来导出全局最优Q值。因此,提出将影响现实交通预测的变量考虑进去进行协同控制。整体框架如下:
如图1,其中,在行动执行过程中,代理都从现实环境接受变量状态,并预测状态时刻的交通流量。然后返回给代理。代理根据观察到的状态和预测的未来交通流量,来计算最佳Q值来选择行动。公式如下:
(1)
其中s代表状态,a代表行动,γ是折现因子,用以乘以预期报酬,表示设置以后收到的较低报酬值。
2 关键技术
2.1 基于现实世界的交通流量预测
在现实世界中,交通流量很容易受到天气、日期和时间等变量的影响。在模拟环境中,很难处理这些因素。因此,实际变量可以通过独立的交通流量预测模型来体现。本文方法的目的是通过考虑影响现实世界交通流量的模型,来预测并减轻拥堵现状。预测模型是通过使用LSTM(长期记忆)网络实现的[7]。
当从道路环境中接收到状态Statet时,带有影响现实世界变量的预测模型,会预测状态,并优化最佳行动动作的Q值,更新如下:
(2)
(3)
其中,是在时间步t根据影响现实世界变量的模型预测的交通流量。是取最佳行动措施,即最大值的指标,和是用来迭代更新的网络参数。这个更新的Q值更符合并接近于真实世界。
2.2 多路口协同控制
对于多路口的协同交通信号配时控制[8],我们提出了基于交通流量预测的协同交通信号控制的交通规划方法,该方法将多路口环境建模为多代理,训练每个代理以找到局部最优Q值,然后尝试通过传输包含每个代理的局部最优值的消息来查找全局最优Q值。考虑相邻交叉路口的Q值更新如下:
(4)
其中,是相邻交叉点的数量,是评估网络在交叉点j的的数。
3 实现过程
初始化网络模型的配置参数,包括θ、B、T,m和M,并初始化交通状态s;
在第一个回合e=1,观察当前状态st,选择行动a,计算奖励r;并转入下一个状态st+1;
如果,则从m中删除旧的转换t,并添加转换到m,转到步骤4;
如果,则根据优先级从m中基于分布损失计算多步损失;
使用损失,更新网络参数θ,如果回合,则迭代结束。
4 实验结果
为了评估基于交通流量预测的多路口协同交通信号控制方法的性能,在4×4网格的道路环境上进行了实验,使用SUMO模拟交通[9],支持SUMO的交通API接受交通状态信息。该系统通过Pytorch框架实现[10]。
为了评估协同交通信号控制和交通流量预测结合方法的重要性。将本文考虑现实世界变量的模型与没有考虑交通流量预测和没有考虑协同信号控制配时的模型进行了比较。另外,在此实验中,将等待时间定义为前面所述的奖励,并对该网络进行了训练,以使奖励最大化,来证明所提出算法对于提高整体流量性能的有效性。其中,平均等待时间越短,说明配时效率越高,系统控制策略越好。
圖2显示了3个模型,在平均等待时间上的时间变化,从图2可以看出交通流量预测和协同交通信号控制结合的模型,等待时间最短,并且随着训练的进行,等待时间是递减的,另外震荡程度整体上也比较小,优于另外两种模型的性能。
5 结语
本文提出了在多个交叉路口结合交通流量预测的协同交通信号控制方法,并加入影响实际交通状况的变量,单独构建了交通流量预测模型,以解决多路口缺乏交通信号协同控制的局限性。该方法将每个交叉路口都建模为用于协作交通信号控制的一个代理,每个代理估计局部Q值。通过在交叉点之间传递局部Q值,来估计全局最优Q值,并采取最佳行动。实验表明,该方法不仅在平均等待时间上有了较大的优势变化,减轻了多个路口的交通拥堵,还实现了配时的智能性。
参考文献
[1] 李力,王飞跃.地面交通控制的百年回顾和未来展望[J].自动化学报,2018,44(4):577-581.
[2] 胡大江,于伟云.浅谈对城市交通信号控制的探索[J].道路交通管理,2020,1(11):38-39.
[3] 项俊平.城市道路交通信号区域均衡控制方法及应用研究[D].安徽:中国科学技术大学,2018.
[4] 方敏学.基于机器视觉的智能交通灯的研究[D].四川:电子科技大学,2017.
[5] 舒凌洲,吴佳,王晨.基于深度强化学习的城市交通信号控制算法[J].计算机应用,2019,39(5):1495-1499.
[6] 文峰,张可新.基于深度强化学习的交通信号配时优化研究[J].沈阳理工大学学报,2019,38(1):48-52.
[7] Sepp Hochreiter, Jü,rgen Schmidhuber. Long Short-Term Memory[J]. Neural Computation,1997, 9(8):1735-1780.
[8] 晏松.智能网联环境下复杂交叉口信号控制研究[D].北京:中国人民公安大学,2016.
[9] KRAJZEWICZ D ERDMANN, J, Behrisch M, BIEKER L. Recent development and applications of SUMO-simulation of urban mobility. Int. J. Adv. Syst. Meas. 2012, 5(1): 128-138.
[10] LAPORTE FLORIS, DAMBRE JONI, BIENSTMAN PETER. Highly parallel simulation and optimization of photonic circuits in time and frequency domain based on the deep-learning framework PyTorch[J]. Scientific reports, 2019,9(5918):1-8.