采用多智能体强化学习的交通信号优化控制

2012-07-04宋炯，金钊

制造业自动化 2012年17期

宋炯，金钊

（1.云南交通职业技术学院，昆明 650101；2.云南大学，昆明 650091）

0 引言

实现智能交通信号控制是一种减少交通拥堵和提高交通效率的低成本方法[1]。因为交通流量具有随时变化和随机性的特点，尤其是在多十字路口的城市交通环境，因此流量建模仍然是非常困难的。一个预设的交通控制模型是不可能符合所有的交通情况。所以有更多研究关注机器学习的实时交通流量控制[2～4]。在所有机器学习的方法中，强化学习受到更多的关注，因为其自主学习的能力，使得能够智能感知不同的条件和自我自适应调整控制策略，以符合交通条件。

虽然在参考文献[2]中提出了自适应减少时间延迟的交通信号控制的Q学习方法，但只考虑了一个十字路口的情况。A.Salkham[3]提供了一个强化学习交通控制优化框架，但对硬件基础设施依赖较大。Li T[4]等学者提出了一种自适应动态规划方案实施多十字路口的交通信号智能控制，但针对相互作用和相互影响的多交叉路口的情况却没有进一步探讨。在参考文献[5～7]中，可以看到到一些类似的研究。这些研究表明使用自主学习的强化学习解决随时变化和随机性交通流量问题，一直是智能交通信号控制研究的重点之一[8]。虽然这些问题都受到关注，但都没有进一步详细讨论和研究。

图1 由六个十字路口的城市交通网络构建的仿真环境

在本文中，作者提出了一种多智能体强化学习的多十字路口的交通信号控制模型。

首先，作者定义多十字路口的交通信号控制问题的多智能体的强化学习模型，其中包括状态空间、目标状态、行动和培训的事件，完整描述在强化学习语言的问题。然后，从中找出多路口交通信号控制的最优政策的多智能体强化学习算法。交通信号控制策略的最优政策是让所有的车辆可以在最短的时间内，离开多路口的城市交通网络。最后，在仿真环境中，作者通过比较常规定时控制与多智能体增强学习自适应控制下所有车辆离开多路口的城市交通网络的时间，来进行验证。

1 强化学习模型的多路口交通信号控制问题

首先，作者对多路口的交通信号控制问题的多智能体强化学习模型进行描述。

在作者的模型中，一个城市的交通网络是由多个十字路口构成，例如，图1显示由6个十字路口组成的交通网络，同时它也是作者实验的仿真环境。当然，可以由更多的十字路口组成扩大的交通网络。

交通信号控制的目标是使这些车辆安全，快速地离开由十字路口组成的交通网络。很明显在十字路口的车辆是随时变化和随机的。预设的控制模型是不可能的适应所有的交通流量，这也是作者采取多智能体强化学习方法的原因，它可以根据实时交通流量自主学习的最优政策。

在交通信号控制中，一个相位是信号灯不中断照明的间隔时间，举个例子，一个红色信号灯照明时间间隔或绿色信号灯照明时间间隔都是相位。通过在一个合理的时间间隔，使车辆在较短的时间内交叉十字路口切换不同的相位是交通信号控制的主要目标。例如，当车辆在西向东方向比车辆在南向北方向的流量多，东向西方向的绿色信号灯相位应该是比红色信号灯相位长。

通常的相位是最大的时间间隔是的间隔时间最短的相位的整数倍，我们记为“MinPT”。例如，如果MinPT = 60秒，那么相位时间间隔应该60秒，120秒，180秒，以此类推。

根据交通信号控制问题的描述,车辆数量和所有路口的组合称为一个状态，反映了交通流量的信号控制。控制目标是在较短时间内使所有的车辆离开城市交通网络，当在交通网络中的每一个十字路口的汽车数量趋于零时,就达到了理想的目标状态。完成每个阶段后最短相位时间间隔、通过智能控制达到红绿灯最短相位。

当一个方向设置为绿色信号灯时，然后另一个方向必须设置为红色信号灯，因为只有一个方向的车辆可以通过一次。因此，每个阶段最短的时间间隔后的行动只是设置一个方向的绿色信号灯，因为另一个方向必须是红信号灯。整个训练集可以描述为：后完成每个阶段最短的时间间隔，允许或不允许车辆通行状态，控制代理选择随机一个方向绿色信号灯（另一个方向是红色信号灯），然后选择下一步的操作，直到所有车辆都离开交通网络（实现目标状态）。这个过程被称为一个训练集。图2显示两个十字路口的交通流量的状态和行为。

图2 交通控制问题的状态和行为

2 多十字路口的交通信号控制最优策略的多智能体强化学习算法

作者使用最广泛使用的强化学习方法：Q-leaming[9]来完成该算法算，以实现多十字路口的交通信号控制最优策略。通过算法l的程序实现交通信号控制的最优策略。

算法1 多智能体强化学习实现交通信号控制问题的最优策略。

Create null list: trajectory

Create null list: State-List

Create null set: State-Cluster

For each s,a initialize the table entry Q(s,a) to zero

Observe the current state s

Add s into trajectory Repeat

Select an action a and execute it

Receive immediate reward r

Observe the current state s'

Add s' into trajectory

Let State-List ← the reverse of trajectory

Update the table entry fors,a) as follows:

For each list cur_list in State-Cluster do

Let i ← 2

While i ＜ the length of cur_list

Let spre← cur_list [i-1]

图3 两个十字路口交通网络信号控制的最优策略

Let snow← cur_list [i]

Let a*← the action agent takes when it move from snowto spre

Let i ← i+1

End while

End for

s←s'

Until all table entry are convergent

图3给出两个十字路口的交通网络中的最优策略。从图3可以很明显的看到，在南北方向绿色信号的时间超过了在东西方向的绿色信号时间，因为在南北方向的汽车数量大于东西方向的汽车数量。算法1通过智能控制来调节控制策略，以应对实时的交通状态实现自适应的控制。

3 实验

在交通状况仿真环境下通过30次不同的交通状况，我们分别采用传统的定时控制和基于多智能体强化学习的自适应控制，比较所有车辆离开当地城市交通网络的时间。实验结果如图4所示。

通过图4显示出来的比较结果看到：基于多智能体强化学习的自适应控制策略与采用传统定时策略的控制方法相比，所有车辆离开交通网络的时间可以减少20～30%。结果显示作者的控制算法可以显著减少所有车辆离开当地城市交通网络的时间。

图4 传统定时控制与多智能体强化学习的自适应控制对比实验

4 结论

在这项研究工作中，作者提出了一个多智能体强化学习的交通信号控制方法。作者定义了多智能体强化学习模型的交通信号控制问题，并提出实现最优策略的算法。通过仿真环境下交通信号控制效果的和实验结果，可以清楚的说明作者的方法。采用多智能体强化学习的交通信号优化控制的方法可以大大减少所有车辆离开城市交通网络的时间。

随着日益膨胀的城市交通流量和十字交叉路口，空间及状态因素将变得非常巨大，今后的研究应解决如何加速学习以应对这一趋势。

[1] A.L.C.Bazzan, Opportunities for multi-agent systems and multi-agent reinforcement learning in traffic control,Autonomous agent multi-agent systems, 18, 342-375, 2009.

[2] Lu Shou feng, Liu Ximin, Dai Shiqiang.Q-learning for adaptive traff i c signal control based on delay minimization strategy.International Conference on Networking, Sensing and Control.In Proceedings of ICNSC'2008.pp.687-691

[3] A.Salkham, R.Cunningham, A.Garg, and V.Cahill, A Collaborative Reinforcement Learning Approach to Urban Traffic Control Optimization, In: The 2008 International Conference on Web Intelligence and Intelligent Agent Technology, Vol.2, 560-566, 2008.

[4] Li T, Zhao D B, Yi J Q.Adaptive dynamic programming for multi-crossroads traffic signal intelligent control.In:Proceedings of the 11th IEEE International Conference on Intelligent Transportation Systems.Beijing, China: IEEE,2008.286-291.

[5] Cai C.An approximate dynamic programming strategy for responsive traffic signal control.In: Proceedings of IEEE International Symposium on Approximate Dynamic Programming and Reinforcement Learning.Honolulu,USA: IEEE,2007.303-310.

[6] A.L.C.Bazzan, D.Oliveira , B.C.Silva, Learning in groups of traffic signals, Engineering Applications of Artificial Intelligence, Vol.23, No.4, 560-568, 2010.

[7] G.Balan, S.Luke, History-based traff i c control, Proceedings of the fifth international joint conference on Autonomous agents and multiagent systems, Hakodate, Japan, 973-980,2006.

[8] T.L.Thorpe, C.W.Anderson, Traffic Light Control Using SARSA with Three State Representations[Z], Technical report, IBM Corporation, Boulder, 1996.

[9] C.J.Watkins, Q-Learning, Machine Learning,Vol.8, 279-292,1992.