基于多智能体Q学习算法的交通信号优化控制

2020-10-20陶巧云

数码设计 2020年9期

关键词：优化

陶巧云

摘要：随着社会的发展，城市交通变得日益复杂，交通路口信号的控制关系到城市道路拥堵状态及行人车辆的通行是否畅通问题。就这一现状，本文提出了基于多智能体Q学习算法的交通信号优化控制的方法。通过多次实验，交通系统中，上下级智能体之间及同级智能体之间通过实时学习可以达到最优的交通信号控制。

关键词：多智能体;交通信号;Q学习算法;优化

中图分类号： U491.51 文献标识码：A 文章编号：1672-9129（2020）09-0157-01

引言：因为交通是实时变换的，交通流量也有着随机性，所以提升交通信号控制的智能化水平非常关键。智能体是当前交通信号智能控制的基础构件，其是由计算机系统控制的自主实现对应功能的结构实体，本身性能优越，环境适应性强，其可以将复杂的大问题分解为多个子问题，而每个子问题由独立的模块负责解决，能缓解运算量大导致的系统运行缓慢，效率高。将其应用于城市交通控制，需要多个智能体的共同配合。首先需要将每个智能体安装于交叉路口，其次使用专用网络将智能体连接起来，每个智能体设置不同的结构功能，让复杂的路口状况被多智能体简单处理。强化学习利于增强智能体的学习能力，本文将结合多智能体技术可以感知不同条件下自适应能力，然后作出符合交通的相应调控策略。下面主要介绍多智能体强化学习的交通信号优化设置。

1 多智能体的强化学习

传统的多智能体控制交通系统采用完全分布式结构，即每个路口均安装智能体，对路口进行独立的管理与控制，不同智能题之间互相协调以达到最佳效果。但如果某一智能体突然故障，路口智能体会完全瘫痪，所以本文采用分层递阶式结构。首先整体规划交通信号分布，并依据功能和结构的不同进行协调管理，最终使得上级智能体管理下级，而下级负责路口信息的监测与传递。

强化学习目前应用非常广泛，可以有效应对周围环境的变化，多智能体强化学习利于完成智能体与环境间的持续交互，目前最常应用Q算法实现强化学习。Q学习算法的基本思路是直接优化迭代的Q函数。学者Watkins使用下列公式表示Q函数：

采用Q学习算法进行强化学习，需要先改变对应Q值。智能体的决策时刻为公式中的t，当环境状态为st时，智能体就会依据一定的算法与策略执行at，同时依据反馈信息立即奖赏r并进入st+1这一新的环境状态，继续依据算法执行动作，并进入下一环境状态。以此过程循环往复，当Q值不再出现变化时，Q函数收敛，对应智能体的学习过程到此结束。

2 多智能体强化学习的改进

分析标准的Q学习算法，可以发现智能体并未学习到足够的知识体系，比如当搜索范围增大，Q学习算法的收敛速度非常缓慢，实际应用时会直接影响整个系统的性能。对此应积极改进强化学习的算法。

多智能体的动作以具体环境为支撑，而交通环境非常复杂，因此智能体的状态转移无法确定，这也是降低其学习速度的重要原因。为了让智能体能在最短时间内作出正确的行为决策，应适当增大学习效率a的数值，提高多智能体的学习速度。其后采用进行Q算法强化学习：首先，将所有的Q数初始化。其次检测当前的环境状态，并设置为s。接着一定的算法选择确定动作a，当动作a执行结束，多智能体检测新的环境状态，并将原本的s变为s，依据经验环境和奖惩值r更新公式中的Q值。新的公式如下：

以此为基础，设置模型学习环境。随机选择动作状态（s，a），将该状态带入到环境模型当中，计算下一个状态的s与r值，更新Q值，直至最后完成强化学习。

以单交叉十字路口为例，假设目前各个方位均有三种类型的车流，那么如果当前的绿灯对应一种相位代码，首先设置时间为t，统计车辆的排队长度与未来5分钟车辆的到达率，其后形成对应的环境状态。其次确定智能体的动作空间与动作策略。这里提出两种动作策略的设计目标：最优选择函数估计中行为值最大的，提高算法的在线能力;考虑算法的收敛性，要求动作空间与状态的精确性。另外上下班时间交通压力较大，容易影响Q学习算法的学习速度，导致智能体的控制性能降低，对此应合理调试绿灯相位与红灯相位。

将Q学习算法的改进效果说明如下：某主干道单交叉路口的饱和流量为2000V eh/h，绿灯最大时长为直行80s，左转20s，最小时长10s，每个方向的初始排队车辆4s，多智能体观测新环境的时间间隔为2s。观测时间为140min。

仿真结果见图1，可以发现，在50min之前原本的Q学习算法与改进的Q学习算法初期变化明显，随着观测时间的延长，改进Q学习算法的效果逐渐凸显出来，车辆的平均速度得到提升。究其原因，多智能体学习初期属于试错学习阶段，改进之后多智能体以经验知识为基础进行模型学习，收敛时间早，能有效加速迭代过程，算法改进有一定效果。

结语：随着社会经济的发展，交通问题主要是减少交通道路拥堵及提高交通效率，人工智能技术的发展造就了智能交通系统，一定程度上改善了复杂的交通问题。本文主要提出了一个多智能体Q学习算法的交通信号优化控制的方法，通过改进的Q学习算法，实现了最优的控制策略。通过实验仿真，验证了这种方法可以有效的解决交通优化问题。

参考文献：

[1]高思琦. 基于深度强化学习的多智能体城市道路交叉口交通流优化控制研究[D].福建工程学院，2019.

[2]成卫，唐逸超，郑佐雄.基于感应控制的过饱和交叉口流量转移方法研究[J].重庆交通大学学报（自然科学版），2018，37（11）：83-90.

[3]杨文臣，张轮，Zhu Feng.多智能体强化學习在城市交通网络信号控制方法中的应用综述