一种基于异步决策的智能交通信号协调方法
2023-12-15蔡乾娅郑燕柳
高 涵 罗 娟 蔡乾娅 郑燕柳
(湖南大学信息科学与工程学院 长沙 410082)(hangao1974@hnu.edu.cn)
物联网、大数据、边缘计算等新一代人工智能技术飞速发展,为智能交通系统的实现提供技术支持.智能交通系统(intelligent traffic system,ITS)是一种综合运用多种先进技术的交通运输管理系统,用于营造安全、高效、环保的交通环境.智能交通信号控制是智能交通系统的核心,它提供动态更新、综合计算、实时决策等功能.
近年来,物联网技术的研究取得突破性进展,也推动智能交通信号控制的广泛应用.基于物联网技术实现对交通环境的全方位感知,云计算技术为海量数据提供计算服务,以数据为中心进行决策[1],具有实时精准的特性.然而,采用云计算技术难以满足大规模场景下信号控制器低时延、高响应、实时计算的需求.边缘计算技术将云计算能力从中心下沉到边缘节点,形成端—边—云一体化协同计算系统,实现就近实时计算,更加满足信号控制系统高实时性要求.
与此同时,对交通信号优化控制问题的研究也从未停止,采用整数规划、群体智能方法、传统机器学习方法等传统优化方法寻求最优控制方案的研究取得一定成果.强化学习[2](reinforcement learning,RL)在解决连续决策问题上表现优异,被提出可适用于解决交通场景问题[3],在解决大规模交通信号协同控制问题上发挥着越来越重要的作用.
强化学习通过智能体试错的方式探索环境,并根据探索环境得到的经验自学习建立最优行为策略模型,最大化累计奖励.当环境中智能体数量增加,每个智能体单独进行环境探索并学习.从单个智能体的角度来看,环境出现非平稳性,方法不利于收敛.在目前的研究中对多智能体协同方式大部分采用的同步决策机制,即统一时钟频率,以固定的决策周期进行决策.
在实际场景中,由于交叉口地理位置、交通管制要求以及功能的不同,车流通过交叉口的时间往往具有很大差异.同步决策方式导致交通信号绿灯利用率较低,交叉口通行服务质量下降.如图1 所示,在时刻t交叉口i进行动作决策并切换交通灯相位.在t+Δt时,交叉口i可通行车道(东西方向车道)已无等待车辆,但仍然持有通行权(绿灯空放现象).由于未到约定好的动作决策周期,导致其他车道无法竞争通行权, 从而造成一部分绿灯时间损失,交通信号利用率降低.
Fig.1 Traffic signal control scene diagram图1 交通信号控制场景图
在本研究中设计一种基于端—边—云协同的交通信号控制架构,并将异步通信与交通信号自适应控制相结合,提出一种多智能体之间可以使用不同决策周期的异步决策机制,降低绿灯损失时间,提高交叉口时间利用率.
本文的主要贡献包括3 个方面:
1)针对集中控制系统高、时延低效率这一问题,提出一种基于端—边—云的交通信号分布式控制架构.实现在边缘节点进行数据预处理,在端节点决策的方式减少传输时延.
2)针对同步决策导致交叉口时间利用率低问题,设计一种基于异步决策的交通信号优化机制.智能体根据交叉口车辆等待时间更新决策周期的方法,增加单个交叉口有效绿灯时间,避免交叉口绿灯空放现象.
3)针对强化学习智能体之间实时通信受限问题,提出一种基于邻居信息库的多智能体协作交通信号自适应协调方法.降低因异步方式产生的智能体之间信息不平衡情况,从而提升多参与者协同效率.
1 相关工作
边缘计算为智慧交通的建设提出高效的分布式计算解决方案,该方案构建计算、存储、决策一体化的边缘开放平台,为交通信号控制系统提供一种新型计算模式[4].在大规模路网的交通信号控制研究中,文献[5]提出一种为每个交叉口控制智能体分配对应边缘学习平台,在协作时仅考虑直接相连的邻居信息的方法.这种分散协作式具有较高的成本效益,难以适用于大规模路网.
实际交通信号控制应用场景存在环境建模难的问题,基于数据驱动的无模型强化学习方法可以在探索中自身学习,实现控制闭环反馈.独立学习的单智能体之间不进行相互之间的沟通与协作,每个智能体只能感知自己控制范围内的状态,每次以优化局部Q 值最大化为目标.但当周围环境变得复杂时,不考虑上下游智能体的决策带来的非平稳性的影响将会导致自身学习无法收敛.基于通信的多智能体联合学习通常采用集中式控制[6],以最大化所有区域智能体的联合动作对应的Q 值为目标.全局智能体所需要处理数据庞大,现有计算能力难以实时处理,集中式控制方式的弊端逐渐暴露出来,因此有学者提出分散式多智能体控制方式.当掌握全局的统领者被撤走后,使用协作图[7-8]简化多个智能体之间关系或采用博弈论[9-11]解决智能体之间的联合问题是较为常用的办法.文献[12]中提出一种完全可扩展的去中心化多智能体强化学习(muti-agent reinforcement learning,MARL)方法,将其他智能体的策略以广播的方式告知环境中的其他代理,并应用空间折现因子缩小距离较远的智能体带来的影响.除此之外,其他MARL 方法应用到多路口场景,如MADDPG[13],APEX DQN[14],AC[15],A2C[16]等,也被证明是可行的.将多智能体协作问题转换成图也被广泛研究,如MARL与GAN[17]、图卷积[18-20]等图方法结合.
交通信号控制系统中关于异步的研究集中在降低数据相关性方面.文献[21]基于并行强化学习范式采用异步梯度下降优化神经网络参数,提高资源利用率,提升训练速度.文献[22]提出一种异步协同信号框架,信号控制器根据并行方式异步共享的相邻信息进行决策,该框架能够提高实际控制的稳定性,但要求所有控制器必须同步进行决策.文献[23]提出一种异步多步Q-Learning 方法,该方法采样多个步骤后进行估值,降低因估计造成的误差,并利用多核CPU 并行模拟多个代理与环境进行交互的过程,异步更新全局参数.
在关于多智能体协同的研究中可以发现,在同一环境下的智能体直接进行通信需要同步决策才能实现同步通信.本研究采用间接通信方式,借助边缘节点存储的邻居信息库间接实现智能体之间通信,智能体之间不必要求同步决策.异步决策方式能够达到提高智能体之间的通信效率、优化交通信号配时方案、降低车辆在交叉口的等待时间.
2 基于端—边—云的交通信号控制架构
本文研究以常见十字交叉口场景为例,每个交叉口内安装多种信息采集装置,由m个十字交叉口构成的路网中分布着n个边缘服务器以及1 个中心云服务器,并提出交通信号分层协同控制[24].
如图2 所示,在单个十字交叉口中布设多种智能终端传感设备,如网联车、交通信号控制器、摄像头和传感器等.这些终端设备用于感知环境信息,并向边缘服务器节点传输环境数据.
Fig.2 Architecture diagram of traffic signal control based on end-edge-cloud图2 基于端—边—云架构的交通信号控制架构图
根据具体交通需求将m个交叉口划分为n个区域,缩小交通信号控制器控制范围.每个区域由对应的边缘服务器进行管理,负责初步处理多源异构的感知数据、小规模的智能分析,以及提供存储与决策相关的服务.此外,边缘节点还需要维护一个小型邻居信息库(参见3.2.1 节),用于降低决策时的通信延迟,提升智能体之间的合作效率.
在中心云服务层,云节点核心控制程序从全局角度实现资源调度和决策,同时存储和维护路网整体的邻居信息库,进行深入分析,接收边缘节点定时传输的数据并更新.
3 智能交通信号协调方法
在基于提出的端—边—云协同交通信号控制架构上,面向多交叉口交通信号控制场景,构建强化学习控制模型,提出一基于边缘计算的异步决策的多智能体交通信号自适应协调方法(adaptive coordination method,ADM),该方法包括交通信号配时优化机制和基于异步决策的多智能体交通信号自适应协调算法.在3.1 节中重点描述决策周期计算方法.由于系统中多个智能体采取不同决策周期,相互之间的通信方式是需要研究的重点,因此,在3.2 节中提出基于邻居信息库的多智能体协作机制,并给出智能体的定义以及学习过程.
3.1 交通信号配时优化机制
根据车辆跟驰方式,车流可划分为饱和连续车流(包含首车及后续连续车流)和非饱和车流.受到信号灯的控制,当首车状态发生改变后,在停车线前排队等候的车辆传递性发生连续状态改变,形成交通流,并以一定的传播速度向后传播.能够与前车一起形成连续不间断的车流为饱和连续车流,包含绿灯亮起时已排队车辆以及放行时到达车辆,后加入到队列中的车辆作为队尾进行研究.后续到达车辆无法与前车构成连续车流时称为非饱和车流,此时车头时距较大,由车辆到达率决定.因不受前车速度制约,非饱和车流以自由流速度行驶通过交叉口.通常情况下,在最长绿灯时间允许范围内,最后一辆车驶离停车线后切换信号相位.然而,实际情况中因非饱和车流通行的不确定性导致通行时间被浪费.为了贴合实际场景中动态的交通流,提供更好的优化交通信号配时方案, ADM 方法基于车辆跟驰理论针对不同交叉口状态实时调整绿信比.
交通模式划分为相对模式(C1)、相邻模式(C2)和汇聚模式(C3),每个模式中含有4 个相位,每个相位默认绿灯时间为tg, 默认黄灯时间为ty,信号默认周期ta是默认绿灯和黄灯时间之和,如式(1)所示:
根据不同阶段的车头时距,将实际信号周期ta′的计算分为4 个部分.
1)首车启动及饱和跟驰阶段t1,如式(2)所示:
其中carN表示具有通行权车道上的车辆数,waitN表示车道上实际停车数,当车速小于0.1 m/s 时视为车辆处于等待状态,d是饱和连续车流末尾车辆所在位置到停车线的距离,v是饱和连续车流正常通行情况下的平均速度估计值.
2)非饱和跟驰阶段t2,如式(3)所示:
其中runN表示具有通行权车道上正在行驶的车辆,du为非饱和车流末尾车辆所在位置到停车线的距离,vu为非饱和车流继续通行时平均行驶速度.
3)当饱和跟驰阶段执行完毕后,再次观察交通环境并计算除当前车道外其他车道的饱和连续通行时间t3,并判断当前交叉口竞争状态.
①如果t3<t2,交叉口处于弱竞争状态,不需要切换动作;
②如果t3≥t2,交叉口处于强竞争状态,需要根据邻居信息切换新动作.根据3.2.3 节描述的协调机制,重新选择新动作并执行.
4)黄灯实际执行时间ty′,如式(4)所示:
修正后的实际相位周期时间ta′为这4 部分之和,对应智能体的实际动作执行时间之间与默认动作执行时间存在一定差异,整个系统中智能体难以实现同步决策.因此,ADM 方法引入异步概念,允许智能体根据交通环境情况适当调整自身绿信比.当前相位执行完毕后无需等待与其他智能体时钟频率同步的时刻,可以直接决策并执行新动作.
3.2 多智能体交通信号自适应协调算法
3.2.1 基于邻居信息库的协调机制
考虑到异步决策机制会降低多智能体之间的通信效率这一问题,ADM 算法提出在云节点维护整体路网的邻居信息库,边缘节点维护与其目标节点相关的邻居信息库,并按一定周期将数据同步更新给云节点.
智能体在决策时仅参考与目标交叉口相邻接的交叉口状态信息,并将自身新决策发送给对应边缘节点更新.邻居信息库中存储交叉口之间邻接信息、每个交叉口的决策时间、决策结果以及持续时间.当交叉口控制智能体i决策时,向其对应的边缘服务器发送数据请求.边缘服务器根据交叉口间邻接关系,将其邻接交叉口集合Ji的最新决策信息返回给智能体i,智能体i与邻居协调决策(协调策略详细描述见3.2.3 节)后将自己最新决策再次发送给边缘服务器,用于更新存储在边缘节点的局部信息库.一段时间后,边缘服务器集群集中向云服务器进行同步信息,用于云服务器训练模型,云服务器训练模型后将最新模型参数发送给边缘服务器更新.
3.2.2 模型设置
根据强化学习理论,可以将控制过程建模为马尔可夫决策过程(MDP),使用五元组表示(O,A, R,α,γ).其中O表示状态空间向量,A表示动作空间向量,R表示奖励函数R(o,a):O×A→R,α为智能体的学习率,γ为折扣因子.控制过程的根本原理是通过试错的方式探索环境,即在智能体执行动作后,环境根据执行该动作产生的效果给予奖励,如果获得较好奖励,表明在当前状态执行该动作较为合适,可以增加该动作的出现概率.智能体根据探索环境得到的经验进行自身学习,主要学习任务是行为策略,目标是在环境中最大化累计奖励.要素的具体定义有3 方面:
1)状态空间
根据3.1 节中划分的3 组交通模式,智能体观测空间也由3 组不同交通模式共计12 种车流的状态向量构成,O =(S1,S2,…,Si)(1≤i≤12).其中Si表示第i种车流的状态,由最长连续等待车流f和与f间隔最小的预计到达车流f′的估计停车等待时间Tw表示,如式(5)所示.
其中waitN′是车道上估计停车数,waitN是车道上实际停车数,tw是车道上单位车辆等待时间,e是车道上车辆行驶状态不均衡系数,e计算公式如式(7)所示.
其中I′是车流在理想行驶与实际行驶状态下该统计分布面积之差,I是车流实际状态下该统计分布面积,车流内部以可协调的最大速度同速行驶.
2)动作空间
本文中动作定义采取在预定义的相位方案中选择需要更改的相位方法.动作空间A= (C1,C2,C3),根据 交 通 模 式 划 分为3 组C1={NSs,EWs,NSl,EWl},C2={Wsl,Ssl,Esl,Nsl},C3={WsNl,SsWl,EsSl,NsEl},共 计12 种动作构成.N,S,W,E 分别表示北向、南向、西向、东向,下标s 和l 表示直行和左转.出于安全性考虑,每个动作执行后均默认执行一个对应的黄灯过渡相位.由于右转车流不受交通信号控制,因此在相位方案中省去对于右转车辆的指示,默认一直是绿灯状态.
3)奖励函数
累计奖励函数最大是强化学习算法优化学习的目标,其设置需要能够准确反馈动作执行带来的影响.本文中奖励函数R的定义如式(8)所示:
其中是 路口整体车流状态不均衡系数,取路口直行和左转车道上行驶车辆状态不均衡系数e的平均值.Hw是执行动作a后路口拥堵状态持续加剧程度的估计值,反映执行绿灯相位对路口拥堵状态变化的影响,计算公式如式(9)所示:
3.2.3 基于多智能体的自适应控制算法
多个智能体在环境中需要相互协调以获得最大累计奖励值,智能体在充分考虑与目标节点邻接的节点的交通状态下,根据道路实际通行情况和交通信号控制器选择结果进行决策投票.在强竞争场景下实现控制车流传输速度,尽量降低上游路口对下游路口的负面影响.
具体而言,智能体根据观察到的目标交叉口环境状态信息,以ε-greedy 策略选取基于动作选择策略选取动作a1;从邻居经验库中获取目标交叉口邻接交叉口的信息,计算得到根据协同后建议采取动作a2;当a1≠a2时,表示与邻居协同失败,重新选择动作.根据交叉口估计等待时间最长车道需要先疏通这一原则对车道设置优先级,从动作a1所属交通模式的相位集合中选择具有最高优先级的车道赋予通行权,即动作a3.从动作候选集合{a1,a2,a3}中选择最终动作后得到对应默认执行周期ta,根据3.1 节计算智能体实际执行周期ta′.每次决策后都要将决策结果发给附近边缘节点,智能体通过自适应以及与邻居之间经验不断优化学习,提高协调控制的效果,具体如算法1 所示.
算法1.基于多智能体异步协作的信号优化算法.
输入:学习率α,折扣因子γ,搜索概率ε,最大仿真步数T,交叉口集合J,邻居经验库B;
输出:最优执行动作序列A*.
① 初始化ot←getObservation(),t←0;/*初始化状态和时间*/
② fort=1,2, … ,Tdo
③ forj=1,2, … ,Jdo
④ ifat,j,1≠at,j,2
⑤at,j=at,j,1
⑥ elseat,j=at,j,3; /*智能体根据邻居信息采用投票策略独立进行决策*/
⑦ end if
⑧t1,t2,t3←calDescisionTime();
⑨ ift2≥t3/*判断交叉口状态*/
⑩ break;
⑪ end if
⑫rt=execute(at,j,t1,t2,t3);
⑬Qj(o*t,j,a*t,j)=(1-α)×Qj(ot,j,at,j)+α[γ×Qj(ot+1,j,a*)+R(ot,j,at,j)];/*更新Q-table*/
⑭ot+1,j←getObservation();
⑮ end for
⑯ end for
⑰ return {a1,0*,a1,1*,…,a1,J*,…,aT,0*,aT,1*,…,aT,J*}.
4 实验结果与分析
4.1 仿真实验设置
为了评估所提出的ADM 方法,在阿里云服务器上实现云服务核心控制程序、构建全局邻居信息库及相关操作API.基于RSU 设备实现数据预处理、控制决策、区域邻居信息库创建及更新的程序.在交通仿真软件SUMO 中对多交叉口仿真环境进行建模,在SUMO 中搭建的路网如图3 所示.
Fig.3 Schematic diagram of the simulated intersection model图3 仿真交叉口模型示意图
ADM 方法基于Q 学习方法,经过多次实验调整后对方法和道路相关参数设置如表1 所示.
Table 1 Major Parameter List表1 主要参数列表
实验中仿真车流数据使用济南市某交叉口实际数据,数据来自于交叉口附近布设的监控摄像,每个交叉口具有相对完整的记录.数据集中信息包括地理位置信息、车辆到达时间及其他信息,以及对信息处理后生成与仿真环境匹配的路由文件.加载路网和车辆路由文件后,使用Python 语言编程实现ADM方法,借助Traci 接口与仿真环境进行交互获取数据.
4.2 对比实验及评价指标
ADM 方法将与2 种方法进行对比.
1)传统固定配时法(fixed time, FT).按照默认相位方案和信号周期顺序执行.默认相位方案为{NSs,EWs,NSl,EWl,Wsl,Ssl,Esl,Nsl,WsNl,SsWl,EsSl,NsEl},默认直行绿灯时长为33 s,左转绿灯时长为25 s,黄灯时长为3 s.
2)基于Q 学习的独立交通信号自适应控制方法IQA(independent Q-learning decision algorithm).智能体之间无协同,根据自身信息进行动作选择,并采用同步决策方式.
评价指标包括:路口平均等待车辆数、路口车辆等待时间、路口最大排队长度.
4.3 实验结果
1)控制有效性分析.在4 800 s 的仿真实验中,路网中车流量总数约为3 000 辆,实验中2 个交叉口车流量经过优化控制后时变如图4 和图5 所示,可以看出2 个交叉口车流量均呈先增后减的趋势.受路网通行能力的限制,单位时间内可通行车辆数恒定、流量波动大时,代表交叉口通行效率不稳定.当流量小时,表示交通畅通或出现绿灯空放现象;当流量大时,表示交通缓慢或已经拥堵.
Fig.4 Traffic flow variation of intersection 1图4 路口1 车流量变化
Fig.5 Traffic flow variation of intersection 2图5 路口2 车流量变化
结合图4 和图5 可以发现,在FT 方法中,相位执行顺序和时长恒定不变,在整个仿真过程中车流量波动较小,对车流具有一定的疏通作用.而不具有协调机制的IQA 方法独立决策,无需考虑相邻交叉口情况.当路网中流量增大时,因交叉口1 和交叉口2无相互协调造成车流量大幅度波动.最高峰时交叉口1 中有近130 辆车在行驶或等待,高于同时刻其他2 种方法近1 倍.同时,在交叉口2 车流明显低于其他2 种方法,这表明相邻交叉口之间的协调控制能够有效减少独立控制方式的盲目判断,从而预防大量车辆拥堵现象的产生,最大限度地减少车辆停车次数对于提高路网通行有明显的作用.本文研究中提出的ADM 方法和FT 方法的波动大致相同,但ADM 整体上低于FT 方法对应的曲线.这表明采用动态信号决策周期能够有效提升信控优化效率.对于突然大量增加的车流量,也能及时疏导避免在交叉口造成拥堵,展示出具有自适应学习能力和实时决策能力.
2)平均等待长度和平均等待车辆数对比分析.在仿真过程中对2 个交叉口平均等待长度进行记录,并计算出不同方法的平均值,如表2 所示.固定配时平均等待长度和平均等待车辆数这2 项指标均较高,这表示车辆在交叉口聚集时间过长,产生拥堵现象,但方法由于不具有自适应性无法调节.无协同的IQA 方法优化效果不明显,经过分析得到,当发生拥堵时IQA 能够根据环境变化对相位进行灵活调整,因此控制效果比固定配时方法好.图6 展示在仿真过程中不同方法控制下平均等待车辆数的变化,从图6 中可以看出,ADM 方法在运行整体调节效果较好,从长远角度考虑决策,尽量避免拥堵情况的发生,降低平均等待车辆数.图7 为在仿真过程中不同等待车辆数出现的频次,可以发现,在ADM 方法的调控下,平均等待40 辆车甚至更多事件发生的频率明显少于其他2 种方法,这表明ADM 方法能够有效避免拥堵情况的发生.
Table 2 Average Waiting Car Numbers at Intersections表2 交叉口平均等待车辆数
Fig.6 Average waiting car numbers at intersection图6 交叉口平均等待车辆数
3)累计等待时间对比分析.如图8 所示,ADM 方法相较于其他方法对路口整体的车辆等待通行时间的控制效果更好,可以较稳定地将路口车辆的等待时间控制在较小范围内波动,并且ADM 方法的累计等待时间更短并且收敛速度相比其他2 种方法更快.
Fig.8 Cumulative waiting time at intersection图8 交叉口累计等待时间
5 结 论
本文提出一种异步决策的多智能体交通信号自适应协调方法,该方法基于边缘计算技术实现,适用于大规模路网分布式控制场景.基于本文提出的端—边—云架构,实现使用多种物联网终端设备采集环境信息,边缘进行小规模计算及决策,并在云上部署存储设备,进行全局计算和管理.此外,针对同步决策中绿灯有效时间短问题,本文将异步引入多智能体协调决策中,并提出采用邻居信息库解决多智能体通信效率低的问题,在实验中验证本文提出方法的有效性.
未来拟进行的研究工作包括:考虑在不同拓扑结构的路网中使用智能体协同决策机制[14],以及基于分布式多层端—边—云架构的智能交通控制系统的设计,进一步研究部分网联车环境下实时交通信号优化控制方法,以及进行流量预测和行驶路线规划.
作者贡献声明:高涵设计实验方案和验证实验,并撰写论文;罗娟提出研究思路,对论文模型方法提出指导意见;蔡乾雅负责完成对比实验;郑燕柳对论文进行修改和完善.