基于CAS-FQL算法的区域交通控制
2012-07-16李文刘智勇
李文,刘智勇,2
基于CAS-FQL算法的区域交通控制
李文1,刘智勇1,2
(1. 五邑大学 信息工程学院,广东 江门 529020;2. 江门职业技术学院,广东 江门 529000)
针对Q-学习算法收敛慢、易陷入局部最优的缺陷,提出了一种基于灾变模糊Q-学习(CAS-FQL)算法的区域交通协调控制方法,即将灾变策略引入到模糊Q-学习算法的学习过程中,以提高和改进Q-学习的寻优能力和学习效率. 具体是,利用CAS-FQL算法分别优化路网中各交叉口的周期和相位差,绿信比则采用常规方法优化. TSIS软件交通仿真的结果表明,相比基于Q-学习的控制方法,CAS-FQL算法能显著加快算法的收敛速度、提高交通效率.
区域交通控制;CAS-FQL;灾变策略;Q-学习;模糊控制
近年来,通过各国研究者对城市交通运输系统管理方法和控制技术的不断研究与探索,相继研发了绿信比、周期、相位差优化技术系统(SCOOTS)、悉尼自适应交通控制系统(SCATS)等经典的交通控制系统[1],以减轻城市交通拥堵. 但由于城市交通系统具有典型的非线性、动态时变性和不确定性,难以构造出与之匹配的精确的数学模型,导致经典交通控制系统达不到理想的控制效果. 随着智能控制理论研究的不断深入,基于人工智能的交通控制方法越来越受到人们的关注. 目前,采用强化学习理论研究交通信号的协调控制是一个研究热点,其中Q-学习是一种被广泛应用的强化学习算法. 它的优势不仅在于不需要建立交通路网的数学模型,而且能实现对非线性复杂系统进行有效学习的能力,适用于城市区域交通路网协调控制[2]. 然而,Q-学习算法本身亟待克服收敛较慢、易陷入局部最优等缺陷. 为此,本文提出添加灾变策略,即在模糊Q-学习基础上构造灾变模糊Q-学习(CAS-FQL)算法,利用灾变算子的突变性来改进Q-学习的学习效率,提高其收敛速度.
1 CAS-FQL算法
1.1 模糊Q-学习(FQL)算法及其收敛条件
2.2 CAS-FQL算法的基本原理
CAS-FQL算法是在FQL算法的基础上添加灾变策略. 灾变[4-5]是指生物在连续不断的演化进程中,由于其生活环境发生了巨大变化而造成该地区绝大部分物种濒临绝种,只剩下那些具有特别强生存能力的种群或个体能继续存活繁衍[6-7]. 灾变策略的随机性和突变性可在FQL算法得到局部最优动作后,改变选择动作,提高对环境的空间遍历,加快收敛速度. 文献[8]证明了灾变策略能有效避免粒子群算法的早熟收敛,并能提高粒子群算法的收敛速率. 本文提出的新算法旨在通过灾变策略提高模糊Q-学习的优化效率. 在构造灾变算子的过程中,以余维数为2的尖点灾变模型作为参考模型,它的具体表达形式如公式(2)所示:
图1 尖点灾变模型
不满足式(5)时,保持原有的Q-学习算法;满足式(5)时,Agent进行如下两步灾变操作:
1)增大选择非最优Q值动作的概率;
2)自由搜索[9-10],按公式(6)产生新的动作选择方式:
其动作范围修正策略为:
2.3 CAS-FQL算法的步骤
CAS-FQL算法具体步骤如下:
步骤1:将模糊化的值赋初值,并根据经验设定最大灾变次数;
步骤2:Agent感知环境此刻的实时状态变量;
步骤4:利用式(1)对值进行更新;
3 区域交通的CAS-FQL算法控制
3.1 区域交通控制的优化控制策略
设城市区域交通路网如图2[13]所示,本算法的控制变量为该模型内的9个交叉口的周期、相位差和绿信比. 控制的目标:使9个交叉口的车流类饱和度保持在目标区间0.90左右,通过相位差的及时优化调整使同一干线上的区间平均车速达到实时最优.
图2 区域交通3×3路网
具体的控制策略为:在图2所示的区域交通路网模型内,根据以往路网中各路口的平均交通流量大小划定3条干线,将路口1、4、7设置为这3条干线的关键路口. 在每一个优化时间段(设置为5个周期)中,区域内各路口的周期和干线上的相位差保持不变,各路口的绿信比根据实际车流量进行常规优化调整,以反应各个方向上交通流的随机变化. 每一个优化时间段内周期和相位差的大小由CAS-FQL算法实时优化上一个优化时间段内各路口的饱和度和区间平均车速得到的最优解来确定.
路网中的车流量是通过车辆检测器实时检测的,未来车流量按式(8)进行粗略预测:
3.2 CAS-FQL算法的优化控制过程
设置交叉口1为整个路网的关键交叉口,即将交叉口1的周期设置为路网的公共周期. CAS-FQL算法进行交通信号协调优化控制的过程如下:
步骤1:根据以往的控制经验,9个交叉口的Agent选择路网关键交叉口1的周期作为各自运行的起始周期,各相位的起始时刻以交叉口1的相位起始时刻作为参考标准,3条干线上各交叉口的相位差由以往的交通信息和控制经验依次给出;
3.3 交通控制参数模糊化
.
类饱和度的语言值隶属度如表1所示. 将周期的增量作为Agent在优化周期时的动作并将其模糊化,模糊变量记为,其论域为:
,单位为.
周期的语言值隶属度如表2所示. 本文对相位差的优化控制策略是通过调整干线上相邻交叉口之间的车流速度来实施的. 相位差的大小与车流速度成反比,即车速高,相邻交叉口相位差小;车速低,相位差大[12].
表1 类饱和度u隶属度赋值表
表2 周期的增量c隶属度赋值表
优化相位差时,将区间平均速度作为状态并模糊化,模糊变量记为,其论域为:
,单位为km/h.
平均速度的隶属度如表3所示. 将相位差的调整量作为状态并模糊化,用来实时改变各个路口的相位差. 模糊变量记为,其论域为:
相位差的隶属度如表4所示.
表3 区间平均速度隶属度赋值表
表4 相位差增量g隶属度赋值表
3.4 CAS-FQL算法的TSIS仿真结果
表5 3×3路网各入口的初始交通流量
表6 3种Q-学习算法仿真结果比较
从表6可以看出,CAS-FQL算法降低了路网中的车辆平均延误,并提高了车流速度. 在仿真过程中,SA-FQL和C-FQL算法的收敛步数分别是65步和57步,CAS-FQL算法的收敛步数是44步,收敛速度得到进一步的提高. 通过对3种算法的分析,产生差异的原因为SA-FQL算法初始温度和降温公比对不同的优化问题需要不同的初始设置,且很难准确设置初始值,此方法的性能和收敛速度受到了较大的影响;而C-FQL算法中混沌变量如果取值不合适,比如偏大或者偏小,容易使算法陷入次优解或局部最优解,故算法的收敛性能也受到了较大影响,学习步数增多. 而CAS-FQL算法通过灾变动作改进Agent选择动作的方式,并利用灾变的突变性提高算法对环境的遍历性能,从而更快更好地适应环境的随机变化,提高控制效率.
4 结论
[1] 刘智勇. 智能交通控制理论及应用[M]. 北京:科学出版社,2003.
[2] 刘智勇,马凤伟. 城市交通信号的在线强化学习控制[C]. 中国控制会议论文集. 张家界:[s.n.], 2007: 34-37.
[3] WATKINS C J C H, DAYAN P. Q-Learning[J]. Boston: Kluwer Academic Publishers. Machine Learning, 1992, 8: 279-292.
[4] POSTON T, STEWART I. Catastrophe theory and its application[M]. London: Pitman, 1978.
[5] 桑德斯 P T. 灾变理论入门[M]. 凌复华,译. 上海:上海科学技术文献出版社,1983.
[6] LACORRE P. Predation and generation processes through a new representation of the cusp catastrophe[J]. Acta Biotheoretica, 1997: 45(2): 93-115.
[7] ALEXANDER C, DAVID P, GERSHON T. Critical elaboration and empirical investigation of the cusp catastrophe model: a lesson for practioners[J]. Journal of Applied Sport Psychology, 2003, 15(2): 144-159.
[8] 董超俊,刘智勇,邱祖廉. 灾变粒子群优化算法及其在交通控制中的应用[J]. 系统仿真学报,2005, 41(29): 19-23.
[9] 杜长海. 计算智能及其在城市交通诱导系统中的应用研究[D]. 重庆:重庆大学,2009.
[10] 付晓刚,俞金寿. 一种基于灾变策略的改进差分进化算法[J]. 系统仿真学报,2009, 21(24): 7767-7772.
[11] 刘智勇,宋正东. 基于C-FQL算法的区域交通控制[J]. 计算机工程与应用,2012, 48(4): 207-210.
[12]Mitchell T M,机器学习[M]. 曾华军,译. 北京:机械工业出版社,2003, 48(4): 207-210.
[13] 邓军,刘智勇. 基于SA-FQL算法的区域交通控制[J]. 计算机工程与应用,2010, 46(27): 231-233.
[14] 金希东,李治. 遗传-灾变算法及其在非线性控制系统中的应用[J]. 系统仿真学报,1997, 9(2): 111-114.
Urban Traffic Control Based on Catastrophe-Fuzzy Q-Learning
LIWen1, LIUZhi-yong1,2
(1. School of Information Engineering, Wuyi University, Jiangmen 529020, China; 2. Jiangmen Polytechnic College, Jiangmen 529000, China)
In order to solve the problems of Q-learning algorithm’s slow convergence and easily running into the local optimum, this paper puts forward a kind of regional transportation coordination controlling method which is based on Catastrophe-Fuzzy Q-Learning (CAS-FQL) algorithm. The catastrophe strategy is combined into the learning process of the fuzzy Q-learning algorithm to enhance and improve its optimization ability and learning efficiency. Concretely, CAS-FQL algorithm is applied to optimize the cycles and offsets of each intersection in the traffic network, and the split is optimized by conventional method. The results from ISIS traffic simulation platform shows that the catastrophe strategy can accelerate the algorithm convergence speed significantly and improving the traffic efficiency.
area traffic control; CAS-FQL; the catastrophe strategy; Q-learning; fuzzy control
1006-7302(2012)03-0067-07
TP391
A
2012-04-09
广东省自然科学基金资助项目(8152902001000014);广东省高等学校自然科学重点研究项目(05Z025).
李文(1985—),男,湖南怀化人,在读硕士生,主要研究方向为智能交通控制;刘智勇,教授,博士,硕士生导师,主要研究方向为智能交通控制、模式识别与人工智能等.