基于Stackelberg-Logit博弈的交通诱导模型
2014-11-30林娜,王纯
林 娜,王 纯
(沈阳航空航天大学 计算机学院,辽宁 沈阳110136)
0 引 言
交通诱导系统作为智能交通的重要组成部分,其关键作用在于:当路网中的交通流量分布不均、局部出现拥堵时,根据实时交通信息制定有效的动态路径诱导策略,对交通流进行合理的诱导与分配。在交通诱导系统中引入博弈论的思想,有利于分析和理解交通管理者与路网出行者之间利益冲突,从而对其行为做出准确的判断与预测、发布有效的实时交通诱导信息、合理地对交通流做出诱导与分配,缓解交通运输压力,提高路网运输质量。
出行者在使用路网的过程中,如果没有获取实时交通信息的渠道,则过往的出行路径、行驶时间等历史经验和对周围环境的感知会成为其选择路径的主要依据[1,2]。但在具备ATIS的交通管理系统中,出行者可以接收到系统提供的实时交通诱导信息,再结合历史经验对交通状况做出更准确的判断[3]。Ben-Elia等人在实验中向参与者提供出行中的动态路径诱导信息,实验结果表明,接收到动态信息的出行者在短期内倾向于选择更短但高风险的路径[4]。Chorus等人应用贝叶斯方法和数值仿真表明,出行者对诱导信息的服从程度与感知到的信息可信度和各备选路径之间的旅行时间差有关[5]。Waller等人在动态用户最优问题中引入了多项式组合优化算法来研究动态交通分配[6]。W.Y.Szeto提出了两种合作博弈构想来决定出行费用可靠性:Stackelberg-Nash方程和部分合作纳什方程,并指出经典的博弈论方法可能高估了路网/O-D对的出行费用可靠性[7]。周元峰等人提出了交通事件下变换信息供给策略的交通流诱导模型,引入博弈的思想来协调系统与用户之间的利益冲突,并利用双层规划求解信息供给策略[8]。袁长伟等人建立了一种基于Stackelberg博弈的路网均衡交通分配方法,在系统中利用广义乘子法求解了提高交通系统效率的诱导策略[9]。
本文提出的基于Stackekberg-Logit博弈的交通诱导模型中,应用了出行时间、出行距离和出行经济费用这3种评价指标来求解出行费用;引入了改进的Logit模型来求解路径选择概率使得出行者的路径选择行为更符合实际;在求解最优路径时添加了绕行检测机制以避免路网中产生“过度绕行”现象;在仿真实验中应用了滚动时域Rolling Horizon方法来保证交通状况的时变性,引入了交通需求加载系数来实现不确定的交通需求;最后在中型路网Sioux-Falls network上验证了博弈模型的正确性与有效性。
1 博弈模型
博弈论假设博弈局中人都是 “理性的”,则作为博弈一方的路网出行者追求自身出行费用最小,而作为博弈另一方的交通管理者追求路网总的出行费用最小。双方的利益冲突体现在:出行者选择的路径,并不一定能满足交通管理者的诱导要求,而交通管理者发布的实时交通诱导信息,可能会使路网上一部分出行者过度绕行。由此可以构造一个多阶段Stackelberg博弈,交通管理者作为博弈的领导者,以系统最优 (system optimum,SO)为原则发布诱导信息,路网出行者作为跟从者,以用户均衡 (user equilibrium,UE)为原则做出路径选择。系统最优原则是指在考虑交通拥挤对出行费用产生影响的网络中,应按照总出行费用最小为依据来分配交通流;而用户均衡是指,在分配交通流时遵循每个出行者自身出行费用最小的原则,若出行者试图改变路径只会增大其出行费用。在交通诱导研究中引入Stackelberg博弈,能在更接近真实路网交通状态的条件下,以优化路网交通质量为目标,以求解系统最优与用户均衡之间的某种平衡状态为方法,对城市路网交通问题进行研究。
理论上,出行者选择某条路径的概率与该条路径的期望出行费用最小的概率相等。但这样要求出行者对路网状态有充分及时的掌握,并对路网数据进行准确的分析与计算,这种情况很难在实际中出现。因此,本文在Stackelberg博弈模型中引入了改进Logit模型来求解路径选择概率,构造了交通管理者与路网出行者之间的Stackekberg-Logit博弈模型,其数学表示如下
式 (1)从交通管理者的角度出发,求解路网系统总出行费用最小的交通流诱导策略,式 (2)保证了路网上的交通流分布守恒,式 (3)即为求解各路径选择概率的改进Logit模型,式中参数k为路径选择策略对效用差异的敏感程度。博弈模型研究的是路网上的交通流状况,因此需要建立基本的路网加载模型
式中,minZ(t)表示截止到时刻T路网系统最小的总出行费用,(t)为t时刻从起点r到终点s间的路径p上的车辆出发率;(t)为t时刻从起点r到终点s间的路径p上的出行费用;Drs(t)为t时刻O-D对 (r,s)间的交通需求;(t)为t时刻从起点r到终点s间的路径p被O-D对 (r,s)间的出行者选中的概率;(t)为O-D对 (r,s)间的路径p上的出行时间;(t)为t时刻O-D对 (r,s)间的路径p上的路段a上的出行者总量;(t)为t时刻O-D对(r,s)间的路径p上的路段a上的车辆流入率;(t)为t时刻O-D对 (r,s)间的路径p上的路段a上的车辆流出率;(t)为截止到时刻T,在O-D对 (r,s)间的路径p上进入路段a的出行者总量(t)为截止到时刻T,在OD对 (r,s)间的路径p上离开路段a的出行者总量;A(r)为所有以节点r为起点的路段集合;vmax为路段饱和流出率。
博弈过程从交通管理者开始,作为博弈的领导者,交通管理者首先对路网上的实时交通状况做出分析,预测路网出行者的可能出行路线,依照系统最优的原则,根据式(1)求解路网最优交通流分布和系统最优原则下的诱导策略,并将诱导信息发布到整个路网。而作为博弈的跟从者,路网出行者接收到实时诱导信息之后,会根据自己的出行经验、对周围环境的感知结合诱导信息做出路径决策,由式 (3)求解出行者服从诱导信息的概率,再由式 (2)量化全体出行者的路径选择,并加载到整个路网上,路网状态信息随之更新。博弈过程重复进行,当交通管理者的诱导策略与路网出行者的选择策略趋于一致时,路网交通状况达到均衡状态,博弈过程也达到均衡。
2 求解算法
现实中的交通需求和路网状况的时变性很强,因此,本文引入了交通需求加载系数 (loading factor,LF),意为某一仿真周期中的交通需求与初始交通需求的比值。在仿真实验中交通需求以O-D矩阵的形式表示,LF则是它的系数,因而随着LF的增大,路网上出行者数量增加,交通状况趋于拥挤。同时,本文借鉴了由Mahmassani提出的Rolling Horizon方法[10],即假设交通管理者只能获取未来一段时间 (称为滚动周期rolling period)内的交通需求和路网状况,且这些信息在此周期内保持不变,当一个滚动周期结束后,才能继续获取下一滚动周期的动态交通信息。在每一滚动周期内根据该周期的交通需求和路网状况等信息完成一次博弈模型的仿真实验,则多个滚动周期过后,整个路网模型的动态性更强,所得实验结果也更为准确。算法具体步骤如下:
(1)数据初始化,设置迭代计数器n=0,迭代次数上限N,获取初始条件下路网中的交通流分布情况和每一路段的出行时间τa(t);
(2)载入当前滚动周期的交通需求Drs(t),考虑预计出行时间τa(t)、出行距离、出行经济花费计算各O-D对之间可行路径的出行费用Crsp(t);
(3)由式 (1)求得系统最优诱导策略hrsp(t),即每一O-D对各可行路径上的交通流分布,根据该诱导策略计算各路段相应的出行者数量Xa(t)和各路段上的预计出行时间τa(t);
(4)τa(t)更新后重新计算 Crsp(t),再由式 (3)和式(2)求得每一O-D对的出行者的路径选择概率prsp(t)和路网上的实际流量分布h'rsp(t);
(5)按照h'rsp(t)将车流量分配到整个路网上,对路网数据进行更新,得到实际的各路段上的出行者数量X′a(t)和各路段上的旅行时间τ′a(t);
3 仿真实验
3.1 实验设计
本文在仿真实验中应用的路网结构是在交通诱导研究中广泛应用的Sioux-Falls网络,如图1所示。它是一个由24个节点、76条边和528个O-D对组成的中型路网,应用在该路网上的路段参数 (路段长度、路段容量等)以及初始条件下的输入数据 (交通需求O-D矩阵、自由流旅行时间等)均引自文献 [11]。为了验证本文所提出模型的正确性与有效性,分别对3种不同的交通诱导原则建立数学模型并在微观交通仿真软件VISSIM接口VC6.0的仿真平台下进行实验。首先是遵循用户均衡原则的交通诱导模型UE,其中出行者的路径选择行为不受交通管理者的影响,总是选择当前条件下的最优路径;其次是遵循系统最优原则的交通诱导模型SO,其中出行者的路径选择行为完全服从交通管理者的诱导信息;最后是本文提出的基于Stackelberg-Logit博弈的交通诱导模型S-LGM,其中出行者与交通管理者之间通过进行多阶段Stackelberg博弈来求解一种双赢局面。
在仿真实验中,通过调整LF的数值来实现路网交通状况由畅通 (LF1.0)到饱和 (LF2.0)到拥堵 (LF3.0)的渐变过程,并对不同拥堵程度下3种交通诱导模型的求解结果做出分析与比较。实验中滚动时域总时长100分钟,每一滚动周期时长5分钟。式 (3)中改进Logit模型的参数k取值3.5,即路径选择概率对路网交通状况的敏感度适中。S-LGM中的绕行检测参数取值2.0,即针对同一O-D对求解的新路径与原路径长度比值大于或等于2.0时认为发生绕行,拒绝新路径。迭代次数上限N=100。试验所用硬件环境:联想系列电脑,处理器:Intel(R)Pentium(R)Dual CPU E2180@2.0GHz;内存:2.0GB。
3.2 实验结果与分析
3种交通诱导模型,求解的结果如图2~图5所示。各图中横轴均为交通需求加载系数LF,纵轴分别为路网中所有出行车辆的总出行距离 (km)、总出行时间 (h)、总出行延迟 (h)和平均车速 (km/h)。
从实验结果图中可以看出,初始条件下,路网上车流畅通,3种诱导策略所求得的结果趋于一致,随着LF的增大,交通需求量增加,路网逐渐拥挤,各诱导策略的求解结果之间的差别也增大。当LF<2.0时,路网中各评价指标的数值随着LF的增大而明显变化,当LF>2.0时,路网交通状况逼近负载上限,因而各评价指标的数值变化幅度减小,趋于稳定。图中,SO所求解的总出行时间最小、总出行延迟最小、平均车速最大,但系统中绕行现象较多,因此总出行距离较大,在交通状况十分畅通时,遵循系统最优原则的诱导模型作用最大。相比之下,UE所求解的总出行时间最大、总出行延迟最大、平均车速最小,但因出行者总是 “自私地”选择出行费用最小的路径,因而总出行距离较小,其求解结果并不理想,但是最接近实际情况下的城市交通流分布模式。而S-LGM的求解结果总是居于上述两者之间,是出行者与交通管理者之间博弈的结果,所求的是SO与UE之间的某种平衡状态,它不仅克服了SO过于理想化的问题,具备现实的可行性,而且其求解的结果也明显优于UE、趋于理想状态下的解,减少了路网中的车辆出行时间、提高了平均车速、降低了路网中的等待时延。
3种交通诱导模型的区别进一步体现在迭代收敛过程中,表1所示数据为3种模型在不同的交通状况条件下达到收敛时的迭代次数。
表1 3种交通诱导模型达到收敛时的迭代次数对比
由表1可得,不同交通状况下SO与S-LGM都可以通过一定次数的迭代达到收敛,而UE随着路网拥挤程度的增加求解效率大大降低,在LF=2.0时迭代次数达到上限,收敛失败。数据显示,S-LGM能有效求解诱导策略,保证交通诱导效率,稳定路网交通状态,即使路网交通流拥挤,也能快速达到收敛,降低发生交通拥堵的可能。
4 结束语
本文在对系统最优与用户均衡2种交通分配原则做出分析与研究之后,针对系统最优原则过于理想化、用户均衡原则诱导效率低等缺点,提出了基于Stackelberg-Logit博弈的交通诱导模型,并通过仿真实验来验证其正确性与有效性。通过在交通诱导模型中引入Stackelberg博弈,实现了系统最优与用户均衡之间的博弈协调,求解了交通管理者与路网出行者双赢的结果。其求解效率远高于基于用户均衡原则的诱导模型,且出行者的路径选择行为比基于系统最优原则的诱导更符合实际。实验结果表明,该交通诱导模型可以有效提高交通运输质量、优化路网交通系统性能、实现路网上的车流均衡。然而,文中的路网出行者被当作一个集体参与博弈过程,忽视了出行者之间因竞争相同路网资源而产生的利益冲突关系,如何进一步体现出行者路径选择的多样性将是本文下一步工作重点。
[1]Chorus CG,Arentze T,Timmermans,H.Traveler compliance with advice:A Bayesian utilitarian perspective [J].Transportation Research Part E:Logistics and Transportation Review,2009,45 (3):486-500.
[2]Parvaneh Z,Arentze T,Timmermans H.A simulation model assessing impacts of advanced information and communication technologies on activity-travel patterns [J].Procedia-Social and Behavioral Sciences,2011,20:236-243.
[3]Eran Ben-Elia,Roberta Di Pace,Gennaro N,et al.The impact of travel information’s accuracy on route-choice [J].Transportation Research Part C:Emerging Technologies,2013,26:146-159.
[4]Ben-Elia E,Erev I,Shiftan Y.The combined effect of information and experience on drivers route-choice behavior [J].Transportation,2008,35 (2):165-277.
[5]Chorus CG,Arentze TA,Timmermans HJP.Traveler compliance with advice:A Bayesian utilitarian perspective [J].Transportation Research Part E,2009,45 (3):486-500.
[6]Waller S Travis,Athanasios K Ziliaskopoulos.A combinatorial user optimal dynamic traffic assignment algorithm [J].Ann Oper Res,2006,144:249-261.
[7]Szeto WY.Cooperative game approaches to measuring network reliability considering paradoxes [J].Transportation Research Part C,2011,19 (2):229-241.
[8]ZHOU Yuanfeng,ZHANG Haozhi,ZHANG Kun,et al.Research on dynamic traffic information strategy model based on game-based coordination [J].China Journal of Highway and Transport,2009,22 (1):89-96 (in Chinese).[周元峰,张好智,张琨,等.动态交通信息策略博弈协调模型研究 [J].中国公路学报,2009,22 (1):89-96.]
[9]YUAN Changwei,YU Xinxin,LU Huapu,et al.Road network equilibrium traffic assignment method based on stackelberg game [J].China Journal of Highway and Transport,2009,22 (5):89-93 (in Chinese).[袁长伟,蔚欣欣,陆化普,等.基于斯塔克伯格博弈的路网均衡交通分配方法 [J].中国公路学报,2009,22 (5):89-93.]
[10]Burger M,Van Den Berg M,Hegyi A,et al.Considerations for model-based traffic control [J].Transportation Research Part C,2013,35:1-19.
[11]Bi Yu Chen,William HK Lam,Agachai Sumalee,et al.Vulnerability analysis for large-scale and congested road networks with demand uncertainty [J].Transportation Research Part A,2012,46 (3):501-516.