基于Stackelberg博弈的混合路网协同管控模型

2023-09-19郑彭军邹亚杰

同济大学学报（自然科学版） 2023年9期

杨航，郑彭军，邹亚杰，翟犇，吴兵

（1. 宁波大学海运学院，浙江宁波 315211；2. 同济大学道路与交通工程教育部重点实验室，上海 201804）

一个成熟的道路交通系统往往体现为混合路网（mixed network）形式［1］，包含快速路路网与普通道路网两个子路网，二者相互影响构成有机整体。我国不少城市选择在一定规模的城市路网基础上建设快速路，这给快速路与周围普通道路的协调带来了更大的难度［2］。道路交通供需矛盾日益突出的直接表现是连续流和间断流在快速路和普通道路间的转换不畅导致混合路网拥挤“瓶颈”形成以及整体通行效率的下降［3］。供需矛盾的日益突出是造成混合路网拥堵的表面因素，深层次原因在于两个子路网之间缺乏成熟稳定的协同管控机制。由于目前两个子路网的管控隶属于不同部门，信息实时性共享的不足导致二者间的管控相对独立，缺乏整体层面的协同整合。当交通需求波动较大时易导致局部拥堵的快速扩散，从而引发更大规模的区域拥堵［4］，由此带来的交通拥挤对本已不堪重负的城市交通系统来讲是雪上加霜，因此对混合路网进行同步协同研究是非常有必要的。

区域协同的研究经历了从单点交叉口、交叉口群、交通通道到区域路网直至混合路网的过程。现有研究主要集中于快速路与相衔接普通道路交叉口［5］、由快速路与相衔接主干道组成的交通通道（traffic corridor）等的协同优化［6］等。在出行需求日益增长的大背景下，针对交通通道以及一定规模路网的交通流运行管理的研究引起了学者们的关注。研究涉及的最优方案一般由快速路与普通道路的最优策略组合产生，而二者在优化目标以及约束条件上存在不小的差异性。路网各自最优方案易受到另一个路网的输出流量影响，使得实际约束条件与假设约束条件差异过大，由此引起车辆在关键节点处的排队溢出或回流［7］。这样的非集中化管理模式很难在“一张路网”的层面实现同一时空维度下的同步优化，从而造成“1+1＜2”的结果［8］。

本文针对混合路网的异质性交通流特征，基于同一时空维度剖析混合路网中交通管理者和道路用户的角色定位，通过构建角色交换函数，在优化闭环中增加了用户对于策略更新的实时反馈，并基于模型预测控制（model predictive control，MPC）架构建立起管理者与用户角色可变的混合路网集中化协同优化模型，改变了现有优化逻辑下管理者与用户之间单一的领导-跟随关系，改善了运行管理中时常出现的“各自为战”情况，可为城市道路交通制定相关决策提供理论依据。

1 问题抽象与解析

混合路网协同优化过程如图1 所示，对于道路驾驶者来说，混合路网中存在着多个驾驶行为决策点（图中虚线框），包含交叉口和匝道口两类，道路用户可以根据个人驾驶经验和交通管理者发布的最优方案等信息决定自己下一步的路径选择。当用户选择新的路径之后，交通流将会在各条路径上进行重新加载。与此同时，交通管理者每一次更新最优策略之后，相关的管控方案就会对应改变进而引起交通流重新分布。

图1 混合路网协同优化过程Fig. 1 Integrated optimization procedure for mixed networks

从协同优化过程中可以看出，路径选择和控制策略的协同是混合路网协同的核心，因此混合路网协同管控问题的实质是交通分配和信号控制的组合问题［9-11］，简称CAC（combined traffic assignment =signal control）问题。把协同问题抽象成优化目标为混合路网出行成本下降、约束条件为交通流运行管控约束的数学问题。CAC问题经过多年的研究，已经具备了较为成熟的求解思路和建模办法，对应的求解过程见图2。

图2 交通控制与交通分配组合问题的求解框架Fig. 2 Regular solving of CAC problem

经典CAC问题的求解架构包含三个必要成分，分别是路径选择方案、路网底层加载模型、控制优化策略［12］。对于CAC 问题的求解方法大体上可以分为全局优化模型和迭代过程（iterative optimization and assignment procedure，IOA Procedure）两类［13］。随着路网范围的不断扩大以及优化复杂性的不断增加，全局优化模型在CAC问题求解中的使用比重逐渐上升，采用双层规划模型是其中较为广泛使用的方法：上层是路网信号优化，下层则是交通分配，上下层间存在严格的领导-跟随关系，即优化过程以管理者发布的优化方案为主导，而将用户的反馈参数作为上层的衍生变量。这种管控模式下的交通状态如若恶化，管理者可能存在以下困惑：是更新后的管控策略不适应当前的交通需求？还是很多用户并未采取最优方案，进而导致交通状态没有往预期的方向发展？图3 对混合路网CAC 问题进行进一步剖析，混合路网协同管控的过程是体现用户利益的用户均衡与体现管理者策略的系统最优间不断寻找平衡点的过程，因此其本质是管理者与用户间的动态博弈，需基于二者间角色关系建立起不局限于绝对领导-跟随关系的统一模型。

图3 混合路网CAC问题求解思路Fig. 3 Resolution idea of CAC problem in mixed networks

2 混合路网协同优化模型构建

Model 中领导者占据强有力的决策位置，跟随者要对领导者宣布的策略和方案作对应的反应和选择。在有信号控制的路网中，管理者位于上层的双层规划模型［15］的关键变量符号及对应含义如下：Lj为出口在交叉口的路段集合；Λ 为上下层的共享变量；xa为路段a 上的流量；qrs为OD 对(r，s)上的总流量需求为OD 对(r，s)上路径k′的流量；为0-1 变量，路段a 在OD 对(r，s)的路径上时，，否则为进口道的绿信比；分别为进口道的最大和最小容许绿信比：

2.1 管理者-用户角色可变的Stackelberg模型

Von Stackelberg［14］提出的Stackelberg Leading

式（1）—（9）中：Tctr为第k 个时间区段的持续时长；I为入口匝道数量，i 为入口匝道编号； J 为出口匝道数量；j 为出口匝道编号；Z 为混合路网内快速路总数； z 为快速路编号； L 为快速路元胞自动机模型（ACTM）划分出的元胞总量；l 为ACTM 中的元胞序列编号；xl(k)为第k个时间区段内元胞l中的车流量；nz(k)为第k个时间区段内快速路z中的车流量；non，i(k)为第k个时间区段内入口匝道i中的车流量；noff，j(k)为第k个时间区段内出口匝道j中的车流量；nz，0为初始时刻快速路z中的车流量；xl，0为初始时刻元胞l中的车流量；non，i，0为初始时刻出口匝道i中的车流量；noff，i，0为初始时刻出口匝道j 中的车流量。当信号控制方案实施一段时间后，一开始作为领导地位的管理者的主观愿望：路网交通费用总体最小往往会逐渐偏离所设定的优化目标。为了描述管理者与用户在组合问题中的非对称关系，建立用户位于上层的双层规划模型：

2.2 管理者-用户的角色交换函数

本文提出的角色变化是通过不同交通状态下系统最优与用户均衡的优化模式切换实现管理者与用户间的动态博弈过程。采用用户服从率表征不同OD 对内各路径所承担的流量压力是否处于相对均衡状态，基于设定的阈值找出控制策略无法满足当前需求的时刻并在该时刻点改变领导-跟随关系，设计思路如图4所示。

图4 基于用户服从率的管理者与用户间的信息交互Fig. 4 Communication between authority and users based on compliance rate

如均衡性指标超出设定阈值，则对管理者和用户的领导-跟随关系进行转换，否则继续采用原有优化模型，保持原角色关系和对应的领导-跟随关系不变。研究拟采用的角色变化机制设计如下（图5）：

图5 混合路网管理者与用户间的角色变化机制Fig. 5 Level-change mechanism between authority and users in mixed networks

在Yin和Yang［16］提出的logit模型基础上进行改进，提出新的拓展式计算用户服从率：

式中：ηr(t)为t时刻从r节点行驶至对应终点的预测行程时间；τrs(t)为t 时刻路径r-s 上的出行成本Γ(r)为与节点r相衔接的节点集合。为了更好地模拟普通道路间断流的特征，进一步将普通道路上的信号延误和出行时间的动态性特征考虑在内，建立超路径法（hyper-path）对时刻各路径的预测行程时间值进行实时更新：

式中：μh′r(t)为t 时刻从上游节点h′行驶至下游衔接节点r 在r 上的临时标记值（出行成本）；ϕωl′r′rs为t 时刻路径r-s 上交叉口r′处由信号灯引起的延误大小；ωl′r′为交叉口r′第l′相位的时长；ηrs(t)为t 时刻从r 节点行驶至下游节点s的预测行程时间。

2.3 集中化协同管控优化模型

在角色交换函数基础上设计集中化优化框架，通过模型预测控制（MPC）实现角色变化过程及整体优化模型的迭代、求解。混合路网集中化协同管控优化模型的MPC运行原则如图6所示。

图6 混合路网集中化协同优化模型Fig. 6 Centralized coordinated optimization model for mixed networks

3 模型结果分析

3.1 案例

3.1.1 测试路网

算例采用的混合路网网络结构如图7所示。该混合路网是在Van den Berg［18］所采用的路网结构基础上拓展而来，在原基础上去掉了无信号控制交叉口，全部改为信号控制交叉口，路网以位于荷兰首都、欧洲第三大城市阿姆斯特丹市中心的一片同时包含城市快速路（高架形式）、普通道路（均位于地面）的路网为基础，符合大城市要求和混合路网的所有结构特征，因此可以作为算例来说明本文所设计的角色可变优化模型的有效性。

图7 混合路网测试场景Fig. 7 Testing area of mixed network

路网总共设置有两个OD对，每一OD对上可供用户选择的出行路径如表1 所示。算例中，快速路的起点初始用户流量需求设置为3 000 veh.h-1，而普通道路的起点初始用户流量需求设置为1 000 veh.h-1。在两个OD 对的起始点O1和O2分别设置有两个可变信息板（VMS1和VMS2）用来显示和传达路网管理者给出的当前阶段的建议最优出行路径信息。

表1 算例不同OD对的路径集合Tab. 1 Set of OD pair in case study

根据Papageorgiou等［19］的研究结论，若用户对于管理者指示信息的执行人数比例在0.6～0.7之间时，则认为路网在该OD对各路径上的流量分配是均衡的，因此本文将0.65作为角色变化激发阈值，变化过程如图8所示。图中，VMS表示可变信息板。

图8 算例对应的管理者与用户间的角色变化过程Fig. 8 Level-change procedure of authority and users in case study

3.1.2 对照模型设计

为充分说明LC-MPC 模型的有效性，通过经典模型、相关额外约束、控制逻辑相组合搭配的模式，构建6个对照模型（S1～S6）。本文设计的模型对应表2中的S7。

表2 设计模型和对照模型Tab. 2 Designed model and its benchmarks

S1 将经典ALINEA 控制算法［20］用于两个入口匝道，匝道控制器决定了能够驶入快速路的车流量fon，l(k+1)，该值与当前元胞l内实际累计车流量和预期累计车流量的差值xl(k)-xexp正相关，计算表达式如下：

S2 在S1 基础上引入了入口匝道处的排队长度约束，以避免入口排队车流溢出加剧相衔接普通道路和交叉口的拥堵。排队长度约束如式（24）。通过引入控制参数ψ，将入口匝道处的排队长队与最大排队长度non，i，max的比值始终控制在一定范围内，降低快速路入口匝道的排队长度溢出至普通道路的概率。Mon，i，l，max为属于区域i的入口匝道元胞l中能够进入的最大车辆数，veh。

S3 中匝道控制器采用的控制算法与式（23）相同，S3 中MPC 仅针对地面道路中的流量变量进行优化迭代，而出入口匝道流量都由式（23）单独计算决定。S4 在S3 基础上采用了加入排队长度约束的式（24）。S5 分别在快速路网和普通道路网内采用MPC，但不考虑二者间的协同，这相当于把CAC 问题分解成了两个独立的子问题：①仅通过入口匝道控制器降低快速路的总体出行成本；②仅通过路径选择模型降低城市普通道路的总体出行成本。S6在S5 的基础上加入了快速路网与普通道路网间的协同因素，其中匝道控制器仅通过调整入口匝道处的匝道控制率法对当前目标函数中的快速路部分的出行成本进行优化，而xa和ta则作为前一个滚动窗口的输出变量，在当前MPC 滚动窗口中成为预设常量。

3.2 模型结果分析

基于式（1）—（24）对算例路网总体出行成本进行优化，对照组模型和LC-MPC 模型的对比结果见表3。

表3 算例不同模型的优化结果Tab. 3 Optimization performance of all models

在所有7个模型中，设计模型LC-MPC的模型表现最优，将路网的总体出行成本降至8 013.5。而因为同样加入了快速路与普通道路间的协同成分，CD-MPC的模型表现是所有模型中次优的。在实现了完全集中化的同步协同优化之后，S7比起S6在总出行成本上降低了7 %。S5模型表现最为逊色，比起LC-MPC有着接近四分之一的优化差异，非集中化非协同模式下的优化框架在置入集中化的MPC中央控制器之后，在优化逻辑上可能存在相互矛盾的情况，因此MPC在这个场景下非但没有起到优化作用，反而产生了负优化，这对于实际运行管理有着很大的提醒和借鉴意义。目前很多城市在路网协同管控（不局限于大城市混合路网）中均采用的类似S5的方案，这种管控模式在某种程度上会加剧路网拥堵，从而进一步降低用户对管理者发布的诱导信息的信任程度，导致用户服从率下降，带来的后果就是管理者无法判断当前路网拥堵究竟是管控策略本身不合理造成的，还是较多用户不采纳建议的出行路径而造成的，由此形成恶性循环。此外，添加入口匝道处的排队长度限制确实可以有效降低总体路网出行成本，即使是在非集中化的优化框架中该约束同样有正优化作用。

图9展示了路网协同优化过程中VMS1和VMS2上的用户服从率值随时间的变化过程，初始时刻二者均设定为0.8。图10显示了不同时刻系统根据用户需求和均衡阈值所选取的对应角色关系。结果显示，在第一次角色变化发生之前，两块可变信息板对应的用户服从率值均从开始的0.8缓慢降至0.6左右，这意味着如果不采取任何措施任由交通状态自行演化和发展，即便是未在高峰时段内，用户服从率也是很难维持在一个稳定范围内。而在第一次角色变化发生之后，两块可变信息板的用户服从率各自经历了一小段时间范围内的涨幅，分别在t=8和t=10时刻的末尾达到了接近0.7的水准，而在这之后一直到混合路网交通总流量在t=15时刻达到峰值之前，两块可变信息板上的用户服从率值均是逐渐下降。这意味着在进入高峰时段之前，相当一部分比例的用户可能更愿意根据自己以往的经验和感知行程时间来选择出行线路，而非选择管理者的建议最优路线，这也很可能是现实中造成用户服从率下降和高峰时段内拥堵进一步扩散的主要原因之一。当进入高峰时段之后，MPC中央控制器重新选择了管理者-用户的系统最优模式，在这一阶段中用户更多地需要根据管理者发布的建议最优路径出行。第二次角色变化之后，两块可变信息板的用户服从率均上升至0.75左右，而在这之后一直到第三次角色变化时刻t=24之前，二者的用户服从率均缓慢下降至0.6左右，这一变化与拥堵消散有关，当拥堵程度缓解之后驾驶者对于感知行程时间和驾驶经验的依赖性有所上升，从而造成用户服从率的降幅。

图9 VMS1和VMS2的用户服从率分布Fig. 9 Distribution of compliance rate on VMS1 and VMS2

图10 管理者与用户的角色变化过程Fig. 10 Level-change procedure between authority and users

从图9和图10可以看出，在加入管理者与用户的角色变化机制之后，对于提升管理者发布信息的用户服从率、进而提升整体路网的性能有直接的促进作用。角色变化的影响依然体现在接近高峰、高峰以及拥挤消散这三个时段。在这三个时段中，道路交通状态变化较快，因此作为均衡性指标的用户服从率在这个时段内波动也随之较大，若不采取主动管控措施，该指标对应数值会不可避免地呈现出下降趋势，而角色变化机制的存在则在很大程度上缓解了这一过程，使得VMS1和VMS2的用户服从率在下降至0.6左右时均会获得不小的提升，从而缓解了路网不均衡性的扩散。同时，在加入管理者与用户的角色可变机制后，路网的总出行成本亦有较大幅度的下降，说明角色可变对于路网运行的效率性和均衡性都有正效应。