基于博弈论的无信号交叉口冲突消解方法

2021-11-06马庆禄聂振宇

重庆理工大学学报(自然科学) 2021年10期

马庆禄，聂振宇

(重庆交通大学交通运输学院，重庆 400074)

无信号交叉口一直是交通事故的高发地点。相比灯控交叉口根据信号灯对不同相位车流引导实现有序通过，当前的无信号交叉口通行权冲突消解方法主要包括可接受间隙模型、运动学矢量图法和冲突表法[1-3]。但这些方法较少考虑人的主观因素，基于人的完全理性假设，过于理想化。

近年来，不断有学者应用博弈论解决交通领域问题，在交叉口通行权冲突模型中考虑驾驶人博弈行为的影响。邵雯[4]通过交互驾驶实验详细讨论了视距范围对驾驶人驾驶策略的影响，发现驾驶人基于自身所处冲突环境捕捉的更多是距离信息，并证实了驾驶人对实际道路环境认知的偏差。成英等[5]以驾驶人速度改变为策略，考虑不同类型驾驶人的驾驶行为差异，通过交叉口的收益分析达到的纳什均衡建立冲突消解模型，降低通行权冲突率，并对比冲突表法，在确保安全的前提下提高了交叉口的通行效率。郭伟等[6]考虑驾驶人通过交叉口的时间和安全收益建立收益函数，双方驾驶人在博弈中寻求自身收益最大化，最终实现了交叉口的稳定状态。这类模型都基于完全信息下的博弈，依赖驾驶人的理性程度，在博弈时做出准确判断以达到纳什均衡状态。刘小明等[7]在驾驶行为模型中引入博弈论复制动态理论，描述驾驶人在重复博弈中驾驶策略的改变，并验证了演化博弈论在交叉口驾驶人行为模型中应用的合理性，该模型充分考虑了驾驶人的理性程度，但对于交叉口驾驶人行为最终呈现的稳定状态并没有说明。张邻等[8]研究无信号交叉口冲突中，分析交叉口驾驶人行为所达成的纳什均衡状态只考虑了纯策略的单一纳什均衡状态，并未考虑由于驾驶人理性程度不同而有可能达成的混合策略纳什均衡状态，对这种混合策略纳什均衡状态下的冲突率也没有进行分析。

综上所述，无信号交叉口驾驶行为博弈所达成的单一纳什均衡稳定状态研究已足够深入，但研究模型普遍缺少对驾驶人理性程度的描述[9]，不同理性程度的驾驶人在面临无信号交叉口通行权冲突时会形成多个稳定状态，造成模型不适用于实际交叉口的情况，且对于交叉口均衡状态的研究结论无法指导无信号交叉口的交通规划应用[10]。因此，通过研究无信号交叉口驾驶人行为博弈，分析无信号交叉口所呈现出的复杂稳定状态，通过交通设施规划来影响驾驶人的博弈策略，使交叉口达到冲突率较低的均衡状态。

1 无信号交叉口博弈驾驶模型

1.1 驾驶行为分析

无信号十字交叉口面临交叉冲突时双方驾驶人通常会有2种选择，先行通过交叉口和避让对方车辆后通过交叉口。与之对应的是2种驾驶行为策略。加速行驶争取先通过交叉口和减速避让对方车辆后通过交叉口。前一种策略会使其获得时间上的更好收益，后一种策略在时间上的收益会降低但增加了行驶安全性的收益。基于以上情形的双方驾驶员行为博弈是一个2×2的非合作博弈[11]。

1.2 博弈分析

A和B均为自然人，分别是由南向北和由西向东行驶车辆的驾驶人。两车沿当前道路行驶至脱离视野遮挡区域，发现对方车辆并预计到可能的通行权冲突。如图1，A和B所驾驶车辆的当前车速分别为vA和vB，在只考虑两车垂直交叉冲突的情况下，无信号交叉口A和B驾驶方向的停车视距分别为LA和LB，停车视距和当前车速很大程度上决定了驾驶人的决策。驾驶人在距离冲突点一定距离处做出决策，改变自身的驾驶策略。

图1 无信号交叉口驾驶人博弈示意图

双方驾驶员的目的都是在确保安全的前提下用较短的时间通过交叉口，通常会采取加速先行通过交叉口或减速避让对方车辆后通过交叉口。驾驶人A的加速和减速策略分别为SA1和SA2，驾驶人B的加速和减速策略分别为SB1和SB2，定义双方的策略集S={SA1，SA2，SB1，SB2}。值得注意的是，由于车辆性能不同，加减速的能力不同，因此并不认为A所驾驶的车辆加速策略SA1和B所驾驶的车辆的加速策略SB1是相同的。同理，策略SA2和SB2也不相同。

双方驾驶员在特定的策略组合下预计得到收益U={u1，u2，…，un}，其中n=8。如图1，驾驶员的期望收益构成不仅包括安全通过交叉口的时间收益，还包括产生冲突后的时间损失。例如，双方距离冲突点的距离相同、车辆的加速性能相近，A采取了SA1，B采取了SB1，双方都选择在临近交叉口加速行驶以抢先通过交叉口，就有一定概率发生冲突。由于驾驶人的有限理性，其在冲突前会选择紧急刹车或其他避险行为，所产生的时间损失也包括在期望收益中。

1.3 收益分析

无信号交叉口驾驶人博弈收益由无冲突通过冲突点的时间和发生冲突后损失的时间两部分构成。其中，无冲突通过冲突点的时间为t，时间越短则收益越大，故取时间的负数作为时间部分的收益。发生冲突后损失的时间为d，通常情况下认为d的数值是大于t的，因为无论是交叉口冲突、交织区冲突或是人类社会其他竞争，激烈冲突所造成的损失都是严重的。损失的利益高于所争夺利益，这也符合交叉口冲突的通常情况。

由于驾驶水平参差不齐和理性程度有差异，因此基于传统经济学中的完全理性假设在交叉口驾驶人博弈中并不成立[12]。在交叉口驾驶行为博弈中，认为驾驶员的自然人假设符合不完全理性，驾驶员并不能准确判断自己及对方的收益，而是通过不断学习、策略的调整及经验总结采取决策，最终达到的群体平衡是不断重复博弈形成的[13]。此博弈的矩阵式表述如图1所示，对于p和1-p，p∈[0，1]，分别表示驾驶人A所示意方向车流中采取策略SA1和SA2的驾驶人比例(为便于理解，也可认为是驾驶人A采取2种策略的概率)；对于q和1-q，q∈[0，1]，分别表示驾驶人B所示意方向车流中采取策略SB1和SB2的驾驶人比例(同样可以理解为驾驶人B采取2种策略的概率)。

驾驶人A采取纯策略SA1和SA2的收益分别为

(1)

驾驶人A采取SA1和SA2的概率分别为p和1-p，那么A的平均期望收益为

E(A)=p·E(SA1)+(1-p)E(SA2)=

p[q·u1+(1-q)u3]+

(1-p)·[q·u5+(1-q)u7]

(2)

同样，驾驶人B采取纯策略和SB2的收益分别为

(3)

驾驶人B采取SB1和SB2的概率分别为q和1-q，那么B的平均期望收益为

E(B)=q·E(SB1)+(1-q)E(SB2)=

q[p·u2+(1-p)u6]+

(1-q)[p·u4+(1-p)u8]

(4)

根据复制动态的思想[14]，驾驶人群体A和B中采用了收益较低策略的驾驶人通过学习会在下次通过交叉口时选择收益较高的策略，因此在群体中不同策略的驾驶人比例会发生变化。在驾驶人群A和B中，p和q的变化速度分别为

(5)

该微分方程就是复制动态方程。从式(5)可以看出，群体中采用某种策略的驾驶人比例变化速度与其比例和这种策略的收益与策略的平均收益差值有关。

1.4 博弈均衡分析

前4种均衡状态都是博弈中的强纳什均衡[16]，下面证明第5种均衡策略(p*，q*)也是纳什均衡，证明之前先引入演化博弈论中进化稳定的概念[17]。

定义1如果一个双方博弈中，策略S满足①、②两个条件

①E(s，s)>E(s，s′) ∀s′

②E(s，s)=E(s，s′)，E(s，s′)>E(s′，s′)

∀s′≠s

那么称策略S是一个进化稳定策略[18]。

图2 驾驶人A和B的5个博弈均衡状态的策略组合示意图

在区域p=[0，1]，q=[0，1]内，所有双方驾驶策略组合在不断重复博弈中都会趋向于(p，q)=[(0，0)、(0，1)、(1，0)、(1，1)、(p*，q*)]的均衡状态，某个交叉口呈现出的稳定平衡状态是驾驶人行为策略不断重复学习调整的结果而非一次博弈的结果。

2 实例分析

2.1 无信号交叉口属性

以辽宁省本溪市平山区一中街与冯大中路交汇的无信号交叉口为例，交叉口构造如图3所示。

图3中，车辆A所在的冯大中路为东北-西南走向，双向两车道，日均交通量为340 pcu/h，平均车速为11 m/s；车辆B所在的一中街为西北-东南走向，双向两车道，日均交通量230 pcu/h，平均车速11 m/s。两条道路交叉角度为93°，由于沿街构筑物的遮挡，两条道路的停车视距经实测均为30 m。因为道路交通量较小，各方向车流在交叉口处寻找间隙通过。当地交通管理部门在该交叉口不设置优先权及交通管理措施。

图3 一中街与冯大中路交汇无信号交叉口构造实景图

2.2 实验参数

为模拟无信号交叉口大多数情况的两车博弈情形，设定两车在距离冲突点5～100 m范围内进行博弈。为便于研究，忽略车辆性能对驾驶人操控的限制，车辆的行驶动态可以自由调节，即驾驶人驾驶车辆行驶至交叉口停车视距时即可做出驾驶策略改变，博弈距离在数值上等于停车视距。车辆正常行进(除避险行为)速度限定在10～60 km/h，两车驾驶人可以在此范围内控制车速。

当驾驶人A和B所采取的策略计算出到达冲突点的时间差小于0.5 s，判定为两车发生冲突，认为驾驶人A和B在即将发生碰撞时均会采取紧急避险行为，由此带来的收益损失为d。当两车均采取加速通过交叉口策略的紧急避险时，d=10；当两车均采取减速通过交叉口策略的紧急避险时，d=2；当一方采取加速通过交叉口，另一方采取减速通过交叉口策略的紧急避险时，d=5；如果未发生冲突，d=0，由此得到收益阵列如表1所示。

表1中，vA和vB分别为驾驶人A和B决策时所驾驶车辆的初始速度。考虑到不同类型车辆的机械性能不同，将驾驶人A、B所驾驶车辆加速度aA+和aB+、刹车减速度aA-和aB-离散为±2、±1.7、±1.4、±1.1、±0.8、±0.5和±0.2 m/s2。

表1 驾驶人博弈收益阵列

驾驶人行为模拟软件基于3D可视化平台Thing.js搭建，模拟现实中驾驶人在无信号交叉口面临通行权冲突时的决策，软件界面如图4所示。

图4 不同停车视距条件驾驶行为模拟效果

软件模拟驾驶人在给定停车视距、车辆初始速度和道路限速的情况下，遇到可能的通行权冲突时所采取的驾驶策略。实验中共模拟20组9 680次博弈，对每次博弈实验的碰撞情况、通过交叉口时间以及双方收益进行记录汇总。

2.3 实验结果与分析

将停车视距由5 m按增量为5 m增至100 m。在无信号交叉口驾驶人群体最终达到的稳定状态中，驾驶人选择策略比例会发生变化，群体达到的平衡状态也在变化。不同停车视距驾驶人群体策略变化曲线见图5。

图5 不同停车视距驾驶人群体策略变化曲线

图5中，NE=1时双方均采取加速策略即S={SA1，SB1}。此纳什均衡下，A、B都认为加速策略对自己更加有利，随着停车视距的增加，驾驶人群中更多比例的人会采取加速策略以争取先通过路口；NE=2和NE=3时，其中一方采取减速策略，另一方采取加速策略，即S={SA1，SB2}和S={SA2，SB1}，随着停车视距的增大，驾驶人群中很难达到这2个最理想的纳什均衡；NE=4是双方都选择了减速避让策略，即S={SA2，SB2}，此种策略多出现在停车视距较短的时候，当L>40时，驾驶人群中也无法达成此纳什均衡点；ESS为进化稳定均衡状态的混合策略，驾驶人群体中一定比例的人选择了加速策略，另一部分人选择了减速策略。

分析驾驶人群体达到混合策略的平衡状态。在不考虑驾驶人群体速度分布的情况下，不同停车视距下计算得p和q值。由于是对称博弈且LA=LB=L，故仅以p值进行讨论。

由图6(a)～(i)所示的9组仿真实验中不同停车视距下p值的正态分布情况可见，停车视距较短和较长的交叉口实验中，驾驶人群体对冲突收益的判断往往更加一致，倾向于达成纯策略的纳什均衡。如图6(e)，当停车视距为50 m时，驾驶人群体中对于冲突收益的判断由于驾驶人认知水平不同会出现分歧，容易达到混合策略进化稳定状态(ESS)；随着停车视距的增加，不同停车视距下p的平均值不断增大，意味着驾驶人群体中选择加速抢先通过交叉口策略的比例增大。

图6 不同停车视距混合策略纳什均衡状态下p值的正态分布

图7中，随着停车视距增加，混合策略平衡状态下冲突率也在上升。因此，增加无信号交叉口可视距离或停车视距反而会激发驾驶人采取加速抢先通过路口策略的博弈心理，造成更多的通行权冲突，不仅影响交叉口的通行效率，也带来了安全隐患。

图7 不同均衡状态的冲突率直方图

为进一步探讨驾驶行为与冲突率之间的关系，由图7可知，当两车博弈距离为40 m时，总冲突率是最低的；当停车视距很短时，总冲突率较高，因为当两车驾驶人发现对方车辆时车距过近，无论双方采取什么样的策略都很容易发生冲突；由于博弈距离过近，即使达到NE=4即S={SA2，SB2}的纳什均衡策略，还是有很大比例发生冲突。随着停车视距的不断增加，总冲突率有一定幅度的上升，因为双方都已发现对方车辆，双方相距冲突点的距离较远，如果减速则损失了较多的时间收益，故双方驾驶人群体选择加速策略的比例会增加，以获得更大的时间收益，反而造成了冲突率上升的趋势。在进行的不同博弈距离的20组实验中，当停车视距为40 m时，综合冲突率为最低的3.699%，相比停车视距为30 m时的综合冲突率6.670%，优化停车视距后该无信号交叉口的冲突率降低了44.543%；优化停车视距后的无信号交叉口，驾驶人之间更倾向于达成相互避让的驾驶策略，停车视距为40 m时，不同速度车辆的驾驶人的决策会达成如图8(a)的纳什均衡状态。

优化停车视距后，当车辆以较接近的初始速度到达博弈距离时，驾驶人会达成混合策略的纳什均衡状态(NE=5)。这种混合策略的纳什均衡状态下有发生通行权冲突的可能。如图8(b)，随着博弈双方速度的增加，通行权冲突的可能性逐渐降低。可以看出，驾驶人群体的驾驶行为与道路条件存在着互动关系，驾驶行为受到道路条件和车辆初始状态的影响。