基于完全信息多人动态博弈的车道选择模型

2018-12-04王晓原刘振雪王建强王云云

计算机工程与应用 2018年23期

王方，王晓原，，刘振雪，王建强，孔栋，王云云

1.山东理工大学交通与车辆工程学院智能交通研究所，山东淄博 255049

2.清华大学汽车安全与节能国家重点实验室，北京 100084

1 引言

随着交通运输业的快速发展，汽车保有量迅猛增加，道路系统中的人-车-环境矛盾日益突出，交通安全问题日趋严重。其中，车道变换是影响交通安全的主要因素之一，而车道选择是车道变换的重要部分，需要在瞬间内综合分析各种信息、考虑多种因素的影响，车道选择的合理性直接关系到驾驶过程的安全与否。物联网技术能够实现人-车-环境多源信息的采集和共享，使驾驶员充分利用互联网技术了解和掌握其认知能力所达之外有关周围环境的有用信息，特别是涉及兴趣感应区车辆编组和交通实体的重要信息元素，可以为驾驶员的车道选择过程提供决策依据，提高驾驶员及车辆的主动安全。

关于换道模型的研究，文献[1]建立了在有交通信号控制、障碍物或是重型车辆等交通情况下的换道模型。文献[2]把车道变换分成任意性换道和强制性换道两种类型。文献[3-4]开发了一个基于模糊逻辑的英国高速公路交通流仿真模型，并将换道分为向左换道和向右换道两种情况。文献[5]提出了一个基于人车单元智能仿真的SITRAS模型。文献[6]通过分析驾驶员的心理-物理特性，建立了考虑驾驶倾向性时变规律的车道变换模型。汽车的驾驶过程本质上是一个动态博弈的过程，文献[7]提出了一种基于Stackelberg博弈理论的自主性车道变换模型，研究了目标车与目标车道后随车的换道博弈过程。文献[8]运用博弈论方法将高速公路驶入匝道路段汇入车辆及直行穿越车辆的相互作用解析为二人非零和非合作博弈，博弈双方通过估计对方车辆驾驶员将要选取的行动而采取最优行动策略。文献[9]基于对车辆换道行为的分析，以速度期望与安全期望的值作为驾驶员不同行为决策的依据，建立了基于动态重复博弈的车道变换模型。文献[10]建立了基于完全信息和不完全信息的二人非零和非合作博弈换道模型，通过分析目标车与目标车道后车的战略空间与收益函数，求解双方的最优反应策略。文献[11]探讨了换道临界冲突点处换道车与目标车道后车之间的非合作混合战略博弈，深入分析了博弈双方的收益及博弈存在的纳什均衡。文献[12]基于滚动时域的最优控制和动态博弈理论提出了一种将车道变换和车辆跟驰统一控制的预测方法。通过预测，确定车辆的离散期望车道序列和连续加速度，最小化其支付函数，以寻求纳什均衡解。

以往基于博弈理论的换道模型主要以换道车辆与目标车道后车为研究对象构建二人静态博弈模型，大多缺乏对驾驶倾向性及车辆编组关系、交通实体特征等时变动态因素的考虑，因而不能准确反映道路上行驶车辆间的相互作用过程。为了准确反映道路上车辆驾驶员的车道选择行为，本文在车联网背景下，以城市快速路基本路段上的集群车辆为研究对象，分析博弈各方所组成的车辆集群态势，并基于完全信息构建多人动态博弈车道选择模型。在此基础上，计算各驾驶员在不同车道选择策略下的收益，确定集群车辆在换道博弈过程中的子博弈精炼纳什均衡解，得到驾驶员的最优车道选择策略。

2 方法

2.1 车辆集群态势

交通态势指驾驶员兴趣感应区（指对车辆安全影响较大，驾驶员注意力分配较多的区域）内所有交通实体部署和行为所构成的状态和形势，包含交通实体所能感知到的所有信息[13-14]。本文重点以驾驶员兴趣感应区域内的车辆集群态势（车辆编组关系和交通实体特征）为例，进行驾驶员车道选择行为的研究。

2.1.1 车辆集群场景界定

本文以三车道场景为例，如图1所示，以目标车n1为研究主体（若不加特殊说明，本文以n1位于中间车道最复杂的情况为例进行说明），根据n1前保险杠所在的位置将其兴趣感应区划分为左前侧、左后侧、前侧、后侧、右前侧、右后侧各分区域。相应各分区域内的车辆分别记为左前车n2、左后车n3、前车n4、后车n5、右前车n6、右后车n7。

2.1.2 车辆集群态势的数学表达

车辆集群态势客观存在于整个交通环境中，并随着各交通要素的动态变化而变化。借用物理学中“力”的定义，可以分析编组关系中车辆间的相互作用。故目标车所在的车辆集群态势可以用力的集合抽象表示，若某一区域车辆对目标车选择此区域所在的车道起到了正面影响，那么该区域车辆对目标车施加的力为引力，反之为斥力。

图1 三车道下目标车所处车辆集群态势图

表1 不同作用力所对应的作用粒度

综合考虑编组关系内车辆的车型（小、中、大）、相对距离（危险、近、中、远）、相对速度（负大、负小、零、正小、正大）及目标车驾驶员的倾向性类型（激进型、普通型、保守型），利用模糊逻辑方法获取各分区域车辆对目标车的作用力，力的大小用作用粒度描述：斥力最大的作用粒度用−1表示，引力最大的作用粒度用1表示。不同力的作用粒度用其所在区间的一个实数表示，如表1所示。其中一条典型的语言模糊规则如下：若目标车为小型车、左后车为小型车、目标车与左后车的相对距离为远且相对速度为正大，则左后车对目标车的作用粒度为1。限于文章篇幅，其他模糊推理规则不再赘述。

在模糊逻辑方法[15]中，模糊变量及相应的模糊集合分别为：（1）目标车与周围车辆的相对距离Δdi，i=2,3,4,5,6,7，其可能的模糊集合：{危险，近，中，远}；（2）目标车与周围车辆的相对速度Δvi，i=2,3,4,5,6,7，其可能的模糊集合：{负大，负小，零，正小，正大}。相对距离及相对速度的隶属度分别如图2和图3所示。

图2 相对距离的三角形隶属度函数图

图3 相对速度的隶属度函数曲线

图中，D1、D2、D3、D4以及V1、V2、V3、V4分别是论域中模糊子集的边界值。由于驾驶员对距离的感受随速度的变化而变化，故在相对距离的隶属函数中会含有相对速度参数的项。以目标车与其左后车为研究对象对论域中模糊子集边界值的计算进行讨论。

图2中，从不安全到安全程度一般的门限值D1由下式给定：

式（1）中，Bmax为车辆的最大加速度，τ为左后车的反应时间，λ0为待定参数。式（1）是当目标车在换道过程中因前方出现特殊事件而紧急刹车时左后车以相同加速度刹车而避免碰撞的最小间距。

从安全程度一般到安全的门限值为：

其中：

式（2）中，a为目标车辆的加速度，λ1、λ2为待定参数。图2中，D2和D3是D1和D4的中间值。

为了保证车辆行驶安全，当车辆间相对距离为“危险”边界值D1时，车辆间相对速度应在合适的范围内。当目标车速度小于左后车速度时，可以用TTC（Time To Collision）作为评价碰撞危险发生的指标，由式（4）表示：

根据文献[16-17]中统计的驾驶员换道数据及驾驶员主观可接受的安全极限，将TTC统计数据的5%分位数（2.6 s）和25%分位数（5 s）作为换道安全性的分类边界值。因此，图3中，相对速度从“负大”到“负小”的门限值V1可由式（5）给定；相对速度从“负小”到“零”的门限值V2可由式（6）给定：

其中，V3和V4是V2和V1的相反数。

利用上述方法即可获得兴趣感应区域内各车辆所受的作用力大小。因此，对位于中间车道的车辆，如n1所处的车辆集群态势可表示为F10=[前车作用力，后车作用力，左前车作用力，左后车作用力，右前车作用力，右后车作用力。对位于左车道的车辆，如n3所处的车辆集群态势可表示为F30=[前车作用力，后车作用力，邻车道右前车作用力，邻车道右后车作用力，隔车道右前车作用力，隔车道右后车作用力。对位于右车道的车辆，如n7所处的车辆集群态势可表示为F70=[前车作用力，后车作用力，邻车道左前车作用力，邻车道左后车作用力，隔车道左前车作用力，隔车道左后车作用力

2.2 基于完全信息多人动态博弈的车道选择模型

博弈论可以为涉及多个参与人且各参与人之间的决策会相互影响的局势分析提供数学模型。在多车道道路上行驶时，驾驶员都有保持车道或者变换车道（向左换道或向右换道）的选择，驾驶员通过分析集群态势中各分区域车辆对自身行车安全及利益的影响，并根据当前所驾驶车辆及周围车辆的行驶状态，选择最优行驶车道。驾驶员的车道选择是一个利益（如行车安全、效率、舒适性等）追求的过程，需要在有相互影响的车辆集群态势中做出复杂的思维决策，因而可以借助多人动态博弈的方法描述驾驶员的车道选择行为。但是，在应用该方法做分析时，由于各驾驶员需要同时考虑多个驾驶员行动选择的影响，且随着参与人数量的增多，策略组合也增多，致使动态博弈树过于庞大、博弈过程及求解过于复杂。因此，为简化博弈过程及模型求解，本文将多人动态博弈分解为多个二人动态博弈。

在三车道场景下（如图1所示），以n1为研究对象，构建n1分别与 n2、n3、n4、n5、n6、n7的二人动态博弈。根据车联网条件下得到的车辆位置、速度、车型、加减速频率等信息，参考文献[18-19]的方法辨识驾驶员倾向性。博弈中，驾驶员位于不同车道时行动选择不同，其中，中间车道：向左换道（Change Left，CL）、保持车道（No Changing，NC）和向右换道（Change Right，CR），即分别对应着选择左侧车道、选择当前所在车道和选择右侧车道的行动选择；左侧车道：NC和CR，即分别对应着选择当前所在车道和选择右侧车道的行动选择；右侧车道：CL和NC，即分别对应着选择左侧车道和选择当前所在车道的行动选择。因此，各博弈方的行动空间为，其中，为参与人ni选取的行动，分别对应CL、NC和CR的行动选择。二人有限战略动态博弈可以用博弈树表述，以n1与n3的车道选择博弈为例进行说明，如图4所示。

在动态博弈中，参与人的行动顺序有先后，且后行动者可以观察到先行动者的选择，本文假定目标车驾驶员先于其后方且次于其前方车辆驾驶员做出行动选择。博弈第一阶段，n1首先行动，且n1行动时会考虑自身选择对n3可能的影响，行动空间为S1={ }CL,NC,CR。第二阶段，n3观察到n1的行动选择，并据此选择自己的行动，行动空间为S3={ }NC,C R。博弈参与人的策略一旦选定，博弈的局势及相应策略组合下各参与人的收益也随之确定。以与分别表示n1选择、ni选择时n1与ni的收益，故n1与n3在相应策略组合下的收益分别为与

由于驾驶员对当前行驶状态的满意与否主要取决于驾驶员感知其所在车道对车辆作用力的大小，故各驾驶员的收益可用驾驶员执行操作前后车辆受到其所在车道作用力的差值衡量。其中，车道作用力包括博弈车辆前方两辆车的累积作用力（博弈车辆前车对博弈车辆的作用力及博弈车辆次前车对博弈车辆前车的作用力之和）和博弈车辆后车的作用力。考虑到位于不同区域的车辆对目标车作用力的贡献率不同，通过问卷调查，运用层次分析法，得到不同倾向性类型的驾驶员感知各分区域车辆对其所受综合作用力贡献率的大小，如表2所示。表2中表示位于分区域t内的车辆对目标车ni所受综合作用力的贡献率，如表示目标车位于左车道时前侧区域车辆对其综合作用力的贡献率。因此，以n1为例，n1执行操作前后所受作用力分别为F1=和故n1的驾驶收益为。其中分别表示各驾驶员执行操作前后目标车所在车道前侧及后侧区域车辆对其所受作用力的贡献率与分别表示各驾驶员执行操作前后n1所受其所在车道后侧区域车辆的作用力，与分别表示各驾驶员执行操作后n1所在车道前车n1″对n1及目标车次前车n4″对目标车前车的作用力。同理可计算其他车辆驾驶员的收益ΔFi=F′i-Fi。

图4 目标车与其左后车的车道选择博弈

表2 不同类型驾驶员感知各分区域车辆对目标车综合作用力的贡献率

3 结果

3.1 数据处理和模型标定

限于实验条件的影响，无法大量获取集群车辆的运动特征，因此，采用NGSIM（http：//ops.fhwa.dot.gov/trafficanalysistools/ngsim.htm）实测交通数据中I-80下午4：00—4：15的车辆轨迹数据集对所建模型进行标定。所研究路段的车道分布情况如图5所示，其中，选取该路段中第2、3、4条车道上且车辆进入数据采集区域时就行驶在这三条车道上的汽车为研究对象；不考虑HOV车道及其他辅助车道上的车辆（其驾驶行为不同于其他车道的车辆）；不考虑连续换道的车辆（其换道更接近于强制性换道）。

图5 I-80研究路段的车道分布示意图

3.1.1 驾驶员倾向性辨识

参照文献[18-19]的方法对驾驶员倾向性进行辨识。

3.1.2 数据处理和模型标定

根据NGSIM轨迹数据中的每条记录并结合视频信息，关联查询目标车所在编组关系中周围车辆各个时刻的状态信息，并对所得信息进行组合，获取车辆之间的相对距离、相对速度及各自车型等信息，得到满足计算所需的微观数据。对NGSIM数据预处理后可得的主要数据如表3所示，并分别选取激进型、普通型和保守型驾驶员换道过程的实验数据（限于文章篇幅，驾驶员换道的数据不再列出），在考虑经验值的基础上，采用反复循环训练和专家意见标定模型参数。模型中部分参数的标定情况如表4所示。

表3 预处理后可得的主要微观数据

表4 车道选择模型参数标定

3.2 模型求解

由于动态博弈中先行动者都会考虑自身选择对后行动者可能的影响，因此，可以采用逆向归纳法求解动态博弈的子博弈精炼纳什均衡。该方法的思想是从博弈树的最后一个决策结往回倒推，根据效用最大化原则，每一步剔除参与人在该决策结上的劣选择，直到博弈开始时参与人的第一个决策结。以n1与n3的博弈为例进行模型求解方法的说明。

n1与n3的博弈是一个两阶段的动态博弈，第一阶段n1行动，第二阶段n3行动，且n3在行动前观察到n1的选择，S1和S3分别是n1和n3的行动空间。博弈进入第二阶段，给定n1在第一阶段的选择面临的问题是确定以最大化自身收益显然n3的最优选择依赖于n1的选择，则该问题的最优解为，即n1行动的反应函数。因为参与人都是理性的，故n1会预测到n3在博弈第二阶段将按照的规则行动。因此，在第一阶段，n1面临的问题是确定以最大化自身收益

11求得该问题的最优解。则该博弈的子博弈精炼纳什均衡为

同理，n1与 n2、n4、n5、n6、n7的子博弈精炼纳什均衡亦可用逆向归纳法得到。n1最终对车道的选择则需要通过权衡其与各分区域车辆博弈达到均衡时自己选择不同策略的驾驶收益大小来确定。假设n1驾驶员的倾向性类型为激进型，n1与n2、n3、n4、n5、n6、n7二人动态博弈中的车道选择对策分别为NC、CL、CR、CL、NC、CR，且相应的驾驶收益分别为以n1感知各分区域车辆贡献率的大小（见表2）作为与各区域车辆博弈均衡时其所选策略对应收益的权重，并对均衡时所选相同策略的加权收益求和，即其中，表示n1与ni博弈时n1采取最优战略时所得的驾驶收益。则n1选择CL、NC、CR对策时相应的加权收益分别为n1根据加权求和结果选取数值最大者(x=1,2,3)对应的策略作为自己最终对车道的选择。集群态势中其他车辆最终对车道的选择亦可用上述方法得到。

4 讨论

4.1 模型验证

为了验证所建模型的可靠性，需要进一步地用实测交通数据验证模型，用实地调查的结果与模拟程序的运行结果对比分析，从而判断模型是否能够客观地反映路段交通的真实情况。由于驾驶员在选择“向左换道”或“向右换道”的策略时，相应的车辆运行状态较明显且容易观察，故以车辆换道为指标，检验应用所建模型对车道选择的预测结果，验证模型的有效性。

4.1.1 基于道路驾驶实车实验的车道选择模型验证

选取山东省淄博市原山大道自新村西路交叉口至人民西路交叉口的路段为实验路线，如图6所示，在正常工作日的上午7：30至9：30且天气及道路状况良好时进行实验，交通流状态为非自由流。选取30名具有不同倾向性的驾驶员进行实验，实验设备如图7所示，采集车辆所在的道路、交通和环境信息，存储实验数据并全程录像。实验结束后，应用所建模型对实验数据分析处理，得到各个驾驶员选择的车道，并与录像中实际选择的车道对比核实，结果如表5所示。

图6 实验路线

4.1.2 基于交互式并行驾驶模拟实验的车道选择模型验证

应用多通道交互式并行驾驶模拟系统构建与实车实验道路环境相同的虚拟现实交通场景进行虚拟驾驶验证，如图8所示。实验前对参与实验的20名驾驶员进行驾驶模拟器的操作培训，实验过程中避免对驾驶员的干扰，存储实验数据并全程录像。将所得实验数据输入所建车道选择模型中，输出所得最优对策结果，并与实际的车道选择结果相对比，结果分析如图9所示。

由图9可以看出所建车道选择模型在模拟实验中的预测结果与实际情况的契合度较高，预测的平均准确率可达85.42%。

图7 道路实车实验信息采集系统

表5 道路实车实验预测结果与实测结果对比

4.1.3 基于交通流微观仿真实验的车道选择模型验证

根据道路实车实验，分别基于最优控制理论和模糊多目标决策理论构建车辆跟驰模型和车道变换决策模型。将实验所采集不同类型驾驶员的数据分别输入考虑（模拟1）和不考虑（模拟2）驾驶员动态博弈的车道选择微观仿真模型中，将模拟出的交通流微观规律（如换道次数）和宏观规律（如速度、密度、车道占用率）与道路实车实验的真实情况相对比，验证模型的有效性和可靠性。

图8 驾驶模拟实验

图9 驾驶模拟实验预测结果与实测结果对比

交通流微观方面的验证结果如图10所示，该图描述了三车道场景中不同交通流量下车辆换道次数的分布。

图10 三车道道路车辆换道次数仿真值与实测值对比图

交通流宏观方面的验证主要包括平均速度、平均密度及车道利用率，验证结果如表6及图11所示。

表6 微观仿真结果同实测数据对比分析表

图11 三车道道路流量-车道利用率关系模拟结果

表6是以平均速度及平均密度作为评价指标，利用实车实验相关结果同模拟程序运行结果的对比，其误差在可接受的范围内。

图11为三车道道路中各车道流量与车道利用率关系的模拟结果。其中，实线表示二者的实测关系，点表示应用考虑驾驶员动态博弈车道选择的微观仿真模型模拟出的关系。模拟结果表明本文建立的模型具有较高的准确性和适用性。

4.2 评论

本文建立的动态博弈车道选择模型，主要分析了物联网技术高度发展的理想条件下汽车驾驶员的车道选择行为，有利于交通管理者对道路上行驶车辆的指挥调度和管理。但是，本文仍存在以下不足：

首先，物联网技术发展程度及信息开放程度的不同，驾驶员得到信息的完备程度也将不同，因而有必要研究不完全信息条件下驾驶员的车道选择博弈行为。其次，为降低模型建立及求解的复杂度，本文假定目标车驾驶员先于位于其后且次于位于其前的车辆驾驶员做出行动选择，且将多人动态博弈分解为多个二人动态博弈，弱化了其他参与人行动选择的影响。由于驾驶员的行动选择并无严格的先后顺序，且驾驶员一旦执行所选行动的操作后，车辆所处的态势也将随之发生改变。因此，为了避免行动顺序对模型建立的影响，可以将车辆的状态和操作归结于态势的变化和转移，建立目标车与其所处态势的动态博弈模型。再次，由于中国与美国的道路条件、行驶环境等均存在差异，故应用美国的道路自然驾驶数据（NGSIM数据）对中国道路条件下所建模型进行标定会使得模型本身存在误差，影响模型的准确度。最后，为了更好地适应复杂的交通环境，需要将模型扩展到更多车道的场景，综合考虑驾驶员在路段、交叉口、匝道等处的博弈行为。

5 结语

本文对城市快速路路段上集群车辆间的车道选择行为进行了分析，一体化考虑了驾驶员倾向性及车辆编组关系、交通实体特征等时变动态因素，建立了基于完全信息多人动态博弈的车道选择模型。运用逆向归纳法求解模型的子博弈精炼纳什均衡，得到博弈中各驾驶员的最优车道选择策略。运用实车实验、模拟驾驶实验及交通流微观仿真相结合的手段验证所建模型，结果表明，所建模型能够客观地反映出路段上的交通运行状况及驾驶员的车道选择过程，可以为物联网条件下智能驾驶特别是拟人驾驶指挥系统的车道选择决策提供理论基础。