基于可解释机器学习框架的快速路立交出口风险预测及致因解析

2022-02-23赵晓华国景枫张云龙

东南大学学报（自然科学版） 2022年1期

赵晓华亓航姚莹郭淼国景枫张云龙

(1北京工业大学北京市交通工程重点实验室，北京 100124)(2北京工业大学城市建设学部，北京 100124)(3Zachry Department of Civil Engineering, Texas A&M University, College Station, TX 77843, USA)

城市快速路立交出口作为快速路连接主干道路的关键枢纽，是车辆合流、分流、交织运行集中发生地[1].急加速、随意并线等危险行为会加剧道路风险，导致交通事故频发.因此，针对立交出口区域的道路风险辨识与致因分析对于提升快速路交通安全整体水平具有重要意义.

近年来，针对交通安全风险理论研究成果丰富，多名学者指出交通状态、道路设施和外部环境均是影响道路安全性的重要因素[2-4].文献[5]研究表明，快速路安全分析还需考虑交通标志等可视性因素.此外，诸多研究应用Logistics、负二项理论、贝叶斯模型等方法解析交通事故的潜在机制和特征规律.Abegaz 等[6]运用广义有序 Logit 模型研究得出，提升车速或阴雨天气会显著提高事故的严重程度.王雪松等[7]应用分层负二项模型指出近郊路段比远郊路段更易发生事故.谢琨等[8]建立分层贝叶斯模型发现相临间距近或转向车道比例大的交叉口具有高事故发生率.然而已有研究多采用事故后果分析[9]，由于事故数据具有偶发性、周期长的特点，导致全路网风险时空特征刻画不足，安全性综合分析也因数据样本与来源限定受到制约.目前，基于事前替代指标的交通安全风险识别与致因挖掘备受关注[10-11]，驾驶行为在交通安全致因分析中发挥着重要作用.

目前，手机终端GPS及内置传感器可细粒度感知用户驾驶行为等全时空信息，有助于实现海量行为数据的互联和聚合.此外，相比于传统模型，机器学习方法可在变量之间确定复杂非线性关联关系，通常以较高的精度预测道路风险.可解释性框架是各个领域的研究热点，国外研究已开始使用可解释机器学习框架SHAP技术解释复杂机器学习模型内部特征变量如何影响预测，该技术对交通安全风险的动态研判具有应用价值[12].

本文针对快速路立交出口区域安全性问题开展研究，引入风险替代指标交通秩序指数评估立交出口风险水平，使用极限梯度提升(XGBoost)算法建立立交出口路段风险预测模型，并利用SHAP解析道路属性、交通控制设施和交通运行对立交出口风险的耦合影响.基于驾驶行为数据驱动与可解释机器学习相结合的方法，为解决道路安全问题提供了新思路.

1 数据基础

1.1 数据概况

本文选取北京市西二环和莲花池东西路范围内的9座立交桥作为研究对象，选择不同方向22个典型立交出口路段开展分析.文献[13]研究指出，立交出口前500 m是影响驾驶人运行的关键区域.因此，截取距离各立交出口标志位置(设置于快速路出口三角带分流点端头)至行车方向前500 m路段区域作为分析范围.该区域交通环境复杂，每个出口的平均高德用户量为1 200辆/h.图1为研究路段快速路节点和与研究范围示意图.

图1 研究区域立交出口选取范围与天宁寺桥出口路段示意图

1.2 数据类型

数据采集时间为 2019-06-01—2019-06-30，数据类型包括地图数据、拥堵状态数据、环境数据和驾驶行为数据，由高德软件公司从使用高德app手机用户的底层数据中提取.此外，结合实地调查获得交通控制设施设置参数与立交出口道路属性数据，构建支撑立交出口路段安全分析的综合数据库.

1.2.1 地图数据

地图数据包括道路ID、道路长度、道路等级等信息.道路ID用于匹配不同来源的多类型数据，道路长度用于计算相邻出口间距和单位距离内发生的驾驶行为事件频率.

1.2.2 拥堵状态数据

拥堵状态数据主要用于描述道路的交通流情况及交通拥堵程度.拥堵状态数据包括时间、平均速度、拥堵指数和道路ID.数据更新频率为2 min.其中拥堵指数κ计算公式为[14]

(1)

高德软件公司以拥堵指数作为城市拥堵程度的评价指标，并将其分为4个等级:自由流(κ∈[0,1.5))、缓行(κ∈[1.5,2))、拥堵(κ∈[2,4))和严重拥堵(κ∈[4, +∞)).在导航软件中拥堵等级用以实时展示道路的交通拥堵状态.

1.2.3 环境数据

环境数据包含天气和时段.由于研究时间段仅为1个月(2019-06)，天气类型主要包括晴、阴、多云与小雨，未覆盖雾或暴雨等极端天气类型.本文将时段数据分为高峰时段(07:00—10:00、17:00—20:00)和非高峰时段(10:00—17:00、20:00—07:00).

1.2.4 驾驶行为数据

导航软件可精准辨识用户在不同驾驶情境中触发的激进驾驶行为事件，并记录事件形态、发生时间与坐标.激进驾驶行为事件指急加速、急减速、急左并道、急右并道、急左转和急右转6种事件类型.判定阈值与相关指标由高德导航软件公司内部经大量车辆测试计算所得.然而，由于用户隐私和公司机密的保护，阈值和计算方法尚未提供.判定方法如下：

① 急加速或急减速时，手机处于车内固定位置，当车辆加速度超过或低于某一阈值时，识别并记录一次急加速或急减速事件.

② 急并道或急转弯时，手机处于车内固定位置，当车辆转弯向心力的检测角度变化超过某一阈值时，识别并记录一次急并道或急转弯.

1.2.5 交通控制设施数据

交通标志传递的信息有效性和准确性直接影响驾驶人的判断决策行为过程，进而影响行驶安全[15].图2为南沙窝桥出口路段的交通标志系统.本研究提取影响立交出口安全性的2种因素：出口预告标志数量和桥形标复杂度.

图2 出口标志系统设置示意图

根据《北京市道路交通标志指路系统设置指南》(BJJT/0040—2019)[16]，出口预告标志提供前方出口相交道路名称、方向和距离等信息；桥形标志提供前方立交各匝道的出口走向、名称等信息.桥形标复杂度反映了驾驶员对不同复杂程度桥形标的认知水平，依据李洋等[17]提出的桥形标复杂度分类标准，本文研究范围内的立交桥形标复杂度分类如图3所示.

(a) 低复杂度

(b) 中复杂度

1.2.6 道路属性数据

道路属性数据包括车道数、交通合流数、交通分流数和出口间距类型等信息.交通合流(分流)数表示各立交出口前500 m内交织段处的交通合流点数量(交通分流点数量).出口间距指该立交出口沿行驶方向与相邻出口之间的距离.出口间距划分为3个等级：小间距( [0, 250) m )、中间距( [250, 750) m )、大间距( [750, +∞) m ).

1.3 数据库构建

1.3.1 数据预处理

首先，统计研究区域内使用高德导航的用户数量，通过统一量纲，将个体激进驾驶行为事件转换为集计驾驶行为.集计驾驶行为反映了单位车辆在单位时间内的激进驾驶行为事件频次，计算公式如下：

(2)

式中，Babc为2019年6月a日b道路上c时段内发生激进驾驶行为事件频次，次/(辆·h)；eabc为激进驾驶行为事件次数；Nabc为使用高德的机动车数量.

然后，采用拥堵状态数据中的平均速度计算速度变异系数.速度变异系数与碰撞频率显著相关，能够一定程度上反映道路风险[18].计算公式如下：

(3)

1.3.2 交通秩序指数

Yao等[19]发现交通秩序差的道路发生交通事故的概率较高，由此提出交通秩序指数以评价城市道路的交通有序度.交通秩序指数是根据当前道路发生的激进驾驶行为事件频次与速度波动情况提出的描述道路混乱程度的指数，用来推断道路的潜在风险.文献[20]将秩序分析方法应用于交叉口安全评价，并证明了该方法切实可行.

交通秩序指数采用TOPSIS与均方差加权法计算得出.车速变化越小且发生激进驾驶行为越少，则交通秩序指数越大，道路安全性综合水平越高.交通秩序指数计算公式如下：

(4)

D=wBSB+wESE

(5)

式中，wk为B或E的权重(k=B或E)，由均方差加权法确定;σk为B或E的标准差；D为交通秩序指数；SB为由TOPSIS法计算得到的激进驾驶行为事件频次得分；SE为归一化的速度变异系数评分，表示路段内车速的离散情况.分数越高，激进驾驶行为事件频次或速度变异系数越少.

作为模型的因变量，交通秩序指数是反映城市交通秩序程度的综合指标，对获取城市快速路立交出口路段的安全风险分布具有重要意义.为划分立交出口的风险水平，采用K-means聚类将交通秩序指数划分为如下3个水平：

① 高风险道路.交通秩序混乱，D∈[0, 0.449).

② 中风险道路.交通秩序良好，D∈[0.449, 0.670).

③ 低风险道路.交通秩序较好，D∈[0.670, +∞).

1.3.3 数据库构建

由道路ID与时间匹配各类型的数据，并将所有数据类型换算为以h为单位，聚合形成包含立交桥属性、驾驶行为、交通秩序指数、拥堵指数、交通控制设施、道路属性、环境属性在内的立交出口安全分析数据库.最终样本量为15 840组.

2 风险预测模型与可解释机器学习框架

应用以上数据库，基于XGBoost算法，考虑道路属性、交通设施、运行状态、外部环境等多种要素，构建城市快速路立交出口路段的风险预测模型.此外，将SHAP应用于训练后的模型，解析特征变量对安全秩序预测值的综合影响作用，本文技术路线如图4所示.

图4 快速路风险预测与致因解析技术路线图

2.1 XGBoost模型

XGBoost算法是Chen等[21]提出的一种人工智能集成机器学习算法，具有并行速度快、复杂度可控、容错性强、泛化能力强等优点[22].该算法的基本原理是：由多个精度较低的决策树模型迭代合成高精度的强学习器，运用二阶泰勒展开式，在损失函数中加入正则项，控制模型复杂度并防止模型过拟合.

XGBoost算法的目标函数为

(6)

(7)

定义一个近似的目标函数，利用二阶泰勒展开将目标函数O(t)表示如下：

(8)

式中，gi和hi分别为第i个样本一阶和二阶下输出的损失梯度；C为常数项.

2.2 可解释机器学习框架SHAP

可解释机器学习是指使机器学习系统的行为和预测对人类可理解的算法或模型.Lundberg等[23]开发了一种事后解释机器学习方法的统一框架 SHAP.对于每个测试样本，模型生成一个预测值，并提供一个可解释的预测.其主要思想是计算添加到模型中的特征的边际贡献，即SHAP值，等价于特征对样本的影响.在合作博弈理论中，SHAP值计算公式如下：

(9)

式中，Φm为第m个特征的贡献；L为特征子集；N{m}为特征集合；M为输入特征总数；v(L∪{m})为当样本只有L∪{m}中的特征值时模型的预测值；v(L)为当样本只有L中的特征值时模型的预测值.基于加性特征属性方法，定义线性函数g，即

(10)

式中，g(x)为样本x的事后解释模型预测值；Φ0为模型预测值的平均值；xm为第m个特征样本.

3 模型构建与结果分析

3.1 交通秩序指数特征分布

根据交通秩序指数的计算方法获得不同立交出口的交通秩序分布，如图5所示.不同立交出口的交通秩序因其交通流状态以及道路属性的不同而存在差异.经单因素方差分析验证22个立交出口的交通秩序存在显著性差异(F=190.361,p<0.01).

图5 不同立交出口秩序指数分布

3.2 风险预测模型构建

城市快速路立交出口风险预测模型构建流程包括特征变量选择、参数调优和模型评价，如图6所示.

3.2.1 特征变量选择与参数调优

选取预告标志数量、拥堵指数、车道数等9个特征变量作为XGBoost模型的自变量，如表1所示.对特征变量的非参数检验结果显示，所选特征均对立交出口安全秩序水平产生显著性影响(p<0.01).XGBoost可扩展多个应用程序，能够检测处理异常缺失值.该算法对特征之间的多重共线性具有较好的容忍度，因此无需进行大量预处理.本文将数据集按照8∶2的比例随机分为训练集与测试集，训练集用于拟合预测模型，测试集用于评价模型性能.

图6 模型构建流程

表1 特征变量描述

参数调优的目的是有效控制模型复杂度并防止过拟合，从而提升模型性能.本文采用网格搜索与五折交叉验证方法构建最优预测模型.五折交叉验证将训练数据随机分成5份，每次训练以4个子样本训练和1个子样本验证的形式进行.经过多次测试调参确定最优结果，根据最终参数，基于XGBoost建立最优预测模型.

3.2.2 模型预测精度评价

为了评估预测模型的性能，选取混淆矩阵可视化模型预测结果，并计算准确率、精确率和召回率作为预测结果的评价指标.对于多分类预测，根据各类别所占数据集的比例计算各类别中每个评价指标的加权平均值.评价指标的相关定义如下：

(11)

(12)

(13)

式中，A为准确率；P为精确率；R为召回率;TN表示实际为负且被预测为负的样本数量；TP表示实际为正且被预测为正的样本数量；FN表示实际为正但被预测为负的样本数量；FP表示实际为负但被预测为正的样本数量.

3.3 模型结果分析

3.3.1 预测精度结果评价

XGBoost模型的风险预测混淆矩阵如图7所示.此外，本文应用随机森林算法与XGBoost进行对比论证，结果如表2所示.结果表明，基于XGBoost算法的城市快速路立交出口区域的道路风险模型具有精准预测能力.

图7 立交出口风险预测模型混淆矩阵图

表2 模型预测精度对比 %

3.3.2 特征影响程度分析

通过XGBoost算法包中的weight指数可评估特征的重要性程度，并得到特征重要性排名，结果如图8所示.特征在决策树中越关键，特征重要性得分越高.由图8可知，各特征变量的重要程度排序从大到小依次为拥堵指数、预告标志数量、天气、合流数、时段、车道数、分流数、桥形标复杂度、出口间距类型.其中拥堵指数对模型预测的影响最大，是建立城市快速路立交出口路段风险预测模型的重要指标.

图8 基于XGBoost算法的特征重要性排序

3.3.3 预测结果致因分析

为进一步探究快速路立交出口路段风险致因机理，采用可解释机器学习对预测结果进行致因分析.SHAP 算法提供了局部可解释性，对于解释单特征或双特征交互作用对交通安全秩序影响分析具有明显优势.图9为SHAP概要图，横坐标SHAP值用以衡量特征对模型预测值的贡献程度和影响.SHAP值为正表明该特征值有助于提高安全秩序水平预测值，交通秩序较好；SHAP值为负表明特征值使安全秩序水平降低，有反向作用.

图9 SHAP概要图

图9表明，SHAP值随着拥堵指数的增加而降低.交通拥堵易使驾驶员频繁产生急加急减等激进行为，继而导致交通秩序的混乱和高风险的产生；针对交通控制设施因素，预告标志设置数量在影响道路风险概率方面显示了其不确定性，过多的预告标志数量可能会造成信息过载.此外，设有低、中复杂度桥形标的快速路立交出口比无桥形标的立交出口更安全有序，且相比于低复杂度的桥形标，中复杂度桥形标对提高道路秩序水平的影响更大；对于道路属性和外部环境因素，可见4车道的立交出口路段更加有序；相邻出口距离为中间距的立交出口路段相比小间距和大间距的交通秩序更高；较少的分流合流数以及晴朗的天气均对道路安全有积极影响；而交通高峰与平峰时段难以直接表征对立交出口安全秩序水平的影响.

事实上，交通秩序是受多因素影响下的综合行为表现，仅关注单一特征无法全面解析道路安全有序性的致因结果，因此有必要进一步探究多因素作用下对安全秩序的影响.由于交互特征组合较多，且拥堵指数是影响模型预测最重要的特征，研究重点以拥堵指数与车道数、拥堵指数与预告标志数量作为研究范例.为了揭示2个特征的交互作用，SHAP 依赖图(partial dependence plot，PDP)提供了特征变量对交通秩序预测值的边际效应，横坐标拥堵指数值垂直方向上的色散表示与另一特征的交互作用.图10和图11分别为2种特征组合和交通秩序预测值的关系.

由于点密度过高，为便于观察，图10(a)展示了拥堵指数与车道数作用下对交通秩序预测值的总体效果，图10(b)、(c)和(d)分别是基于拥堵指数的分类标准(自由流0～1.5、缓慢流1.5～2、拥堵和严重拥堵2～12)由图10(a)拆分得到的具体结果.图中纵坐标SHAP值表示拥堵指数对交通秩序预测的贡献值.由图10(a)可知，拥堵指数与安全秩序水平的影响存在非线性负相关，不同拥堵状态下的立交出口安全有序性存在较大差异.交通秩序由自由流至缓行状态时(0<κ<2)显著降低，反映了道路风险随拥堵程度的增加而上升，揭示出缓解拥堵可提高道路安全水平.当交通状态变得拥堵至严重拥堵(κ>2)时，道路的风险程度则不会随拥堵的严重而加剧.在交通组织管理过程中应考虑缓解拥堵作为道路安全改善的首要措施，如鼓励错峰出行、多样化出行路径选择等.对于拥堵指数和车道数的耦合影响，由图10(b)可知自由流道路下交通秩序较好(SHAP值为正)，此时2个特征的交互作用并不显著；随拥堵程度的增加，车道数对道路安全的影响发生改变.图10(c)、(d)表明，在缓行或拥堵的立交出口处，较多车道对安全秩序水平的负面影响更小，即更多的车道可降低缓行或拥堵产生的道路风险.然而，由于道路受拥堵的影响，风险依旧存在(SHAP值仍为负).Yu等[24]研究表明，在交通量大的路段，车道少的道路更容易发生交通事故，增加车道数有助于减少密度和车辆之间的作用，从而改善交通安全.这与本文研究结果一致.

(a) 总体

(b) 自由流

(d) 拥堵与严重拥堵

(a) 总体

(b) 自由流

(d) 拥堵与严重拥堵

图11显示了拥堵指数和预告标志数量交互作用下对安全秩序水平的影响.当拥堵指数κ<1.6时，设有3个或4个预告标志指引的立交出口道路会更有序安全.Huang等[25]研究指出，设有3级预告标志指示的出口道路可以有效引导驾驶员产生更为合理的变道行为，从而减少激进驾驶行为事件的发生.当拥堵变得更为严重时，车流甚至趋于停滞，预告标志数量与拥堵指数对安全秩序的交互影响不再显著.实际上，在严重拥堵的车流中，驾驶员行为则更易受到其交通流和周边环境的影响，而交通标志作为一种静态交通控制设施，在停滞的交通流中很少被驾驶员持续关注.因此，在立交出口道路交通优化与设计时，车道控制管理或标志优化设计建议考虑不同拥堵水平.