抵近信控交叉口分心驾驶识别模型

2022-03-02张玉婷陈波佑张双焱闫学东李晓梦

交通运输系统工程与信息 2022年1期

张玉婷，陈波佑，张双焱，闫学东，李晓梦

(1.长安大学，运输工程学院，西安710021；2.北京交通大学，综合交通运输大数据应用技术交通运输行业重点实验室，北京100044；3.昆士兰科技大学，交通事故与道路安全研究中心，昆士兰4059，澳大利亚)

0 引言

分心驾驶已经成为交通事故发生的主要原因之一。2018年中国司法大数据研究院的报告显示：手机分心诱发的机动车交通事故占10.56%，排名第3，仅次于无证驾驶(26.9%)和酒后驾驶(18.1%)。2019年，根据美国国家公路交通安全管理局(Nation Highway Traffic Safety Administration，NHTSA)统计，受分心影响的交通事故死亡人数为3142 人，占事故死亡总人数的8.7%，比2018年增加了9.9%[1]。因此，研究分心任务对驾驶安全的影响，建立分心状态识别模型对设计和优化实时分心监测系统、减少分心诱发交通事故等具有重要意义。

目前对分心驾驶行为的研究主要集中在高速公路路段[2]、弯道[3]、乡村公路[4]，普通双向4 车道城市道路[5]等。Choudhary等[2]仿真单4车道无分隔高速路场景，研究通话和发短信等分心行为对驾驶人处理能力的影响；肖书影等[3]模拟不同半径弯道的场景，研究分心驾驶对弯道速度、横向偏移量和横向加速度变化率的影响；Kountouriotis 等[4]建立乡村简单双车道的场景，研究视觉分心对驾驶人方向盘转向率的影响；李鹏辉等[5]构建了双向4 车道城市道路环境，研究分心对侧向行人冲突和纵向追尾冲突行为影响。部分学者也开展了交叉口处分心驾驶研究，如NAVEEN 等[6]仿真信控交叉口，研究不同手机通话类型对驾驶人两难区走停决策正确率的影响。

分心状态识别模型方面，机器学习算法已被广泛使用。罗毅等[7]提取换道过程中各类驾驶绩效参数，利用径向基函数(RBF)、神经网络模型构建基于最小正交二乘法(OLS)的RBF 神经网络驾驶分心识别模型；张辉等[8]利用遗传算法(GA)优化SVM模型，准确识别自由流和拥挤流场景下驾驶人分心状态；孙剑等[9]提取与车辆平稳控制直接相关的驾驶特性，利用LSTM-NN 有效学习分心序列前后信息准确估计驾驶人状态；周扬等[10]运用随机森林方法构建认知分心识别模型并分析认知负荷对驾驶人注视及眨眼持续时间的影响；Masood等[11]利用卷积神经网络进行驾驶人分心状态检测；Atiquzzaman等[12]利用车辆动力学数据分别建立基于支持向量机和随机森林的驾驶人分心状态识别模型；Tango等[13]基于驾驶模拟数据，分别建立基于支持向量机、前馈神经网络(FFNN)、层递归神经网络(LRNN)及自适应神经模糊推理系统(ANFIS)的分心状态识别模型。然而现有多数驾驶状态识别模型引入的分类算法集中于某些特征指标下的单一数值差异，未考虑驾驶状态本身的时序性特点。

基于此，本文针对信控交叉口的驾驶场景，综合考虑抵近全过程驾驶人的横纵驾驶行为指标，深化研究分心任务对驾驶人横纵行为影响，并利用单因素方差分析方法筛选驾驶人分心状态识别指标，考虑驾驶状态的时序性，建立基于双向长短时记忆网络分心驾驶识别模型，并利用驾驶模拟数据验证BILSTM 分心识别模型的有效性。研究结果可为信控交叉口驾驶人分心预警系统优化设计提供理论指导。

1 分心驾驶模拟试验

1.1 试验设计

1.1.1 分心任务设计

驾驶分心主要包括认知分心、操作分心和视觉分心，本次试验选择的分心任务是认知分心的一种替代任务，即在驾驶人接近信控交叉口过程中(在黄灯启亮前3 s)，通过车载语音设备向驾驶人发布两位数加法的计算题，并要求驾驶人在通过交叉口前做出回答，确保驾驶人在接近交叉口过程中处于认知分心的状态。

1.1.2 驾驶场景设计

试验交叉口为典型的双向两车道的十字交叉口。驾驶人接近信控交叉口过程中，驾驶人行驶方向信号灯为绿色相位。当驾驶人距离试验交叉口停车线的时距小于或等于预先设定的黄灯触发时距阈值时，驾驶人行驶方向的信号灯由绿变黄，黄灯时长设置为4.5 s，之后进入红灯状态。为了避免其他车辆对驾驶人在黄灯期间驾驶行为产生干扰，模拟器前方和交叉口冲突方向没有其他车辆。此外，不同的黄灯触发时距意味着黄灯启亮时驾驶人与停车线的距离不同，可能对驾驶人抵近交叉口的横纵行为有影响，因此，本试验设计了6 种黄灯触发时距从4.5～7.0 s，以0.5 s 为间隔，最终形成12 种(6 种黄灯触发时距乘2 种驾驶状态(分心和不分心))不同类型的试验交叉口。每条试验道路包含25个相似的信控交叉口，每个交叉口由400 m的直线路段连接，道路限速为70 km·h-1，车道宽3.75 m。

1.2 试验设备和人员

试验所用的驾驶模拟器硬件系统由驾驶舱、投影系统与运动平台构成，其中驾驶舱由福特实车改造而成，包含车辆的外观和车内所有的操纵部件。该模拟器拥有环绕式360°视野模拟显示系统，1 个自由度的运动平台，震动模拟及环境噪声系统和驾驶员操作数字化再现系统。软件系统主要包括道路场景设计软件Sketch up、驾驶场景设计软件Sim Vista和控制场景运行软件Sim Creator，共同实现驾驶人的横纵行为多项指标参数信息的采集，数据采样频率为60 Hz。

本试验最终完成实验的被试驾驶人共45 名(男性21 名，女性24 名)，均取得C1 及以上驾驶证，且年行驶均超过1 万km。被试者年龄为24～40 岁，平均年龄30.364 岁，标准差5.171 岁。被试者身心健康且无视觉及听觉障碍，试验前未饮酒和服用药物。

1.3 试验流程

(1)工作人员向被试者介绍试验主要内容和基本要求，告知试验流程，被试者签署知情同意书，并记录年龄、驾龄、职业等基本信息。

(2)正式试验开始前，被试者进行10～15 min的试驾，熟悉驾驶模拟器的方向盘、制动和加速踏板等部件的操控力度和设备灵敏度，并确认驾驶过程中身体无不适反应。

(3)正式试验时，驾驶人需完成两次完整试验道路的驾驶，一次是正常驾驶状态，一次是分心驾驶状态。为了避免顺序效应的影响，对于每条试验道路，试验交叉口的位置、试验道路次序均随机设置。在试验过程中，驾驶人有任何身体不适，可立即停止试验。

2 分心任务对驾驶行为的影响分析

相关分心驾驶研究表明，大多数车辆动力学相关变量在分心情况下会受到显著影响，可用来有效区分分心状态和非分心状态[12]。因此，参考已有研究成果，本文提取抵近交叉口过程中的制动反应时间、制动操作时间、刹车踏板力度这3 个指标及其对应的均值、标准差、方差、极差、变化率等统计指标表征分心任务对纵向驾驶行为的影响[14-15]；提取抵近交叉口过程中的车道偏距与方向盘转角两个指标及其对应的均值、标准差、方差、极差、变化率等统计指标表征分心任务对横向驾驶行为的影响[16]。图1为抵近交叉口过程中各驾驶行为均值变化趋势图。采取减速的驾驶人可根据踩踏制动踏板的力度变化得出驾驶人的制动反应时间与制动操作时间。此外，为了深度挖掘驾驶人抵近全过程的行为特征，根据信号灯相位颜色，将黄灯启亮期间驾驶人抵近交叉口过程划分为3个阶段：绿灯阶段(黄灯启亮前3 s)、黄灯阶段(4.5 s)和红灯阶段(红灯启亮后1 s)，探究分心任务对不同阶段驾驶人横纵行为特征的影响规律，最终得到如表1所示的特征指标表。

表1 驾驶行为指标汇总Table 1 Summary of driving behavior indicators

图1 驾驶人接近信控交叉口过程中横纵行为趋势图Fig.1 Trend chart of drivers'lateral and longitudinal behavior when approaching signalized intersections

提取采取减速行为的样本(n=360)，采用单因素方差分析表1 中的纵向指标，得到4 个有显著影响的纵向行为指标；针对所有驾驶样本(n=540)，采用单因素方差分析表1 中的横向指标，得到6 个有显著影响的横向行为指标，最终结果如表2所示。

表2 单因素方差分析结果Table 2 Results of one-way ANOVA

由表2可知，驾驶人是否分心在纵向行为指标制动反应时间均值、制动操作时间均值、刹车踏板力度均值和刹车踏板力度标准差上存在显著差异，在横向行为指标方向盘转角标准差、变化率均值、转角变化率标准差和车道偏距方差上存在显著差异，且分心任务引起的纵向行为指标差异主要表现在黄灯阶段，横向行为指标差异则主要体现在整个抵近过程(绿灯加黄灯阶段)。具体而言，在纵向行为上，相较于正常驾驶状态，分心驾驶人面对黄灯启亮采取刹车减速行为所需的反应时间更长，踩动制动踏板的力度更小，并且采取制动操作的时间较短；在横向行为上，分心驾驶人方向盘转角标准差、变化率均值、转角变化率标准差均大于正常驾驶状态下，表明抵近信控交叉口过程中，分心驾驶人操纵方向盘的稳定性更差。最终表2 中这些具有显著差异性指标将作为后续分心状态识别模型的输入指标。

3 分心驾驶状态识别模型

3.1 LSTM基本原理

由于驾驶状态识别是一个连续的依赖时间推移的过程，可以利用完整的时序信息对驾驶人状态进行识别。常规循环神经网络(RNN)以序列数据作为输入，网络上所有节点按链式链接以达成在序列的方向上递归的递归神经网络。由于其具有递归的特性，上一节点输出的信息可作为下一节点的输入信息，使得RNN具有一定记忆性，在处理序列的非线性特征时具有一定优势，但在长序列数据训练过程会存在梯度消失和梯度爆炸问题，故引入长短时记忆网络(LSTM)建立多变量长时序的驾驶人分心状态识别模型。

LSTM 在节点间具有两个传输状态，即ct与ht，在LSTM层中通过输入门来控制输入信息的范围，并通过遗忘门对上一个节点传进来的输入进行选择性忘记，最终通过输出门输出ct与ht来达成节点间的递归。各阶段机理描述如下。

(1)输入门(i)

(2)遗忘门(f)

(3)状态更新(g)

(4)输出门(o)

LSTM层中的权重与偏差为

式中：it、ft、gt、ot分别为t时刻输入门、遗忘门、元胞候选、输出门的信息值；W、R、b分别为不同状态下的输入权重、递归权重、偏差率；ct为t时刻元胞状态的备选取值；ht为t时刻隐藏状态的输出值；xt为t时刻的记忆元胞输入值；σc与σg分别为元胞状态激活函数与门控激活函数；⊙为矩阵间的哈达玛积。

ct在递归的过程中变化较慢，而ht变化较大，说明LSTM通过门控状态来控制传输状态，记住需要长时间记忆的，遗忘不重要的信息，从而达成对长序列数据的精确学习。

3.2 双向LSTM模型构建

3.2.1 数据输入

本文共提取出540条驾驶片段，其中分心驾驶片段270条，正常驾驶片段270条，每条驾驶片段为7.5 s(450个时间戳)的时间序列，用于计算平均值、变化率方差等统计特征；将6 个时间步长(合计0.1 s)定义为1个时间单元来计算统计指标，得到75个时间戳；每个时间戳包含6 个特征指标，分别为绿灯加黄灯阶段的制动踏板力度均值及标准差、方向盘转角标准差及其变化率均值与标准差、车道偏距方差，而制动反应时间和制动操作时间不具有时序性故不纳入分析。

采用Z-Score方式对每一条驾驶片段数据进行标准化，即

式中：x*、x、分别为标准化后的元素、初始元素、元素所在列的平均值；σ为每个特征指标下75 个时间戳的样本标准差。将540 条片段排列次序随机打乱，其中70%作为训练集，30%作为测试集。

3.2.2 模型构建

基于Matlab2020a 平台的Deep Learning Toolbox 模块进行建模，模型的主构架选用双向LSTM(BILSTM)，即会在某一个时刻上提供两个相反方向的LSTM，从序列数据的两端进行同时计算，其运行机理如图2所示。

图2中，n为时间序列，hnF为正向计算层所得信息值，hnB为反向计算层所得信息值，H为正反向计算后得出的综合信息表示；Y为Η经翻译得到的类别。在t时刻上输入向量xt会同时通过正向计算层与反向计算层，两层的输出表达式为

图2 双向LSTM运行机理Fig.2 Operation mechanism of BILSTM

经过反复实验，LSTM 层构建共建立3 层LSTM 层和2 个全连接层，输入层的维度为6 维，LSTM层与层之间加入Dropout层防止过拟合现象的产生。本文将设定Dropout 等于0.5 来降低网格收敛的速度，以便在训练过程中放大可能存在的问题进而解决。σg选用sigmoid 函数，σc选用leakyrelu函数，该激活函数有助于促进网格收敛的同时，有效避免了当有负值输入时relu函数的输出始终为0，导致Dead Neuron 现象的产生，leakyrelu函数的表达式为

且本文在该函数负向泄露值默认值0.5 基础上，拓宽定义该函数负向泄露值。经各参数组合实验，得到效果最优值为0.25。

3.2.3 参数优化

每个LSTM 层中包含过多或过少的隐藏单元数目均会对模型的泛用性产生影响，根据经验，初步确定每个LSTM 层中包含的隐藏单元数目Nh∈{32,64,128,256}，设置BatchSize为Bs∈{16,32,64,128}，设置学习率为Lr∈{0.0001,0.001,0.01,0.1}。本文选择具有收敛速度快、实现简单、计算高效等优点的Adam优化器作为LSTM网络模型的优化算法，该算法被普遍应用于神经网络模型中。通过预试验设置上限迭代次数为1100 次，并采用早停法确定最终的模型参数。此外，为了尽可能使模型预测精度达到最优，早停法设置每迭代10 次进行一次验证，验证集Loss容忍度设置为10次，通过对上述参数组合的反复试验，从中选出最优参数组合构建双向LSTM模型。

3.3 结果对比与分析

为了验证双向LSTM分心识别模型性能，建立单向LSTM、SVM、决策树C5.0 分心驾驶识别模型与之进行对比，各个模型的优化参数如表3所示。

表3 模型参数设定Table 3 Model parameter setting

图3 展示了95%置信水平下4 种模型ROC 曲线的逐点置信区间。由图3 可知，LSTM 的单向和双向结构中测试样本点的置信区间连成的带宽均窄于SVM、决策树C5.0，说明基于LSTM 构建的模型的稳定性更好；另一方面BILSTM 的带宽相较LSTM 更为均匀，波动更小，说明双向LSTM 架构能够进一步提高驾驶人状态的识别能力。

图3 4种模型ROC曲线逐点置信区间Fig.3 ROC curves with point-wise confidence bounds for four models

此外，采用模型准确率、精确率、召回率、F1值和AUC对4种模型性能进行综合评价，结果如表4所示。结果表明，BILSTM取得了最高的识别准确率，达到88.3%和84.0%，且模型在识别率、召回率、F1及AUC皆优于单向LSTM、SVM与决策树C5.0，尤其是对分心状态的识别准确率和F1更高，说明双向LSTM 模型对抵近交叉口过程驾驶人分心状态识别最佳。