基于LightGBM的高速公路隧道段驾驶人压力负荷评估

2022-11-30符锌砂葛洪成鲁岳

交通运输研究 2022年5期

符锌砂，葛洪成，鲁岳

（1.华南理工大学土木与交通学院，广东广州 510640；2.广州白云国际机场股份有限公司，广东广州 510470）

0 引言

隧道路段作为高速公路中的特殊路段，明暗交替的视觉变化和密集的标志标线设置赋予了其复杂的交通运行环境。隧道段交通事故是驾驶人、车辆、道路和环境这一动态耦合系统不协调变化诱发的，更多的研究和统计结果表明驾驶人自身的因素是产生事故最直接和根本的原因[1]。隧道路段外部客观交通环境的改变要求驾驶人具有高度的驾驶警惕性和协调性，一旦驾驶人出现分心驾驶、疲劳驾驶等状态，作出正确的判断和适宜的驾驶行为的概率就会降低，安全风险将会增大，当车流量较大或外界行车条件不好时更容易发生事故。因此，合理量化驾驶人在隧道路段行驶过程中的压力负荷，对于驾驶人作出正确、适宜的驾驶操作、规避行车风险大有裨益。

近年来，得益于智能驾驶领域的快速发展，越来越多的传感设备和通信技术被应用于车辆中，在行驶中可以提取到车辆状态和周围环境等多模态指标，大量参数为判断驾驶人驾驶效果，预测压力负荷、规避驾驶风险提供了重要依据，也是目前交通和运载领域的重要研究方向[2]。

驾驶压力负荷水平是关系稳定、安全驾驶的重要因素，长期以来，对其评估一般分为两个方面：①主观问卷、量表评估；②客观多模态参数评估。主观评估方面，Healey 等通过对感知压力等级的问卷分析，确定了低、中、高、极高等4种压力[3]；Mou 等通过驾驶模拟的方式，对驾驶人进行口头问询收集驾驶人实时的压力水平信息[4]；而Matthews等基于5种压力维度开发了驾驶人压力量表[5]。客观评估方面，Rigas 等通过实车试验，以及驾驶人的生理、面部数据和环境数据等，通过被试者自述驾驶感受来确定压力和疲劳的分级，使用支持向量机（Support Vector Machine,SVM）分类器检测压力，准确率达到了86%[6]；Rastgoo 等通过模拟驾驶，整合心电、车辆、环境等多模态数据，基于CNN-LSTM 多模态融合模型来预测高、中、低3 种压力模式，平均精度达到92.8%[7]；郑玲等采用生理、车辆信号作为认知负荷评价指标，采用驾驶模拟的方式进行跟车行驶的数据采集，使用随机森林（Random Forest,RF）算法进行压力负荷分类，最高精度达到92%[8]。

综上，目前的研究多为单一地从主观或客观层面对压力负荷进行评估，存在的主要问题是：客观评估的方式过于依赖采集设备，对收集的数据质量要求更高；而考虑主观问卷等因素的数据采集具有一定的延迟性，存在一定的误差。研究表明，综合主客观的多模态参数汇聚被证明有着更好的压力负荷预测性能[9]。因此，结合问卷等方式获得的主观测评数据，对驾驶环境、行为、生理指标进行多模态压力负荷预测，对于规避行车风险有着重要的意义。本文在某隧道路段实施自然驾驶试验，采集被试人员驶经隧道路段的生心理、驾驶行为、环境等客观参数，并结合主观压力负荷问卷评分，基于多维信息进行综合压力负荷等级评估，以期提升压力负荷预测的准确性。

1 自然驾驶试验

1.1 试验路段

该试验路段为G55 二广高速三水至怀集段，全长约120km，设计速度为120km/h，双向六车道，其中隧道路段限速80km/h。该试验路段共30处隧道。路段走向和隧道分布如图1 所示。试验期间路段车流量少，交通流密度低，可视为自由流状态。

图1 试验路段示意

1.2 试验参数选择

1.2.1 客观参数

本次试验选取了心电指标和皮电指标作为评价驾驶人压力负荷的生心理指标。心率（Heart Rate,HR）是心理研究中最常用的指标之一[10]，它一般与人的觉醒程度和精神活动有关。

式（1）中：HR 为心率（bpm）；RR 为心电图中两相邻R波的时间差（s）。

皮肤电活动（Electrodermal Activity,EDA）作为一项生理指标，它代表机体在受到外界环境刺激时，皮肤汗腺电传导产生的变化：情绪发生改变时，汗腺分泌增加，皮肤导电性增加，引起皮电指数增高。因此皮电反应与情绪、唤醒和注意力有密切联系，其具体涵义为两测点皮肤之间的电导大小，又称为皮肤电导反应（Skin Conduc⁃tance Response,SCR）[11]。

式（2）中：SCR 为皮肤电导反应（μS）；SCM为皮电反应中的电导峰值（μS）；SC0为皮电反应开始的基础电导值（μS）。

常见的驾驶行为指标有速度、转速、纵向加速度、横向加速度、方向盘偏转角度等。本试验选取转速、横向、纵向加速度作为驾驶行为的衡量指标。由于隧道具有密闭的环境特殊性，驾驶人对明暗交替的外界环境刺激反应显著。光照强度作为衡量光照强弱状况的指标，通过刺激驾驶人的视觉进一步影响其生心理状况，故该指标一定程度上反映了外界环境的变化，被选取为路侧环境参数。本研究所选取的试验路段隧道的平面线形比较平顺，多由直线和大半径曲线组成，故在本研究中忽略隧道线形因素的影响。

1.2.2 主观参数

本文采用NASA 任务负荷指数（NASA Task Load Index,NASA_TLX）评估主观压力负荷水平。NASA_TLX 使用6 个维度来评估工作量：心理需求、生理需求、时间需求、表现、努力程度和挫败感。本研究针对驾驶任务，将问卷中的表述改为在驾驶情景下的6 个维度。20 步双极刻度用于获得这些尺寸的评级，量表的评分范围为0～100。NASA_TLX 使用了一个需要配对比较任务的加权过程，要求被测人员在6 个维度的所有对中选择与特定任务的工作负荷更相关的维度，一共需要比较选择15次。每个任务的工作负荷量表分数是通过将权重乘以个体维度量表得分，再将各个量表的分数相加，最后除以总权重得到的，其计算公式如式（3）所示。一般来说，NASA_TLX 是一个非常好的测量心理负荷的多维尺度，其对工作量、工作负荷的变化很敏感，诊断性和准确性也很高[12]。

式（3）中：S为NASA_TLX 评分结果；Ni为20步双极刻度确定的第i个主观评分；wi为第i个维度在权重确定表中出现的次数。

1.3 试验装置

试验采用了以下6 种设备：（1）大众朗逸（1.6T 排量，三厢自动挡小汽车），作为试验车辆；（2）BIOPAC MP160 生理采集仪，用于收集驾驶人在驾驶过程中的EDA、心电图（Electro⁃cardiogram,ECG）及车辆的三轴加速度信号；（3）笔记本电脑，用于连接和收集生理仪器的数据；（4）行车记录仪，用于记录行驶环境；（5）照度仪，用于获取试验隧道段的照度信息；（6）车载优驾智能盒子，通过车载诊断系统（On Board Diagnostics,OBD）接口与车辆连接，以提取车辆运行中的速度、转速等行驶数据。

1.4 试验人员

试验招募了32名被试人员，均持有中华人民共和国机动车驾驶C1 执照，身体无严重基础疾病，视力或矫正视力均达到5.0。其中包括22 名男性、10 名女性，年龄在24～35 岁（均值为27.1岁，标准差为3.1），驾龄在1～10年不等（均值为3.7年，标准差为2.4）。

1.5 试验过程

（1）试验准备阶段，将行车记录仪及照度仪安装在汽车前挡风玻璃的正中央，并且确保挡风玻璃清洁以及行驶过程中不会晃动。

（2）正式开始试验之前，驾驶人需佩戴生理仪器进行试驾，以避免佩戴仪器的不适感影响试验。

（3）试验出发前，要求被试者保持闭目休息状态5min，以获取驾驶人静息状态下各项生理指标的基值。

（4）试验从上行路段四会西收费站开始，至下行路段四会西收费站结束。全程共有2 名测试人员跟车，分别采集驾驶人行驶过程中的生心理、环境数据以及车辆速度、转速等数据。另外，尽量避免出现影响被试者行驶心理的行为和车载环境。

（5）试验车辆通过连续的隧道路段后，从最近的互通收费站驶离高速公路，具体行驶次序如图2所示，测试人员在收费站出口处收集驾驶人对刚刚通过1处或多处隧道的NASA_TLX问卷，收集完成后继续驾驶任务，直至通过全部30处隧道。

图2 试验路段行经隧道次序示意

（6）单次试验结束后，测试人员将收集到的生理数据及时保存，并检查笔记本电脑以及智能手机中的数据有无问题。

（7）以上步骤完成后关闭仪器设备，将被试者身上的生理仪器取下并整理，清理电导液，将车辆熄火。

2 试验数据提取与处理

本研究共进行了128 次自然驾驶试验，采集的每组数据包括生理仪器采集的生心理数据，车辆速度、转速、三轴加速度等车辆数据，环境照度及行车记录仪获得的环境数据，以及驾驶人的NASA_TLX 量表分数等。经过整理，其中有11 组试验数据丢失或无法使用，最终得到有效数据117 组。参照隧道分段的相关研究成果[13]，本试验研究范围集中在隧道入口前100m至隧道出口后100m，在该范围内进行数据分析与提取。

2.1 生心理信号

在本研究中，选择HR 作为衡量驾驶人行车舒适性的心电指标，通过AcqKnowledge 软件进行ECG 分析，提取心率指标。由于个体之间的心率水平存在差异，静息心率或高或低，为了消除个体间的心理差异，选择心率变化率P作为ECG 信号的衡量指标[14]：

式（4）中：P为心率变化率（%）；h1为驾驶人静息状态下的基础心率值（bpm）；h2为驾驶人的实时心率值（bpm）。

此外，由于生心理信号采集频率高，且具有一定的滞后性，本次数据处理选择长度为5s的时间窗进行提取以消除误差：

式（5）中：Pi为第i秒的实际心率变化率（%）；Pn为处理分析后第n秒的心率变化率（%）。

为便于分析皮电数据，首先通过AcqKnowledge 软件对采集的原始EDA 信号进行降采样，将采集频率从500sample/s 降至31.25sample/s，随后采用窗口为Blackman-61dB 的有限冲激响应（Finite Impulse Response,FIP）滤波器进行去噪处理，将频率大于1Hz 的干扰信号清除后得到待分析的EDA 信号，最后利用AcqKnowledge 软件分析并提取出SCR 指标。本次数据处理选择长度为5s的时间窗进行提取以消除误差：

式（6）中：SCRi为第i秒的皮电反应值（μS）；SCRn为处理分析后第n秒的皮电反应值（μS）。

2.2 驾驶行为与驾驶环境

2.2.1 驾驶行为数据

通过优驾官网（http://www.gooddriver.cn/）可以提取优驾盒子在车辆运行过程中记录的转速等数据，进而衡量驾驶行为。该设备的采样率为5sample/s，取1s 数据的均值作为车辆转速指标。三轴加速度也是衡量驾驶行为的车辆指标。为了便于分析，首先对采集到的原始三轴加速度信号进行降采样，将采集频率从500sample/s 降至31.25sample/s。由于车辆发动机的振动会对三轴加速度的采集产生干扰，采用窗口为Blackman-61dB 的FIP 滤波器进行去噪处理，将频率大于3Hz 的干扰信号清除后，利用AcqKnowledge 软件取1s内的均值得到待分析的三轴加速度信号。

2.2.2 环境照度数据

本试验采用照度仪提取行车过程中的光照强度。光照强度指单位面积所接受的可见光的光通量，简称照度，单位为Lux。测试人员对照度仪进行摄像，通过视频读取实时位置的照度值，采样频率为1sample/s。

2.3 车辆位置

隧道事故的数量和风险因空间分布不同而存在较大差异，进而造成不同水平的压力负荷等级。本研究选取了行驶进程DPi和距出入口最小距离MINDI作为衡量车辆位置的评估参数。

式（7）中：DPi为行驶进程（%）；Li为第i秒车辆距离入口前100m 的距离（m）；Lt为隧道长度（m）。

式（8）中：MINDI为距出入口最小距离（m）；Deni为第i秒车辆距离入口的距离（m）；Dexi为第i秒车辆距离出口的距离（m）。

2.4 基于三维聚类方法的压力负荷等级划分

长期以来，衡量驾驶人的压力负荷水平通常采用主观评估、客观参数采集等方式。主观评估依据的是问卷调查和驾驶人自我评估报告，缺点是实时性、客观性较差。客观评估一般根据驾驶人的生心理指标以及驾驶行为、驾驶绩效等进行分类，但受限于仪器的灵敏度、精度以及驾驶人的情绪变化而导致准确率得不到保证[15]。考虑到这两种评估方式的优缺点，本文结合主客观评估，利用驾驶人生心理指标和NASA_TLX 得分，通过三维聚类的方式对驾驶人的压力负荷进行定量表达和分类。

对自然驾驶试验中获取的生心理指标数据进行提取和处理。考虑到驾驶人每通过1 处隧道均会产生1 个NASA_TLX 主观得分，对驾驶人通过每处隧道的心率变化率和SCR 取均值，并将3 项指标输入origin 软件进行K-means 三维聚类（如表1 所示），K值取为3，从而将驾驶人的压力负荷等级划分为低、中、高等3个水平。

表1 三维聚类输入参数

最终的三维聚类分析结果如图3 所示。图3（a）表示三维聚类的空间分布情况，不同形状的点代表不同等级的压力负荷水平，图3（b）和3 图（c）分别表示聚类结果在x-z平面和y-z平面的投影图。对聚类结果的具体描述如表2所示。

表2 聚类结果描述

图3 三维聚类分析结果

将三维聚类结果投影至x-y平面。结合既往的研究结果，本文基于心率变化率和SCR 两项指标对3 类压力等级进行拟合，导出低压力负荷与中压力负荷之间，以及中压力负荷与高压力负荷之间的界线，如图4所示[16]。

图4 生心理指标拟合结果

根据拟合结果，可以利用心率变化率和SCR两项生心理指标定量表示驾驶人的压力负荷等级，如式（9）所示。

式（9）中：P含义同式（4）；SCR含义同式（2）。

基于每处隧道1 个三维参数的数据来源，式（9）给出了压力负荷等级的分类方法。以每1s提取1 个数据的频率，仅需将每秒的心率变化率和SCR 输入公式，即可确定不同时刻在隧道路段实时行驶的驾驶人压力负荷等级范围，这为后续综合评估模型的建立提供了数据支撑。

3 高速公路隧道路段压力负荷评估模型

3.1 LightGBM模型原理

梯度提升决策树（Gradient Boosting Decision Tree,GBDT）是机器学习中常见的分类模型，其主要思想是利用弱分类器（决策树）迭代训练以得到最优模型，具有训练效果好、不易过拟合等优点，一般被用于多分类、点击率预测、搜索排序等问题。轻量级梯度提升机（Light Gradient Boosting Machine,LightGBM）对GBDT算法进行了优化，使其能支持高效率的并行训练，与极限梯度提升（eXtreme Gradient Boosting,XGBoost）相比训练速度更快、空间消耗更低、准确率更高，具有支持分布式、可以快速处理海量数据、避免过拟合等优点。LightGBM 的核心是采用了基于直方图的决策树算法（如图5所示）、带深度限制的Leaf-wise 增长策略（如图6 所示）、单边梯度采样及互斥特征捆绑技术。

图5 基于直方图的决策树算法

图6 Leaf-wise生长策略

3.2 模型评价指标

在机器学习模型中，常见的分类任务为二分类。对于分类任务来说，结果分为4 种情况：真阳（True Positive,TP）、假阳（False Positive,FP）、假阴（False Negative,FN）和真阴（True Negative,TN）。用一个2×2 阶的“混淆矩阵”来表示，如表3所示。

表3 混淆矩阵示意表

针对以上混淆矩阵的4 种情况，对分类任务的3种评价指标进行如下定义[17]。

（1）准确率（Accuracy）

式（10）～式（12）中：TP,FP,FN,TN的含义见表3。

本研究中的压力负荷分为低、中、高3 个等级，为多分类任务，故分类评价指标中的精度和召回率采用了宏平均（Macro Averaging），先在每个二分类上分别计算各类指标，共计算3 次，然后取平均值。

3.3 数据库构建

本研究利用LightGBM 建立基于多因素指标的压力负荷等级分类模型，综合考虑了驾驶行为、驾驶环境、车辆所处位置等因素，共计选择了8个自变量指标，所有自变量指标之间均不存在较强的相关性。以2.3 节中由生心理指标定量表达的压力负荷等级为输出变量，各变量的分布如表4 所示。根据已设定的采样率1sample/s，32 名驾驶人的117组试验数据共计产生17 888个样本。将总样本的80%设置为训练集，20%设置为测试集，采取十折交叉验证的方式以达到更好的泛化性。

表4 压力负荷等级分类模型输入与输出变量

3.4 模型参数设置

LightGBM 的模型参数众多，其中：n_estima⁃tors,max_depth,learning_rate 为影响模型最终精度和准确率的重要指标。研究中设置了不同组合的候选推荐值，然后使用机器学习工具库scikitlearn 中的网格搜索GridSearchCV 模块进行参数的遍历搜索。该方法可以根据设置的评价指标进行判断，输出最优的参数设置组合，最终得到的优化参数值如表5所示。

表5 LightGBM模型主要参数设置

3.5 模型结果评估

通过模型的数据库构建以及参数设置，输出LightGBM 分类模型的各项评价指标。表6 及图7给出了LightGBM 与XGBoost,RF,GBDT,SVM 等主流机器学习模型关于压力等级三分类的各项指标对比。从图表中可知，LightGBM 在各项指标中均表现出强劲的分类性能，除了召回率略低于XG⁃Boost 之外，准确率、精度分别达到了95.71%和93.33%，在5种机器学习模型中最高。总体而言，对于隧道路段的压力负荷等级分类，LightGBM 和XGBoost 的表现更优，其次是RF,GBDT，而SVM的表现较差。

表6 LightGBM与主流机器学习模型输出指标对比

图7 LightGBM与主流机器学习模型输出指标对比

表7 总结了既往研究中，国内外学者对于压力负荷等级分类所采取的模型算法及其性能。长期以来，针对驾驶人压力负荷的研究将特征量集中在车辆运行产生的数据、环境指标、驾驶人的生心理状态以及问卷量表等方面，分类标签主要有：低、中、高、极高、无压力（安全）。本研究采取LightGBM 模型，综合考虑了车辆、环境、生心理指标等客观指标以及问卷量表等主观数据，对驾驶人压力负荷等级分类的准确率更高。