APP下载

基于车载视觉的端到端驾驶员疲劳检测模型

2024-03-04许靖宁余荣杰宗佳琪

同济大学学报(自然科学版) 2024年2期
关键词:鲁棒性关键点驾驶员

高 珍, 陈 超, 许靖宁, 余荣杰, 宗佳琪

(1. 同济大学 软件学院,上海 201804;2. 同济大学 道路与交通工程教育部重点实验室,上海 201804)

随着全世界交通运输业和城市道路的蓬勃发展,车辆营运数量和驾驶员人数增长迅速,道路交通事故和因车祸伤亡的人数居高不下。疲劳驾驶被认为是引发交通事故的重要原因之一,仅在美国,每年就有约1 500 人丧生于驾驶员疲劳驾驶引起的车祸[1]。其中,营运车辆驾驶员疲劳驾驶引发的事故占比54 %,我国有关部门对营运车辆驾驶人抽样调查结果显示:84 %货运车辆驾驶人日均驾驶时间超过8 h,其中40 %超过12 h,64 %货运车辆只配备了1名驾驶人,具有巨大的交通事故隐患。因此,对营运车辆驾驶员疲劳驾驶状态进行检测、定级并做出相应的预警,对于保障交通运输安全至关重要。

疲劳的检测与分析常从驾驶员的面部特征入手,因为面部特征能够最直观、最明确地描述身体的疲倦状态,是目前研究中使用最多的一种方法。驾驶员在疲劳驾驶时,其面部特征可主要表现为抑制自发眨眼、打哈欠、头部俯仰变化频率提高等,因此能够通过眼部、嘴部、头部的疲劳状态表征和检测模型实现疲劳状态的分类。若驾驶员处于疲劳状态,各类特征值均会出现显著上升趋势,作为对驾驶员疲劳行为的定义,进而实现疲劳检测或疲劳定级。然而,在真实的营运车辆驾驶环境中,通过车载视觉系统收集的图像和视频数据极易受到车内照明条件的变化、图像或视频背景、相机位置及拍摄角度或其他因素的影响,出现图像过曝、驾驶员人脸不清晰或部分遮挡等问题,导致检测精度降低,严重影响模型性能。基于视觉特征进行驾驶员疲劳检测的方法仍存在一定的局限性,模型投入应用后往往存在召回率大幅降低等问题,急需对算法鲁棒性的提高方法进行进一步探索。

本文主要针对营运驾驶员的疲劳检测开展研究,在真实营运车辆驾驶环境下收集了901 辆车、681 位驾驶员的共1 398 条驾驶片段,其中有456 条片段属于疲劳驾驶。本文的主要工作及贡献为:

(1)提出了一种融合卷积神经网络(convolutional neural network , CNN)和长短时记忆神经网络(long short-term memory neural network ,LSTM)架构的端到端模型,来提取驾驶员的疲劳时序特征,在工业数据集上取得了0.83的接收者操作特征曲线下面积(area under curve , AUC)性能;

(2)在原始数据集的基础上,对实际运营环境中因天气光照的变化或者相机位置等原因可能出现的极端情况进行模拟,分别构建了光照变换、几何变换及综合变换三套增强数据集,进行了模型重训练,在工业数据集上取得了0.90 的AUC 性能,相较原始模型,增强模型的召回率提升了25 %,也有效提升了模型的鲁棒性;

(3)使用了一种神经网络的可视化方法Grad-CAM[18]将本文提出的模型中的CNN模块进行可视化,对模型在图像空间的关注区域进行了解读,通过可视化的方法分析了本文提出的端到端模型相比传统人脸关键点模型的优势。

1 研究综述

目前已有研究中,驾驶员的疲劳检测主要采用以下三种方法:(1)基于驾驶员生理信号的疲劳检测,该方法通常使用生理信号测量仪器,获取被测驾驶员的脑电图(EEG)、心电图(ECG)[2]、肌电图(EMG)[3]、眼电图(EOG)[4]、心率变异性(HRV)[5]等。其中脑电图(EEG)和心电图(ECG)是最常用的方法,分别用于跟踪驾驶员的大脑活动和心率[2],如Awais等结合使用EEG和ECG两种模式,将驾驶员的疲劳程度分为了两个等级[6]。虽然这类方法在疲劳检测问题上已被证明具有较高的准确性和客观性,但它们在现实环境中可行度很低。在驾驶员身上连接电极或佩戴相应检测设备是一种干扰正常驾驶的入侵机制,可能导致驾驶员身体不适,干扰驾驶。(2)基于车辆状态的疲劳检测,这种方法通过分析车辆运动学数据进行疲劳检测,是一种间接的检测方法。该方法常借助车辆总线和视觉传感器等设备来监控车速、车辆在道路上的位置和方向盘转弯角度等[7],并根据上述数据判断车辆的行驶状态以及驾驶员的疲劳状态。然而,从车辆上获取的实时数据容易受到驾驶员的驾驶习惯和外部环境的影响,因此检测的准确性与驾驶员和驾驶环境密切相关,难以应用于真实驾驶场景中驾驶员疲劳的检测或预测中。(3)基于驾驶员面部特征的疲劳检测,面部特征在当前疲劳检测研究中最为广泛使用,Charlotte等的研究表明,在生理信号数据集、车辆状态数据集、面部特征数据集中,面部特征数据集的表现最佳[8]。面部特征可包括头部姿态、打哈欠周期、眨眼频率等。Wang 等[9]提出了一种改进的人脸检测方法,并基于PERCLOS 指标评估驾驶员的疲劳状态。Ji 等根据驾驶员的眼睛状态,瞳孔运动和面部位置来判断驾驶员的疲劳水平[10]。Nawal 等基于支持向量机(SVM)提取人脸,然后基于循环霍夫变换(CHT)检测嘴部区域,最后基于打哈欠的特征检测驾驶员的疲劳状态[11]。尽管人脸分类准确度已经达到了很高的水平,但精确确定驾驶员是否疲劳仍然是一个挑战,尤其是在处理视频数据时[12]。随着深度学习技术的发展,一些研究提出了融合CNN和LSTM 的LRCN 算法[13]对视频数据进行分类,能取得更好的视频分类效果。Wang 等[14]基于LRCN 算法对驾驶员视频进行了疲劳检测算法,通过CNN对事先提取出的嘴部和眼部区域提取特征,然后通过DHLSTM网络进行疲劳判断。Liu等[7]也设计了一种基于CNN-LSTM 模型检测驾驶员疲劳的方法,先通过CNN网络提取驾驶员的眼部和嘴部区域,然后计算眼部闭合特征PERCLOS,统计张嘴及低头的时间占比特征,联合方向盘转角特征一起输入到LSTM 网络中进行疲劳判断。这些方法[7,14]对视频质量要求高,算法精度依赖于驾驶员眼部和嘴部的准确识别,有的还使用了视频之外的其他车载数据源。除了算法有待提高之外,目前多数研究是在仿真实验环境下而非实车中收集驾驶员视频或图像数据。即使一些研究在实车上收集数据,也多是选择光照充足的理想驾驶环境,对相机位置及参数进行了精心设置,实验获取的原始数据清晰稳定,能够精准提取人脸关键点数据并计算疲劳特征,模型的评测性能较高。但在真实的营运车辆驾驶环境中,驾驶员图像质量极易受到天气及照明条件的变化、车厢背景、相机位置及拍摄角度等诸多因素的影响,视频画面存在色彩扰动,或人脸存在过大、过小、不能完全入画、画质不清晰等问题,导致模型的疲劳检测精度大幅降低,如何提高模型鲁棒性在现有研究中也未被深入讨论。

2 建模方法

本文提出了一种基于深度学习算法的端到端驾驶员疲劳检测模型。该模型以驾驶员面部视频作为输入,网络包含CNN及LSTM两个主要部分。其中CNN网络部分被用来从非结构化视频数据中提取驾驶员面部特征;而LSTM网络用于学习驾驶员疲劳的时间序列特征,并解决复杂场景中的长期依赖性问题。

此外,和实验室的理想测试环境相比,实际运营环境会存在由光照、天气不同而引起的车内光线变化干扰,以及由相机安装位置及镜头角度等不同而引起的图像几何变化干扰,本文在原始训练数据集上采用图像亮度变换及仿射变换得到增强数据集,然后进行模型重训练,以进一步提升模型的泛化能力及鲁棒性。

2.1 基于驾驶员面部视频的端到端模型

2.1.1 单帧视频特征提取网络

卷积神经网络(CNN)是一种前馈神经网络。在本文使用的端到端模型中,首先从视频数据中提取单帧图片作为模型输入,经过卷积层、池化层和全连接层的处理,得到该视频帧对应的特征信息,网络结构如图1 所示, 图中Convolution 表示卷积层,Batch Norm 表示批量归一化层,ReLU 表示线性整流函数即激活函数。将每一帧提取出的特征按照时间排列,即得到了原视频数据所对应的时序特征。

图1 CNN模型结构Fig. 1 Structure of CNN model

在设计CNN 部分的结构时,参考了经典的AlexNet[15]图像分类网络,并在此基础上通过对网络层及卷积核参数等进行优化调整,得到了最终的轻量级CNN 网络结构。具体来说,在设计的CNN 网络结构中,共包含4 个层,其中每个层包含卷积层、批处理归一化层和激活层。且4个层对应的卷积核分别被设置为32、64、128和256,步长均设置为2,每层选用的激活层均为ReLU 函数。经过连续的4 次卷积操作后,一张256×256的RGB图像将被转化为一个4×4×256 的三维矢量阵列。然后对这个三维矢量矩阵进行扁平化操作,将其压缩成长度为4 096的一维矢量数组。最后将这个数组经过一层全连接层,计算得到一个长为256 的一维向量,作为CNN网络对该帧图像的特征提取结果。

2.1.2 视频帧间时间序列特征提取网络

作为循环神经网络(RNN)的进化版本,长短时记忆神经网络(LSTM)能够进行长短期记忆,并有效地解决长序列训练中的梯度消失和梯度爆炸问题。在本研究中,将CNN模型提取的特征数据输入LSTM 网络。此处的LSTM 网络主要负责疲劳检测的分类,最终输出的是每个驾驶片段是否有疲劳现象的二分类结果。

2.1.3 端到端模型总体框架

本文提出的端到端模型整体结构如图2 所示。视频中的每一帧经过前一部分的CNN 提取之后,会得到对应的面部特征,之后将每一帧提取出的特征按照时间排列,转化为时序数据。本文使用的LSTM 共包含两层隐藏层,每层隐藏层有256 个维度的特征。在LSTM 网络之后,紧跟着一个全连接层,用于输出整个模型最终的疲劳识别结果。

图2 端到端模型总体框架图Fig. 2 Overall structure of end-to-end model

2.2 基于数据增强提升模型鲁棒性

2.2.1 车内光线变化模拟

实际运营环境中,车身周围环境会对车内光线情况产生较大的影响。例如,建筑物或树木的遮挡可能导致车内光线减弱;太阳光、环境车的车灯,尤其后视镜的反光等可能导致车内部分区域的光线陡然增强。此外,白天和黑夜车内光线状况也截然不同。因此,对视频片段进行车内光线变化的模拟是十分必要且符合真实车辆运行状况的。

(1) 亮度模拟

亮度一般被定义为一个光源相对于对比光源所输出的能量大小。一般而言,亮度越高,像素越接近白色;亮度越低,像素越接近黑色。本研究中,首先设置了亮度变换随机因子fb,原始图像iori和亮度随机变化后的图像ib之间的关系表示为

(2) 饱和度变化

饱和度指颜色的纯度或强度,即颜色中的灰色量含量的高低。本研究设置的饱和度变换随机因子为fs,首先通过计算得到原图iori对应的灰度图igray,则原始图像iori和亮度随机变化后的图像is之间的关系表示为

(3) 对比度变化

对比度指数字图像中各种图像特征之间存在的颜色或灰度区分的数量。设对比度变换随机因子为fc,首先通过计算得到原图imo对应的灰度图的像素均值Iˉ。则原始图像imo和亮度随机变化后的图像ic之间的关系表示为

(4) 色相变化

色相变化指的是对原图片的色彩进行相位的变化,具体做法是:首先将原图片转换成六角锥体模型(hue saturation value , HSV)格式得到色相H,之后通过色相随即变换因子fh进行随机变换,再将新的HSV格式的图像转换回原格式,转化公式为

2.2.2 相机变化模拟

由于车内环境及驾驶员本人体态特征等的差异,即使相机是按照统一的安装标准进行安装,也会造成诸如驾驶员距离镜头远近、驾驶员面部在整个视频中所处位置等不一致的情况。此外,由于车辆颠簸等原因,相机极有可能发生诸如平移、旋转之类的几何变换。对于一些模型来说,这种几何变换可能是致命的,甚至会直接导致模型失效。

在本研究中,主要对相机位置变化等引起的图像几何变换进行模拟,包括平移、旋转和缩放。各个变换对应的随机因子如表1所示。通过这三类仿射变换,能够较好地覆盖上述分析的相机引起的图像几何变换情况。

表1 各类变换及对应的随机因子Tab. 1 Each transformation and corresponding random factors

3 模型鲁棒性的提升

在训练端到端模型时使用Adam 优化器进行优化,学习率被设定为0.001,最大训练周期数约为500,损失函数选取的是分类任务中常用的交叉熵。端到端模型的实现和训练是基于PyTorch 平台实现,模型的训练和评估是在装有NVIDIA Tesla K40C GPU 和Intel Core i7处理器的工作站上进行,模型参数量为3.168×106,对应的每秒浮点运算次数为17.864×109,每条10 s 时长视频的平均推断时间为37 ms,模型具有实时性。

3.1 数据采集

本文的数据来源于某货运公司的车载视觉系统。通过在真实的出车任务、真实的驾驶环境中录制营运驾驶员面部视频,共采集到视频数据1 398条,视频时长10 s,分辨率为352×288。采用3 名专家联合标定的方法将所有视频人工标定为疲劳、非疲劳两种类型,其中被标定为疲劳的视频数据共456条,被标定为非疲劳的视频数据共942 条。实验中按照7:1.5:1.5 将视频数据划分为训练集、验证集和测试集。

随机采集的视频数据共涉及681 名驾驶员,年龄分布情况如图3 所示。其中,90 %的驾驶员年龄集中在35~50岁范围内,驾驶员的平均年龄为42.5岁。实验包含的驾驶员人数众多,车辆型号不一且车内布置各不相同,相机的拍摄角度及位置也有明显差异。如图4c,驾驶员着装没有统一规定,多位驾驶员存在戴帽子、佩戴眼镜、甚至墨镜,疫情期间,驾驶员戴口罩的情况也比较常见。如图4a和4b,出车时间涉及白天及黑夜,覆盖了不同的光照情况。在个别视频中,如图4d,由于相机的安装位置不当,还存在驾驶员面部采集不完整的情况,只能看到面部的一部分,比如眼睛或嘴巴。综上所述,本次研究所使用的数据集涵盖了真实运营环境中可能出现的大多数情况,具有真实性、多样性及丰富度。

图3 驾驶员年龄分布图Fig. 3 Driver age distribution chart

图4 数据集中存在问题的样本的样例图Fig. 4 Samples with problems from the dataset

3.2 基础模型的鲁棒性评估

首先,本文在某货运公司的驾驶员车载视觉数据上训练了一个端到端基础模型来识别驾驶员的疲劳状态,数据随机划分为训练集、验证集和测试集,模型在210条测试数据上的各项指标如表2所示,模型输出的分类阈值根据约登指数得到[16],表中各项指标基于混淆矩阵进行计算。实验结果表明端到端基础模型在基础测试集上的AUC 为0.830,准确率达到84.8 %,如表2所示,能够有效识别营运驾驶员的疲劳状态。

表2 基础模型鲁棒性评估Tab. 2 Robustness evaluation of base model

车辆运营过程中可能会出现图像过曝、相机位置旋转过度等问题,为了充分测试模型的鲁棒性,在测试数据集上进行了车内光线变化及相机位置变化的模拟,对基础模型进行鲁棒性评估。鲁棒性强的模型在各个测试环境下理应拥有接近的性能;反之,鲁棒性弱的模型在一些特殊的测试环境下会有明显的性能指标下降。因此,使用测试环境改变时Accuracy 和AUC 等指标的下降程度来衡量模型的鲁棒性。

从表2 的实验结果来看,该模型在应对这两种变化时均有较为显著的性能下降,表中Accuracy 表示准确率,Recall表示召回率,Precision表示精确率。相比光线变化,相机位置等变化引发的图像几何变换对模型性能的影响更为明显,AUC 下降达到了20 %,说明该模型对图像几何变换十分敏感。相对而言,车内光线变化对模型性能影响较小,在引入了车内光线变化模拟的测试集中,AUC相比基础测试集下降了9.6 %,Precision下降达到了8.7 %。该现象出现的原因可能是实验中采用的数据多数为黑白图像,因此图像亮度变化对原数据的改变较小。最后,测试了综合车内光线变化和相机相关几何变化对应的模型性能,从结果可以看出,模型在这种综合变化下基本完全失效,AUC值已经接近0.5,相比基础测试集,AUC 下降了37.3 %。实验结果表明端到端基础模型的鲁棒性较差,在基础测试集代表的实验室环境中其AUC为0.83,但是在包含了光线变化及相机位置变化模拟的综合扩展测试集上,模型基本失效。

3.3 基于增强数据集的模型改进

在3.2节中,根据基础模型的鲁棒性评估结果,可以推测视车内光线变化及相机位置变化是影响基础模型鲁棒性的重要因素。为了进一步提高模型的泛化能力及鲁棒性,随机选取训练集的视频片段,进行两种变化模拟,分别构建了光照变换、几何变换及综合变换三套增强数据集,用于模型重训练。基于这三套增强数据集训练出的三个增强模型和基础模型的性能对比如表3所示。对应的ROC曲线对比图如图5所示,这里的AUC是模型在基础测试数据集上的推断结果。从结果可知,增强模型相较于基础模型来说,模型性能均有明显提升,其中基于综合变换的增强模型泛化能力提升最为显著,AUC达到了0.9,相比基础模型,AUC提升了8.4 %。

表3 三个增强模型和基础模型的性能对比Tab. 3 Performance comparison between three augmented models and base model

图5 增强模型的ROC曲线对比Fig. 5 ROC curve comparison of enhanced models

此外,为了检验增强模型的鲁棒性,本文测试了增强模型在综合扩展测试集上的性能,如表4所示,模型鲁棒性对比如图6 所示。从实验结果可以看出,改进后的三个增强模型,在应对光线及相机位置及参数变化时,均体现出了更好的鲁棒性。改进前,模型在基础测试集上AUC为0.83,在综合扩展测试数据集上AUC 为0.52,性能下降37.3 %;改进后,模型在基础测试集上AUC 为0.9,在综合扩展测试数据集上AUC为0.813,性能下降9.7 %,相对改进前,模型的鲁棒性有明显的改善。

表4 基础模型与增强模型的鲁棒性对比Tab. 4 Comparison of robustness between base model and enhanced model

图6 基于增强数据集改进前后模型鲁棒性对比Fig. 6 Comparison of model robustness before and after improvement based on enhanced dataset

4 模型解读及性能对比

4.1 模型解读

由于基于深度学习算法的端到端模型是黑盒模型,为了探究模型是否按照预期捕获了疲劳的相关特征,使用了一种神经网络的可视化方法Grad-CAM[17]将本文提出的模型中的CNN模块进行可视化,结果如图7所示,图中高亮部分即为模型的重点关注区域。对于图7a对应的视频片段,可以看到模型的关注重点主要有两块,分别是眼部和嘴部,说明模型与预期一致地捕捉到了驾驶员眼部闭眼和嘴部张开打哈欠的特征。在图7b中,虽然由于角度原因眼部特征较难抓到,但是模型成功地抓捕到驾驶员嘴部张开打哈欠的信息,因而成功地完成识别。图7c 对应的情况和图7b 相反,由于摄像头位置问题,没法完整捕捉驾驶员嘴部信息,因此模型主要通过驾驶员是否闭眼完成判断。在最后一张图7d中,可以看到驾驶员在打哈欠的时候做了一个捂嘴的动作,这种动作会导致人脸关键点完全捕捉不到,严重影响基于关键点的模型性能,而端到端模型则能够对驾驶员打哈欠的手部动作进行较好的捕捉,驾驶员的疲劳状态被正确识别。模型可视化结果表明,即使在光线不足、驾驶员面部视频不完整、采集角度不理想等多种复杂的自然驾驶情况下,设计的端到端模型仍然能够有效捕捉疲劳相关特征,完成驾驶员疲劳状态的正确识别。

图7 端到端模型可视化结果Fig. 7 Model visualization results in this paper

4.2 模型性能对比

现有疲劳评估的研究大多数是基于驾驶员面部关键点的提取进行建模。主要分为两大类,基于关键点计算面部统计特征建模或基于关键点计算面部时序特征建模。在第一类方法中,研究者[18]通常使用算法检测脸部的68个或更多关键点,根据每帧的眼部及嘴部关键点坐标判断该时刻眼睛及嘴巴是否闭合,也有文献[19]根据鼻尖及下颚等部位的坐标进行头部运动情况的判断,然后在视频的连续图像帧上计算特征统计值,最后基于规则进行疲劳状态的判断,如连续闭眼3 s 则视为疲劳,或者根据单位时间内眼睛闭合频率PERCLOS 值[20]进行疲劳判断,称这一类算法为面部关键点检测统计模型,他们都是先使用算法检测面部关键点,然后依据关键点坐标计算的眼部、嘴部及头部的统计特征进行疲劳判断。而第二类方法,研究者认为疲劳是一个连续的状态,通过面部时序特征进行疲劳判断会更准确,这类算法[21]通常先检测面部关键点,在每一帧上计算包括眼部闭合、嘴部闭合、头部倾斜角等在内的面部特征,然后将这些特征按照时间排列,通过RNN/LSTM 等时序网络判断疲驾驶员的疲劳状态,称这类算法为面部关键点检测时序模型,这类算法往往比第一类算法的精度更高。但是这两类方法存在两个较严重的问题。首先它们都严重依赖于关键点检测算法(如DLIB)的精度,在复杂的营运车辆自然驾驶环境中,由于相机角度位置的不同会导致人脸画面捕捉不全、或面部被手遮挡、或佩戴墨镜、口罩等均会引起关键点检测失效,直接造成疲劳评估模型的性能下降;其次这类算法仅检测面部部分区域进行疲劳判断,如眼部、嘴部等区域,往往会将驾驶员低头看手机等分神驾驶误判为疲劳驾驶。因此要在营运车辆的自然驾驶环境中进行疲劳状态判断,必须要提取驾驶员面部甚至头部更全面和丰富的特征,如面部表情,频繁抬眼,捂嘴、转头、揉眼等肢体动作等,设计的端到端模型对包含驾驶员面部影像的整帧图像进行高层特征提取,增强了更多特征提取的可能性,能够有效避免因关键点检测失效而造成的误判。

将面部关键点检测统计模型和面部关键点检测时序模型应用于本文的实验数据,与端到端模型性能进行对比,结果见表5。对于关键点检测统计模型的构建,是在视频帧上基于DLIB 算法提取面部68个关键点,在10 s 视频(帧率为10 帧·s-1,合计100幅视频帧)上根据嘴部及眼部关键点坐标统计计算得到打哈欠次数、单位时间内眼睛闭合频率(PERCLOS)、嘴巴张开次数、最大闭眼时间和点头次数,基于这5 个特征训练随机森林模型判断驾驶员是否疲劳,得到DLIB-STATS模型,模型AUC为0.58。而对面部关键点检测时序模型,则是根据关键点坐标分别计算每帧的左、右眼纵横比值、嘴巴纵横比值作为时序特征输入到LSTM模型中判断驾驶员疲劳情况,得到DLIB-LSTM 模型,模型AUC 为0.61。在复杂的营运车辆行车环境下,提出的端到端的模型AUC 为0.9,远优于这两种主流的基于面部关键点检测的疲劳评估算法。

表5 模型性能对比Tab. 5 Comparison of model performance

5 结语

本文基于CNN 和LSTM 网络构建了端到端的疲劳检测模型,对包含驾驶员影像的视频帧进行高层时序特征提取,能够有效提高自然驾驶环境下营运驾驶员的疲劳检测精度。为了模拟营运车辆复杂行车环境下的光线变化及相机位置变化,本文对训练数据集的视频帧进行了光照和几何变换,得到了增强数据,进而对模型进行重训练。实验结果表明,增强模型的AUC 提升了8.4 %,达到0.9。在包括了光线变化模拟及相机位置变化模拟的综合扩展测试集上,基础模型AUC 下降37.2 %,而增强模型AUC 仅下降9.7 %,优化后的模型鲁棒性有了明显提升,有效降低了自然驾驶环境中因光线变化或相机位置移动对模型精度带来的影响。后期拟采用对抗训练的方法进一步提升模型的鲁棒性。在实验过程中也发现,车内背景会对模型的识别造成一定的干扰。在未来的工作中,也拟通过添加注意力机制等方法降低驾驶员背景的干扰。另一方面,也将尝试通过分阶段处理先对视频数据中的无关信息进行过滤,例如通过目标检测的方法先提取出驾驶员面部区域,再通过深度神经网络进行疲劳特征提取,以进一步提升营运驾驶员疲劳检测的准确性。此外,未来在算法实车部署时还需要对算法功耗、可靠性及安全性进行评估及研究。

作者贡献声明:

高 珍:实验方法设计、论文撰写、审阅与修订。

陈 超:实验数据整理、实验数据分析、论文撰写。

许靖宁:实验数据分析、模型构建、论文撰写。

余荣杰:提供研究资源、实验方法设计、论文审阅与修订。

宗佳琪:实验数据分析、模型构建、论文撰写。

猜你喜欢

鲁棒性关键点驾驶员
基于高速公路的驾驶员换道意图识别
驾驶员安全带识别方法综述
聚焦金属关键点
肉兔育肥抓好七个关键点
荒漠绿洲区潜在生态网络增边优化鲁棒性分析
基于确定性指标的弦支结构鲁棒性评价
基于非支配解集的多模式装备项目群调度鲁棒性优化
起步前环顾四周是车辆驾驶员的义务
非接触移动供电系统不同补偿拓扑下的鲁棒性分析
医联体要把握三个关键点