APP下载

基于多视觉特征融合的非侵入式疲劳驾驶检测方法研究

2021-04-29朱玉伟潘宇驰邹刘磊黄心怡范洪辉朱洪锦

江苏理工学院学报 2021年6期

朱玉伟 潘宇驰 邹刘磊 黄心怡 范洪辉 朱洪锦

摘要:为了解决目前车辆疲劳驾驶检测线索单一、算力要求高、准确率低、侵入式等问题,基于驾驶人员眼部、嘴部、头部等部位特征数据的采集分析,构建了轻量化的神经网络,设计了非侵入式多视觉特征融合疲劳检测方法。通过模拟对比实验和实际场景实验,证明该检测方法具有算力要求低、识别精度高、生产成本低等优点。

关键词:非侵入式;驾驶状态;疲劳检测

中图分类号:TP391.4文献标识码:A文章编号:2095-7394(2021)06-0059-08

疲劳驾驶是造成交通事故的重要原因,因此对驾驶员是否发生疲劳驾驶的检测及预警,就成为提高行车安全的重要手段。目前,针对疲劳驾驶的检测按技术路线可分为,驾驶人员生理信号的读取、车辆行驶轨迹的分析、驾驶人员驾车姿态及操作行为的监测及基于视觉识别机器学习的疲劳检测。这些技术路线又大致可以归纳为两类方法,侵入式检测和非侵入式检测。侵入式检测是指将相关检测仪器与人体产生物理接触,以此收集人体反馈出的疲劳状态指标,并判断是否疲劳[1-2]。非侵入式检测是指通过不与人体接触的传感器来读取被检测人员的精神状态[3-4]。比如,通过摄像机来读取驾驶人员的眼部闭合、面部表情、头部姿态等行为特征[5],利用模式識别、图像处理、机器视觉、深度神经网络等方法,实现对驾驶人员精神状态的实时检测。

随着计算机视觉领域深度学习技术的不断发展,基于计算机视觉图像处理的人体疲劳检测成为目前主流的研究方向。AL-LIBAWY[6]采用头部姿态和车辆信息融合,利用粒子群优化算法对驾驶员进行疲劳检测;KIM[7]采用卷积神经网络后直接全连接层输出的方法,加快了面部特征定位检测的速度;ZHANG[8]通过获取脸部特征点、眼睛有效区域,运用卷积神经网疲劳检测技术,构建了一套针对公交车驾驶人员的疲劳判断系统;赵磊[9]提取了驾驶员眼睛区域的局部灰度图像和面部特征点的坐标值,将其输入深度卷积神经网络,实现了对驾驶员疲劳状态的检测。

基于深度卷积神经网络的检测方法,为了追求检测的准确率,网络模型的深度和复杂度不断加大加深。模型的过于庞大首先会导致内存不足的问题,其次在低延时要求使用场景中无法做到实时响应,因而与车载疲劳检测系统要求的实时性相背离。同时,现有大部分解决方案都是凭借单一判断指标进行检测识别,容易受客观环境条件如环境光强、CCD部署角度等的影响,造成检测无法正常运行。为此,本文提出基于轻量化的神经网络模型和融合眼、嘴、头部姿态信号的多视觉检测方法。

1轻量化神经网络

随着卷积神经网络(CNN)技术的不断发展,计算机视觉领域的目标检测算法得到极大提升,RCNN架构的提出更是大幅提高了目标检测的精度均值[10-11]。之后,YOLO系列算法[12]、SSD系列算法[13]的提出,进一步提高了目标检测算法的检测能力。尽管这些算法在目标检测方面性能优异,但却较难适用于计算能力、存储空间、功耗资源等受限的场合。为了提高目标检测算法在嵌入式平台、手机终端等资源受限条件下的应用能力,轻量化神经网路的概念开始被提出。目前,轻量化神经网络模型的设计主要有两个方向,即人工设计轻量化模型和对现有的模型进行压缩。本文采用由CNN模型压缩所得的轻量化神经网络。

CNN模型压缩是从压缩模型参数的角度降低模型的计算量。HAN[14]提出了剪枝、权值共享和权值量化、哈夫曼编码三种模型压缩方法。剪枝指将不必要的网络权值去除,只保留对网络重要的权值参数[15];权值共享指多个神经元的连接采用同一个权值,权值量化则是将一个权值由更少的比特数表示;哈夫曼编码是指进一步减少权值的冗余。在经典的机器学习算法AlexNet和VGG-16上,HAN运用上述模型压缩方法,在没有精度损失的情况下,把AlexNet模型参数压缩为之前的1/35,把VGG模型参数压缩为之前的1/46,并且在网络速度和网络能耗方面也得到明显提升。

传统的模型压缩过度依赖算法,设计人员对于模型大小和速度准确率之间的权衡往往需要耗费大量精力。HE[16]提出了模型压缩策略工具AMC (AutoML for Model Compres),利用强化学习实现了压缩策略性能更优、压缩比更高、人力调试成本更低的目标;针对压缩模型精度对每层稀疏性的高度敏感性,提出了通过DDPGagent连续压缩比的策略。

1.1问题定义

1.2空间搜索

AMC引擎对于每一层t都定义了11个特征来描述状态,见式(1):

st:(t,n,c,h,w,s tr ide,k,FLOPs [t],reduced,rest,at-1)(1)

其中:t是层序号,卷积核尺寸是nxcxkxk,输入特征尺寸是cxw,FLOPs[t]是Lt层的FLOPs ,Reduced 是上一层减少的FLOPs,Rest表示下一层的FLOPs。这些特征全部归一化为[0,1]。

1.3搜索策略评估

通过限制动作空间即每一卷积层的稀疏率(sparsity ratio),针对latency-critical和quality-critical的应用提出两种损失函数:对于latency-critical的AI应用,如手机APP、自动驾驶汽车和广告排名,AMC采用资源受限的压缩方式(resource-constrained compression),可在最大硬件资源下实现最佳精度[18];对于quality-critical的AI应用,如Google Photos,AMC采用精度保证的压缩方式(accuracy-guaranteed compression),可在实现最小尺寸模型的同时不损失精度。

2检测算法实现原理

本文设计的疲劳驾驶检测系统首先通过摄像头对车辆驾驶人员进行实时图像采集,提取人眼睁闭状态、嘴部开合状态、头部姿态、眼球注意方向为线索特征,再进行多线索融合判断。检测过程为:由轻量化后的CNN网络对人体面部特征(眼部、嘴部、头部)进行定位,基于第三层卷积网络输出的5维特征点输出68维特征点[19],根据68点位分析进行疲劳程度判断,引入基于SVM的多视觉融合判断模型进行多线索结合判断。

2.1疲劳检测的原理

2.1.1眼部状态判断

当人体产生生理疲劳时,脑电波会发生改变,在眼部表现为眨眼时间和眨眼频率的变化。人在清醒的状态下,正常眨眼的間隔为4 s,眨眼时间(从眼睛闭合至完全打开)为0.2 s;而当人体处于疲劳状态时,眨眼时间会增加至0.6 s,同时单位时间内眨眼频率也会增加,因此眨眼时间与眨眼频率可以表征人体是否为疲劳状态。因为采集的图像为实时视频,属于连续的图像帧,所以可将眼睛闭合状态的连续帧类比为PERCLOS算法提出的单位时间眼球闭合的百分比概念[20]。本文将该概念定义为fe,见式(2):

其中,Te为神经网络检测到的闭眼帧数,M为单位时间内的总帧数。

传统的人脸检测方法是先对面部的特征部位进行定位,然后检测判断区域是否发生改变。本研究在PERCLOS中引入多个面部特征部位的长宽比,只需在计算相关特征点距离比的基础上进行适当加权处理,即可判断特征部位的状态。该方法不需要使用图像处理技术,而是通过界标距离的比率Le来确定部位是否闭合。长宽比的提出使检测难度大大降低,检测效率显著提升。

经人脸提取与Landmark人眼定位后,得到关于眼部的描述点为12个。在生理非刻意情形下,两眼动作一般同步对称,因此只取一只眼睛的6个特征点进行检测运算即可,运算公式见式(3):

公式中,分子计算垂直视界的距离,分母计算水平视界的距离。因为只有一组水平点,但是有两组垂直点,因此对分母进行加权处理。当眼睛张开时其纵横比基本保持稳定,但眨眼时两组的长宽比迅速降至零,如图1所示。

由图1可见:眼睛完全张开时,眼睛长宽比会很大,并且随着时间的推移保持相对恒定;眨眼时,Le值迅速下降到接近零,然后迅速上升。此时,结合fe便可判断人体处于眨眼、睁眼或闭眼状态,将数据输入SVM向量机即可判断是否为疲劳状态。

2.1.2嘴部状态判断

为了摆脱单一眼部特征检测易受干扰及个体生理差异性带来的检测不准确问题,引入对嘴部状态的检测。人体常规嘴部活动过程可以分为普通闭合、正常说话及疲劳感时的哈欠。将前文用于眼部检测的PERCLOS算法运用在嘴部特征Lm的描述上,以分析嘴部的开合状态。嘴部的特征点选择如图2所示,特征检测的计算见式(4):

运用公式(4)对人的嘴部状态判断属于简单的二维计算,只需CPU无需采用卷积网络。由图2可知,当人体处于正常说话状态时,Lm值在0.6~1.0之间,且为长时间持续状态;而当出现打哈欠等疲劳行为时,Lm值会急剧上升。由此,可以对人体嘴部的三种状态清晰识别,实现了对眼部识别的辅助判断。

2.1.3头部姿态检测

当人体在坐的体位下如果处于重度疲劳状态,则往往会出现瞌睡点头、头部或身体倾斜等行为。因此,通过对驾驶人员头部姿态的检测也可以判断其是否发生疲劳驾驶。驾驶人员头部姿态检测的主要参数有俯仰角(Pitch,绕X轴旋转的角度)、偏航角(Yaw,绕Y轴旋转的角度)、滚转角(Roll,绕Z轴旋转的角度),如图3所示。

本研究引入欧拉角的计算,利用二维图像将头部位置映射到三维图像上,可得到人脸的姿态。与眼部检测同理,引入fh概念来判断驾驶人员是否处于疲劳状态。据相关研究[21]可知,人体头部正常的滚转角范围为-41°~36.3°、偏航角为-75°~75°俯仰角为-60.4°~69.6°。当头部变动范围达到理论数值的75%时开始异常帧数计数,以此分析头部姿态是否异常,进一步判断驾驶人员是否为疲劳状态。

2.2基于SVM的多视觉线索融合检测模型

基于SVM算法建立多视觉融合疲劳检测模型,通过分析Le、Lm、fh等数据,完成对车辆驾驶人员眼部、嘴部、头部姿态特征的检测;当某一特征检测受阻时,可结合其他特征检测进行疲劳预警。本文将疲劳指标定义为Fi,其表达见式(5):

其中,pe为单次闭眼时长,pm为单位时间内检测到的打哈欠次数,ph为单位时间内检测到的头部姿态异常次数。三个判断条件相互独立,其中一项指标达到阈值,即进入疲劳状态输出,系统运行流程见图4。

3实验结果与分析

为验证本文提出的多视觉融合算法的有效性,将开展以下三方面的实验:将本文提出的特征数据量化眼部状态的识别效果,与目前常用的基于单一线索运用深度残差网络模型的眼部状态识别效果进行对比;单一眼部特征判断与多视觉特征融合判断的效果对比;通过实际测试对多视觉融合识别模型验证。

3.1深度残差网络与特征数据量化的眼部状态识别效果比较

以CEW数据集[22]中的2 423张人脸图像为素材,将其中一半进行眼部状态人工标注后作为深度残差网络识别的训练集,另一半作为深度残差网络识别的验证集。通过Transfer learning 方式对深度残差网络进行训练得到训练集准确率曲线图,见图5(a);训练后的深度残差网络自主识别的验证集准确率曲线图,见图5(b)。由图5可知,利用深度残差网络进行眼部状态识别,在多次迭代后,训练集和验证集的识别准确率都保持在95%左右。将CEW数据集输入本文构建的特征数据量化模型,所得眼部状态识别准确率曲线图见图6。与图5(b)对比可知,在采用特征数据量化方法释放了大量内存消耗的前提下,其眼部状态识别准确率仍与深度残差网络识别率相当。

3.2单一眼部特征判断与多视觉特征融合判断效果的对比

采用YawDD数据集[23]为识别效果验证集。YawDD数据集是渥太华大学采集的真实驾驶环境下不同年龄、种族、性别驾驶人员的车载驾驶视频数据集,详细记录了驾驶过程中驾驶人员的正常、疲劳、注意力不集中等狀态。选取YawDD数据集中驾驶人员疲劳状态的视频,分别用单一眼部特征判断和多视觉特征融合判断两种方法进行检测,检测结果如图7所示。图7中,single_acc表示单线索判断的准确率曲线,merge_acc表示多视觉特征融合判断的准确率曲线。由图可知,单一眼部特征判断的准确率为78%左右,而多视觉特征融合判断的准确率为93%左右,明显高于单一眼部特征判断法。

3.3多视觉特征融合疲劳检测实验

为了验证本文提出的基于轻量化神经网络的多视觉特征融合判断的疲劳驾驶检测方法,采用自然光源下实际车载驾驶测试。测试车型为别克英朗,车载终端硬件平台为树莓派4B+CCD摄像头。选取该嵌入式终端也是为了验证轻量化后的神经网络是否能够在低算力的终端设备上良好运行,以提高方案的推广性。嵌入式终端的安装如图8所示。为了更切合实际,选择清晨6:00、下午14:00、午夜24:00三个疲劳驾驶高发时间段进行测试。随机选取5位被测,分别命名为实验组1~5,其中实验组5为对照组。检测方式为除被测5 外其他被测在驾驶过程中做出眨眼、打哈欠、注意力转移等相关疲劳动作。通过三个时间段测试共得到15组数据,见表1。

由表1可知,在车载终端应用环境下,检测系统对各实验组驾驶人员疲劳状态的检测准确率保持在80%~100%之间,且对实验组1~4都做出了及时的预警,对空白对照组5未出现误报。实验证明,本文提出的多视觉特征融合驾驶状态实时检测方法有效、可行,相较于现有的其他方法,具有低成本、非侵入、高精度、易推广的优点。针对系统少量漏报和误报的问题,将在后续的研究中进一步解决和完善。

参考文献:

[1]王富强,刘德胜,刘云鹏.基于面部特征的疲劳驾驶检测技术研究[J].现代计算机,2021(7):121-124.

[2] TUNCER T,DOGAN S,ERTAM F,et al. A dynamic center and multi threshold point based stable feature extraction network for driver fatigue detection utilizing EEG signals[J]. Cognitive Neurodynamics,2021,15(2):223-237.

[3]王博石,吴修诚,胡馨艺,等.基于单通道脑电信号的疲劳检测系统[J].计算机科学,2020,47(5):225- 229.

[4]李作进,李仁杰,李升波,等.基于方向盘转角近似熵与复杂度的驾驶人疲劳状态识别[J].汽车安全与节能学报,2016,7(3):279-284.

[5] LI Z J,CHEN L K,PENG J,et al. Automatic detection of driver fatigue using driving operation information for transportation safety[J]. Sensors,2017,17(6):1212.

[6] AL-LIBAWY H,AL-ATABY A,AL-NUAIMY W,et al. Modular design of fatigue detection in naturalistic driving environments[J]. Accident Analysis & Prevention,2018,120:188-194.

[7] KIM W,JUNG W S,CHOI H K. Lightweight driver monitoring system based on multi- task mobilenets[J]. Sensors,2019,19(14):3200.

[8] ZHANG F,SU J J,GENG L,et al. Driver fatigue detection based on eye state recognition[C]//2017 International Conference on Machine Vision and Information Technology (CMVIT),2017:105-110.

[9]赵磊.基于深度学习和面部多源动态行为融合的驾驶员疲劳检测方法研究[D].济南:山东大学,2018.

[10] GIRSHICK R,DONAHUE J,DARRELL T,et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition,2014:580-587.

[11] GIRSHICK R. Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision(ICCV),2015:1440-1448.

[12] Redmon J,Farhadi A. YOLOv3:an incremental improvement[EB/OL].(2018-04-08)[2021-08- 12].https://arxiv.org/abs/1804.02767.

[13] SHEN Z Q,LIU Z,LI J G,et al. DSOD:learning deeply supervised object detectors from scratch[C]//2017 IEEEInternational Conference on Computer Vision(ICCV),2017:1937-1945.

[14] HAN S,MAO H,DALLY W J. Deep compression:compressing deep neural networks with pruning,trained quantization and huffman coding[EB/OL].(2016-02-15)[2021-08-11].https://arxiv.org/abs/1510.00149.

[15]朱金銘,邰阳,邹刘磊,等.基于深度可分离卷积与通道裁剪的YOLOv3改进方法[J].江苏理工学院学报,2020,26(02):30-38.

[16] HE Y H,LIN J,LIU Z J,et al. AMC:AutoML for model compression and acceleration on mobile devices[C]//Com- puter Vision - ECCV 2018,2018. DOI:10.1007/978-3- 030-01234-2_48.

[17] LI H,KADAV A,DURDANOVIC I,et al. Pruning filters for efficient conv nets[EB/OL].(2017-03- 10)[2021-0812]. http://arxiv.org/abs/1608.08710.

[18] ZOPH B,VASUDEVAN V,SHLENS J,et al. Learning transferable architectures for scalable image recognition [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition,2018:8697-8710.

[19] ZHANG K P,ZHANG ZP,LI Z F,et al. Joint face detection and alignment using multitask cascaded convolutional networks[J]. IEEE Signal Processing Letters,2016,23(10):1499-1503.

[20] HU S Q,LIN Z Y. Fatigue driving detection based on machine learning and image processing technology[J]. Journal of Physics:Conference Series,2018,1069:012179.

[21] FERRARIO V F,SFORZA C,SERRAO G,et al. Active range of motion of the head and cervical spine:a three-dimensional investigation in healthy young adults[J]. Journal of Orthopaedic Research,2002,20(1):122-129.

[22] SONG F Y,TAN X Y,CHEN S C,et al. A literature survey on robust and efficient eye localization in real- life scenarios[J]. Pattern Recognition,2013,46 (12):31573173.

[23] ABTAHI S,OMIDYEGANEH M,SHIRMOHAMMADI S,et al. YawDD:a yawning detection dataset[C]//Proceedings of the 5th ACM Multimedia Systems Conference on- MMSys14,2014.DOI:10.1145/2557642.2563678.

Research on Non-invasive Fatigue Driving Detection Method Based on

Multi-visual Feature Fusion

ZHU Yuwei1,PAN Yuchi1,ZOU Liulei2,HUANG Xinyi3,FAN Honghui1,ZHU Hongjin1

(1.School of Computer Engineering,Jiangsu University of Technology,Changzhou 213001,China;2. Netease Games,Zen Studio,Guangzhou 510623,China;3. Aptean,Technology R & D Department,Nanjing 210008,China)

Abstract:In order to solve the problems of single clues,high computational power requirements,low accuracy,and intrusiveness for vehicle fatigue driving detection,a lightweight neural network is constructed based on the collection and analysis of driver ,s eye,mouth,head and other feature data,and a non-invasive multi-visual feature fusion fatigue detection method is designed. Through simulation contrast experiment and actual scene experiment,the detection method has the advantages of low computational power requirement,high recognition accuracy and low production cost.

Key words:non-invasive;driving status;fatigue testing