基于Encoder-Decoder注意力网络的异常驾驶行为在线识别方法
2023-09-03戴语琴徐永能郭唐仪
唐 坤,戴语琴,徐永能,郭唐仪,邵 飞
(1.南京理工大学 自动化学院, 南京 210094; 2.陆军工程大学 野战工程学院, 南京 210023)
0 引言
交通事故不仅对社会经济发展造成严重损害,而且是应急救援等特殊情况下人员物资安全投送的重大威胁。数据表明,我国2019年共发生交通事故247 646起,造成直接财产损失就高达134 618万元[1]。超过90%的交通事故与异常驾驶行为有关,行驶速度每增加5%,造成伤害和致命交通事故数量将分别增加10%~20%[2]。因此,对异常驾驶行为进行分析与识别是预防交通事故、提升交通安全的重要途径,为人员物资的安全与高效投送提供可靠保障。
国内外学者对驾驶行为进行了广泛研究[3-4],从方法层面来看,目前研究大致可以分为基于分析的方法与数据驱动的方法两类[5]。前者以驾驶员心理与生理信号为基础,例如脑电信号EEG[6]、皮电信号EDA[7]、眼动信号EOG[8]等,通过构建精确的分析模型对异常驾驶行为进行识别。由于心理与生理信号具有较高的时间分辨率,能够满足精细化的驾驶行为分析需求,基于分析的方法得到了广泛应用[9-10]。然而,心理与生理信号通过驾驶佩戴的传感设备获取,存在较强的侵入性与干扰性[11]。与基于分析的方法不同,数据驱动的方法利用机器学习等方法对数据进行分析,将蕴含在数据中的信息转化为知识,实现驾驶行为的非显式建模。由于采用非侵入方式进行数据采集并自动构建数据与驾驶行为之间的关联模型,数据驱动的方法具有显著优势,已经成为驾驶行为研究的热点方向[12]。从数据角度而言,数据驱动的方法主要包括两类:基于图像视频[13]与基于传感器数据[14]。得益于机器视觉近些年的迅猛发展,基于图像数据的方法具备了较多的成熟方案。然而,图像数据容易受光照等因素的影响,应用场景受限,而且视频数据量较大,需要消耗大量的计算资源。基于传感器数据的方法需要为车辆安装大量专用传感器,安装与维护成本极高,较难推广应用[15]。
随着智能手机的大量普及,手机内集成的传感器种类日益丰富,通过融合智能手机多传感器数据进行驾驶行为分析得到越来越广泛的关注[16]。手机传感器能够以非侵入的方式实时记录车辆运动状态信息,与专用传感器相比,具有成本低、易获取、非侵入、易普及等优点。利用手机传感器数据进行驾驶行为分析的关键在于如何从传感器数据中提取高质量的特征表达[17]。近年来,深度学习(deep learning)在计算机视觉、自然语言处理等领域取得了巨大成功[18-19]。得益于深度网络结构,深度学习模型能够逐层从数据中挖掘潜在知识,在特征提取与数据挖掘方面展现出独特的优势[20]。鉴于深度学习模型强大表征能力,利用深度学习方法从数据中挖掘交通模式已经成为交通研究的重要趋势[21]。
鉴于此,从数据驱动的角度出发,以低成本无侵入的手机传感器为基础,通过多传感器数据融合,分析自然驾驶条件下的驾驶行为模式与数据特性,提出一种基于Encoder-Decoder深度学习模型与Attention机制的异常驾驶行为在线识别方法,并利用真实数据进行实验对模型的有效性进行验证。主要工作包括:
1) 分析驾驶行为特性与数据模式,挖掘异常驾驶行为的数据表现特征,验证基于手机多传感数据融合进行异常驾驶行为识别的可行性。
2) 提出基于Encoder-Decoder深度网络与SVM的异常驾驶行为识别模型,通过融合Attention机制,增强了模型的注意力,并提高了异常驾驶行为识别精度。
3) 利用真实的自然驾驶数据进行实验,分析不同特征提取器与分类器组合模型的异常驾驶行为识别性能,再通过实验对比,验证了所提模型的有效性。
1 数据简介与预处理
1.1 数据简介
本文中所采用的驾驶行为数据来自于公开数据集Driver Behavior Dataset[22]。该数据集通过智能手机中的惯性测量单元传感器采集,加速度计、线性加速度计、陀螺仪与磁力计分别记录车辆在xyz三个方向上的加速度、线性加速度、角速度与磁场力。整个数据集包含4段实验行程,平均每段行程持续约13 min,具体如表1所示。
表1 异常驾驶事件数据统计量
1.2 特征提取
由于驾驶行为的复杂性,单个传感器很难对其进行较好地表征,本文中采用多传感器融合的方式对驾驶行为进行描述。如图1所示。通过对不同传感器的数据进行融合,各时刻的驾驶行为可以用一个维度为12的特征向量xt∈R12进行描述。由于综合考虑了多个传感器数据,相较于单传感器而言,xt具有更为全面的驾驶行为描述能力。
图1 驾驶行为描述特征构建
1.3 数据预处理
鉴于原始数据存在数据缺失、量纲各异和类间不平衡等问题,因此有必要采用以下步骤对初始数据进行预处理。
步骤1缺失数据处理。查找缺失数据记录,确定数据缺失性质,针对偶然性缺失,采用插值法进行补全,针对结构性缺失,将缺失记录从数据中剔除。
步骤2数据归一化。不同传感器度量单位不同,为了消除量纲的影响,采用最大最小值归一化方法(Min-Max Scaling)对各个特征维度上的数据进行归一化。
步骤3非平衡数据处理。数据中异常驾驶为少数类,正样本与负样本分布不平衡,通过对正常驾驶下采样和对异常驾驶上采样,使得正负样本比例尽量平衡。
步骤4特征分布正态化。利用正态概率图(Normal Probability Plot)对各种特征进行正态性检验,针对非正态分布特征,采用对数化等方法进行正态分布变换。
2 异常驾驶行为识别模型
2.1 总体框架
本文中提出模型的总体框架如图2所示。主要包括输入编码、注意力学习、特征解码、序列重构、残差计算与驾驶行为分类等步骤,具体流程如下所示。
图2 模型总体框架
步骤6SVM分类。将重构误差E={e1,e2,…,eT}与原始序列Xorigin={x1,x2,…,xT}拼接得到混合分类特征向量X={(x1,e1),(x2,e2),…,(xT,eT)},将其输入至SVM进行分类得到ot,t=1,2,…,T,实现异常驾驶行为识别。
2.2 基于LSTM的Encoder-Decoder模块
首先,将预处理后的驾驶行为时间序列数据Xorigin输入至Encoder-Decoder模型中的Encoder模块。Encoder-Decoder模型是一种强大的时间序列处理框架[23],如图3(a)所示。
图3 Encoder-Decoder模型结构
(1)
(2)
式中:g(·)为映射函数,通常采用全连接层实现。
在解码阶段,利用语义向量c与之前时刻输出{y1,y2,…,yt-1}计算Encoder在各时刻的输出,如下所示
(3)
式中:yt为Decoder在当前时刻的输出;yt-1为上一时刻的输出;c表示语义编码向量。
2.3 注意力模块
(4)
式中:Wa为权重矩阵;va为变换系数;上标T代表矩阵转置。然后,对相关性得分进行归一化,计算Encoder隐含层状态对Decoder隐含层状态的影响权重,如下所示
(5)
(6)
(7)
式中:Wc为转换矩阵。在此基础上,计算decoder在t时刻的最终输出yt,如下所示
yt=Whost+bho
(8)
式中:Who为隐含层输出系数矩阵;bf为偏置项。
2.4 支持向量机模块
(9)
式中:w为超平面法向量,b为偏置,xi与yi∈{+1,-1}分别为第i个样本的特征向量与分类标签,m为样本的数量。利用拉格朗日乘子法对上式进行转换,得到下述优化问题:
(10)
(11)
基于上述最优分割超平面,对于任一样本x,其分类决策函数如下所示
f(x)=sgn((w*)T·x+b*)
(12)
式中:sgn(·)为符号函数,输出为“1”或“-1”,分别代表异常驾驶与正常驾驶,从而实现异常驾驶行为识别。
3 模型结果与分析
3.1 实验设置
对于每个时刻t,利用该时刻及前T-1个时刻的时间序列构建驾驶行为特征描述张量Xt=[xt-T+1,xt-T+2,…,xt]。通过对实验数据进行预处理,获得驾驶行为数据样本共 155 496条,其中正常驾驶132 970条,异常驾驶22 526条,按照3∶1∶1的比例将数据划分为训练集、验证集与测试集。模型采用PyTorch 1.9.0实现,实验环境为Intel(R) Core(TM) i7-9700 CPU、16G DDR4内存、NVIDIA GeForce RTX 2080 GPU。模型超参数通过网格搜索调优确定,设置LSTM 层数为3,各层维度分别为{128,128,64},batch_size为128,使用Adam优化器对模型进行训练,最大迭代次数为2 000。为了防止模型过拟合,采用丢弃法构建dropout层,并采用早停法(early stopping)对模型进行训练。为了验证模型的稳定性,采用5折交叉验证对模型性能进行评估。
为了验证模型性能,将提出模型与多种典型的特征提取器与分类器组合模型进行对比,对比特征提取器包括循环神经网络RNN、长短时记忆网络LSTM与Bidirectional LSTM,对比分类器包括Logistic分类器、Random Forest随机森林,并采用多种广泛使用的分类评价指标对模型性能进行评价,包括准确率Accuracy、精确率Precision、召回率Recall、Fβ-score。
3.2 驾驶行为特征分析
正常驾驶数据分布如图4所示。从图中可以看出,正常驾驶情况下,线加速度与角加速度均围绕0值上下振动,不存在长时间持续增大或减小情况,最大值与最小值均处在合理范围之内,具有较强的规律性与稳定性。
图4 正常驾驶行为特征分析
急加速/急刹车、急性左/右转弯、急速左/右变道数据分布状态分别如图5所示。
图5 异常驾驶行为特征分析
急加速状态表现为线加速度短时间内突然急剧增长,在达到峰值后振动式缓慢下降,而急刹车状态反应为线加速度短时间内突然急速负向增长,在达到峰值后缓慢增加。急性左转弯情况下陀螺仪角加速度先增后减,数据曲线呈现上凸现象,而急性右转弯情况下陀螺仪角加速度先减后增,数据曲线呈现下凹现象。急速左变道情况下角加速度反应为先增后减,然后先减后增,数据呈现变幅正弦函数分布,而急速右变道情况下角加速度反应为先减后增,然后先增后减,数据呈现变幅负正弦函数分布。结果表明,异常驾驶行为导致传感器数据波动剧烈,具有显著的突变性,且与正常驾驶行为数据之间存在较大差异,具有显著的离群性。
3.3 模型性能分析
各模型异常驾驶行为识别结果如表2所示。从表中可以看出,各指标计算结果整体上从上至下呈现递增趋势。当特征提取器为LSTM时,基于SVM的异常驾驶识别准确率、精确率、召回率与F1-score分别为0.881、0.560、0.836与0.671,高于其他2种分类器。这表明,相较于Logistic与RF,SVM能够获得更好地异常驾驶行为识别结果。当利用SVM作为分类器时,本文中提出模型的异常驾驶行为识别准确率、精确率、召回率与F1-score分别为0.901、0.614、0.861与0.717,均高于其他对比模型。这表明,本文中提出模型能够以最高的精确率对绝大多数异常驾驶行为进行识别。提出模型的ROC曲线面积AUC1与PRC曲线面积AUC2分别为0.959与0.833,在各模型中表现最优。这表明本文中提出模型能够更好地对异常驾驶行为进行识别。
表2 异常驾驶事件数据统计量
对比模型RNN、LSTM、Bi-LSTM、Encoder-Decoder及提出模型识别结果的混淆矩阵如图6(a)~(e)所示。在采用SVM分类器的情况下,提出模型获得了最优的异常驾驶行为识别结果。如图6(e)所示,模型的总体识别准确率为90.1%,正常驾驶行为与异常驾驶行为的查全率分别为90.8%与86.1%,查准率分别为97.5%与61.4%,正常驾驶行为误判的比例仅为2.5%。结果表明,提出模型能够对更多的正常驾驶行为与异常驾驶行为进行正确识别,同时具有最低的误判率。
图6 混淆矩阵
为了研究模型在非平衡数据集上的分类能力,采用受试者工作特征曲线ROC与精确率-召回率曲线PRC对识别结果进行评价。对比模型RNN、LSTM、Bi-LSTM、Encoder-Decoder及提出模型的ROC曲线与PRC曲线分别如图7(a)~(e)所示。同一特征提取器下,利用Logistic、RF与SVM分类器进行异常驾驶行为识别的ROC曲线“左上凸”程度与PRC曲线“右上凸”程度依次递增,对应曲线下的面积也依次递增。这表明SVM具有比 Logistic与RF分类器更好的异常驾驶行为识别效果。同一分类器下,RNN、LSTM、Bi-LSTM、Encoder-Decoder及提出模型的ROC曲线“左上凸”与PRC曲线“右上凸”程度呈现依次递增规律,对应曲线下的面积AUC同样依次递增。结果表明,提出模型能够实现绝大多数异常驾驶行为的准确识别,具有更高的正常驾驶行为与异常驾驶行为的区分率,与所对照的同类方法相比,拥有更好的ROC曲线“左上凸”性与PRC曲线“右上凸”性,以及对应更高的ROC曲线面积与PRC曲线面积。
图7 ROC曲线与PRC曲线
4 结论
1) 基于手机多传感器融合数据的特征分析法是汽车驾驶行为识别的有效可行手段,具有非接触式、易获取等优点。该特性分析法对异常驾驶行为所造成的数据异常波动而产生离群值状态的识别具备实时性和较高的准确性。
2) 本文中所采用的注意力机制Attention能够为不同时刻的Decoder构建考虑上下文信息的个性化语义向量,提升模型注意力,进而提高了异常驾驶行为的识别准确率。
3) 支持向量机(SVM)对Encoder-Decoder所提取的特征进行汽车异常驾驶行为的识别,要比Logistic与随机森林RF分类模型具有更好的效果。
4) 本课题的后续工作将对驾驶行为与驾驶员情绪状态的关联性,通过车内视频数据融合前述技术方法开展更加多源性的非接触式传感信息处理和识别算法研究。