基于改进Faster RCNN的驾驶员手持通话检测

2023-05-24李小曼赵作鹏

江苏大学学报（自然科学版） 2023年3期

王彬, 李小曼, 赵作鹏

(1.中国矿业大学计算机科学与技术学院, 江苏徐州 221116; 2.江苏联合职业技术学院信息技术系, 江苏徐州 221008)

近年来人均汽车保有量不断增加,交通安全问题日益严峻.2018年以来,我国公路交通领域发生了多起事故,其中根据公安部发布的《(中国)道路事故年度统计》显示数据,驾驶员的不规范行为是造成事故的主要原因.不规范行为包括司机在驾驶中接打电话、抽烟、与乘客交谈[1]等等.近年来,智能手机已成为大多数人生活中不可或缺的一部分,美国公路安全保险协会的调查数据显示,有近六成的驾驶员在驾驶途中手持通话.在驾驶途中手持通话必然会造成驾驶员分心,反应速度变慢,从而对车外的状况不能做出及时的反应,因此造成交通事故.目前,驾驶员手持通话行为的检测方法主要包括基于WiFi手机信号和机器视觉两种.2018年R.TARABAY等[2]研究了听觉分神对驾驶操作的影响,通过设置不同层级的认知问题模拟驾驶过程中次任务的工作量,监测心率和皮电变化用以表达认知量增加对生理状态的影响.基于机器视觉的方法,通过车内或者车外的摄像头拍摄驾驶员图像,经相应算法判断驾驶员是否处于手持通话的行为状态[3].检测手机是检测驾驶员手持通话行为状态的重要方法和依据.近年来使用深度学习方法[4]进行分神检测的研究日臻丰富,2019年,夏瀚笙等[5]利用Alpha Pose系统获取驾驶员9个身体节点并生成热力图,分别讨论了8种改进型的VGG16和ResNet50在SF3D上的分类识别率,最优精度为94.93%.同时,目标检测[6-8]的方法也有重大突破.因此,改进型的目标检测框架Faster RCNN[9]开始应用于交通驾驶领域,文中主要设计一种改进的Faster RCNN算法来检测驾驶员手持通话的行车状态.

现有的高级驾驶辅助系统(advanced driver assistance system,ADAS)主要关注点在碰撞和对航道偏离的预警上,但对驾驶员行为状态的研究还较为欠缺,文中的工作可视为对ADAS的延伸.文中拟根据研究对象的特点对Faster RCNN算法进行改进,并应用于图像中手机小物体的检测,第1次将Faster RCNN目标检测算法应用于驾驶员行为检测特定场景任务中,并提出一种新的检测算法,运用多尺度训练、增加锚点数量以及引入残差扩张网络提取特征的手段提高检测精度.

1 检测方法

传统的图像检测方法是基于可变形部件模型(deformable part model, DPM)的,在VOC2007数据集中,它的平均精度(mean average precision,mAP)可以达到 43%.研究人员将CNN强大的分类能力应用于图像检测.最新提出的Faster RCNN框架在VOC2007数据集上的mAP可达到73%.研究表明,Faster RCNN网络模型在各种复杂背景下对各种类别目标都具有很强的鉴别能力.所以,文中将Faster RCNN模型应用到驾驶员手持通话场景检测中.

1.1 Faster RCNN简介

Faster RCNN由两个模块组成:生成候选区域的区域建议网络(region proposal network,RPN)模块和Faster RCNN目标检测模块.RPN模块产生候选区域,并利用“注意力”机制,让Faster RCNN有方向性地检测目标.首先,RPN预先产生可能是手机的一系列目标候选框,然后Faster RCNN 基于提取出的候选框对目标检测识别.

1.1.1区域建议网络

RPN的基本思想是在特征图上找到所有可能的目标候选区域,通过在原始的网络结构上添加卷积层和全连接层、在每个位置上标定回归目标边界框和预测目标分数,提升边界框的生成速度.RPN结构如图1所示.

图1 RPN结构图

RPN采用的是滑动窗口机制,每个滑动窗口都会产生1个短的特征向量输入到全连接层中进行位置和类别的判断,在每个滑动窗口位置同时预测多个候选区域,其中每个位置的预测候选区域的数量为k个.因此,回归层具有4k个输出,编码k个框的4个坐标,分类层输出2k个评分,预测每个区域所属目标的概率和所属背景的概率.k个候选框被参数化,称为k个锚点.为了使算法更好地适用于不同形状和尺寸的目标,网络将特征图上的每个位置设置多个锚点,以预测输入图像的不同尺度和不同长宽比的候选区域.

1.1.2区域建议网络的损失函数

在训练RPN时,为每个候选框分配1个二值标签,将以下两种情况分配正标签:① 某个真实目标区域框的IoU(intersection over-union)最大的候选框;② 任意真实目标区域框的IoU大于0.7的候选框.为所有真实目标候选框的IoU小于0.3的候选框分配负标签,然后进行网络训练并微调参数.图像的损失函数定义为

(1)

(2)

式中:(x,y)为包围盒的中心点坐标;(xa,ya)为候选框的坐标;(x*,y*)为真实区域包围盒的坐标;w和h为包围盒的宽和高.算法的目的在于找到一种关系将原始框P映射到与真实框G更接近的回归框.

分类的损失函数Lcls定义为

(3)

回归的损失函数Lreg定义为

(4)

式中:R为smoothL1函数.smoothL1函数表达式为

(5)

1.1.3RPN与Faster RCNN

Faster RCNN基于RPN产生的候选区域边界框来检测并识别候选框中的手机物体目标.训练过程中,首先将带有标注的数据集输入到网络中,通过卷积网络[10]进行特征提取,然后将RPN产生对应的候选区域映射到该特征图中,获得相应的特征信息.再通过感兴趣区域(ROI)池化层产生固定大小的特征图输入到全连接层中,产生目标所属类别概率和区域坐标.RPN和Faster RCNN通过交替优化共享特征提取网络部分,实现高效的目标检测.

1.2 改进的Faster RCNN

为了使Faster RCNN模型能够更好地应用于手机目标检测,文中提出在原始Faster RCNN基础上结合多尺度训练、增加锚点数量和引入残差扩张网络改进特征提取网络增强模型的性能.

1.2.1多尺度训练

在实际驾驶场景的手持手机状态下,待检测的目标手机尺寸差异较大.原始的Faster RCNN通常会对所有的训练图片采用固定尺寸,这样对不同尺寸的目标检测泛化性能较差.文中采用多尺度训练,图片送入网络之前,在保证图像原有比例的前提下,将图片随机调整尺寸大小,使其较短边取480、600、750像素之一.然后随机选择3种尺度之一送入网络中进行训练.试验证明多尺度训练使得网络[11]能够学习目标各种尺寸的特征,使得网络对目标尺寸大小具有一定的鲁棒性.

1.2.2锚点数量

RPN中的锚点数量是网络中一个非常重要的超参数,它直接影响到后续候选区域的生成.原始的Faster RCNN使用9个锚点,每个滑动窗口产生9个不同尺度和不同长宽比的候选区域,最后对整张图片产生的候选区域使用非极大值抑制算法剔除多余的候选区域.但是网络默认设置的锚点参数对区域较小的目标无法召回.在对驾驶员手持通话行为检测时,需要检测出手机目标,而其中手机目标大小不一的问题总是存在的.因此,在默认参数的基础上,加入一组64×64锚点(比默认设置的更小)使得网络可以检测到更多的小目标.在训练过程中,RPN部分使用12个锚点,尺度大小分别为64×64、128×128、256×256、512×512 像素,3个纵横比分别为1∶1、1∶2和2∶1.试验证明文中增加的64×64像素的尺度可以检测更多的小目标.

1.2.3残差扩张网络

文中的残差扩张网络(ResNet dilated network,RDN)采用d作为扩张因子.当d=1时,为标准卷积;当d>1时,为扩张卷积.

图2给出了标准卷积与扩张卷积网络结构.图2a为仅使用标准卷积与添加扩张卷积之后网络结构层对比图.由图2b可见,在原残差网络(ResNet)中,最后两组卷积层Group 4和Group 5使用3×3标准卷积(d=1,即Group1层),表达式为

图2 标准卷积与扩张卷积网络结构

(6)

由于最大池化层的存在,特征map逐步变小,输出特征map的大小只有7×7像素.图2c中,在Group 4层,卷积采用d=2,表达式为

(7)

在Group 5层,对于第1次卷积(i=1),仍然采用d=2,表达式为

(8)

在Group 5层,对于剩余的卷积(i>1),采用d=4,表达式为

(9)

图3给出了模型训练与检测流程.

图3 模型训练与检测流程

由图3可见,模型训练与检测具体过程如下:

1)文中所使用的驾驶员数据是从当地驾驶员实时监控平台以及从网络搜集等方式获取的各种背景场景和不同质量的监控图片,并对图片中的手机小目标标注出来转换为VOC2007数据集格式.

2)将处理好的数据集输入到改进的Faster RCNN模型训练.

3)降低模型检测置信度阈值,然后基于上述优化的模型来检测驾驶员图片中的手机部件,剔除孤立部件.

4)对于剩下的手机小目标,计算有无所属部件.

2 试验分析

所有试验在台式电脑上进行,电脑配置如下:CPU为Intel(R)Core(TM)i5-7400,主频为3.00 GHz;RAM为8.00 GB;图形处理器为GeForce GTX 1080 Ti;操作系统为64位Windows10;运行环境为Python和以TensorFlow为后端的Keras.

2.1 数据集

关于驾驶员手持通话状态检测的研究未曾发现公共数据集,所以本试验使用的数据是通过从某驾驶平台中收集、自行采集和网上收集等方式获得的,共4 386张图片,在收集数据的过程中遵循“多人次、全天候”的原则:收集多个不同驾驶员的行车视频,以体现驾驶员不同的驾驶习惯和行车差异,降低因收集驾驶员人数过少而无法拟合群体特征的影响.根据试验要求,将其转换成VOC2007数据集格式,如图4所示,对各个部件进行人工标注.另外搜集了500张实际驾驶场景中的监控图片来进行测试(采集帧率为20 帧/s),对提出方法的有效性进行验证.

图4 图片集实例

2.2 试验结果对比

为了评估提出方法对驾驶员手持通话状态检测的有效性,试验使用精确度(p)和召回率(r)作为评价指标,计算式为

(10)

(11)

式中:TP(true positive)表示被模型预测为正值的正样本;FP(false positive)表示被模型预测为正值的负样本;FN(false negative)表示被模型预测为负值的正样本.TP、FP、FN分别与正确检测、错检、漏检对应.

试验中网络结构部分参数如表1所示.

表1 网络结构参数图

两种方法效果如表2所示,改进后的Faster RCNN精确度提升了3.8%.

表2 两种方法效果对比

检测效果图如图5所示.

图5 检测效果图

3 结论

文中使用车辆监控平台视频数据作为数据集进行检测试验,针对图像特征提取过程中特征图变小和被部分遮挡的小目标检测准确率低的问题,通过采用基于残差扩张网络的多尺度训练,锚点数量增加等方法改进Faster RCNN网络.试验结果表明,文中使用的方法相较于传统的 Faster RCNN精确度提升了3.8%.在保证较高检测准确率的同时仍然能够有较快的检测速度,即与设备采样率20 帧/s相匹配,基本满足作业环境监控视频中驾驶员手持通话状态检测的准确性和实时性需求.