APP下载

基于深度卷积神经网络的人眼检测

2018-09-12刘俊超陈志军樊小朝闫学勤王宏伟

现代电子技术 2018年18期
关键词:网络优化卷积神经网络深度学习

刘俊超 陈志军 樊小朝 闫学勤 王宏伟

摘 要: 基于人眼检测的驾驶员疲劳检测研究中,受戴眼镜、光照强度和人脸姿态变化、闭眼以及面部遮挡等复杂背景影响,现有方法难以准确检测人眼位置的问题越来越严重,故提出一种基于深度卷积神经网络的人眼检测方法。对其进行网络优化及损失优化,把人眼检测作为一种回归问题来求解,实现了整个过程端到端,即从输入原始图片到最后的人眼类别和位置的输出。该方法在ORL人脸数据库中全部图像的人眼检测准确率为98.39%,在AR人脸数据库中没有戴墨镜的人眼检测准确率为95.15% ,实验结果验证了所提方法的有效性、高准确率和较强的泛化能力。

关键词: 人眼检测; 深度学习; 卷积神经网络; 网络优化; 损失优化; 泛化能力

中图分类号: TN911.23?34; TP391.41 文献标识码: A 文章编号: 1004?373X(2018)18?0072?04

Eye detection based on deep convolutional neural networks

LIU Junchao, CHEN Zhijun, FAN Xiaochao, YAN Xueqin, WANG Hongwei

(School of Electrical Engineering, Xinjiang University, Urumqi 830047, China)

Abstract: In the driver fatigue detection research based on eye detection, the problem that it is difficult for the existing methods to accurately detect the eye position is becoming more and more serious due to the influences of complex backgrounds such as glasses wearing, light intensity, facial pose variation, eye closure, and facial occlusion. Therefore, an eye detection method based on deep convolutional neural networks is proposed. Network optimization and loss optimization are performed for the method. The eye detection is solved as a regression problem, so as to realize a whole end?to?end process which is from input of original images to output of eye classification and position at last. The method has an accuracy rate of 98.39% for eye detection of all images in the ORL face database, and an accuracy rate of 95.15% for detection of eyes (without wearing sunglasses) in the AR face database. The experimental results verified the effectiveness, high accuracy and strong generalization capability of the proposed method.

Keywords: eye detection; deep learning; convolutional neural network; network optimization; loss optimization; generalization capability

0 引 言

长期以来,我国一直都是汽车消费大国,汽车行业的高速发展是我国经济繁荣、科技进步的一个缩影。由于汽车的大量增加,现在的交通问题更加严重。据中国统计年鉴(2013)数据显示,截至2012年末,我国全年交通事故发生数总计约为20万起,其中,汽车事故大约为14万起,占交通事故总数的70%以上,交通事故死亡总计大约6万人,汽车事故死亡大约4.4万人,占交通事故死亡总数的73%以上, 疲劳驾驶是汽车事故发生的主要原因[1]。最近几十年,计算机视觉技术应用广泛,在图像中准确的人眼检测是计算机视觉技术的核心,更是人脸识别、虹膜识别、视线追踪和疲劳驾驶检测的关键技术。

当前,人眼检测方法常用的有边缘提取方法[2?3]、积分投影方法[4]和模板匹配方法[5]等。边缘提取方法是用边缘检测和Hough变换来定位眼睛中心,能检测虹膜,但对图像质量和分辨率要求极高,在头部偏转和闭眼时不能准确检测;积分投影方法用图像在水平方向和垂直方向上的几何投影来确定眼睛位置,能快速定位,但在光照强度变化和人脸姿态变化时不能准确检测;模板匹配方法是通过原来图像的像素灰度来检测眼睛,鲁棒性较好,但在戴眼镜和光照变化时不能准确检测。

针对以上方法存在的不足,本文提出了一种基于深度卷积神经网络的人眼检测方法,该方法能自动学习图像中有效的人眼特征,鲁棒性较好,泛化能力强,并分析优化了其中的网络结构、损失函数等参数对人眼检测的影响。在ORL和AR人脸数据库中分别对不戴眼镜和戴眼镜、光照强度和人脸姿态变化、睁眼和闭眼以及面部遮挡的人脸图像进行验证,结果证明了深度卷积神经网络对人眼检测的有效性,并得到了较高的人眼检测准确率。

1 卷积神经网络结构

卷积神经网络是深度学习神经网络中的一种,其比较特殊,一般有卷积层、下采样层和全连接层。对于卷积层来说,其中每个输入的神经元,都有自己的接入区域,并通过这个接入区域获取这个区域的信息,获取信息之后,定位自己与自己所在区域的地址;对于下采样层而言,其各个层面都有好几个反应层面的信息,把每个反应层面看作一个几何平面,使得各个层面的权值共享;对于全连接层而言,一般有好几个卷积层面和下采样层面相互连接,最终输出。类似下采样层中的权值共享这种网络,更接近于生物本身的神经,一来减少了权值数量,二来降低了网络的复杂程度[6?9]。卷积神经网络基本结构图如图1所示。

对于卷积层,其计算公式表示为:

[xlj=fi∈Mjxl-1i×klij+blj] (1)

式中:[xlj]表示现在这层的信息map;[xl-1i]表示前一层的信息map;[klij]表示由[l-1] 层到[l]层产生的信息map的卷积核;[blj]表示[l]层得出map产生的额外偏置;[Mj]表示接入maps的集合。

对于下采样层,其计算公式表示为:

[xlj=f(βljdown(xl-1j)+blj)] (2)

式中,[down(·)]表示下采样函数。一般操作都是对输入图像[N×N]块的所有像素求和,以便使输出图像尺寸大小缩小[N]倍。所有输出map各自对应一个乘偏置[β]和一个加偏置[b]。

对于全连接层,其计算公式表示为:

[xoutj=fi∈Mjxout-1i×koutij+boutj] (3)

2 基于深度卷积神经网络的人眼检测

2.1 基于深度卷积神经网络的人眼检测模型

本文人眼检测模型如图2所示。

2.2 优化深度卷积神经网络

优化深度卷积神经网络是把眼睛检测作为回归问题来求解,实现了整个过程端到端,即从输入原始图片到最后的人眼类别和位置的输出。

首先,网络对输入的原始图片均等分割,分为[S×S]个小块,然后对分割的每一个小块检测。一旦眼睛的横纵坐标落在了目标区域中,便用这个目标区域对眼睛做出检测。从图3就可以看出,红点落在了(3,2)和(3,5)两个小块中,在这两个小块返回的预测值最高,所以这两个小块存在需要检测的目标。优化后的深度卷积神经网络如图3所示。

图3中,每个小块都有5个信息,分别是x,y,w,h和confidence。x,y分别是预测bounding box(边缘框)的横坐标和纵坐标;w,h分别是bounding box的宽度和高度。

一般在训练过程中,x,y分别是bounding box坐标距离现在坐标的差值,同时集合在区间[0,1];w,h分别是图片的宽和高,同样在区间[0,1];confidence是现在的bounding box对眼睛的误差估计,其计算公式表示为:

[confidence=P(eye)×IOU] (4)

式中:若bounding box包含eye,则[P(eye)=1];否则[P(eye)=0];IOU表示bounding box与eye重叠面积的预测值。

最后,网络输出是[S×S×(B×5+Class)]。[S]表示维度大小;B是每个小块输出的bounding box个数;Class是类别数量。

尽管每一小块能对B个bounding box进行判断,可是最后把IOU较高的那个bounding box表示为eye的结果。

2.3 优化损失

2.3.1 损失函数定义

损失函数定义,其计算公式表示为:

[loss=i=0S2(CoordError+IOUError+ClassError)] (5)

式中:ClassError表示类别误差;IOUError表示IOU误差;CoordError表示预测值和标签值误差。

2.3.2 损失函数优化

函数中的CoordError,IOUError和ClassError对loss的作用值是不一样的,所以在计算loss时,用[λ1]来改变CoordError。在计算IOUError时,有目标的小块与没有eye的小块,它们的IOUError对loss的作用值是不一样的。假如用一样的权值,那么没有eye的小块的confidence值几乎为0,使有目标小块的confidence在计算中增大误差。为解决这个问题,用[λ2]改变IOUError,在误差一样时,小目标大于大目标对结果的作用[10?11]。对此问题,网络对目标的w和h做平方根来运算,表示为:

[loss=λ1i=0S2j=0B1eyei,j(xi-xi)2+(yi-yi)2+λ2i=0S2j=0B1eyei,jwi-wi2+hi-hi2+λ2i=0S2j=0B1eyei,jCi-Ci2+Ci-Ci2x+i=0S21eyei,jc∈Classes(pi(c)-pi(c))2] (6)

式中:第一个大括号是坐标的误差;第二个大括号是IOU误差;第三个大括号是类别误差。[x,y,w,C,p]为网络的预测值;[x,y,w,C,p]为标注值。

3 实验结果与分析

实验是在Intel[?] CoreTM i5?6300HQ处理器,4 GB内存,操作系统为Linux(Ubuntu 14.04)的PC机上运行的,使用的开发环境为caffe。

在ORL和AR人脸数据库中分别对本文的人眼检测方法进行验证。另外,为了验证本文方法的泛化能力,训练数据集从ORL人臉数据库中随机选取每一类的7个样本,剩余样本作为测试集。

图4~图6分别为不戴眼镜和戴眼镜、人脸姿态变化、睁眼和闭眼的部分ORL人脸数据库中人眼检测结果。图7为光照强度变化和面部遮挡的部分AR人脸数据库中人眼检测结果。从检测结果可以发现,本方法对不戴眼镜和戴眼镜、光照强度和人脸姿态变化、睁眼和闭眼以及面部遮挡的人脸图像具有较强的鲁棒性,泛化能力强,可以准确检测人眼。

在这里,使用文献[12]中提出的人眼检测准确率标准,相对误差err,其计算公式表示为:

[err=max(dl,dr)dlr] (7)

式中,设[Eyel,Eyer]分别为标记的左眼位置和右眼位置,[Eyel,Eyer]分别为本文方法得出的左眼位置和右眼位置,则[dl,dr,dlr]分别为[Eyel-Eyel,Eyer-Eyer,Eyel-Eyer]的距离。因为[dlr]大约是眼睛的2倍宽度,所以当[err<0.25]时,则认为检测结果是准确的。

为了满足实际需求,取[err<0.10]作为检测标准,人眼检测方法对比如表1所示。

表1是在ORL人脸数据库中用传统积分投影、传统模板匹配和本文方法对其全部图像做了一个人眼检测方法对比。结果表明:当误差[err<0.25]时,本文方法人眼检测准确率为98.39%,略高于传统积分投影和传统模板匹配方法;当误差[err<0.10]时,本文方法人眼检测准确率为95.73%,高于传统积分投影和传统模板匹配方法。表明本文方法具有较高的人眼检测准确率。

本文方法泛化能力验证如表2所示。

表2是在AR没有戴墨镜的人脸数据库中用本文方法对其自身的泛化能力做了一个验证。由于本文方法在ORL人脸数据库中对其进行训练,ORL人脸数据库中没有戴墨镜,所以并没有对戴墨镜的进行训练。结果表明:当误差[err<0.25]时,本文方法人眼检测准确率为95.15%;当误差[err<0.10]时,本文方法人眼检测准确率为93.64%。表明本文方法具有较强的泛化能力。

4 结 论

本文提出一种基于深度卷积神经网络的人眼检测方法,对其网络和损失进行优化,把人眼检测作为一种回归问题来求解,简化了整个过程,实现了端到端,即从输入原始图片直接到最后的人眼类别和位置的输出。实验结果验证了本文方法的有效性、高准确率和较强的泛化能力。

注:本文通讯作者为陈志军。

参考文献

[1] 国家统计局.中国统计年鉴[M].北京:中国统计出版社,2013.

National Bureau of Statistics. China statistical yearbook [M]. Beijing: China Statistics Press, 2013.

[2] PENG Yan, ZHOU Tian, WANG Shaopeng, et al. Design and implementation of a real?time eye tracking system [J]. The journal of China universities of posts and telecommunications, 2013, 20(S1): 1?5.

[3] YOUNG D, TUNLEY H, SAMUELS R. Specialised hough transform and active contour methods for real?time eye tracking [J/OL]. [1995?07?01]. http://users.sussex.ac.uk/~davidy/eyetrack_csrp.pdf.

[4] ZHOU Z H, GENG X. Projection functions for eye detection [J]. Pattern recognition, 2004, 37(5): 1049?1056.

[5] SONG Fengyi, TAN Xiaoyang, LIU Xue, et al. Eyes closeness detection from still images with multi?scale histograms of principal oriented gradients [J]. Pattern recognition, 2014, 47(9): 2825?2838.

[6] CHEN X, XIANG S, LIU C L, et al. Vehicle detection in satellite images by parallel deep convolutional neural networks [C]// Proceedings of 2nd IAPR Asian Conference on Pattern Recognition. Naha: IEEE, 2014: 181?185.

[7] HARIHARAN B, ARBEL?EZ P, GIRSHICK R, et al. Simultaneous detection and segmentation [C]// Proceedings of European Conference on Computer Vision. Switzerland: Springer International Publishing, 2014: 297?312.

[8] SERMANET P, EIGEN D, ZHANG X, et al. OverFeat: integrated recognition, localization and detection using convolutional networks [J/OL]. [2014?02?24]. https://arxiv.org/pdf/1312.6229v4.pdf.

[9] KRIZHEVSKY A, SUTSKEVER I, HINTON G. ImageNet classification with deep convolutional neural networks [C]// Proceedings of 25th International Conference on Neural Information Processing Systems. Lake Tahoe: Curran Associates Inc., 2012: 1097?1105.

[10] HE K, ZHANG X, REN S, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition [J/OL]. [2015?04?23]. https://arxiv.org/abs/1406.4729.

[11] WANG X, YANG M, ZHU S, et al. Regionlets for generic object detection [C]// Proceedings of IEEE International Conference on Computer Vision. Sydney: IEEE, 2014: 17?24.

[12] JESORSKY O, KIRCHBERG K J, FRISCHHOLZ R W. Robust face detection using the Hausdorff distance [C]// Proceedings of 3rd International Conference on Audio?and Video?based Biometric Person Authentication. Halmstad: Springer, 2001: 90?95.

猜你喜欢

网络优化卷积神经网络深度学习
基于深度卷积神经网络的物体识别算法
大数据技术在反恐怖主义中的应用展望
信息办公平台网络优化设计
深度学习算法应用于岩石图像处理的可行性研究
无线传感器网络优化的应用与研究
基于深度卷积网络的人脸年龄分析算法与实现
运用负载均衡技术来实现网络优化
基于卷积神经网络的树叶识别的算法的研究