基于浅层残差网络的视线估计算法

2018-06-13刘富,刘星,康冰

吉林大学学报(信息科学版) 2018年3期

刘富, 刘星, 康冰

(吉林大学通信工程学院, 长春 130022)

0 引言

视线估计是预测视线方向、定位注视点位置的过程。该领域研究者经常用眼球跟踪(Eye Tracking)、视线跟踪(Gaze Tracking)和视线估计(Gaze Estimation)等术语相互替换。近几十年, 视线估计都是比较活跃的研究课题, 已经开始应用于人机交互、虚拟现实、生理心理疾病诊断等方面[1]。

由于视线估计方法主要基于对相关信号的检测, 因此对硬件条件和使用环境的要求很严格。随计算机视觉和相关算法理论的进步, 研究人员开始对基于表观的方法进行研究, 通过对图像的分析实现视线估计。其中, 结合卷积神经网络(CNN： Convolutional Neural Network)的研究成为了一个新兴领域[2]。

卷积神经网络是以卷积层为基本操作的深度神经网络, 由于卷积层、池化层和全连接层之间有不同的组合方式, CNN发展出了多种结构, 基于CNN的视线估计算法可避免大量的预处理和显性特征提取过程, 但准确性还不能满足实际需求。为提升算法的准确性, 研究主要分为两个不同方向。一个是在数据层面进行改进, 如提高图像质量, 细分图像的种类和数量等, 通过增加数据的精确度提高视线估计的准确度。由Krafka等[3]提出的可用于移动终端进行视线估计的iTracker软件, 就是基于这一方向的改进。另一个方向则是在算法结构层面进行改进, 提升算法本身的性能。Zhang等[4]提出的基于LeNet-5结构的算法是该研究方向的代表算法之一。相比之下, 前者仍旧存在对硬件的严重依赖, 而后者显然更适用于实际环境。因此, 改进算法结构的方式近几年获得了更多关注。

为提高在自然状态下的视线估计准确性, 笔者提出基于浅层残差网络结构的视线估计。残差网络具有对数据进行重复利用的特性, 能对不同层次提取到的特征进行融合与计算。通过MPIIGaze数据库的实验结果表明, 该网络结构在相同条件下, 获得了更高的准确度。

1 基本知识

图1 视线估计技术Fig.1 Technology of gaze estimation

卷积神经网络是一种比较特殊的人工神经网络[5]。由于对二维数据具备强大的适应能力, 以CNN为核心的算法在包括人脸识别[6]、文字识别[7]、场景和物体识别[8]和语义分析[9]等领域得到了广泛的应用。目前应用最广泛的是LeNet-5结构[10]。随理论研究的不断深入, 各种新的CNN结构不断提出, 而深度残差网络[11](DRN： Deep Residual Network)就是其中之一。笔者将浅层残差网络应用于视线估计, 视线估计技术基本工作原理如图1所示。

1.1 LeNet-5结构

LeNet-5结构是第一个成型的CNN结构, 其结构如图2所示。作为CNN的基础结构, LeNet-5具备了CNN的全部基本要素：卷积层、池化层与全连接层。该结构是为了自动识别手写数字而提出的, 具备占用内存少、计算速度快和准确率高的特点。

图2 LeNet-5结构Fig.2 Structure of LeNet-5

在2015年, 马克思-普朗克信息研究院的Zhang等[4]发布了MPIIGaze数据库, 并使用基于LeNet-5结构的算法进行对比实验。该网络结构的计算准确度要好于随机森林(Random Forest)、支持向量机(SVM： Support Vector Machine)等方法, 但仍然存在较大误差角。其实验结果充分说明了CNN在视线估计方面的潜力, 但其计算的准确度有待提高。

笔者分析造成误差水平没有较大提升的主要原因是图像的潜在特征复杂, 传统LeNet-5结构的深度有限, 连接方式为线性, 对“高阶”的复杂特征的提取和计算能力不足。

1.2 深度残差网络

深度残差网络结构如图3所示。该网络的设计初衷是为了解决CNN在逐步加深过程中出现的训练困难等问题。

图3 深度残差网络结构Fig.3 Structure of DRN

由于CNN在训练过程中使用反向传播算法(BP： BackPropagation)进行训练, 训练过程中需计算输出偏差值, 即

LLoss=F(XL,WL,bL)

(1)

其中LLoss为任意输入层的计算损失,XL为其输入,WL为卷积矩阵,bL为该层的偏置。

对某一层的输入求偏导, 即求该层下降梯度

(2)

由于梯度连乘的原因, 任意相邻第N层与第N-1层之间存在如下关系

LLossN=FN-1(XLN-1,WLN-1,bLN-1)

(3)

则针对L层的网络整体, 有

(4)

式(4)即是训练过程中的网络梯度, 可见, 在足够深的网络中, 这个数将非常小甚至消失, 导致网络无法训练。但是残差网络在结构中进行调整, 网络的训练过程中的梯度可有所保留, 变成

(5)

可见, 若用式(5)替代式(2), 代入式(4)后, 网络的梯度可以保留, 使训练可持续有效地进行。

但是从数据利用的角度, 残差块的结构可把数据层前期提取的“低阶”特征和后期提取的“高阶”特征进行合并计算, 数据的利用效率比传统线性连接的网络有所提高, 可提升计算效果。因此, 笔者选取残差块作为网络改进手段。

2 基于浅层残差网络的CNN结构

2.1 改进思路

为确保实时性要求, 网络结构的深度必须适度。因此, 笔者选择LeNet-5结构作为基础, 使用残差块和其他方法调整结构。

该LeNet-5结构的网络如图4所示。该网络首先对眼部图像e进行处理, 经过两次“卷积-池化”操作, 提取出的特征图输入全连接层, 同时将通过模型[12]计算得到的头部动作数据h也输入网络中进行计算, 最终得出注视点坐标位置并且换算成视线的角度差。

图4 MPIIGaze使用的网络结构Fig.4 Network structure mentioned in MPIIGaze

为提升网络的性能, 在此基础上使用残差块完成网络结构的调整。通过比对网络在同等环境下的准确性衡量改进效果。

2.2 浅层残差网络

残差块是残差网络的基本构成单元。常规网络的连接方式如图5a所示, 对于输入x, 输出为H(x),W1表示第1层卷积计算过程,W2表示第2层卷积计算过程, 线性结构输出为

H(x)=W2*(W1*x)

(6)

残差块就是在常规的线性网络连接中, 增加了一个“捷径”, 将前面一层的计算结果输入下一层的输出中, 形成一个“捷径链接(Shortcut Connection)”, 所形成的残差块结构如图5b所示, 即输出为

H(x)=F(x)+x

(7)

虽然对残差块内卷积层的数量可任意选择, 但单层的残差块并不具备优化特性。线性连接的卷积层增加了网络深度与计算量, 效果却不理想。因此, 使用图6中3层卷积组合的方式。其中第1层卷积使用1×1卷积核进行数据降维, 经过3×3卷积核的计算后再利用1×1卷积进行恢复, 这种结构与双层残差块网络相比, 在保持计算精度同时又减少了计算量。

a 常规线性结构 b 残差块的结构图5 残差块的设计图6 调整后的残差块 Fig.5 Structure adjustment of residual block Fig.6 The adjustment residual block

为确保面部的空间朝向信息得到有效利用, 在使用双层残差块的同时增加了全连接层, 计算头部转动信息h, 确保其与图像中提取出的特征信息更好地融合。经过上述调整, 最终改进后的网络结构如图7所示。

图7 浅层残差网络结构Fig.7 Improvement of network structure

3 实验结果与分析

3.1 实验方法

实验使用的眼部图像来自MPIIGaze数据库, 由于MPIIGaze数据库具备目前最广泛的光线变化度和对使用者动作无限制的特点[4](见图8), 所以使用该数据库的眼部图像数据进行训练和测试更符合笔者对使用环境的要求。

由于在基于表观的方法中, Zhang等[4]采用基于LeNet-5结构的算法性能优于其他方法, 且更具代表性, 所以将其作为性能改进的对照。网络本身的输出为屏幕上注视点的坐标, 为便于对比, 笔者将注视点坐标转化为视线的角度误差。

图9 不同迭代下平均测试误差值Fig.9 Average test error under different iterations

图9为两组网络的测试平均误差。由图9可见, 在相同迭代次数下浅层残差网络的计算准确度均优于LeNet-5网络。

表1对比了两种网络的最小平均误差和总体平均误差。由表1可见, 浅层残差网络不仅在最小误差值上存在优势, 结合图9还可发现, 浅层残差网络在训练进行30次迭代后测试集的误差值最小, 为6.140°, 使用LeNet-5结构经过42次迭代后获取最小的测试误差为6.677°, 可见浅层的残差网络可在更短训练时间内获取更好的性能表现, 且准确度提高了约8.5%。

表1 测试精度对比

4 结语

笔者利用残差块(Residual Block)取代传统的CNN卷积层结构, 在增加了网络深度的同时提高了数据循环使用效率。经过MPIIGaze数据库实验比较, 浅层残差网络算法在平均误差和最小误差的表现都优于LeNet-5结构, 准确度提高了约8.5%。而如何进一步提升网络的计算准确度和整体算法性能, 满足实际应用需求, 则是下一步需要研究解决的问题。

参考文献：

[1]HANSEN D W, JI Q. In the Eye of the Beholder: A Survey of Models for Eyes and Gaze [J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2010, 32(3): 478-500.

[2]WANG Y, SHEN T, YUAN G, et al. Appearance-Based Gaze Estimation Using Deep Features and Random Forest Regression [J]. Knowledge-Based Systems, 2016, 110(C)： 293-301.

[3]KRAFKA K, KHOSLA A, KELLNHOFER P, et al. Eye Tracking for Everyone [C]∥Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 2176-2184.

[4]ZHANG X, SUGANO Y, FRITZ M, et al. Appearance-Based Gaze Estimation in the Wild [C]∥Computer Vision and Pattern Recognition. Boston： IEEE, 2015: 4511-4520.

[5]LÉCUN Y, BOTTOU L, BENGIO Y, et al. Gradient-Based Learning Applied to Document Recognition [J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.

[6]MATSUGU M, MORI K, SUZUKI T. Face Recognition Using SVM Combined with CNN for Face Detection [C]∥Neural Information Processing. Berlin/Heidelberg: Springer, 2004: 356-361.

[7]KOBCHAISAWAT T, CHALIDABHONGSE T H. Thai Text Localization in Natural Scene Images Using Convolutional Neural Network [C]∥Signal and Information Processing Association Summit and Conference. Siem Reap, Cambodia: IEEE, 2015: 1-7.

[8]GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation [C]∥Computer Vision and Pattern Recognition. Columbus: IEEE, 2014: 580-587.

[9]VIEIRA J P A, MOURA R S. An Analysis of Convolutional Neural Networks for Sentence Classification [DB/OL]. (2017-12-21). [2018-01-04]. http:∥arxiv.org/abs/1408.5882.

[10]BOTTOU L, CORTES C, DENKER J S, et al. Comparison of Classifier Methods: A Case Study in Handwritten Digit Recognition [C]∥Comparison of Classifier Methods: A Case Study in Handwritten Digit Recognition. New York: Springer-Verlag, 2010: 969-979.

[11]HE K, ZHANG X, REN S, et al. Deep Residual Learning for Image Recognition [C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, United States: IEEE, 2016: 770-778.

[12]SUGANO Y, MATSUSHITA Y, SATO Y. Learning-Bysynthesis for Appearance-Based 3D Gaze Estimation [C]∥Proc CVPR. Columbus: IEEE, 2014: 1821-1828.