视线追踪系统中注视点估计方法研究
2016-06-27李娅萍
金 纯 李娅萍
(重庆邮电大学通信与信息工程学院无线传输重点实验室1,重庆 400065;重庆金瓯科技发展有限责任公司2,重庆 400041)
视线追踪系统中注视点估计方法研究
金纯1,2李娅萍1
(重庆邮电大学通信与信息工程学院无线传输重点实验室1,重庆400065;重庆金瓯科技发展有限责任公司2,重庆400041)
摘要:在回顾视线追踪技术发展历程的基础上,对该技术的研究方向和几种主要的视线跟踪方法进行了简单阐述。重点介绍了基于瞳孔-角膜反射法的视线追踪技术的原理及其硬件组成,尤其对现有视线跟踪系统中比较成熟的注视点估计算法进行了归纳总结和原理剖析。对二维和三维的注视点估计算法的精度和用户自由度进行了进一步的横向比较。最后指出了视线追踪技术存在的缺陷,并对其在人机交互、智能机器、虚拟现实等领域的应用前景进行了展望。
关键词:视线跟踪瞳孔-角膜反射注视点估计人机交互虚拟现实误差补偿校准神经网络
0引言
视线跟踪技术是一项利用人类眼球运动信息来实现控制设备目的的科学应用技术,解决了上肢有残疾或者双手因执行操作任务而被占用的人员对计算机等终端设备操作的难题。近年来,该技术迅速获得国内外相关学者的积极关注,被广泛应用于视觉注意机制的研究、页面分析、人机交互、虚拟现实、智能机器以及军事等领域。国外在20世纪初就开始研制相关眼动仪器,美国、日本等国家在这方面的研究比较深入,已经走在世界的前列,进入实用化和商品化的阶段。国内大约在20世纪70年代末80年代初才开始对视线跟踪技术的研究,目前还没有成熟的视线跟踪产品,但是很多高校以及研究机构,如清华大学、西安电子科技大学、浙江大学、天津大学、北京科技大学等都对该技术表现出了非常大的兴趣。20世纪90年代,西安电子科技大学开发了眼动测量系统,北京航空航天大学开发了人机界面评价试验台,推动了国内视线追踪技术的不断发展。
当前视线追踪系统原理的研究主要是围绕如何精确地、对人无干扰地追踪人的眼动过程来进行的[1]。当用户头部静止时,视线追踪精度较高,视线落点距离真实落点较近,紧密散布在其周围;当用户头部自由运动时,视线追踪精度较之静止时刻相对降低,视线落点与真实落点之间的距离逐渐增大,在其周围的落点分布相对松散。因此,如何在复杂的应用场景中适应不同的用户以及在追踪精度、用户自由度和成本之间寻找一个平衡的切入点显得至关重要。
1视线跟踪技术原理
基于瞳孔-角膜反射法的视线追踪系统采用红外光源照射眼睛,在人眼角膜上产生反射光斑,眼睛注视不同方向时,瞳孔中心随着视线方向发生相应的变化,角膜反射点的位置固定不变。利用眼球和角膜反射点的这种特性,提取视线特征参数(瞳孔中心和角膜反射光斑中心),通过相应的注视点估计法就可以得到视线的落点位置[2]。
系统主要由视线特征参数提取、注视点估计、误差补偿和校准几个模块组成。其中注视点估计是直接决定系统精度的核心模块。随着视线跟踪技术的快速发展,涌现出了各种各样的注视点估计算法[3]。本文在上述视线特征参数提取模块的基础上,对注视点估算法作进一步的解析和归纳。视线追踪系统结构框架图如图1所示。
图1 视线追踪系统结构图
2注视点估计算法
注视点估计算法是视线跟踪系统中非常关键的算法,包括计算视线方向所需的来自用户的参数化后的眼睛几何信息。注视点估计算法大致可分为两类:基于二维映射模型的视线估计方法以及基于三维的视线直接估计的方法[4]。两类方法的性能分析如表1所示。
表1 两类方法的性能分析
2.1基于二维映射模型的视线估计方法
2D视线估计方法首先计算出注视点的二维坐标信息,然后建立其与注视目标之间的映射关系,得到视线在注视目标的注视位置。比较常用的有多项式拟合、交比映射、机器学习这几种方法,其中机器学习主要有神经网络、支持向量机等方法。
Morimoto等人提出了一种非接触式的视线跟踪方法[5],通过二阶多项式拟合方程来确定注视点的位置。
(1)
基于二维映射模型的视线估计法需要校准过程,头部保持静止时追踪精度较高,误差范围控制在1 cm以内,但该方法对头动比较敏感,极大地限制了用户自由度和视线追踪技术的实用性。文献[6]在该算法的基础上,提出了一种头部深度平移和平面平移的补偿方法。利用深度平面移动比例系数对视线的落点进行了补偿,允许头部在水平和垂直方向上偏移2~3个头部位置。
张鹏翼等使用立体视觉信息的视线追踪系统设计[7],使用神经网络结合卡尔曼滤波的方法对瞳孔进行跟踪;再结合支持向量回归对人眼参数和注视点之间的关系进行训练,利用神经网络的非线性映射能力对视线状态转移模型进行逼近来跟踪视线。
用以下数学式作为神经网络的输入,代表瞳孔在t时刻的状态向量:
Xt=(ct,rt,μt,vt)T
(2)
式中:(ct,rt)为瞳孔在t时刻像素质心; (μt,vt)为t时刻瞳孔在c和r方向上的矢量。
式(3)表示瞳孔在t+1时刻的状态向量,作为神经网络的输出:
(3)
通过训练,该视线状态转移模型可以表示为:
Xt+1=φXt+wt
(4)
式中:φ为神经网络逼近的状态转移模型;wt为系统噪声,服从正态分布wt~N(0,Q)。该方法对人无干扰且用户自由度高,但是系统冗余度和精度不能很好地满足系统需要,并且在成熟度和实用性方面有所欠缺。
Dong H Y和Myung J C提出了头部自由的基于投影空间的不变值的免定标视线估计方法[8]。该方法将4个红外光源安装在计算机屏幕4个角,在人眼角膜上投射出4个反射光斑,利用光斑所形成的四边形的投影关系进行视线方向的估计。该方法有屏幕坐标系、摄像机坐标系和眼图坐标系3个坐标系系统。该算法允许测试者头部在一定范围内运动且无需定标过程,精度较高,但是较多的硬件配置限制了系统的集成及移植。文献[9]提出了基于空间三点映射的相似三角形的注视点估计算法。计算机屏幕上的注视点及两个红外光源构成计算机平面三角形,人眼图像中瞳孔中心与两反射点构成眼图平面三角形。根据视觉成像原理,两三角形为相似三角形,由眼图视线参数坐标来确定屏幕上注视点的位置。
式中:(XQ,YQ)为注视点坐标;(XL1,YL1)和(XL2,YL2)分别是两红外光源的坐标位置,其坐标值可通过测量获得;(XPQ,YPQ)、(XP1,YP1)和(XP2,YP2)分别为图像中瞳孔中心及两反射光斑的坐标,其坐标在图像处环节可获得。
以上两种映射方法精度较高,但是忽略了眼球的曲面生理结构,把眼球看作平面在欧式几何中进行建模,降低了系统的精度。眼球生理结构中视轴和光轴的区别没有考虑在内,没有进行视轴和光轴之间的转换。
文献[10]还提出了一种以角膜反射中心指向瞳孔中心的向量作为平面视线方向参数,通过训练多位测试者盯视屏幕标定点,经分析得出立体视线方向角的数据,进而得到视线落点。该文献还提出了头部位置变化计算模型,在头部位置变化时,对视线落点进行了补偿。此外,还有基于模板匹配法的注视点估计定位、眼睛方位直接判别法等估计方法。
2.2基于三维的视线直接估计的方法
3D视线跟踪方法不需要用户提前进行校准,根据视线在空间中的具体位置,与计算机屏幕相交得到视线在空间中的目标注视点。该方法需先确定脸部三维空间坐标,再使用二维视线跟踪方法,最终得到三维视线坐标。
(5)
角膜曲率中心O与瞳孔中心P的连线称为眼球的光轴Vp:
Vp=O+K(P-O)
(6)
由于视线的落点是视轴与屏幕的交点,因此需要进行光轴与视轴之间的转换。人眼光轴和视轴之间有一个大约为5°的夹角,利用光轴与视轴之间的夹角关系和补偿算法得到视轴的方向Vv:
Vv=O+K′(P-O)
(7)
该方法虽然在用户自由度方面有了提高,但是摄像机和光源等需要保持相对的静止。一旦移动,则需要重新标定,大大降低了系统的精度。文献[12]提出了一种对测量误差进行补偿的标定方法,分别说明了当光源、光源角膜反射点和瞳孔中心标定不准确时误差的范围,并对其提出补偿。表2为以上几种二维和三维注视点估计方法性能比较。
表2 注视点估计方法性能比较
3视线追踪技术未来发展趋势
视线跟踪技术可以理解人们的意图和状态,同时作出相应的反应。由无意识的机械装置转变为有意识的智能装置,被认为是非常有价值的技术。目前,三星和LG都推出了搭载有眼球追踪技术的产品。通用汽车引进了视线追踪和头部追踪技术。然而,对于当前的视线追踪系统而言,这一技术无法满足实际的应用需求,在国内并没有得广泛的应用。比如,让机器对人类眼睛动作的真实意图进行有效识别,以判断它是无意识运动还是有意识变化,并不是一件容易的事情。主要的原因在于:
①视线跟踪精度低。由于人眼生理结构的复杂性和人类视觉特点的非线性特质,使得目前的视线追踪技术研究中没有准确的视觉映射模型,且不能通过手动测量来得到视线落点。同时由于部分用户存在近视和远视及斜视等情况,造成眼球曲率的后天变化,使注视点估计算法的精确程度更加具有挑战性。
②用户自由度低。视线追踪技术大体还存在这样一个状况:头部保持静止时,视线追踪精度较高;头部运动时,视线追踪精度大大降低。目前,商品化和实用化的视线追踪仪器对精度要求较高,要求用户使用时保持头部位置固定,给用户带来了很大的不便。在医疗领域,干扰式视线追踪技术给用户带来的不便相对较小。在人机交互、虚拟现实及智能机器等领域,干扰式的视线追踪系统极大地限制了用户的头动自由度,使用户体验的舒适度和自由度大大降低。
③视线追踪的实时性。由于算法的复杂度和硬件设备帧频的限制性,使系统不能够很好地满足用户实时的需求。
④系统成本高。大部分的视线追踪系统均使用了多个相机和多个光源及其他比较昂贵的专业辅助设备,导致当前的视线追踪仪器价格过高,不能得到很好的推广。
因此,视线追踪技术的当前研究目标主要围绕精度、自由度、实时性几个方面,提高系统的鲁棒性、精确性和减少识别时间是努力的重点。在未来人机交互领域,这项技术将成为人类和机器互动的主要方式之一,对鼠标、键盘以及触摸等比较成熟的人机交互是一个很好的补充,交互智能化将成为未来人机交互的一个主要标志。在军事领域,智能头盔、瞄准器等设备可以不再需要借助使用者的双手来对发射、转向、瞄准等操作,而是以使用者视线的转动或静止来对设备进行操作,极大地节省了作战时间,并且视线具有更好的自由度和保密度。同时该技术还可以应用在驾驶员疲劳监测、网页兴趣点监测、心理研究乃至刑事侦查等领域,具有极大的现实意义。
4结束语
本文在总结了大量文献的基础上,对视线跟踪技术的国内外发展历程、原理及跟踪方法进行了回顾。分析了几种主要的视线跟踪方法原理和技术特点,重点介绍了基于瞳孔-角膜反射向量法的视线跟踪技术,阐述了其技术原理及系统构成,并揭示了原理性框架之间的内在关系。最后对注视点估计算法进行了归纳总结,并对二维和三维的注视点估计算法的精度和允许头动范围进行了比较。然而由于人眼固有的生理机制及眼动的非线性、随机性和复杂性,使得视线追踪技术在实际应用中受到很大限制,如何平衡其精度和自由度一直是视线跟踪系统中存在的一大难题。但视线追踪系统作为研究和利用眼睛动作的一种重要手段,其未来将朝着高精度、高自由度及低成本方向迈进。
参考文献
[1] Yang X H,Sun J D,Liu J,et al.A gaze tracking scheme for eye-based intelligent control[C]//WCICA,2010:52-55.
[2] Sigut J,Sidha S.Iris center corneal reflection method for gaze tracking using visible light[J].IEEE Transaction.Biomedical Engineering,2011,58(2):411-419.
[3] 黄亚勤.基于视线跟踪技术的眼控鼠标研究与视线[D].成都:西华大学,2011.
[4] Hansen D W,Ji Q.In the eye of the beholder:A survey of models for eyes and gaze[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(3):478-500.
[5] Morimoto C H,Koons D,Amit A,et al.Pupil detection and tracking using multiple light sources[J].Image and Vision Computing,2000,18(4):331-335.
[6] 朱博,迟健男,张天侠,等.视线追踪系统头动状态下的视线落点补偿方法[J].公路交通科技,2013,30(10):105-112.
[7] 张鹏翼,王志良,郑思仪,等.使用立体视觉信息的视线追踪系统设计[J].北京邮电大学学报,2010,33(1):47-52.
[8] Yoo D H,Chung M J.A novel non-intrusive eye gaze estimation using cross-ratio under large head motion[J].Computer Vision and Image Understanding,2005,98(1):25-51.
[9] 杨彩霞.基于近红外光源的非接触式视线跟踪技术研究[D].济南:山东大学,2012.
[10]Shao G J,Chen M,Zhang B Y,et al.A novel simple 2D model of eye gaze estimation[C]//2010 The 2nd International Conference on Intelligent Human-machine Systems and Cybernetics.Nanjing:IEEE Computer Society Press,2010:300-304.
[11]郑思仪,王志良,张鹏翼,等.一种基于眼球结构的视线映射几何模型设计[J].系统仿真学报,2012,24(3):638-644.
[12]迟健男,张闯,王翠娟,等.双摄像机双光源视线追踪系统标定方法研究[J].仪器仪表学报,2011,32(4):883-892.
Estimation Method of the Fixation Point in Gaze Tracking System
Abstract:On the basis of reviewing the development path of gaze tracking technology,the research direction and several major methods of gaze tracking methods are elaborated.The principle and hardware composition of the gaze tracking technology based on pupil - corneal reflection method are mainly introduced,especially the mature estimation algorithm of fixation points in existing gaze tracking systems are summarized and principle analyzed,in further,the precision of the estimation algorithm and user freedom of 2D and 3D fixation point are crosswise compared.Finally,the defects gaze tracking technology are pointed out,and the application prospect in the fields of human-computer interaction,intelligent machine,virtual reality,etc.,are looked ahead.
Keywords:Gaze trackingPupil-corneal reflectionFixation point estimationMan machine interactionVirtual realityError compensationCalibrationNeural network
中图分类号:TH-3;TP181
文献标志码:A
DOI:10.16086/j.cnki.issn1000-0380.201605009
修改稿收到日期:2015-09-02。
第一作者金纯(1966-),男,1994年毕业于美国芝加哥Illinois大学计算机专业,获博士学位,教授;主要从事无线通信、计算机软件、视线追踪、物联网等方向的研究。