视线追踪技术在公共图书馆数字阅读服务中的应用价值和可行性研究
2018-03-25乔金
乔 金
(国家图书馆,北京 100081)
1 引言
中国图书馆学会于2008年发布了标志着中国图书馆新时代到来的第一个宣言——《图书馆服务宣言》(2008),《宣言》第四条指出:“图书馆应提供优质、高效、专业的服务,图书馆充分利用现代信息技术,提高数字资源提供能力和使用效率,以服务创新应对信息时代的挑战”。对于公共图书馆而言,目前针对老人、儿童、残障人士等弱势群体的数字阅读服务所配置的人机交互体验还不够人性化和智能化,所开展的服务侧重了对内容的感受,而忽视了对交互设备本身的体验价值,不能很好地满足特殊读者需求。在20世纪原创媒介理论家马歇尔·麦克卢汉看来,交互媒介的体验价值和影响力要远远超过内容本身。李东旭等人认为[1],现代读者在利用IT设备进行数字阅读时,如果阅读器的媒介形式不够友好,那么他们就会转而选择更亲切、体验更好的阅读媒介来摄取信息,因此媒介的升级革新将会带来更好的阅读体验,而视线追踪技术正是利用人体最自然、最直接的感觉器官:眼睛作为技术手段,为用户带来革命性的交互体验。在当前背景下,公共图书馆数字阅读服务引进应用视线追踪技术具有重要的现实意义。笔者现结合视线追踪技术在各行业中的应用实际,就其引入图书馆数字阅读服务的价值及其可行性问题谈些认识。
2 视线追踪技术概介
视线追踪技术(Gaze Tracking Technology),也称作眼动跟踪技术(Eye Tracking Technology),是综合利用光学、电子、机械等各种现有的检测方法获取用户当前视觉注意方向并记录其变化过程,进而帮助用户完成信息交互的一种人机交互技术[2]。
2.1 视线追踪技术的特点
向计算机设备发送命令是人机交互的核心问题。从键盘到鼠标,从语音命令到触摸控制,每一次技术创新都极大地改变了交互体验。近年来使用人脸识别、语音识别、步态识别的生物识别技术与计算机进行信息交流已经成为目前人机交互发展的主流趋势。眼睛作为人体的一个重要感觉器官,是各种外界信息进入人体大脑的主要途径之一。认知科学的研究结果显示:大约有80%-90%的外界信息是通过眼睛获取得到的。人眼注视的方向包含着当前的任务状况以及人的意识状态等信息,因此,以视线信息作为输入的交互方式摆脱了对手的依赖。计算机鼠标能做的事情,通过视线跟踪也都能做。
著名学者Jacob RJK[3]详细总结了视线之所以能够合理地成为人机交互方式的理由:视线是一种很好地表达人的注意力和意图的非接触形式;眼睛在运动过程中还能提供额外的背景信息;眼动具有高速、准确和信息量大的优势;眼动是人类生存中自然形成的反应,无需后天的训练;作为人机交互的辅助输入方式,眼睛可以和手部姿态很好地协调完成工作。由于视线跟踪具有更加自然、直接、快捷的优点,所以,在一些不能用手或不方便用手的场合,基于视线追踪技术的人机交互就是一种很好的替代方法。
2.2 视线追踪技术的工作原理
视线追踪的硬件系统主要由摄像机、图像采集卡、通用输入输出卡、计算机、微处理器和光源组成。一般的视线追踪处理流程是这样的:在人脸正前方构造红外光源,摄像机和图像采集卡分别完成视频源采集和预处理工作,并将图像信息传输至计算机,微处理器的外部终端在捕获到通用输入输出卡提供的图像帧同步信号后,控制光源交替亮灭,光源经人眼角膜反射后在其表面上形成的亮点图像,称为普尔钦斑,利用普尔钦斑的几何特征检测普尔钦斑的位置;对普尔钦斑进行图像处理后可定位瞳孔中心;通过几何计算求取瞳孔中心与普尔钦斑的位置关系,从而判别视线方向;并通过前后帧人眼区域黑色像素个数关系,确认眨眼动作。
2.3 视线追踪技术的分类
根据实现的交互功能来区分,视线追踪系统可分为三大类:第一类是以视线控制代替手动控制完成点击选择的功能,例如使用者利用视线落点可以控制鼠标光标的位置,从而完成点击、选择等任务;第二类是用于实现视点随动效果,通过研究用户在观察屏幕时的视线转移顺序和视线落点分布等信息,以此为依据推断用户需求和行为习惯;第三类是用于人机接口的实验临床级研究,例如在外界刺激下实时记录视线方向或眼动状态等视觉过程,利用实验数据来探索人的脑部和神经系统的功能特点。
依据系统与人的相对位置关系来区分,视线追踪系统可分为穿戴式和非穿戴式两大类。穿戴式系统也叫头盔式系统,为了保持使用者与设备的相对位置关系不发生变化,而将设备的某一部分与人接触并固定住,这样的系统优点是比较适合于眼动力学、心理学、行为学方面的实验研究,缺点是为了保证实验效果,使用者配戴它的时间不宜过长;而非穿戴式系统也叫遥测式系统,跟受试者无直接接触,这种系统构成的优点是对人的干扰性小、可利用的时间长,缺点是由于人与摄像机的距离并不固定,这使得后续图像处理的工作难度增大,牺牲了一定的系统精度。
2.4 视线追踪技术的应用现状
近年来,国内外视线追踪系统应用范围逐步扩大。目前应用领域包括心理学[4]、人类工效学[5-6]、网页[7]、军事[8]、驾驶[9]、虚拟现实[10]、助老助残[11-12]、商品营销等等。
1988年美国的Virginia大学推出了第一款名为Erica的商用视线追踪系统,可通过眼睛直接发出控制指令,能够帮助身体残疾较为严重的人士生活、娱乐和学习。这种通过视线盯视而完成与机器交互的助老助残系统一经问世便受到老年人和残疾人的青睐。由加拿大SR Research公司生产的Eye-LinkⅡ视线跟踪系统,其可同时记录角膜反射运动和瞳孔运动,其良好的人眼跟踪性能和视线扫视追踪性能,使之在心理学研究领域内被广泛使用。由美国EyeTech Digital Systems公司研制开发的非接触式视线跟踪系统QuickGlance3,可以代替鼠标的部分功能,即使用者利用视线落点可以控制鼠标光标的位置,从而完成点击等任务。由德国SensoMotoric Instruments公司研制开发的iView系列视线追踪系统,该产品使用了红外摄像机来捕获用户的眼部特征和眼球运动,它可以在复杂光照条件下使用,因此在驾驶员安全行为研究和监控中被广泛使用。由瑞典Tobii公司研制开发的非接触式视线追踪系统Tobii系列产品,利用视线落点的变化而控制屏幕显示效果变化,它将屏幕和设备融合在了一起,交互的简便自然使得这项产品在虚拟现实技术的应用中具有了广泛的空间。
在移动电话市场,三星公司的新一代智能机Galaxy S系列将会拥有视线追踪功能,包括智能滚动系统与智能暂停系统。智能滚动系统是当系统检测到用户的眼睛正在看着屏幕,屏幕将会随着用户的目光进行自动智能滚动,智能暂停系统则是当用户使用手机观看视频时,如果用户离开或者将头转向其他地方,系统检测不到用户的面部信息,就会自动将视频暂停,其优点在于无需用户再用手指触碰屏幕。无独有偶,苹果公司则向美国专利商标局(USPTO)申请了专利名为“搭载视线检测功能的电子设备”的一项专利,将在其IOS产品中应用视线检测眼球跟踪技术,其中包括播放功能控制、节能控制等功能。当该系统确定用户视线是集中在设备上,那显示屏将会以适度的亮度显示,如果用户视线检测确定从设备上飘走,或者加速度计检测到设备的移动参数大于移动的界限,显示屏则会灰暗;在其他应用中,如果视线检测未达到条件,该设备可进入待机模式,一旦用户视线又被检测到集中在显示屏上,该设备将会退出待机模式,激活正常功能;另外苹果公司的检测技术也具有控制媒体回放的功能。总之,视线追踪系统目前非常受到消费行业的推崇,具有极佳的市场发展潜力,并且将很快融入到普通人的日常生活之中。
3 视线追踪技术在图书馆的应用价值
中国图书馆学会《图书馆服务宣言》(2008)第三条指出:“图书馆在服务与管理中体现人文关怀,图书馆致力于消除弱势群体利用图书馆的困难,为全体读者提供人性化、便利化的服务”。为弱势群体提供服务的水平是衡量一个图书馆服务水平的重要标准[13],也是社会文明、和谐的标志。图书馆的传统做法是关注信息资源的内容搜集、整合以及揭示,新时代的图书馆应该更加关注用户体验的价值,利用最新的IT技术带来更好的服务体验,也会赢得残障人士、老人、青少年学生等弱势群体的认可。日本通过实施多媒体数字无障碍信息系统技术(DAISY)为包括阅读障碍人群在内的信息获取弱势人群服务的实践受到了社会的认可[14]。基于视线追踪技术能更加自然、直接、快捷的特点,以视线信息作为输入信息的人机交互方式具备一定的优越性和独特的应用价值,极有潜力成为助力弱势群体数字阅读的人机交互技术,为数字图书馆全面发展、进一步提升服务水平提供新的发展空间。
3.1 实现追踪功能,助力肢体残疾人阅读
近年来,中国残疾人数字图书馆等平台的运行使得残障人士享受到了信息网络技术带来的全新阅读体验。公共图书馆为残疾人提供的数字阅读交互设备主要有:多功能数字助视器、点字显示器、大字阅读设备、盲文复印机、盲文打印机、红外线语音提示器、盲用电脑软件、助听器等,。以国家图书馆为例,在数字共享空间和阅览区都设有残疾人专用计算机,在总馆北区一层南设有盲文图书专架,有1000余册盲文图书,并设置了8个盲人专用座位,配备了两台盲人读者专用机。笔者还就上海图书馆、浦东图书馆、南京图书馆、金陵图书馆、太仓图书馆等公共馆的残疾人阅览室的人机交互设备进行了调研,发现各级公共图书馆都为残疾人设立了独立的阅读空间,并提供相应的辅助数字阅读设备。
然而在实际服务中,残疾人来馆读者非常少,很多数字阅读交互设备使用率非常低。究其原因:一方面是由于残疾人群体行动不便,到馆阅读有心理障碍和实际困难;另一方面也说明了目前的阅读交互设备并不够方便,阅读体验不够理想[15]。由于肢体残疾人的肢体自由移动受限,例如无法像正常人一样通过鼠标键盘使用电脑,但大部分可以正常控制眼睛运动,因此,通过眼睛运动与外界进行阅读交互正成为肢体残疾人的主要阅读方式之一。视线追踪系统可以帮助残障人士通过视线方向对屏幕功能菜单发出直接命令,实现对电脑阅读器屏幕的控制,完成上下文滚动、翻页及打开关闭等阅读操作,带给肢体残疾人士极大的阅读便利,克服现有的操作困难。
3.2 提供友好界面,方便老人阅读
为老年人提供服务的水平是衡量一个图书馆服务水平的另一项重要指标,对于公共图书馆而言,老年读者是一个稳定和巨大的读者群体,公共图书馆专门为老年人提供的上网阅读交互设备并不多见,即使一些先进的触摸屏也仅有放大字体的功能而已。对于老人使用电脑上网阅读而言,可通过视线追踪系统代替鼠标的功能,即利用视线落点可以控制鼠标光标的位置实现点击的操作,完成调整屏幕界面的大小、亮度以及文章段落滚动的功能,为老人提供更加人性化、智能化的体验。
3.3 开发娱乐应用,激发青少年阅读兴趣
人们容易对新生事物产生兴趣,对于少年儿童而言尤其如此。视线追踪技术作为一种新颖的人机交互技术对于公众来说还比较陌生,在激发少年儿童的好奇心方面具有天然的优势和感受驱动力。利用视线跟踪技术设计新鲜有趣、寓教于乐的电脑小游戏和互动娱乐环节体验,将有效吸引少年儿童来图书馆接受教育,对图书馆阅读体验活动也会起到重要的推广作用。
4 视线追踪技术应用于图书馆服务的策略
著名的眼动研究学者C.H.Morimoto认为[16]:“我们需要的是可靠、精准、易操作和低造价的视线追踪技术”。他一方面指出了视线追踪技术的未来发展方向,另一方面也点出了视线追踪系统的应用难点所在。如何让视线追踪技术可靠、精准、易操作和低造价地真正运用到数字图书馆服务领域,可从以下几个方面进行考虑。
4.1 明确需求,解决系统性能问题
视线追踪系统的性能是由系统的整体架构设计、软硬件配置共同发挥作用的结果,通常只有额外增加硬件设备,或者改进软件算法等才能提高其性能,但相应的改变也会增加系统操作难度,降低系统可靠性,增加设计成本等。例如处理视线追踪技术本身的两个技术难题是:①眼动噪声问题:由于眼动获取设备存在噪声,眼睛本身也存在抖动、眨眼等干扰行为,使得眼动数据存在干扰。②米达斯(Midas)接触问题:由于用户视线运动的随意性而造成计算机对用户意图识别的困难,即用户的每次眼睛定位都可能引发一条并非想要的计算机命令。这两个技术难题的解决都需要后期进行大量的改进算法和硬件增添、架构升级才能完成。
图书馆是一个开放的知识信息中心。图书馆以公益性服务为基本原则,以实现和保障公民基本阅读权利为天职,以读者需求为一切工作的出发点。分析具体的应用环境,系统的需求是辅助读者完成数字阅读体验,不用达到像医学临床级的视线追踪那么高精度的追踪效果,这使得视线追踪在图书馆应用的性能门槛并不高。例如在弱势群体的阅读环境中,视线追踪系统的基本性能指标可以设计为:①准确,即追踪精确度水平达到分(1/60°);②可靠,即可以连续反复工作;③鲁棒(Robust),即系统的健壮性,在这里就是适用于多种阅读环境,比如图书馆阅览室或住宅内,且可适应使用者配戴玻璃眼镜或隐形眼镜;④非侵入式,即不给人体带来伤害或不适;⑤允许头部自由活动;⑥无需标定,即时初始化;⑦实时响应。
4.2 以人为本,解决系统成本问题
目前视线追踪遇到的实际应用难题主要是使用的低成本和技术上的高标准之间的矛盾。使用性能更好的处理器以及敏感度、分辨率更好的视觉系统都可以极大地提高视线追踪系统的追踪精度和分辨率等指标,但相应要付出昂贵的成本。目前市场销售的视线追踪系统成品都具有高性能兼高价格的特点,真正适合大众使用的成熟视线追踪产品还不多,并且图书馆行业也不会盲目跟风新技术,因此采用少量购买、尝试开发、试点服务的方针,可以有效解决新技术应用带来的风险问题。
但少量购买不等于不买,这两点有本质区别。对于价格低廉,且弱势群体读者日常生活中普及度较高或较易获得的辅助设备,图书馆可以较少提供或不予提供;对于诸如闭路电视放大仪、装有屏幕放大软件的人机交互设备等价格昂贵、弱势人群难以负担购买或不易获得的辅助交互设备,图书馆应该本着以人为本的精神,重点予以提供,这样才能实现图书馆资源的高效分配和利用,体现图书馆的人文关怀。
4.3 设计用户满意度指标,解决系统适用性问题
基于视线跟踪技术的数字阅读服务,离不开视线跟踪技术的支撑,同时也需要科学客观的评估服务管理手段,因此,设计用户满意度指标,解决系统的适用性问题显得非常重要。以2005年国际图联(IFLA)出版的第89号专业报告《残障人士使用图书馆一览表》为基础构建的“公共图书馆残障用户服务调查评估指标”体系,以及加拿大多伦多公共图书馆残障用户服务研究实践成果为参照[17],笔者认为,基于视线追踪的适用于图书馆残疾人群体的人机交互体验,宜满足“公共图书馆残障用户服务调查评估指标”体系中的以下8项指标(见表1):
表1 符合公共图书馆残障用户服务调查评估指标体系的8项指标
借鉴以上指标,设计适合于公共图书馆数字阅读服务的评估指标,根据读者用户使用情况,填写反馈表单,可以有效监督并管理服务内容,为人机交互系统的改进和升级指明了方向。
4.4 融合其他技术,丰富人机交互体验
随着多通道多模态人机交互理念的发展,数字阅读交互已经不仅仅局限于传统的鼠标、键盘触摸等输入方式,而是结合了更多的与设备无接触的输入方式,如语音、手势、脑波和视线。上海大学的屠大维教授等研究实现的可适应头部运动的眼控输入系统,就在多通道人机交互应用进行了实践;浙江大学的方志刚教授等将视线追踪应用至多通道的用户界面输入中,在综合手动、语音和视线的信息后提高了系统解读用户意图的能力。由此不难看出,多通道多模态的人机交互通过利用人类与生俱来的自然属性,以生物识别技术为核心,使得人机交互的过程更加智能与和谐。在未来的图书馆数字阅读体验中,视线追踪技术可与其他人机交互技术共同协作,实现图书馆为特殊人群提供更加和谐、友好的阅读体验服务的宗旨。
4.5 结合其他资源,保障数字阅读服务
公共图书馆在人机交互体验服务的实践中,还应结合馆情,注重与残疾读者、老年人、青少年等不同读者进行沟通,确定视线追踪系统的功能和性能,保障服务的可靠性和有效性,并设计一套科学合理的评价指标体系,全面地考察新技术应用的得失,以此作为后续体验服务改进的参考。只有这样,才能使得新技术应用落到实处,实现其服务价值。当然,改进阅读服务体验,非几项IT技术或者几种辅助设备就可以解决所有问题,也需要从建筑设施、特殊馆藏以及专门馆员等其他方面共同努力才能成功。
5 结语
在公共图书馆数字阅读服务蓬勃发展的背景下,越来越多的先进人机交互技术将会应用到数字阅读服务中来,视线追踪技术就是其中之一。随着自身技术可靠性的不断提高和系统成本的降低,视线追踪技术将和其他主流人机交互技术一样,成为弱势群体读者不可或缺的辅助工具。