VR 眼动追踪技术的应用及进展
2023-04-15丁妮赵恬
丁 妮 赵 恬
北京师范大学艺术与传媒学院,北京 100875
现代眼动研究方法在20 世纪60 年代发展起来[1],并从那以后得到了进一步的改进。在过去的几年里,监测眼球运动的方法发生了很大变化。如今,使用基于视频的计算机视觉技术系统占据主导地位[2],同时由于智能手机等设备上的小型高质量摄像头的发展,眼动跟踪系统愈发轻便,使得将眼动追踪技术与更多应用场景相结合成为可能。眼动技术通过对眼动轨迹的记录从中提取诸如注视点、注视时间和次数、眼跳距离、瞳孔大小等数据,从而研究个体的内在认知过程。眼动心理学的研究已经成为当代心理学研究的一种有用范型。
虚拟现实(VR)技术是一种最终以人的感知觉效果为评价标准的仿真技术。人类对客观世界的感知信息有 70% 是来自视觉,因此视觉系统是虚拟环境中的关键部分,眼动追踪技术已被证实是视觉信息加工研究中最有效的手段,因此VR技术与眼动追踪技术的结合是技术和学科发展的必然趋势。近年来,随着计算机视觉、图形学、人工智能等新兴技术的发展及应用需求的增加,“眼动+VR”正在被越来越多的大企业所关注。苹果、谷歌、微软、Magic Leap、三星等多家公司都已布局眼动追踪技术相关业务。2014年,三星投资FOVE,主打眼动追踪的VR 头盔;2016 年,谷歌收购眼球追踪技术公司Eyefluence,该公司曾研发出一套针对虚拟现实和增强现实应用的眼球追踪技术。同年,Facebook(现Meta)旗下Oculus收购丹麦眼动追踪公司The Eye Tribe。2017 年,苹果公司收购德国眼动追踪公司SMI,SMI在实现眼球中央区域高分辨率显示的同时,还联合推出SMI Social Eye眼动追踪技术,通过富有表现力和精准的眼神接触让虚拟角色的交互更加可信。
本文将分别从技术发展和各领域应用层面,对近年来VR 眼动追踪技术的应用和研究进行总结和分析,以期对这一新兴技术在多学科领域的应用前景提供有价值的参考。
1 VR眼动追踪技术的发展现状
在技术层面VR 眼动追踪技术主要有以下两方面应用:图像优化渲染和头显设备优化。
1.1 图像优化渲染
AR/VR 等场景对图像计算渲染能力的要求极高,但是AR/VR 智能眼镜的体积、重量、续航能力等因素都限制了其计算能力。利用眼动追踪技术可以获取人眼的注视中心,从而使得计算机可以通过模拟人眼中央凹视锥细胞处理光影像的模式 (即注视中心外围影像逐渐模糊的原理)进行图像渲染,让用户在使用近眼显示设备时能体验到高清的、逼真的、且有景深的虚拟画面。眼动追踪技术可实现将注视点映射到头显的屏幕上或真实的空间环境中,最终实现人眼视觉中心看哪里,就重点渲染注视点所在的区域,而其他外围区域则可采用较少分辨率处理(较低的图像质量)。此举将大大降低处理器的计算能力。
目前较为常用的图像优化渲染技术为固定注视点渲染 (Fixed Foveated Rendering,FFR),可以实现以较低的分辨率渲染镜头边缘,而最新的基于眼动追踪注视点渲染 (ETFR)的外围渲染像素相比FFR 还可减少4~16倍,并且注视点渲染的确切性能优势还取决于应用的基本分辨率,分辨率越高,节省的成本就越大。例如丹麦眼动追踪公司The Eye Tribe 开发的 “漏斗渲染”技术和SMI眼球追踪破解“黄斑视觉”,正是基于人眼的视觉特点,对眼球中央区域或对用户眼睛注视的部分 (焦点)以全分辨率显示,同时模糊周围的画面区域来减少渲染负担,这样同样的硬件配置可以达到更加优秀的VR 画面,此项技术将大幅节省计算机运算资源,优化设备的性能。在Meta对于他们的首款配备眼动追踪功能的量产头显Quest Pro设备的性能测试应用程序中,发现在默认分辨率下,FFR 基于 Foveation 水平渲染节省了 26% 至 36% 的性能,基于眼动追踪注视点渲染 (ETFR)可节省33% 至45%。索尼的PSVR2运用Tobii眼动追踪技术,称其可以节省约72%[3]。
1.2 头显设备优化
1.2.1 注视点显示器
注视点渲染旨在更好地分配低细节外围视觉和中央凹之间的计算能力,减轻系统负载,而同样的效果也可以用于实际的像素数目,即头显中显示器的优化。注视点显示器不只是单纯改变显示器特定区域的渲染细节,还能够进行物理移动,这样无论用户看向哪里,显示器都能维持在用户注视点的前方。注视点显示器可以在VR 头显内实现更高的分辨率,根据眼动追踪数据将较小的像素密度显示器移动到用户的注视点位置。
1.2.2 变焦显示器
在现实世界中,为了聚焦近处物体,眼睛的晶状体会弯曲,令物体反射而来的光线到达视网膜上的合适位置,从而让人们清晰地看到物体。对于距离较远的物体,光线则以不同的角度进入眼睛,而晶状体必须再次弯曲以确保光线聚焦在视网膜上。但VR 头显中的显示屏由于始终与人眼保持固定的距离无法实现这一动态聚焦的功能,也由此产生“专注-适应-冲突”或称为 “视觉辐辏调节冲突”的问题。借助眼动追踪技术,通过追踪用户眼睛注视点在虚拟场景中的移动路径,系统可以发现路径相交的点,从而建立适当的焦平面。接下来,系统可以将信息发送至显示器以进行相应的调整,将焦点深度设置为匹配眼睛到对象的虚拟距离。
变焦显示器不仅有利于解决 “专注-适应-冲突”,改善用户对深度信息的接收和处理,同时可以允许用户聚焦更接近于他们的虚拟对象。早前已有研究人员使用眼动追踪技术模拟景深,近似对用户眼睛焦平面之外的对象进行模糊处理,未来将变焦显示器集成于VR 头显设备中或许能带来更为广阔的发展[4]。
1.2.3 自动用户检测与调整
除了检测眼球运动之外,眼动追踪还可以作为生物识别器。这令眼动追踪成为在单一头显中处理多用户配置文件的优势选择:当戴上头显时,系统可以立即识别为特定用户,并调出用户的自定义环境、内容库、游戏进度与设置;当另一个用户戴上头显时,系统可以加载他们的偏好和保存的数据。眼动追踪也可用于精确测量两眼之间的距离(IPD)。确定IPD 对VR 中将透镜和显示器移动至舒适和视觉质量最佳的位置起重要作用。借助眼动追踪,VR 头显设备可告知用户调整范围,在更先进的设备中,这可能是更加智能的过程:头显能够无形地测量IPD,而且头显可以包含机动IPD 调节,自动将透镜移动到正确的位置。
2 VR眼动追踪技术在视觉交互设计中的应用
2.1 界面设计
眼动追踪技术运用于界面交互中的理想状态为用户不需要做出显性的输入(如点击),而是系统本身在用户的浏览中提取出眼动信息,并作出适应性的变化,尤其在海量信息场景下,显示内容会随着用户视线的移动进行放大或压缩,有助于节省带宽。但如今的眼控界面交互还存在许多局限,例如无意米达斯接触问题——人在自然的浏览状态中,经常会有一些无意的眼跳或是眨眼,这些眼动在眼动交互中会触发界面的变化,但事实上这些变化并不是用户真正想要的。解决误触问题一方面需要提升眼动指标的分析精度,将用户的真正意图和无意活动相区分,另一方面可以进行界面设计和交互形式上的优化。通过统计用户眼动数据,将容易误触的图标进行空间分布上的远离,或将图标设计得面积更小,单一页面中减少可交互选项等[5]。在VR 环境中,更合适的交互模式或许是将眼动控制与其他输入工具相结合:如手柄、语音、手势等。
可行性相对较高的眼控交互如:注视触发滚动,当用户注视落点比较靠近下/左方时,自动向上/右滚动,使用户的视线处于最舒适的方向上,以提升用户体验;当用户注视某些特定元素时可产生拉近、放大、变清晰等局部变化,而视线离开时恢复原状。此类精度要求较低且不产生界面跳转的交互形式或许更适合眼动追踪技术与VR 界面的结合运用。从设计美观性的角度也可以通过眼动追踪结合问卷、访谈等形式进行客观与主观相结合的用户偏好调研,优化界面设计。
2.2 游戏交互
眼动追踪技术同时十分有助于游戏开发者了解玩家意图和注意力[6]。尤其在恐怖游戏等需要强烈依靠注意力形成感官刺激的游戏设计中,可确保玩家看向触发位置后再出现恐怖事件,避免玩家在VR 环境中的视线游荡导致错过关键设计。
同时,眼动追踪技术有利于玩家利用注视点更快、更轻松地完成目标。如眼睛控制指定对象的“抓取”或 “投掷”会比手部运动更为精确。Tobii公司其中一个演示作品就是帮助用户在VR 中投掷物品时提高自己的准度。系统可以根据用户注视点推断他们想要抛出的位置,然后改变抛出物体的轨迹以实现精确的投掷,改善用户体验感。
2.3 改善虚拟角色
如今越来越多的游戏或VR 应用中出现更为逼真的虚拟形象,但往往它们的眼球运动如眨眼、扫视等都是通过前期动画制作时的表情捕捉或建模、编程逻辑实现。借助眼动追踪数据,可以更为准确和轻松地应用到VR 虚拟角色中,从而显示用户何时眨眼、正看向哪里,尤其在具备社交属性的游戏中,玩家可以互相推断对方的游戏状态甚至是情绪,有利于增强游戏沉浸感。例如,苹果公司与德国眼动公司SMI联合推出的SMI Social Eye眼动追踪技术,通过富有表现力和精准的眼神接触让虚拟角色的交互更加可信。SMI Social Eye可精确追踪VR头显用户的眼动注视方向,并实时映射至虚拟化身的眼睛。虚拟角色可以凝视、眨眼、使眼色以及通过瞳孔反应来认同他人,表达用户的感受或表明其立场。
3 VR眼动追踪技术在学习领域的应用
3.1 提供即时学习反馈
近年来,虚拟现实已经成为许多不同学习训练场景的有用工具,它的特性使其具备放大相关知识、对注意力状态进行良好的观测等优势,对焦虑、自闭症、听力障碍的学习改善都能起到显著作用。尽管VR+教育的普及还需要较长时间,但不可否认的是,将VR 技术应用于学习的研究前景广阔。VR学习从概念和设计角度上不仅有利于学生在虚拟环境中进行“实操”、低成本、安全的虚拟实验,还可以与抽象概念进行互动,打破时空、教育资源限制等,从实际学习效果角度出发,运用眼动追踪技术可以进行有力辅助和验证。
眼动指标主要包括时间、空间和数量三个维度,每一种维度都可以用于检测不同的学习状态和效果反馈,在VR 环境中,随着用户的沉浸感、交互性更强,探究VR 环境下的注视即时状态可以通过注视时间、注视次数、眼跳次数等反映。通过注视位置、注视顺序、回视频率等指标有利于设计者改善内容编排、调整难度设置等。再结合后测,通过测验验证VR 学习效果,研究VR 对瞬时记忆、长期记忆、专注程度、理解程度等学习效果的长远影响。有研究表明VR 环境中视听感官体验能够提升学习者的情感投入,有助于促进深度取向的学习投入,也可通过测验进行验证。
3.2 提升运动效果
现有研究已经表明,VR 在体育训练中可以起到积极作用,在体育技能习得中,VR 向现实世界的转化有积极效果。另外在体育运动中通过有针对性的VR 环境训练还可起到提高运动员的积极性和减少主观紧张感的作用[7]。
单一利用眼动追踪技术在以往的体育场景应用中容易受到一个视觉感知测量的问题——眼动追踪设备只分析中央凹区域信息,而不分析隐形注意信息(外围信息)。然而在虚拟环境中,可以通过遮挡参与者的视线范围,使其聚焦于中央凹信息,对于提升眼力相关的运动有显著效果。例如,一个虚拟的手球投掷者和手球守门员必须预测球的轨迹。因此,VR 应用是实现凝视训练概念的一种预定方法,可以优化或增强体育活动中的凝视行为。将眼动追踪设备集成于VR 头显内可以通过视觉感知和眼肌运动训练增强眼力、形成更快的感觉处理和更准确的肢体与眼协调动作,并降低受伤的风险[8]。并且与传统系统相比,VR 中的集成眼动追踪设备可以有效避免运动主体快速移动时,眼动仪相对于头部的位置偏移,对于运动情境下的凝视行为分析、训练可以起到重要作用。
4 VR眼动追踪技术的应用分析
4.1 可行性及优势
4.1.1 自然的刺激与运动
在虚拟现实中,仍然保留被试主体自由运动的空间,并且处于一个相对自然的环境中,使受试者感觉就像在现实世界中一样。通过移动头部,可以向各个方向看而非传统实验中的单一面向屏幕。
除头部运动外,通过身体动作和提供给眼睛的图像相同步,可以达到主体与虚拟环境的高度沉浸感。通过向感官提供有关该环境的信息,受试者获得了在非物理环境中的存在感[5]。监控沉浸感在虚拟环境中尤为重要,因为沉浸感可以在一定程度上反映出虚拟体验的质量。眼球运动已被发现与虚拟环境的沉浸或非沉浸性质相关。有研究表明,在沉浸状态(玩电脑游戏)下,参与者的眼球运动,即每秒钟注视的次数,随着时间的推移显著减少,而在非沉浸状态 (点击任务)下,随着时间的推移显著增加,分别反映了参与者的专注和分心状态。
眼动追踪技术的介入,有利于对虚拟环境和视觉元素的沉浸性设计做出论证,促进了人机交互过程中更自然的相互刺激作用。
4.1.2 可控的环境与精确的数据收集
虚拟现实场景使得实验人员可以随时调整实验设置,相比现实世界具有更为可控的实验环境。并且随着智能手机等设备上的小型高质量摄像头的发展,现在有更加小巧方便的眼动跟踪系统,可以装进VR 头盔的眼动追踪设备或便携式眼镜。它们可以快速且准确地监测眼球运动,并提供相当数量的数据。眼动追踪技术与VR 的结合,使得在头部运动的同时,刺激的位置与受试者的位置关系,整个身体的动作如转向物体,甚至走路都可以被高精度地测量出来。由于眼球运动与认知之间的密切关系[9],在各种各样的实验设置中,眼动技术已经得到越来越多的关注[10]。
与现实世界的眼动追踪不同,在VR 中应用眼动追踪更容易在3D 空间中定义感兴趣的区域,并跟踪时间点以确定该区域何时被注视。眼动追踪技术和VR 的结合使得计算3D 空间中被测者的凝视,并观察被测者在观察过程中的注视位置成为可能。
4.2 局限及困境
4.2.1 VR 技术:晕动症、疲劳、专注-适应-冲突
晕动症是目前VR 应用过程中常见的较大问题,晕动症状的产生通常是由视觉和前庭神经刺激不一致引起的。在VR 中,眼睛检测到虚拟场景中的运动和玩家的身体运动,而现实世界中的人在大多数情况下是坐在椅子上。这种来自眼睛的输入和来自前庭系统的输入之间的差异是VR 中晕动症的主要原因。然而,在现实世界中实现虚拟世界的客观运动,如能够四处走动或使用更大、更复杂的场景是很困难的,并且与传统显示器相比,虚拟现实中的受试者对微小的干扰要更为敏感。改善VR 体验中的晕动症状目前主要有三种思路: (1)限制时长,缩短单次时间,增加实验次数;(2)寻找一种更自然的方式在虚拟空间移动;(3)给受试者设置任务以分散对晕的注意。对于晕动问题尚且没有根本上的解决办法,只能尽量通过其他方式尽量规避或提升用户体验感。
除晕动症外,长时间佩戴厚重的头显和耳机会让受试者感到疲劳,不仅是眼疲劳、听觉疲劳,还有由于设备重量带来的脖子疼痛、鼻子压力等。此外在夏天,厚重的设备会让佩戴者感到炎热,同时汗水还会带来一定的卫生问题。
虚拟现实的另一个挑战是发散和专注之间的差异,被称为专注-适应-冲突[11]。在现实世界中,我们的大脑从聚合和眼睛晶状体的焦点接收深度信息。相比之下,我们在VR 中只接收到关于收敛的信息。由于虚拟场景只在一个固定距离的平面上呈现,人们无法从镜头的焦点中提取任何深度信息。由于无法获取深度信息,人们会因此有较弱的3D体验,同时它还会加剧疲劳感。
4.2.2 眼动追踪技术:眼动仪校验与色彩灵敏度
在进行眼动测量时,校准和验证是确保准确性的常用做法。在这两种模式下,屏幕上将在不同位置显示多个目标点,要求受试者专注于这些目标点。在校准过程中,眼球跟踪器使用这些目标作为参考点来调整其凝视计算,以匹配被测对象正在看的位置。由于不可避免的头部运动,眼动跟踪的精度会慢慢下降,例如,在VR 实验中,头显设备会不可避免地在受试者头上轻微滑动。因此,在实验中每隔5~10分钟都有必要进行眼动仪校验。然而,校验的过程会在一定程度上干扰实验设置,降低受试者体验感。目前的可行解决方案是利用平滑追踪,通过角膜和屏幕空间的轨迹相匹配,通过学习高斯回归模型进行实时自动校验。
眼动仪还存在对眼球颜色的灵敏度不同的问题[12]。通常颜色较亮的眼睛颜色比深色眼睛的追踪效果好,这也会对数据准确性造成一定影响。
4.2.3 技术综合应用时的新问题
除上述局限外,将眼动追踪技术应用于VR 可能会产生以下几个新问题需要注意:
第一,不同的软件常常会使用不同的坐标系统。将眼动追踪软件的数据与3D 引擎的数据结合起来,并使用另一种软件分析这些数据时,必须注意这些形式上的差异。很多时候,x、y和z在不同程序中并不表示相同维度,离线分析数据时也需要考虑这一点。
第二,不同应用程序的帧速率也存在差异,运行VR 应用程序的游戏引擎帧率通常比眼球追踪器低。3D 应用程序中的帧率也会根据所看到的对象而变化,当看到一个非常复杂的物体时,它会突然下降,而当看到一个简单的物体时,它会迅速上升。在大型沉浸式3D 环境中,帧率下降是难以避免的,要尽量保持VR 场景和眼动仪帧率的同步和一致[13]。
第三,三维场景中的眼动跟踪没有二维中清晰,在VR 环境下区分凝视、扫视、平滑追踪、眼球震动等行为时不如2D 屏幕前明确。这对眼动仪的精度和数据运算提出了更高的要求。
5 总结与展望
VR 眼动的应用不仅能提供大量有价值的数据,同时可以很好地模拟现实世界,并给受试者相对自由地移动的可能性。在虚拟环境中,它比以往的实验室环境更接近自然条件,又比在现实世界中进行的研究更具有控制性。这使它成为一个非常有价值的工具,在探索空间导航领域和许多其他领域都有广泛的应用前景。
眼动追踪技术的应用,及未来可能的与动作捕捉技术相结合,可以为研究人员提供大量关于受试者在虚拟环境中的行为信息。这使得分析研究对象的行为与所看事物之间的关系成为可能。此外,3D热图也为可视化此种研究方式提供宝贵工具。在展示研究或构建新假设时,通过在3D 模型中可视化凝视模式,有利于更加清晰地展现实验结果,进一步优化实验。同时,眼动技术在VR 研究领域的应用目前还处于初步阶段,仍面临许多技术局限。
首先是晕动症的问题,由于生理本能的障碍,晕动问题无法得到根除,只能尝试寻找到尽量低延迟、规避不适移动方式的设计方法进行不断优化。
其次是眼动设备自身的局限性,实验过程中无法保证被试者一直正确佩戴眼动设备,且眼动仪需要校验,存在校验后不能移动设备、不同颜色眼睛的不同灵敏度等局限,但随着未来技术的进一步发展,自动校验等技术的成熟会显著改善如今存在的问题。
最后是VR 中的行为与现实世界的类比性目前还有待进一步探讨。尽管相较于传统实验室二维屏幕上的实验,VR 场景与现实世界相似度更高,但其仍存在较大差异。如屏幕中央的分辨率更高[14];信息从同一平面给出,到眼睛的距离相同所导致的深度信息获取缺失等不同。而且,如今还无法良好地在现实世界中匹配VR 场景的自然行走,技术的局限也使人们期待着未来无线VR 设备、眼动追踪设备、全方位跑步机、手部跟踪等技术的进一步成熟。
眼动追踪技术在虚拟空间中远不仅限于VR 领域,还可以拓展到混合现实 (MR)、扩展现实(XR)等更多方面。如今,在虚拟空间的可用性研究中,眼动追踪功能利用其平均注视时间、视线追随等指标已经从对用户注意力的诊断性评估逐渐转变为对用户与界面之间交互的检查,从而为可用性评估提供更多有价值的信息。时间、空间和计数指标可以帮助我们了解用户对三维场景的关注情况及沉浸程度。在大多数研究中,使用的眼动追踪仅限于注视时间和注视次数,未来的研究还可考虑采用更广泛的眼动测量方法,可试图寻求建立具体的时间、空间、计数测量与可用性、视觉注意力、认知、情感、沉浸感等维度的关系。眼动追踪技术的综合运用对于图像渲染、优化头显设备、改善视觉交互、实时检测学习效果、提升运动成绩等众多领域都有重要作用。未来,在VR、MR、XR 等环境中使用眼动追踪设备开展研究有广阔前景和更大空间。