APP下载

基于多种眼动行为的裸眼3D 显示视觉疲劳评估方法

2023-06-13李一帆颜玢玢王葵如桑新柱赵思铭

液晶与显示 2023年6期
关键词:眼动主观受试者

李一帆,颜玢玢,王 鹏,陈 铎,王葵如,桑新柱,赵思铭

(北京邮电大学 电子工程学院,北京 100876)

1 引 言

三维显示技术能提供深度沉浸和临场体验,其应用领域包括电影、游戏、医疗等[1-2]。但是3D显示技术使用户在获得逼真临场感、沉浸感的同时也会带来不可忽视的副作用,例如长时间观看3D 内容会使观看者出现诸如头晕、恶心等不适症状,这些不良的影响被称为3D 视觉疲劳,是一种由过度的双眼视差和辐辏-调节不匹配[3]造成的眼部亚健康状态。3D 视觉疲劳严重阻碍了3D 显示的发展,例如3D 电影、A/VR[4-5]游戏等。3D 视疲劳的发生直接影响用户的体验感,严重时甚至会损伤双眼。因此,3D 视疲劳评估成为近年来的一个重要课题。

视疲劳症状可以通过主观感受[6]和客观指标[7-16]进行评估。主观感受涵盖视觉疲劳、身体疲劳、晕动病等,可以采用主观问卷的方式得到。然而在真实应用场景中,每个人的评价标准无法统一,存在较强的个人片面性,缺乏客观性。因此,增加客观指标衡量视疲劳程度是必要的。对视疲劳的客观评估大多通过眼动行为和脑电信号进行分析,然而脑电实验因其设备昂贵、操作复杂等[17-23]难以广泛应用。相较于脑电信号仪,眼动仪因其无接触的特性得以灵活运用在现实场景。眼球作为中枢神经系统的一部分,可以反映人类的唤醒状态。Jansen 等人使用扫视幅度与注视时长作为评估指标[8]。与扫视幅度或注视时间不同,Di Stasi 等人认为扫视速度不受自主控制,因此可能比注视等参数更准确地代表潜在的神经活动[9-10]。Macknik 等人观察到视觉注意力会影响注视时的微扫视[11]。

以上这些研究仅评估单一眼动行为与视疲劳的关系,然而在实际场景中,如医疗中的3D 影像以及进行A/VR 游戏等,观看者受任务驱使,往往对眼动行为进行更多自主控制,导致眼动行为更加复杂,仅通过单一的眼动指标难以准确衡量3D 视疲劳。如眨眼频率,此类眼动行为较易受自主控制。在视觉疲劳初期,受试者往往能通过主动调控减少眨眼频率,导致眨眼频率随视觉疲劳的变化曲线呈非单调的特性,从而影响对视觉疲劳的准确判断。因此,在任务驱动下观看3D 内容时,单一的眼动行为无法对视疲劳进行准确评估,采用多种眼动特征进行联合建模[24]是非常必要的。

本文在重复任务驱动下观看3D 视频以更快地唤起受试者不同程度的疲劳。实验过程中通过问卷调查得到受试者主观0~3 四个等级的疲劳分数,并采用眼动仪实时记录受试者的眼动数据。实验结束后,对眼动仪采集到的眼动数据进行整理,通过对客观眼动行为与主观疲劳等级的相关性分析得到16 种可以表征视疲劳的客观眼动特征,并利用神经网络建立客观特征与主观疲劳等级之间的数学模型。模型对3D 视疲劳的等级预测准确率达到82%,证明了本文所建立模型的有效性。通过该模型,可以实现对3D 视疲劳的实时监测,避免不健康观看对眼睛造成的不可逆损伤。

2 实验设计

2.1 实验刺激

作为实验刺激材料的3D 视频内容为4 段多人传小球视频,如图1 所示。图片的标签对应实验过程中刺激材料的播放顺序,分别为4 人、3 人、2 人、4 人互相传球。在传球过程中,成员需要随机交换位置并在移动过程中随机将球抛给任意其他成员。

图1 实验刺激材料内容Fig.1 Contents of experimental stimulus

刺激材料的制作方法如图2(a)所示。采用两个水平放置的相机进行拍摄,两个摄像机的光学中心位于同一水平线上,光轴彼此平行,使得拍摄的图像只有水平视差而没有垂直视差。两摄像机水平间隔25 cm,表演者在摄像机的5~6 m范围内,拍摄4 段4 min 的视频。将拍摄的视频进行渲染合成后,通过柱透镜光栅立体显示器(685.8 mm(27 in),1 920 像素×1 024 像素分辨率,60 Hz 刷新率)呈现[25-27],如图2(b)所示。

图2 实验刺激的制作。(a)采用两个平行摆设的相机拍摄立体图像;(b)合成视频通过光栅立体显示器播放。Fig.2 Production of experimental stimuli.(a)Using two parallel cameras to capture stereoscopic images;(b)Synthesized videos played on the 3D display based on LLA.

2.2 受试者

受试者为北京邮电大学17 名健康的学生(平均年龄:23 岁;范围:21~26 岁;其中男性9 人,女性8 人)并在招募前给予知情同意。实验开始前进行视力和立体视力测试以确保所有参与者视力正常。

2.3 实验设置和流程

实验场景如图3 所示。本实验使用的眼动仪为Tobii Pro Spectrum,其眼动追踪技术为双传感器双眼立体采集,可以准确测量视线信息及其三维空间中的位置,采样频率为300 Hz,理想条件下精确度和准确度分别可以达到0.01°均方根值(RMS)和0.3°。在实验过程中,眼动仪保持23°的倾角,与屏幕的距离保持60 cm。

图3 实验场景Fig.3 Experimental scenarios

受试者坐在距离屏幕130 cm 处,在实验期间尽可能保持身体静止而眼球可以自由运动。

实验室照明条件为300 lx,无眩光。在观看任务之前,受试者被要求进行2 min 的测试以确认视力正常,眼动仪可以在误差允许范围内记录受试者眼动情况。之后,受试者休息5 min 以将自己的状态调整到舒适的水平。实验过程如图4所示,其中蓝色部分代表4 段3D 视频刺激材料,具体刺激内容如图1 所示。白色部分表示在每段视频观看结束后,进行30 s 问卷调查,得到受试者的主观疲劳等级。为了更直观地比较眼球运动的变化,第一段和第四段采用了相同的视频。每个实验持续18 min,受试者直到实验结束才休息。眼动仪在整个观看过程中记录眼球运动数据。为方便后续分析,将数据进行分段处理。由于平均注视时长大多在300~500 ms 之间,为保证数据段内注视数据和扫视数据的可分析性,以10 s 为单位对数据进行划分。

表4 catboost 模型参数设置Tab.4 Catboost model parameter settings

图4 实验流程Fig.4 Procedure of experiment

本实验为任务驱动,因此在视频观看期间,受试者被要求计数指定目标人物的接球次数,并在每段视频后将计数结果告知研究人员。为保证受试者达到一定的视觉疲劳但又不会对参与者造成伤害,实验设置近距离观看时长为16 min。在实验结束后,所有的受试者都表示他们的眼睛非常疲劳,达到了实验目的。

2.4 实验参数

实验需要采集主观评价分数与客观眼动指标。主观评价采用主观问卷的方法,评价项目包括“模糊”、“眼痛”、“眼干”、“眩晕”、“恶心”、“体劳”,采用4 分制打分,打分越高症状越明显。主观打分量表如表1 所示。对以上6 个结果分数进行加权平均,得出最终的视觉疲劳水平。

客观眼动指标包括注视、扫视、眨眼等行为,其中注视指人眼在屏幕上某点做一段时间的停留,扫视指人眼在两个注视点之间快速移动,眨眼指人眼快速或缓慢的张开闭合。以上眼动指标可通过眼动仪进行采集,眼动仪采样频率为300 Hz,记录的数据包括人眼的瞳孔直径、人眼相对屏幕左上角的三维空间坐标和在屏幕上的注视点坐标以及注视、扫视、眨眼3 种有用眼动类型及其对应的时间戳。

对眼动仪导出的数据进行整理,以10 s 分段,通过对3 种眼动类型进行次数统计,得到10 s内注视次数、扫视次数和眨眼次数。根据各眼动类型对应的时间戳,通过计算开始和结束的时间戳之差,得到总注视时长、平均注视时长、总扫视时长、平均扫视时长、总眨眼时长、平均眨眼时长。根据人眼在屏幕上的注视点像素坐标,通过计算相邻两注视点间的欧氏距离,得到总扫视长度、平均扫视长度、扫视角度。通过眼睛在注视点处的微扫视像素坐标,计算所有微扫视点相对中心点的欧式距离得到微扫视指标。根据扫视时长和扫视长度,得到扫视速度。此外,眼动仪可直接得到左右眼瞳孔直径。通过处理,可以得到以10 s为单位的16 种客观眼动特征。

3 特征分析与建模

3.1 16 种眼动行为随视疲劳的变化趋势

完成整个实验流程之后,对受试者观看4 个视频片段时采集到的眼动数据进行分析整理,得到16 种眼球运动指标在4 段视频内的平均值,如表2 所示。最后一列显示了眼动数据的变化趋势,包括向上、向下和波动。

(1)注视指标。注视描述了眼睛在某一区域相对静止的眼动行为[7-8]。本文分析了3 个注视指标,即注视次数、总注视时长和平均注视时长。根据表2 的结果,总注视时长和平均注视时长都呈下降趋势,表明受试者越来越难瞄准目标且无意义的扫视活动逐渐增加。注视次数保持在19~21 之间波动的变化不明显,可能是受试者主观调控的原因。

(2)扫视指标。扫视是指连接注视点的最佳视觉搜索指标[9-10]。本文分析了8 个扫视指标:3 个距离相关指标——平均扫视长度、总扫视长度和扫视角度;3 个时间相间相关指标——平均扫视时长、总扫视时长和扫视次数;速度指标——扫视速度;与注视相关的指标——注视时的微扫视[11-14]。如表2 所示,扫视长度的变化趋势呈波动状,这可能与实验设计有关。由于实验是任务驱动型,受试者需要计算目标对象的接球次数,因此不同于自由观看,球和目标对象的移动会影响受试者的眼球运动轨迹。本文将扫视角度定义为-180°~180°,其中负值表示向下扫视,因此扫视角度呈上升趋势,表明随着视疲劳增加,人眼会逐渐倾向于向上扫视。此外,扫视持续时间增加,表明受试者无意义的扫视活动增多,无法很好地捕捉物体,表明视觉疲劳加重。扫视速度呈下降趋势,表明疲劳会降低中枢神经系统的活性[10]。微扫视指标指的是振幅最大、速度最快的注视型眼动,是在人眼试图注视时产生的一种不自主的眼球运动。在文献[11]中提到,注意力等认知过程可以调节微扫视的产生,从而在不同的时间点动态地增强或抑制视觉信息。微扫视的增加可能是由于受试者的疲劳加剧,以至于注视时扫视增多,无法很好地凝视一点。在以上所有扫视指标中,扫视长度较易受到实验任务的影响,扫视时间、扫视速度和微扫视受自主性控制相对较少,因此它们可以更准确地表示潜在的神经活动。

表2 4 个视频片段内眼动特征的平均值及变化趋势Tab.2 Average values and the trend of each 4-segment videos eye movement

(3)眨眼指标。本文分析了3 个眨眼指标——眨眼次数、总眨眼时间和平均眨眼时间。如表2 所示,眨眼持续时间呈增加趋势,与相关神经元放电速率降低有关[15]。而眨眼次数呈先增加后减少趋势,眨眼次数减少可能受自主控制影响。

(4)瞳孔直径。如表2 所示,瞳孔直径先增大后减小。根据疲劳对瞳孔变化影响的研究[16],工作负荷的增加导致主动疲劳(由知觉活动的协调参与引起的疲劳),从而导致瞳孔直径的增加。长时间工作会导致被动疲劳(由长期单调反应引起的疲劳),并导致瞳孔直径缩小。

3.2 16 种眼动特征与视疲劳的相关性

在模型建立之前,根据16 个眼动特征与主观疲劳的相关性对眼动特征进行排序。本文使用两种嵌入式特征评估方法:随机森林[28](RF)和catboost 集成树模型。随机森林是经典的基于bagging 方式做集成来提升基本决策树模型性能的集成模型;Catboost是2017年发布的基于boosting 方式逐步迭代决策树模型来提高拟合效果的并行计算模型,能很好地处理类别特征。

本文在数据集上完成随机森林(RF)和catboost 模型的训练后,可以获得每个特征对模型的重要性排名,排名越高,特征就越重要。表3 列出了不同评估指标下所有眼动特征的排名。RF和catboost 的排名有一定的相似性。在不同的特征评估方法中,相关性高的眼动特征排名均靠前,而不重要或信息较少的特征排名均较低。例如,在两种评估方法中,扫视角度和微扫视都排在前两位,而扫视长度由于受实验任务和自主性控制影响而排名靠后。将权重平均分配给RF 和catboost,以获得综合特征排名。综合结果计算如式(1)所示:

其中:Score(RF)表示采用随机森林得到的重要性分数,Score(CatBoost)表示采用catboost 计算的分数。对二者进行加权平均,得到综合特征分数,其排序如表3 最后一列所示。

表3 不同特征选择算法的特征排序结果Tab.3 Feature ranking results of different feature selection algorithms

3.3 模型建立

本文根据16 种客观眼动特征和4 分类主观疲劳分数的对应关系,建立了一个分类模型,由前馈神经网络和梯度提升决策树模型融合而成。对于前馈神经网络部分,自行设计和优化网络的整体架构以及激活单元、层数和学习率等超参数,应用基于梯度下降的反向传播算法,学习得到预测视疲劳等级的前馈神经网络模型。将其与梯度提升决策树模型的预测结果集成,建立最终的组合预测模型。

3.3.1 数据处理

实验数据包括17 名受试者18 min 的眼动数据,将其以10 s 进行等间隔划分,提取10 s 内的16 种眼动指标,得到的数据样本共1 836 份。将数据集随机分为10 份,使用3 份作为验证集,其余7 份作为训练集。在训练集上建立视疲劳等级预测模型并对验证集中的视疲劳等级进行测试,将预测时的准确率作为衡量模型的标准。

为避免模型过拟合,本文借鉴交叉验证的方法训练模型,即将上述过程重复10 次,每次选取的训练集与验证集数据都不完全相同。将10 次训练误差求平均作为实际训练误差,进行反向传播以调整模型参数;并将10 次测试准确率求平均作为实际测试准确率,评估模型性能。通过上述方法,模型可以有10 种不同输入,从而不会仅对其中一种输入过分拟合。采用交叉验证的方式,可以很好地减少过拟合风险。

在训练模型前需要对数据进行标准化、类别标签编码、缺失值和异常值处理4 部分预处理工作。数据标准化能够有效加速模型学习时的收敛速度,此外,由于受试者之间存在个体差异,基于各个受试者进行数据标准化可以统一数据分布,使分析更合理。分别对各个受试者的16 项眼动特征通过均值和方差进行标准化,公式如式(2)所示:

其中:X为原始数据,μ和σ分别为数据的均值和方差,X'为数据进行标准化后的结果。

数据中的标签需要对其进行one-hot 编码,又称一位有效编码,其方法是使用N位状态寄存器对N个状态进行编码,每个状态都有独立的寄存器位,并且在任意时刻,其中只有一位有效。例如,当等级标签为4 时,经过编码后变为[0,0,0,1]的四维向量。

经过缺失值和异常值检测可以发现,在1 836份数据样本中不存在缺失值,但存在部分异常值需要剔除。为确保训练的准确性,通过箱线图过滤数据中的异常值。如图5 所示,以标准化后的左眼瞳孔直径为例,将数据按顺序排列,Q1~Q3分别代表下四分位数、中位数和上四分位数。根据式(3)、式(4)过滤异常值“X”:

图5 采用箱线图筛选左眼瞳孔直径散点图异常值Fig.5 Screening the outlier of the scatter plot of the pupil diameter of the left eye with the box chart

IQR 表示下四分位数与上四分位数之差,处于上四分位数减1.5 倍IQR 以及下四分位数加1.5 倍IQR 之间的数是较为合理的,范围之外的数被认为是异常值并进行替换,替换方式为邻近数值求平均。

3.3.2 模型设计

本文模型包括两个部分,分别为前馈神经网络和梯度提升决策树。其中前馈神经网络部分采用两层的结构,如图6 所示,即除输入层之外,两层结构包括一层隐藏层和一层输出层。

图6 前馈神经网络Fig.6 Feedforward neural network

激活函数选择非线性的整流单元(RELU):

将0 和输入值中较大的值作为输出,实现对z的非线性处理。

网络的超参数设置对于模型预测的准确度具有重要影响。网络节点配置和超参数初始值设置如下:隐藏层神经元个数为128,dropout 为0.1,learning rate 为0.03,训练和测试的batch size 分别为1 428 和612,epoch num 为100。

模型的损失函数定义为交叉熵损失函数CEloss(cross entropy loss),其公式如式(6)、式(7)所示:

公式(6)表示将结果取指数并进行归一化,将归一化后0~1 的结果取对数。公式(7)中yk是one_hot 编码后的数据标签,与log_softmax 的结果相乘并求和,取负值作为最终的损失函数值。

然而,神经网络也有局限性。随着神经网络模型网络深度增加,模型容量与复杂度随之提升。模型参数增多会导致调优复杂且模型可解释性降低,同时更容易发生过拟合。

机器学习中另一大类算法——树模型,则可以通过学习数据的分层结构实现根据数据集的性质调整模型的复杂度,在数据量有限且特征质量一般的情况下相较于神经网络更具优势并且具有更好的模型可解释性。这类算法的经典模型是1963 年提出的决策树模型,其通过计算节点分裂时的纯度变化和剪枝可自动实现特征的选择。但单棵决策树往往存在稳定性差、不同预测样本结果方差高的问题。因此实际应用通常使用随机森林或梯度提升决策树等集成树模型,两者分别通过并行和串行的模式集成多棵决策树以有效降低模型的方差。

综上所述,我们使用具有复杂非线性拟合能力的前馈神经网络模型和梯度提升决策树的模型,并将两者组合作为本问题的预测模型。其中,catboost 模型的参数设计如表4 所示。

3.3.3 模型结果

基于3.2 节中提到的特征选择算法,将综合排名靠前的前i个特征分别作为模型的输入,验证模型在不同数量特征集上的分类性能。如表5所示,第一列表示将特征排序中的前i个特征作为输入特征集,例如,当i=5 时,表示综合特征排序在前5 名的眼动特征,对应表3 最后一列的前5 名特征。表5 的后三列分别表示当前输入特征集在3 种模型下的分类准确率,第一个模型表示仅使用前馈神经网络,第二个模型表示仅使用梯度提升决策树catboost 模型,第三个模型表示前馈神经网络与catboost 的融合模型。

表5 前i 个特征的分类准确率Tab.5 Classification accuracy of top i feature

根据表5 列举的准确率,前馈神经网络和catboost 模型的预测准确率达到了相似的结果,均在70%~80%。此外,不同的输入特征集对模型性能有一定的影响,随着输入特征的增多,模型的分类准确率呈上升趋势。当特征数量为15 时,模型的准确度达到最高值,融合模型的分类准确率此时为82%。相较以往的研究[24]——观看3D电影引起的视疲劳的预测模型,本文提出的模型对于任务场景下更复杂的眼动行为,可以更好地进行视疲劳四等级的预测。但当特征集大小为16 时,测试分类准确率降低,可能是“总扫视长度”特征与视觉疲劳之间的相关性太低,这一点与预期相符。尽管在以往的研究中扫视长度可以作为评估视觉疲劳的指标,然而在任务驱动下,扫视长度受主观控制影响较大,随目标移动而变化,导致其无法很好地衡量视觉疲劳。

上述实验说明,本文选取的客观眼动指标可以较好地评估任务驱动下3D 观看的视觉疲劳,且基于以上眼动指标建立的融合模型可以对视觉疲劳等级进行较为准确的预测。

为验证模型的普适性,本文在改变刺激材料以及观看距离的条件下,统计了模型预测视疲劳的准确率。如图7 所示,本文将任务改为多人动态场景下进行四则运算,同时将受试者观看距离增加到145 cm。实验总时长仍为18 min,分为4 段4 min 视频,并在每段视频观看结束后进行30 s 的问卷调查。在整个实验过程中,对记录的眼动数据进行如3.3.1 节的处理后,将眼动特征输入训练好的模型,并将模型的输出与主观疲劳等级进行比较,得到最高预测准确率为79%。此结果证明了模型在任务驱动型实验中的普适性,同时证明不同观看条件影响疲劳的变化但不影响眼动特征与主观疲劳的对应关系。

图7 实验刺激材料内容Fig.7 Contents of experimental stimulus

4 结 论

本文提出了一种针对任务场景下观看3D 视频引起的视疲劳的等级评估模型,旨在采用观看时的多种客观眼动指标评估主观视疲劳等级以实现对视疲劳的实时预测。该模型包括客观眼动特征的选取和模型建立,通过提取受试者在观看时的眼动数据处理得到16 种眼动指标,利用特征选择算法对16 种特征进行相关性分析,得到任务驱动下能够表征视觉疲劳的眼动特征。采用前馈神经网络和梯度提升决策树的融合模型,对客观眼动特征和主观疲劳进行映射建模。

经过实验验证,提取的眼动特征可以有效评估任务驱动下的视觉疲劳,且基于上述眼动指标建立的融合模型可以对视觉疲劳等级进行较为准确的预测,为医疗、A/VR 等领域任务驱动下3D 视频观看的视疲劳评估提供了一种有效解决方案。

猜你喜欢

眼动主观受试者
涉及人的生物医学研究应遵循的伦理原则
涉及人的生物医学研究应遵循的伦理原则
“美好生活”从主观愿望到执政理念的历史性提升
基于眼动的驾驶员危险认知
基于ssVEP与眼动追踪的混合型并行脑机接口研究
涉及人的生物医学研究应遵循的伦理原则
加一点儿主观感受的调料
涉及人的生物医学研究应遵循的伦理原则
刑法主观解释论的提倡
国外翻译过程实证研究中的眼动跟踪方法述评