虚拟现实环境下基于眼动追踪技术的工作负荷评估方法研究
2022-05-25陈杰刘成义张煜何景异钱春霖张晓栋李崇斌丁全
陈杰,刘成义,张煜,何景异,钱春霖,张晓栋,李崇斌,丁全
(1.武汉第二船舶设计研究所 武汉,430205;2.西安交通大学,西安 710049)
1 序言
工作负荷是用来衡量人机系统的可用程度或可接受程度的指标反映了在特定环境和操作条件下在完成任务的过程中操作者所付出的能力。包含体力工作负荷和脑力工作负荷,也叫做认知负荷[1]。NASA提出的工作负荷的评价指标包括脑力需求、体力需求、时间需求、业绩水平、努力程度和受挫程度六大因素[2]。
过去40年来,工作负荷的定量测量已经发展了许多不同的方法,主要分为三类:
(1)主观测量,例如自报告、Cooper-Harper量表、美国国家航空和航天管理局任务负荷指标(NASA-TLX量表)[2-3]
(2)行为测量,在任务中评价操作者的行为表现,例如主任务法[4]、次任务法[5];
(3)生理指标测量,例如测量大脑功能[6]、眼功能[7-9]、心脏功能[10]、肌肉功能[10]等生理指标。对于各种测量方法的评价依据也提出了相应的标准,包括五个因素:测量灵敏度,诊断性,干扰性,实施要求和操作员接受性[11]。
近年来的研究趋向于关注脑力工作负荷测量,并采用多种方法综合测量,实时反应工作负荷的变化情况。Neerincx(2003)[12]等人提出了认知任务负荷模型(CTL),由三个负荷因素:占用时间的百分比,任务设置切换的数量和信息加工的水平构成三个测量维度,并应用于荷兰海军进行验证研究。Diana Donath等人[13]通过NASA-TLX主观测量工作负荷和飞行员眼动分析的研究发现,在不同的任务情境中随着任务复杂程度的增加或引入次任务,操作者在不同的飞行阶段视觉扫描的行为存在差异,对应着操作者主观工作负荷的增加。
虚拟现实技术(Virtual Reality,简称VR)是一种通过计算机程序,创造三维虚拟世界的数字技术。近年来,随着虚拟现实技术的发展和成熟,虚拟现实技术在包括场景展示、设计验证、虚拟演练等诸多领域中得到实际运用。基于虚拟现实技术的设计、评估和验证系统也得到了广泛地运用,包括有波音、大众、通用等公司[14]在很长一段时间以来通过使用虚拟现实技术,对数字模型进行模拟和验证相关方案,减少了昂贵的物理原型的使用,节约了大量成本;同时能够有效的缩短研发周期,提升产品设计质量。
2007年Claudio H.S等人将VR技术用于核电控制台设计的人因要求评估,进行了早期尝试。Susanna Aromaa (2016)在矿石粉碎机维修平台的设计中,通过VR与AR(增强现实)的对比研究,证明VR系统更适合支持对可见性、可达性、工具使用等方面的评估。美国能源部研究人员2018年基于人因素设计和评估方法,用于开发最终状态控制现代化的控制室,并管理升级生命周期的各个阶段。评估方法包括在系统仿真实验室中操作员对系统原型进行的交互式操作,提出界面的修改建议[15]。
眼动追踪是一种神经心理学方法,是获取生理数据的重要来源[16],利用特定的眼动设备或者眼动系统来记录一个人在某一环境中注视物体而产生的眼动数据。而眼动追踪技术也常用于人机交互研究领域,眼动仪通过追踪记录使用者的眼动轨迹来反映其心理活动。
许多学者从眼动行为模式、用户搜索行为特征、任务分析、界面可用性等角度开展眼动追踪技术的研究。Eileen[17]对1986-2011年眼动的有关研究进行综述,重点梳理了三种类型的眼动,即注视控制( Gaze Control)、平滑追踪运动(Smooth Pursuit)和扫视( Saccades) ,并且分析了这三种眼动与视觉之间的交互;指出过去25年的眼动研究主要集中于基础性问题,如保持注视稳定性的机制、眼动注视区域、眼动注视的原因以及执行复杂任务的时间等。Irene[18]等利用任务分析与眼动分析作为方法对药品包装设计的可用性进行了试验,但没有将任务分析与眼动分析进行对比验证。
综上所述,眼动追踪技术与虚拟现实技术在人因评估研究中都已成为成熟、常用的评估技术,但结合两者来进行的研究还很少。而且随着计算机技术、人工智能技术、语音处理与音响技术、多传感器技术等虚拟现实相关的技术进一步发展,虚拟现实模拟仿真复杂任务系统的效果会越来越好。本文希望通过船舶操作台显示界面的人因评估实例来总结出一套行之有效的结合虚拟现实技术与眼动追踪技术的人因评估方法并对其进行验证。
2 方法
2.1 实验系统设计
实验系统设计需要利用虚拟现实环境来完成对船舶操作台显示台界面的仿真模拟。实验设计两个不同的实验环境分别对应虚拟环境以及实物操作环境,验证虚拟环境与实物操作环境是否具有良好的一致性,同时在实验人群中将测试者分为两类,对比两类人群在虚拟以及实物环境中的不同表现是否存在差异性,同时分析两类人群在不同实验环境中的工作负荷是否存在较大差异。
为了验证虚拟现实仿真平台的仿真效果,还需要对利用样机进行模拟仿真的实物仿真平台进行同步测试,因此实物仿真平台也包含在实验系统设计中。实验硬件设备由实物模拟样机,高性能主机,显示屏,虚拟现实眼动仪,眼镜式眼动仪,虚拟现实手柄,配套的实验室记录设备(记录用纸笔,录像机,录音笔等),使用软件包括unity引擎(unity 2019.4.2f1),眼动仪测试数据记录软件(iMotions)。
虚拟现实仿真平台搭建示意图如下图2-1所示,实物仿真平台搭建示意图如下图2-2所示。
图1 虚拟现实仿真平台搭建示意图
图2 实物仿真平台搭建示意图
2.2 评估指标
实验以工作负荷的测量为核心评价标准,综合运用主观测量、行为测量、生理指标测量方法对工作负荷进行评估。其中主观测量采用NASA-TLX量表,从脑力需求、体力需求、时间需求、自我表现、努力程度、受挫程度六个维度出发让操作者对自己的操作做出主观评价。行为测量由测试人员在实验过程中记录操作者完成任务情况与用时作为工作绩效指标。生理指标测量采用眼动追踪法,记录操作者的瞳孔直径、眨眼频率、注视时长、注视区域并通过计算得出瞳孔变化率、眨眼频率、注视熵、兴趣区注视时长占比、兴趣区注视率,以此评估工作负荷。
2.3 实验任务设计
本实验共测试9名被试:其中第Ⅲ类人群为2名专业操作员,具有多年船舶操作实践经历,熟悉船舶操作台屏界面、操作方式、任务指令与异常情况。第Ⅱ类人群为3名船舶操作台设计人员,具有多年设计船舶操作台的经验,熟悉船舶操作台界面以及操作方式。第Ⅰ类人群为4名人因工程评价专家,掌握人因工程评价的各种方法与理论,对于船舶操作台的人机工效能做出全面评价并给出改进建议,但对船舶操作任务流程较不熟悉。
实验任务分为四个部分:
1)第一部分是训练任务,帮助被试者熟悉被试系统的现实界面逻辑与操作方式。
2)第二部分是模拟参数异常工况(工况一):在任务过程中,显示界面会不定时的出现参数异常情况,需要被试者及时发现异常并报告。异常情况间隔1 min随机出现一次,每次出现持续10 s,被试者需要在持续时间内发现异常情况。
3)第三部分是模拟指令任务工况(工况二):被试者需要听从主测的口令完成相应的操作,观察参数变化到达口令要求之后报告主测。每个子任务大概花费3-4 min,每个子任务之间间隔1 min。
4)第四部分是模拟事故工况(工况三):系统后台会不定时出现异常情况,被试者需要观察参数情况,发现异常之后报告主测,主测下达操作口令,被试者进行操作直到故障解除,解除之后报告故障解除。每个子任务大概花费4-5分钟,每个子任务之间间隔1 min。
3 结果
3.1 虚拟平台与实物平台对比结果
3.1.1 任务绩效
从平均完成时间来看见图3-5,实物平台和虚拟平台有较高的一致性,且实物平台的反应时间普遍低于虚拟平台。
3.1.2 NASA-TLX量表
工况一和工况二的脑力需求实物较虚拟平台的略低,但尚不存在显著性差异,从工作负荷的影响因素开看,实物平台的体力需求略低,虚拟平台容易产生视觉疲劳,见图6-8。
3.1.3 眼动指标
虚拟平台的注视熵普遍高于实物平台,这是虚拟平台视野较小,因此被试需要更频繁地扫视与眼跳所造成的。但两种平台的注视熵差异不大,见图9-11。
3.2 不同类别被试人员试验数据对比结果
3.2.1 任务绩效
在任务一、二、三、四中,由于第III类用户对此类非重要信息敏感度较低,故反应时间较慢。第III类用户由于操作熟练度的差异,在任务十二与十三中完成任务所需时间显著低于其他两类用户;而其他任务三类用户完成时间无明显差异,见图12-14。
3.2.2 NASA-TLX量表
由于第II类用户比第I类用户更熟悉界面,故工作负荷较低。三类用户的工作负荷无明显差异,但由于第II、III类用户有更多的操作经验,工作负荷更低,见图15-17。
3.2.3 眼动指标
三类人员的注视熵表现较为接近,但在一些任务中的表现上来说,Ⅰ类人员注视熵高于Ⅱ类人员高于III类人员,这也跟界面熟悉程度与操作熟练程度相关,注视熵越高表明对于界面越不熟悉操作越不熟练,见图18-20。
3.3 验证结果
3.3.1 虚拟平台与实物平台结果验证
对虚拟平台与实物平台的整体实验结果进行相关性检验,虚拟平台与实物平台在任务完成时间上的皮尔逊相关系数r=0.839,P=0.000在0.01级别(双尾),相关性显著。在注视熵上的皮尔逊相关系数r=0.876,P=0.000在0.01级别(双尾),相关性显著。在AOI注视率上的皮尔逊相关系数r=0.644,P=0.000在0.01级别(双尾),相关性显著。
对虚拟平台与实物平台的整体实验结果进行独立样本T检验以虚拟平台与实物平台为分组依据,其中瞳孔变化率F=1.255,P=0.264,注视熵F=3.222,P=0.074,AOI注视率F=1.549,P=0.215,具有一定相关性,无显著差异。而完成率、瞳孔变化率、注视熵、AOI注视率F检验显著性大于0.05,两组数据的熟悉度无显著性差异,具有一定相关性。
表1 虚实对比显著性检验结果表
3.3.2 不同类别被试人员试验数据对比结果验证
从前面的数据结果中可以得知可将第Ⅰ类人群与第Ⅱ类人群没有较大差异,可以将两类人群合并为非专业人群。因此三类测试者在进行结果验证的时候将其分为两类,将两者进行对比,其中2名船员为第一类人群也就是专业人群,剩余7名被试为第二类人群也就是非专业人群。
在眼动数据中两者有着显著差异性的是瞳孔变化率,AOI注视率,眨眼频率,一类人群的这些指标都低于二类人群。
将经过处理的NASA-TLX量表进行以两类人群为分组的独立样本T检验可以得出,在虚拟平台中两者在受挫程度上存在显著性差异,通过分析其处理结果均值可以发现,一类人群在虚拟平台中受挫感更低,权重为零,而对于实物平台两者的受挫程度没有显著性差异。
表2 整体数据的两类人群显著性检验结果表
表3 NASA-TLX各分数显著性检验结果表
4 讨论
4.1 虚拟现实仿真平台的有效性
本文关注的核心在于虚拟现实仿真平台是否具有替代实物仿真平台进行工作负荷评估的有效性。通过在虚拟仿真平台和实物仿真平台上进行三种工况任务操作,从工作负荷的测量指标结果可以看出,任务完成率、瞳孔变化率、注视熵、AOI注视率无显著性差异,且两平台实验结果的相关系数均大于0.6,表明实物仿真平台与虚拟仿真平台在评价结果上具有较高的一致性。而任务完成时间存在显著性差异的结果也表现出了虚拟仿真平台环境存在的不足,主要是由于佩戴虚拟现实头盔容易产生视觉疲劳,以及通过虚拟现实手柄操作按键的交互方式不够自然,影响到了操作时间。后续可以通过培训熟悉虚拟现实交互设备使用,以及使用数据手套降低操作时间。对两个平台的优劣对比如下表所示,将虚拟现实技术用于设计评估,对设计对象的仿真度高,能有效缩短研发周期,降低开发成本。
表4 两种平台的优劣对比
4.2 工作负荷评估方法的有效性
眼动指标作为工作负荷的测量指标,是许多研究中已经验证了其可靠性,相比于传统主观测量方法,具备实时性、客观性等特点。对于工作负荷的测量指标本文采用了主观评价、眼动跟踪数据、任务绩效三类指标的综合评价,以保证评估结果的有效性。评估指标需要具备可以区分不同操作水平与经验的操作员工作负荷的敏感性。实验结果表明,三类用户在工作负荷测量指标方面具有显著性差异,特别是任务完成时间、瞳孔变化率、AOI注视率、NASA-TLX量表中的受挫程度。均为专业人群表现较非专业人群良好,其他指标专业人群也好于非专业人群但没有显著性差异。主要原因在于,三类用户的专业知识水平、注意策略、操作策略及技能、以及对界面的熟悉程度等方面存在较大差异, 随着操作经验的增加,工作负荷下降。因此在工作负荷评估指标的敏感性方面得到了很好地验证。同时,三类指标相比,眼动指标的敏感性好于其他指标。可以通过眼动数据进一步分析操作员的注意策略和扫视路径,发现界面设计存在的问题,进行设计迭代。
5 结论
本文提出了一种在虚拟环境下基于眼动追踪技术的人机交互系统工作负荷评估方法,经过实验检验后可以认为采用虚拟现实技术对人机交互系统进行仿真模拟来进行工作负荷评估是完全可行的,能够很好地代替样机实物模拟。在这套评估系统中,任务难度与被试人群专业与否在工作负荷指标表现上具有差异,很好地体现了评估系统的敏感性。该评估系统采用的生理测量手段只选用了眼动追踪这一方法,可以在未来的工作中加入其他生理测量手段如皮电、脑电、心率等。随着虚拟现实技术的进一步发展,更方便实用的应用于虚拟现实环境下的人机交互手段会逐渐更新,这些技术的进步更有利于利用虚拟现实技术进行复杂系统的模拟,而测量工作负荷的评估手段与方法也会随之进步。