体感交互中的基础点击任务工效评估

2020-06-30张新勇

人类工效学 2020年2期

张新勇

(中国人民大学信息学院，北京 100872)

1 引言

近年来，随着自然用户界面(Natural User Interface,NUI)、体感交互等概念逐渐为人所熟知，以Kinect为代表的体感设备及其应用逐渐进入人们的日常生活。人们可在游戏娱乐、教育教学[1]、医疗保健[2]等诸多领域发现体感设备的典型应用。近年来，除了微软公司发布的Kinect设备，因特尔、苹果等著名公司也推出了类似的设备。同期，市场上也出现了像Leap Motion这样可感应用户手指运动的体感设备。这预示着自然人机交互具备了更多更好的技术基础，将有更加新颖的应用范例面世，前景将更加光明。

在这样的背景下，有必要从人机交互(Human-computer Interacting,HCI)的角度对以Kinect为代表的新型体感设备的可用性进行深入研究，其中评估相关设备在典型交互任务中的人机工效问题(Human Performance)是一个基础性的HCI问题。在传统图形用户界面环境下，以鼠标为代表的点击设备居于主导地位，它们的人机工效满足费茨法则(Fitts’ law)的描述[3]，即完成点击任务的时间MT与任务的难度指数ID线性相关。一维形式的费茨法则常被表示为如下的形式：

(1)

其中a和b为两个回归系数；A表示移动距离，W代表目标大小(如带状目标的宽度、正方形圆形目标的边长和直径等)；对数项被定义为难度指数ID。在HCI领域，费茨法则本身以及以它为理论工具的人机工效评估得到了持久而深入的研究。相对鼠标而言，体感设备的使用一定程度上拓展了交互的空间与自由度。除摆脱了二维桌面狭小物理区间的限制，体感交互场景常常配备一个大尺寸屏幕作为视觉反馈输出的载体。忽略体感设备对手部跟踪的性能局限(如采样频率、稳定性和精确性等)，若用它取代传统鼠标执行基本的交互控制任务，其中的手眼协调与控制反馈过程将有别于用户操控鼠标时的情形。此时，费茨法则的有效性成为一个新的研究问题。换言之，有必要对基于体感设备的基础交互任务中的人机工效进行深入的研究。

本文设计了一个在65寸大屏幕场景下基于Kinect的简单的光标运动控制策略。我们通过点击任务(Pointing Task)实验，检验了费茨法则的有效性；同时，由于运动方向因素对人机工效有不可忽视的影响[4],本文也在实验设计中充分考虑了这一因素，并进行了深入分析。

2 相关研究

将体感设备作为一种新型的人机交互输入工具，需要对其进行必要的评估研究，以为交互设计提供参考。本节从这一角度出发简要回顾相关的研究工作。

Libardi等人开发了一个基于Kinect的可视化应用系统，并按照可用性测试的标准，测试分析了Kinect在旋转、缩放和平移等不同操作任务中的绩效和用户评价[5]。他们的结果表明，Kinect在操作时间与次数等定量指标，以及体能消耗和舒适度等定性指标方面不及传统鼠标的使用效率；但是在便利性(Convenience)与恰当性(Adequacy)分方面，Kinect有更高的用户满意度。因此，在特定的自然交互场景中，用户更愿意用Kinect替代鼠标，尽管在桌面交互环境下Kinect还不能胜过鼠标。

Pino等人通过两个点击任务实验，研究对比了Kinect与鼠标在2D和3D条件下的工效和控制光标的运动轨迹特征[6]。对于2D点击任务，他们采用了标准的多向点击布局设计[7]。对于3D点击任务，他们用一个虚拟立方体的顶点来控制点击目标的布局。每次测试时，需将光标从立方体的一个定点移动到其对角线顶点的目标上为止。对于Kinect设备，点击任务的完成均通过其语音信号来触发控制。他们的实验结果表明，在2D条件下，Kinect作为点击设备的“生产力”(Throughput[7])比鼠标的低39%，但在3D条件下要高出9.7%。须指出的是，当用鼠标来执行3D点击任务时，他们通过滚轮控制光标在z轴方向的运动，这显然不如Kinect自然直观。从他们的回归分析结果看，虽然数据拟合度(R2)均较低，但尚不足以得出Kinect作为点击设备是否满足费茨法则的结论。一是他们在实验中仅设置了5个ID水平，二是拟合分析时并非采用所有被试者在每个ID水平下MT的总体均值。

Fürntratt与Neuschmied也设计了类似的2D点击任务对Kinect进行了评估研究[8]。但他们的实验与Pino等人的2D点击任务实验相比，主要有三处不同。一是单击命令的触发方式不同，前者的体感设备同时跟踪被试者的两只手，其中一只手负责定位所需目标(移动光标)，而另一只负责选择确认(触发单击命令)。二是实验界面的视觉空间尺度不同，前者通过投影仪将交互界面投射到幕布上，其视觉空间远大于后者的19寸TFT显示器。三是驱动光标的机制不同，前者通过手臂上两个关节点的3D空间坐标所确定的直线在2D投影平面上的交点来驱动定位光标，后者仅根据手腕关节点的相对位移来驱动光标。Fürntratt和Neuschmied设置了两种躯体关节点组合模式来控制光标，一个是肘腕组合，另一个是肩腕组合。他们的实验结果表明，肩腕组合条件下的工效明显更好。考虑到体感设备的精度和误差，我们认为用两个相对较近关节点的坐标，如肘和腕，去计算相对较远的第三点坐标，误差将会累积和放大。在肩腕模式下，肩膀位置相对较为固定，可在一定程度上降低光标位置误差的累积和放大，从而得到相对较好的工效。

Poláĉek等人针对大屏幕体感交互场景，设计了在静态和动态界面布局下，通过Kinect跟踪单手或双手完成目标点击任务的方法，并与使用任天堂遥控手柄和传统鼠标的方式进行了对比[9]。这里的动态界面指屏幕上的交互元素可随用户身体动态移动，保持与身体的相对位置不变。在他们的实验中，Kinect通过识别按压动作来触发单击事件，完成一次点击测试。他们的结果同样表明Kinect在工效方面没有比其它设备表现得更好，新颖的动态界面也没取得预期的优势，但他们明确指出基于Kinect的四种点击任务中的人机工效均明显服从费茨法则。Yuan等人在立体电视的3D视觉场景中用多向点击任务评估了Kinect的工效，并与虚拟激光点击和鼠标点击进行了对比[10]。所谓虚拟激光，是指整合利用Kinect检测到的右手三维坐标和任天堂MotionPlus手柄检测到的姿态方位信息，使得该手柄可以像激光笔一样能在屏幕上投射出一个虚拟光点(光标)。他们的实验结果表明，使用Kinect也较好地服从费茨法则(R2接近0.9)。需指出的是，除了鼠标外，其余两种方式没有类似单击这样的确认机制，而是通过自动确认完成每次测试，以消除个体差异。Sambrooks和Wilkinson将基于Kinect的手势操作与触控和鼠标两种方式进行了对比[11]，其中Kinect条件下的任务也是采取了自动确认完成的策略。Lim和Jung还进一步考虑了方向因素[12]，实验结果表明在(接近)水平的方向上Kinect有着相对较好的人机工效。

上述研究将体感交互中的不同点击方式，或将体感设备与鼠标触控及其它体感设备进行了评估对比。可以看出，一致的结果是Kinect在2D点击任务中的工效并无优势；但其是否服从费茨法则却模棱两可。仅文献[9-10]给出了明确服从的结论，其中文献[9]采用了原始的ID定义进行数据拟合。Lim和Jung虽然考虑了方向因素，但并未系统分析其对Kinect点击工效的影响，也未揭示在不同方向上费茨法则是否有效。这些遗留的不确定性为本文的进一步深入研究提供了空间。

3 研究问题的提出

在传统的人机交互领域中，费茨法则(Fitts' law)是一个简明且有效的分析GUI中居主导地位的点击任务人机工效的数学模型，是分析评估人机工效的理论工具，其有效性和价值得到了广泛验证和体现[7]。对类似Kinect这样的体感交互设备，交互无需遥控手柄这类辅助设备，在交互空间中有更大的自由度，使得通过自然手势来表达交互需求成为可能，也给用户带来更新颖自然的体验。

但基于体感设备的目标选择(点击任务)是否仍然满足费茨法则还需更深入的研究。本文的一个首要任务是研究验证费茨法则在体感交互场景中的有效性，进而探讨其改进的必要性和可能性。同时，考虑到在体感交互过程中，肢体运动轨迹的方向性比在桌面环境中操控鼠标时表现得更加明确，因此本文关注的另一个重要问题是在体感交互场景下，运动方向对交互的影响，即在不同运动方向上点击任务的工效差异是否显著，以及费茨法则在不同方向上是否仍然有效。为此，我们设计了一个体感交互实验来揭示这些问题。

4 研究方法

4.1 实验设备

本文的体感交互实验程序运行在一台戴尔计算机上(8核CPU，主频3.4 MHz，8G内存)，操作系统为Windows 7专业版。主机连接有两台显示器，一台为22寸戴尔触控屏，另一台为65寸的长虹4K智能电视，分辨率都设置为1 920×1 080 像素，但后者才是实验界面的显示屏。另外，实验还配备一个笔式鼠标，其笔头相当于普通鼠标的左键，供被试者握住它时用拇指按压来触发单击事件。实验设备配置及环境见图1所示。实验程序用微软 Visual C++语言开发，它通过OpenNi 和NiTE(ver 2.2)提供的API接口访问获取Kinect的跟踪数据。

4.2 实验任务及过程

实验是一个简单直观的点击任务。即通过手在空中的移动来控制光标，指向所需的目标，并单击选中它，完成一次测试。在每次任务时，测试启动按钮将随机出现在屏幕上某个预先定义的位置上。该按钮显示为一个直径24 pixels的圆，但其实际有效区域的直径是132 pixels(由虚线标出)。被试者被跟踪(控制光标)的手像握打火机一样握住笔形鼠标。每次测试首先需要将光标移动到启动按钮的有效区域(并尽快能靠近区域中心的小圆)，按压笔式鼠标的笔头，测试开始按钮消失，但同时所需正方形目标出现在基于屏幕中心的对称位置上。被试者需要将光标又快又准的移到目标上，并按下笔头完成一次测试。如果光标还在目标外就触发了单击事件，则记录一次错误，测试将重新开始。正确和错误的测试，有不同的声音反馈。

Kinect对手的跟踪是通过推拉动作激活启动的，有时这种类似推拉门的动作可能未被正确识别，则需反复执行。在实验过程中，Kinect有可能失去对手的跟踪，则可再次通过推拉动作启动跟踪。实验程序界面的左上角设置了一个“指示灯”来反馈Kinect的跟踪状态。实验程序也设计了一个光标复位机制。当手不能在一个舒服而恰当的位置控制光标时，可把它放回其最佳活动空间的中心，并同时发送一个光标复位命令将其重置到屏幕的中心。这类似于使用鼠标时，有时需要抬起鼠标重新放在桌面上一个恰当的位置。

本实验中，被试者站在距屏幕1.8 m处的正前方，体感设备Kinect固定在屏幕上沿的中心位置。对每个被试者，实验开始前，需测量被跟踪的手的可达范围：前后最远距离、左右最大宽度和上下最大高度。它们可用于计算光标偏移量的比例系数：

·x轴系数ws = 屏宽 /(s ×手的最大运动宽度)，

·y轴系数hs = 屏高 /(s ×手的最大运动高度)。

其中系数s的作用类似在使用鼠标时可调整其光标速度。经过测试s = 0.8时可获得较为流畅的光标移动效果。本文采取的是用手的相对偏移量来更新光标位置的控制策略，其机制如下：

①获取当前光标的位置CP和手的位置HP1(前一时刻手的位置用HP0表示)；

②计算光标的偏移量Offset：

Offset.x=ws×(HP1.x - HP0.x)，

Offset.y=hs×(HP0.y - HP1.y)；

③更新光标位置 CP=CP+Offset；

④暂存手的位置 HP0=HP1。

HP0在每次开始跟踪时获得初始值。根据体感设备的数据采样处理能力，上述控制过程以每秒约30次的频率被执行，从而驱动光标平滑的移动。但是由于Kinect感知能力的局限，所跟踪目标(手)的速度不能过快，否则将丢失跟踪目标。

4.3 实验被试

通过网络招募的方式，共有18名被试者成功完成了本实验，其中女性10名，男性8名，平均年龄22.4岁。所有被试者有正常或校正到正常的视力，此前都没有参加此类测试的经历。完成测试后每人获得了20元人民币的劳务费报酬。

4.4 实验设计

本实验是一个可重复多因素组内全交叉设计组成的混合多因素实验。相应的因素及水平如下:

·目标边长(W)：60，80，100，120 pixel。

·移动距离(A)：400，600，900 pixel。

·运动方向(θ)：0°，45°，90°，135°，180°，225°，270°，315°。θ的定义见图1。

将上述因素以全交叉方式，将产生96个组合(4W×3A×8θ)。对于这些组合，每个安排1次测试，组成一个测试组(Block)。实验时，不同组合以随机的方式呈现给被试者。每个被试者有8个测试组，持续时间约1 h。本实验一共设计了13 824次测试(96 Trials×8 Blocks×18 Subjects)。

5 结果

包含错误测试在内，本实验共收集了14 882次测试的数据，其中共有1 314条错误和异常值记录，共约8.8%。所谓异常值指那些比其同等条件下所有观测值的平均数大或小超出3σ的值)。下面的分析中排除了这部分数据。我们主要选择任务完成时间(MT)来对Kinect点击任务进行评估。它表示从每次测试的开始时刻(即光标移到起始按钮并进行一次有效点击时)到结束时刻(光标进入终止按钮并进行有效点击时)所耗费的时间。

方差分析表明，运动方向因素θ(F(7,119)=9.369，P<0.001)、移动距离A(F(2,34)=453.285，P<0.001)、目标边长W对MT(F(3,51)=227.006，P<0.001)都具有非常显著的影响。θ和A(F(14,238)=5.847，P<0.001)，θ和W(F(21,357)=2.323，P<0.005)，以及A和W(F(6,102)=2.354，P<0.05)两两之间对MT的交互效应也很显著。如图2所示，MT的平均值随着A的增大而增大,W的增大而减少。

如图3所示，MT可按水平方向划分为3个层次水平：在个水平方向上处在相对最低的水平；在朝上的方向上处于最大的水平；在朝下的方向上整体大于水平条件下的MT，但小于朝上方向上的MT。两两对比结果表明，垂直方向90°和270°上的MT除分别与两个水平方向上的有显著差异外(P<0.005)，两者自身间仅具统计意义上的差异(P=0.040)；水平方向0°和180°两者间之间的MT不具有显著差异；四个对角线方向均只与两个水平方向的MT有显著差异，相互间无显著差异。

根据公式1的难度指数ID定义，对MT随ID的总体变化趋势以及在在不同方向上的趋势进行了Fitts模型拟合，结果见表1。

表1 不同条件下对MT的Fitts模型拟合结果

根据表1的结果，费茨法则的有效性超出了预期，好于作者目前所知文献中的结果。如图5所示，费茨模型能准确地拟合MT的总体变化趋势，R2超过了0.97。对于在各个不同方向上的MT也能很好的拟合。其中在0°和90°两个方向上的拟合度R2虽有所下降，但仍在0.86以上。进一步对比分析发现，在MT均值没有显著差异的两个方向上，其对应的回归系数可能明显不同，比如图6所示的一对往复的运动方向。这暗示用户在这两个方向上完成交互任务的性能指标(IP，Index of Performance)并不一致。根据图中回归直线的趋势，当ID较高时，在225°方向上将获得明显的速度优势。

6 讨论

本文实验结果表明3D空间中的运动方向对体感交互点击任务的工效有显著影响。在数据汇总中无论是否消除方向因素的影响，费茨法则都能足够准确的表达体感点击任务的工效。换句话说，本文的实验“从不同角度”全面检验证实了费茨法则在体感交互场景中的有效性，也保证了结果的可靠性。这种可靠性还体现在本文的实验设置了比其它参考文献的实验[6,8-10]多1倍以上的ID水平。

本文实验结果未打破费茨法则，意味着实验中所采用的光标驱动方法有效保持了手眼间的协调性，保持了瞄准运动中的反馈与控制过程的运动特征。实验中采用笔式鼠标来触发单击事件以确认目标选择，是为了消除海森堡效应[13]的影响。实验最初是采用推按动作来模拟单击操作，测试时发现在推按过程中(x,y)坐标会变化，导致光标漂移出目标的有效区域。这种海森堡效应的发生程度可能会因被试者手臂长度的差异而有所不同。此外，在实验开始前对每个被试者手部的运动空间范围都进行了校准，使得控制光标运动的参数处于恰当的设置且是因人而异的，使得每个被试者都能在自己最舒适的运动范围内控制光标。

7 结束语

本文实验较为全面的验证了费茨法则在体感交互场景中的有效性，实验结果对界面设计实践具有一定的指导意义：在水平方向选择点击目标可达到最佳的工效水平。本文结果对增强现实环境下的人机工效研究也具有一定的参考意义。下一步，我们将设置更多的方向水平，并考虑目标宽高尺寸比的变化，以更系统的探索界面布局、目标宽度和高度对体感交互的影响。