APP下载

可用性测试技术在软件界面设计中的应用研究:基于智能教育出版平台管理系统的开发案例

2014-10-31刘名卓吴永和

关键词:被试眼动可用性

刘名卓, 赵 娜, 吴永和,2

(1.华东师范大学开放教育学院,上海 200062;2.华东师范大学上海数字化教育装备工程技术研究中心,上海 200062)

0 引 言

20世纪80年代中期出现了“对用户友好”的口号,后被转换成人机界面的“可用性(Usability)”概念.在传统的软件开发过程中,相对软件的实用性(功能层面)来说,“可用性”常常被软件开发人员忽视.近几年,随着“以人为本”思想的兴起,用户对“人机界面的友好性”要求越来越高,可用性已成为衡量软件质量的一个重要指标.同样,对于教育软件来说,除了其“教学性”、“技术性”之外,“可用性”也是影响软件质量的一个重要指标,所以在教育软件的研发过程中,“可用性”是非常值得研究和重视的一个属性.文章以“智能教育出版平台管理系统”的研发为例,探讨了各种可用性测试技术在软件研发过程中的应用策略、方法和需要注意的问题,以及对电子课本、电子书包等教育软件产品和教育资源研发形成的启示.

1 软件的可用性概念

可用性(Usability)是交互式IT产品/系统的重要质量指标,指的是产品对用户来说易学、易用、高效、少错和令人满意的程度,即用户能否用产品完成他们的任务、效率如何、主观感受怎样,实际上是从用户角度看到的产品质量,是产品的核心竞争力[1].国外的一些著名软件公司,如IBM、Microsoft等公司早在20世纪80年代初就已经意识到软件可用性的重要性,并开始这方面的研究和实践[2-3].如大家所熟知的微软公司的Windows操作系统和其他软件产品在推向市场之前就经过了大量的可用性测试.

在大多数场合,当大家谈论可用性的时候,通常采用ISO9241-11国际标准对可用性所做的定义①ISO/IEC.9241-11 Ergonomic Requirements for Office Work with Visual Display Terminals(VDT)s-Part 11 Guidance on Usability.1998:ISO/IEC9241-11:1998(E).:产品在特定使用环境下为特定用户用于特定用途时所具有的有效性、效率和用户主观满意度.可用性专家Jakob Nielsen在其代表作《可用性工程》[4]一书中明确界定了可用性在产品质量中的位置,如图1所示.

从图1可以看出,与系统/产品的可接受性相比,可用性是一个较窄的概念.软件系统的可接受性,是由社会可接受性和实际可接受性组合而成的.如果某个系统具有社会可接受性,我们可进一步分析它在各个方面的实际可接受性,这包括一些传统的方面,如成本、可靠性、与已有系统的兼容性等.有用性是指系统能否用来达到某个想要的目标,它可以被进一步分解为实用性和可用性[5].这里,实用性指的是系统的功能在原理上是否能够做所需要的事情,而可用性则指的是用户能否很好地使用系统的功能.

可用性的质量通常采用在产品的设计开发过程中,贯穿使用各类可用性测试技术的方法来保障,将用户而不是系统摆在过程中心,“以用户为中心”进行设计[6].测试可以发生在产品设计与开发生命周期的任何阶段,它可能尚未成型,也可能是早期的纸上原型或者是后期成品.采用可用性测试的优点在于可以在特定任务条件下,获得特定用户的客观反馈结果,以预测最终产品可能出现的问题,进行修正以规避风险[7].可用性测试的方法有很多,常用的有卡片分类(Card Sorting)、焦点小组(Focus Group)、出声思维(Think Aloud)、任务分析(Task Analysis)、眼动跟踪(Eye Tracing)、问卷调查(Questionnaire Survey)和访谈(Interview)等[8].在同一可用性测试实验中可以采用其中的多种方法.下面以“智能教育出版平台管理系统”的研发为例,探讨可用性测试技术在软件研发过程中的应用策略、方法.

图1 产品可接受性与可用性的树状关系图Fig.1 The tree diagram of product acceptability and usability

2 可用性测试技术在软件研发过程中的应用案例

2.1 测试背景

“智能教育出版平台管理系统”是上海市科委重大任务科研专项课题“跨平台智能数字化教育服务平台”的子系统之一,主要供资源供应商使用,实现了学习资源管理、二维码管理、图书管理等主要功能[9].该系统在整个课题研究中扮演着举足轻重的地位,其水平高低将直接影响其它子系统的研发.我们认识到,“智能教育出版平台管理系统”的可用性水平并不是一蹴而就的,它需要在设计开发过程中,贯穿使用可用性测试技术.本实验针对系统不同的研究阶段,共进行了三次测试,每一次测试就系统研究来说是一个小循环,如图2所示.

从图2看出,该研究包括三个阶段(三个子循环),每个阶段皆有其短期的研究目标和任务.阶段1主要基于可用性工程专家Jakob Nielsen提出的十条可用性启发式评估准则[10,11]以及研究者的以往经验,对系统原型进行评估,把通常软件系统开发时会犯的一些错误与不足找出来,提出改进建议.阶段2在阶段1研究成果的基础上,对修改后的平台系统进行可用性测试,找出不足,对平台系统进行进一步完善修改.阶段3主要完善阶段2的研究成果,并且对系统进一步修订,并在华东师范大学出版社中进行推广应用.

2.2 测试目标

该实验的首要目的在于测试“智能教育出版平台管理系统”研究的阶段制成品是否易学、易用、高效、低错误率和用户是否满意;其次,把该案例作为软件系统可用性测试的典型案例,为提炼出影响软件系统可用性设计的要素提供一手参考资料,因为我们相信高可用性的软件系统之间必然有一些共性的可用性质量要素.

2.3 测试工具

本次测试在华东师范大学开放教育学院可用性测评实验室进行,主要用到以下软件和工具:① Morae Recorder,该软件用于记录被试完成任务的过程,包括他们的系统浏览、声音注释和表情.② Morae Observer,用于测试过程中施测人员对被试的屏幕监测.③ Morae Manager,用于测试数据的分析.④ 眼动测试,测试工具采用瑞典Tobbi公司生产的T120型眼动仪,该眼动仪内嵌安装在显示屏内,与显示屏合为一体,在测试时,将眼动仪与某台计算机相连(该台计算机上安装有眼动仪的跟踪与分析软件Tobii Studio),让被试如平常一样自然地操作计算机即可收集数据.

图2 “智能教育出版平台管理”系统测试的迭代循环研究示意图Fig.2 Schematic iterative loop of usability testing about the Intelligent Educational Publishing Platform Management System

2.4 测试方法

在该实验中,主要采用了以下三种可用性测试方法.

(1)出声思维法.出声思维法的前身是口语报告法.Ericsson[11]和Simon在认知心理学中提出了口语报告法,旨在研究人在问题解决中的认知过程,但其所基于的基本假设和形式为口语报告法在其它相关领域中的应用提供了基础和可能.出声思维法已成为最常用的可用性测试方法[12],甚至被认为是“唯一的最有价值的可用性工程方法”.该方法的基本特点是要求被试在完成任务的同时以口头言语的形式报告出任务操作情况,可用性测试专家通过对被试报告内容的分析,可以获知被测系统中存在的问题、哪些部分常为被试所忽视或误解以及被试对使用系统的看法等.

(2)视线追踪法.又称眼动跟踪法,它是以用户的视线运动为测量依据[13],所以它主要适合于视觉用户界面的评估.早期的视线追踪技术首先应用于心理学研究(如阅读研究),近几年,随着眼动理论研究的进步和精密视线追踪装置的问世,视线追踪技术也逐步应用到可用性测试领域,为广大研究者进行网页可用性研究提供了一个新的途径.眼动不是平滑的和连续的,而是由注视和眼跳两种成分的交替序列构成的.在正常的视觉观察过程中,眼动表现为在被观察目标上一系列的停留及在这停留点之间的飞速跳动,这些停留一般至少持续100ms以上,称为注视,一般认为这种停顿主要用于从界面上获取信息进行内部加工.注视点间的飞速跳跃称为眼跳.眼动行为可以揭示用户注意和兴趣在显示器上的空间位置,Loftus和Mackworth(1978)[14]发现用户的眼睛多注视在出乎意料的、突出的和重要的区域上,集中注意以获取最大量的信息.这种方法对传统测试方法是一个有益的补充[15].

(3)测后访谈.除此之外,本研究还结合使用了测后访谈.在访谈过程中,被试说出自己执行每个任务时的实际感受并提出自己的想法.

总起来说,这些方法需要综合运用,才能对系统进行全面和科学的评测.

2.5 被试情况

参与测试的被试总共有11位,男女比例为5∶6,年龄一般在25~45岁之间,其中参与眼动测试的有4位,其余7位参与了出声思维方法的测试,这些被试大多是本系统的准用户,即该系统是专为这些用户开发的,但在测试之前,他(她)们从没有使用过该系统或者参与过该系统的开发.

2.6 测试过程

本实验中,不管采用哪种测试技术,测试过程都是一致的,只是给定的测试任务不一样.具体操作步骤如下.

第一步,测前说明.测前主试针对“智能教育出版平台管理系统”的功能及背景给予简要说明,包括测试目的、软件设备操作及相关注意事项等.

第二步,任务测试.给被试一份任务表,要求被试按照要求完成这些任务,收集过程数据信息.

第三步,测后访谈.测后由主试对被试进行简单访谈,主试根据出声思维及任务完成度的情况进行更详细的了解,在访谈的过程中,被试者说出自己执行每个任务时的实际感受并提出自己的想法.

3 数据收集与分析

在该研究中,数据主要有两大来源,一是来源于Morae Recorder,主要包括7位被试的任务完成过程、完成时间和口语报告信息(出声思维法);二是来源于视线追踪软件采集到的被试数据,下面分述之,并且加以分析.

3.1 出声思维法的数据收集与分析

出声思维法共设计了9大任务,如表1所示.在此测试中,研究人员主要收集了7名被试的任务完成时间(如图3所示)、任务完成率(如表2所示)和口语报告信息三类数据.在表2中,每个任务的完成情况皆被打了分数,分别用0、1和2表示.得分“0”表示很容易就完成了任务;得分“1”表示经过一些困难之后才完成了任务;得分“2”表示任务未完成.

下面综合分析图3、表2以及口语报告中收集到的数据.从图3可以看出,任务3(新建图书)、任务4(验证图书)和任务5(新建资源)花费的时间都比较多;再看表2中的相关数据,发现任务3和任务5皆有一个被试没有完成该任务,从中可推测出这三个任务的完成存在一定难度.根据主试人员在测试过程中对被试的观察以及分析各被试对该三项任务的口语报告,发现任务3(新建图书)选择模板的三角“*”下拉按钮不明显,被试大部分时间浪费在查找模板列表上;另外,某些术语的称谓不能见名知义,没有使用出版行业的专用术语,如“主题名称”(实则“图书名称”),也使得初次接触该系统的被试徘徊掉了一部分时间.任务4的时间主要花费在搜索上,由于列表中的图书很多,但是平台中未提供搜索功能,使得被试不得不逐条筛选;任务5遇到的问题基本同任务3.所以这三个任务,被试都经过了多次试误才得以成功.

表1 “智能教育出版平台管理系统”出声思维可用性测试任务表Tab.1 Usability testing tasks of the IEPPMS

图3 任务完成的平均花费时间Fig.3 Average completion time of tasks

表2 任务完成情况示意表Tab.2 Task completion

主试人员在观察的过程中也发现,年轻且上网经验丰富的被试任务完成较快,而年龄大且上网经验少的被试任务完成较慢.统计发现,被试完成所有任务的最短时间是14 min,而最长时间则有43 min.

另外,从表1可知,有将近一半的被试(3人)没有完成任务9.经过访谈和观察发现,被试很快导出了二维码列表,但保存后系统却没给出存储成功与否的反馈,导致被试认为操作不成功,而没有进行下面的动作.只有3名被试尝试到桌面上找到了生成的二维码图片.

3.2 视线追踪法的数据收集与分析

通过以上分析,我们发现很多被试点击“新建图书”之后不知下一步选取模板如何操作.即这个界面的排版布局不够清晰明了,被试在执行任务过程中表现出很多困惑.因此研究人员针对这个界面进行了眼动测试,以了解各被试在此任务执行过程中的视线轨迹是怎样的,由此提出改进建议.

参与眼动测试的被试有4名,这些被试与出声思维法的被试不重合.测试任务为:首先找到“新建图书”按钮进行点击,然后选取一个模板,创建图书.并且测试时对测试界面划定了三个兴趣区(AOI),如图4所示,兴趣区1为“新建图书”按钮所在的区域,兴趣区2为左侧“模板名”、“书名”等所在区域,兴趣区3为模板的下拉三角按钮所在区域.

图4 兴趣区划分Fig.4 Interested zoning

被试寻找“新建图书”按钮的轨迹图如图5所示,不同的颜色代表不同的被试,因有4个被试,所以共有4种颜色,其中每个圆圈中的数字代表视线注视的顺序,如“1”表示被试第一眼注视的是这个位置.从图5看出,4个被试的首次注视点都是在页面的中下部,而非“新建图书”按钮附近,且其中3个被试接续的注视点均到了左边的“模板名”、“书名”区域,最后才找到了右边的“新建图书”按钮.总起来说,被试主要在兴趣区1和兴趣区2形成了两个热点区,热区中颜色越深表示注视点越多,注视时间越长;而理想的情况应是只在兴趣区1形成热区,如图6所示.

图5 注视轨迹示意图Fig.5 Gaze trajectories

对进入各兴趣区的时间、注视点个数等分析后发现,首次进入兴趣区1的用时是5.18 s,而首次进入兴趣区2的时间是1.47 s,兴趣区2注视点的个数(12.75个)也是兴趣区1(6.33个)的两倍.这表明兴趣区2的红色文字吸引了被试的注意力,兴趣区3选择模板的下拉三角按钮一开始并没有被注意.访谈后发现,被试误认为点击了“新建图书”按钮之后,接下来就是在红色文字区域进行下一步操作,而不知道要点击兴趣区3的下拉三角按钮来选择模板,所以该界面需要重新设计才更符合用户的习惯.

图6 注视热点示意图Fig.6 Gaze hot spot

总之,通过眼动数据及图示分析发现,该界面由于不恰当的界面布局和颜色使用,大大降低了该页面的可用性水平和用户的使用满意度;同时眼动数据对以上出声思维法得到的测试结果也进行了很好的补充说明.

4 实验发现

根据以上的可用性测试结果、访谈和施测人员的观察,本系统的可用性情况如下.

·满意度.根据测后的访谈,被试对该系统的现实意义给出了充分肯定,但反映其界面布局、导航、搜索等方面还有不尽人意的地方,有待改进,被试总体的学习体验不是很好,满意度一般.

·错误率.由于测试发生在实验室阶段,有些功能还不是很完善,所以还是存在一定的错误率,如任务7测试中碰到的系统无反馈问题,引发了被试抱怨,明显地影响了被试的学习兴趣.

·易学.该系统某些功能的易学性还有待改进.如“新建图书”和“新建资源”中的选择模板功能隐蔽不清楚;术语名词难以理解等.

·有效性.有效性一般是根据任务完成率、求助频度等指标来衡量的.本测试中各任务的有效性指标如表3所示.

表3 各任务的有效性指标情况Tab.3 Indicators of effectiveness of each task

由表3中的统计数字可以看出,“智能教育出版平台管理系统”的有效性还有待提高,测试过程中被试的求助次数过多,说明有些功能设计不合理或者指代、表述不清楚.

·效率.根据ISO9241-11可用性的定义,效率指的是产品的有效性(完成任务的正确完整程度)与完成任务所耗费资源的比率.这里的资源通常指时间,这时的效率为单位时间的工作量,效率刻画了用户使用产品时单位时间内的成功率.根据前面的口语报告及被试花费在各个任务上的时间,可以看出,该系统有些任务的完成效率还是比较低的.例如,任务3和任务5的时间都比较高.

5 结 语

本文综合运用了出声思维法、视线追踪技术和测后访谈三种可用性测试方法,对“智能教育出版平台管理系统”的功能易用性进行了评估,找出了其不足与错误之处,并从用户满意度、错误率、易学、有效性、效率等方面进行了分析,提出了改进建议.通过该研究可以看出,可用性测试作为一种科学的实验方法,较之传统的质性评价对问题的诊断更加客观与具体,对软件系统设计与开发生命周期中的各个关键阶段的制品评价具有较强的实践意义.

我们相信高可用性的软件系统之间必然有一些共性的可用性质量要素.下一步,将在该类案例的可用性测试基础上,提炼出影响教育软件可用性的一般要素以及测试规律,进一步开展对电子课本、电子书包、网络课程资源等的可用性测试工作,探索提高各类教育服务软件可用性水平的新途径、新策略和新方法,把一些软件开发过程中易出现的可用性问题,如栏目名称不统一、专业术语使用不规范、软件架构不良、文本语言非人性化等问题消灭在萌芽之中.

[1] ZINS A H,BALLERNFEIND U,MISSIER F D,et al.An Experimental Usability Test for Different Destination Recommender Systems[EB/OL].[2013-09-29].http://fama2.us.es:8080/turismo/turismonet1

[2] 郑杨硕.软件界面设计的可用性测试探析[J].科技促进发展,2007(10).

[3] LEWIS J R.IBM Computer Usability Satisfaction Questionnaires:Psychometric Evaluation and Instructions for Use[J].International Journal of Human Computer Interaction,1995,7(1):57-78.

[4] NIELSEN J.可用性工程[M].刘正婕等译.北京:机械工业出版社,2004:16.

[5] GRUDIN J.Utility and Usability:Research Issues and Development Contexts[J].Interacting with Computers,1992,4(2):209-217.

[6] 董建明,傅利民,饶培伦.人机交互:以用户为中心的设计与评估[M].北京:清华大学出版社,2007.

[7] 刘名卓.网络课程的可用性研究[D].上海:华东师范大学,2010.

[8] 吴永和,何超,冯翔,等.跨平台智能数字化教育服务平台的研制与应用[J].华东师范大学学报:自然科学版,2013(6).

[9] NIELSEN J..Usability Engineering[M].Boston:Academic Press.1993.

[10] 刘名卓.网络课程可用性现状的调查与分析[J].中国远程教育,2010,12:49.

[11] Ericsson KA,SimonHA(1993).Protocol Analysis:Verbal Reports as Data[M].Cambridge,MA:MITPress.

[12] BOREN M T,RAMEY J.Thinking Aloud:Reconciling Theory and Practice[J].IEEETransactions on Professional Communication,2000,43(3):261-278.

[13] 张光强,沈模卫,陶嵘.可用性测试中的视线追踪技术[J].人类工效学,2001,7(4):9-14.

[14] LOFTUS G R,MACKWORTH N H.Cognitive Determinants of Fixation Location during Picture Viewing[J].Journal of Experimental Psychology:Human Perception and Performance,1978,4(4):565-572.

[15] 李宏汀,王琦君,葛列众.网页可用性的视线追踪技术评价研究综述[J].人类工效学,2007,13(2):57.

猜你喜欢

被试眼动可用性
多级计分测验中基于残差统计量的被试拟合研究*
基于眼动的驾驶员危险认知
基于ssVEP与眼动追踪的混合型并行脑机接口研究
基于辐射传输模型的GOCI晨昏时段数据的可用性分析
大学生宿舍人际交往研究
河南省学前教育专业人才培养质量的调查研究
可用性差距阻碍数字化转型
国外翻译过程实证研究中的眼动跟踪方法述评
空客A320模拟机FD1+2可用性的讨论
硕士研究生学习适应性及其影响因素分析——基于江苏6 所高校教育学研究生的实证研究