移动学习工具评价指标体系研究

2018-11-10杜华杨晓宏

中国远程教育 2018年8期

杜华杨晓宏

【摘要】移动学习工具，尤其是移动学习APP的设计、开发和应用受到越来越多的关注。然而，针对移动学习工具的评价却需要进一步研究。近年来，场馆APP作为移动学习工具的重要组成部分引起关注，针对这些场馆APP开展评价研究，旨在为改善和优化场馆APP提供数据和建议，有助于提高学习者的满意度，从而更好地发挥场馆的社会教育职能。本研究使用专家征询法，构建了包括技术、界面、内容、功能和用户体验5个一级指标、基础性能等16个二级指标、稳定性等46个三级指标的场馆APP评价指标体系，并以团队开发的某科技馆APP为个案，对评价指标体系进行了应用研究。研究表明，该指标体系是可行的，对场馆APP的设计、开发和评价等具有重要的理论和现实意义，对于移动学习工具评价指标体系的研究进行了有益尝试。

【关键词】场馆；移动终端；APP；教育功能；评价；指标体系；层级；专家征询法

【中图分类号】 G420 【文献标识码】 A 【文章编号】 1009-458x（2018）8-0063-07

随着智能手机和移动通信技术的飞速发展，移动学习工具，特别是移动学习APP的设计、开发和应用受到越来越多的关注，但总体来看，在移动学习APP的评价方面尚需要进一步加强研究。近年来，场馆APP作为一种以移动终端为载体向社会公众提供场馆及展品公益性服务的方式，为学习者提供了精准的个性化场馆移动学习资源，其设计、开发和应用也受到越来越多的青睐。对这些场馆APP开展评价研究，能够为场馆APP的改善和优化提供数据和建议，有助于提高学习者的满意度和场馆社会教育职能的发挥，对移动学习工具评价指标体系的研究也起到一定的启发作用。

场馆（Museum）一般是指各种与科学和历史、艺术教育相关的公共机构，既包括科技馆和博物馆等封闭场所，也包括动物园和植物园等露天场所。自缪斯神庙（Mouseion）始，场馆就承担着重要的教育功能。2007年，国际博物馆协会（ICOM）将场馆界定为“为社会及其发展服务的非营利永久机构，并向大众开放。为教育、研究、欣赏之目的征集、保护、研究、传播并展示人类及其环境的物质与非物质文化遗产”（转引自郑奕， 2015， p. 1），将场馆的教育功能提升至所有功能之首。各类场馆“以实物为基础，通过对展品进行科学研究，举办各种陈列展览，让学习者在站立和行走的交替运动中，依赖视觉、并辅以听觉、触觉等其他感官共同作用，通过观察、阅读、听讲或者触摸及操作等活动，以接受、加工和记忆信息的认识过程”（余玉龙， 1998），在教育体系中发挥着越来越重要的作用。

一、场馆APP及其教育属性

随着人类社会的发展和科技的进步，新兴技术不断涌现，信息化浪潮席卷全球，人们将信息技术应用于场馆，推进信息化场馆、数字化场馆、移动场馆、智慧场馆建设的进程，探索的脚步从未停止过。John H. Falk和Lynn D. Dierking（2000）认为，信息技术有助于挖掘场馆作为学习资源和场所的潜力。一项场馆对参观者的吸引力调查研究表明，信息技术对参观者的吸引力位列第四（38.1%），仅次于展品（76.1%）、信息（48.7%）和导览（46%）。APP（Application的缩写）指在移动智能终端上使用的应用程序，场馆APP是以移动终端为载体向社会公众提供场馆及展品公益性服务的产品，是伴随着移动技术的快速发展与移动终端的广泛普及而出现的重要产品形态，其相关理论研究和实践应用也受到越来越多的关注。Michael Kenteris、Damianos Gavalas和Daphne Economou等（2011）将移动参观导览分为两大类：重在可用性设计的场馆APP和着眼于技术创新形式的APP。

从国际上看，场馆APP的开发大概始于2009年，美国布鲁克林艺术博物馆较早开发了一款图文形式介绍藏品信息的APP。2012年以后，更加注重用戶在各种环境中不同的需求体验以及与用户之间的交流互动。随后，各大博物馆纷纷开发自己的APP，设计风格多样，展品信息丰富。比较有代表性的场馆APP有：大英博物馆的The British Museum、卢浮宫的Musée du Louvre、美国自然历史博物馆的Creatures of Light和Cosmic Discoveries等，以及纽约现代艺术博物馆的MoMA和MoMA Art Lab等。自2011年以来国内也开发了一些比较有代表性的场馆APP，如文博任我行APP、再现圆明园APP和苏州博物馆APP、河南博物院APP和每日故宫APP等。

设计良好的场馆APP，延伸了场馆的时间和空间，是用户了解场馆与展品内容的移动平台，可以满足人们对场馆及其展品内容的远程浏览和学习等需求，具有重要的教育属性。它可以为学习者提供展品的数字化表征、场馆内的空间导览、数字社会化分享以及游戏等多种功能。经过精心设计的内容、符合移动情境的展品信息以及多样化的服务，可以满足学习者的个性化需求，促进学习者的意义建构。

二、场馆APP评价的相关研究

场馆APP的资源越来越丰富。但调研发现，很多场馆APP的设计存在一些问题，如功能定位不清晰，可用性差，用户黏度低，同质化严重，技术开发参差不齐等，致使很多场馆APP无人问津，沦为摆设。究其原因是缺乏对场馆APP的有效设计和评价。从文献来看，关于场馆APP的评价研究逐渐受到学者的关注，并形成了一定的研究成果。

Zhang Dongsong和Boonlit Adipat等（2005）认为，移动情境、连通性、屏幕尺寸、显示分辨率、有限的处理能力、数据输入方法等都会影响移动APP的可用性。Areti Damala和 Hub Kockelkorn（2006）认为可以从技术、信息和管理三个方面对场馆APP进行评价。

Ngu P. Huy和Do van Thanh等（2012）总结了APP的四种范式，从开发者视角、用户视角和服务提供者3个维度，构建了包括18个指标的评价体系，并以物体辨识APP为例进行了应用研究。其中，开发者视角的指标体系包括易开发、易编码、易调试、易测试、易配置和升级、易分配、APP类型、应用程序界面与库、支付可能性等；用户视角的指标包括易用性、功能性、安装与升级；服务提供者指标包括内容管理、行政管理和分配等。

Elena Martin-Monje 等（2014）认为，对于语言学习类APP，可以从教学法维度（Pedagogical）和技术维度（Technical）进行评价。其中，教学法维度的指标包括认知价值和教学法一致性、内容质量、生成学习的能力、交互性和适应性、动机；技术层面的指标包括字体和布局、可用性、可访问性、可视化和兼容性等。

Min Wook Ok等（2015）认为应该从基本信息、内容区块、目标、内容层级、图形/主题层级、APP类型等维度识别APP信息，并设计了教学类APP的评价量规，具体指标包括目标、策略、示例、实践、纠错与反馈、错误分析、进度控制、动机、导航、视觉听觉刺激、字体、个性化设置、内容无误、无性别和种族之类的偏见等。

Adrian Stoica等（2005）从可用性评估的角度对历史/文化类的场馆APP进行评价。通过用户的可用性评价研究揭示了设计的一些局限性，可以利用这一评价体系对移动设备的可用性以及不足做出评价。Claudia Barberis等（2014）认为，人机交互过程越容易就越容易获得高质量的用户体验：愉悦感和效用会受到信息结构和交互流的影响，从工效角度看APP本身的可用性也会影响到用户的参观体验。Huang Weidong 等（2015）设计了一款名为SMART的场馆移动导览，并使用问卷调查和原型测试等方法对其进行评价。

国内也有一些相关的研究成果。秦银（2011）认为可以从内容设计、交互设计和视觉设计三个层面对应用程序进行评价；黄炜、李总苛和黄建桥（2016）等从应用平台、用户体验、可视化前台和网络后台4个维度提出移动应用程序的评价指标体系并进行实证，为APP的设计、应用和评价提供了重要的参考；谭翠萍和郑怀国等（2009）在数字博物馆可用性评价指标体系中以数字环境及门户提供的服务与功能两方面构成可用性评估的具体对象，评价指标分解为有效性、效率和满意度，对数字博物馆进行评价；陈锡晶（2014）在对网页可用性研究进行分析与借鉴的基础上，从理论层面构建了场馆移动应用程序的三层（定义层、交互层和表现层）用户体验要素模型以及可用性研究模型，并以辰山植物园科普导览APP为例，对场馆APP的可用性进行了系统研究。

虽然形成了一些研究成果，但由于场馆APP的评价存在一些难点，诸如数据收集更为复杂，对环境的控制也是有限的，难以应用观察、有声思维等评价技术，实证研究的实施较为困难等（Kjeldskov & Stage， 2004），难以对实践有切实的指导意义。笔者尝试使用德尔菲法构建场馆APP的评价指标体系，以期丰富场馆学习相关理论，同时为科学、有效地设计和开发场馆APP提供理论指导与实践建议。

三、场馆APP评价指标体系的构建

场馆APP评价研究旨在对场馆APP的价值进行科学、有效的评定，并以此发现场馆APP本身存在的不足，为其改善提供数据、改进方向和建议。构建指标体系是评价研究的核心部分。评价指标是研究者建立的反映评价目标的各要素之间关系及其重要程度的量化系统，以表明评价对象某一特征的概念及其数量，既明确了评价对象某一特征的概念，又反映了评价对象的数量，具有定性认识和定量认识的双重作用。本研究旨在基于已有研究成果，尝试构建场馆APP的评价指标体系，为场馆APP评价提供理论依据和实践参考。指标的构建过程分为两个大部分：指标的确立和权重的确立。本研究的评价指标是在文献调研的基础上，初拟指标体系、设计专家征询问卷，通过专家征询综合各方意见进行修改，并通过专家的打分结果确定评价指标，获得指标权重。

（一）初拟指标体系

研究表明，评价指标体系超过五个层级便难以掌握，所以通常采用二至四级的评价指标系统。其中，三个层级的指标，既能详细描述对象的功能、品质与属性，又不会过于烦琐或简单，应用最为广泛。

界面是用户体验的第一印象，这在场馆APP设计中是一个很重要的部分。用户的第一印象往往是评价好坏的先决条件，因此，页面是否符合整体风格统一、色彩协调、美观大方、便于操作、层次清晰、图文搭配得当、主次鲜明、交互性强、跳转准确等要求，都是影响用户评价的因素。内容是否结合场馆及展品特点进行呈现，也是影响用户使用及评价的极为关键的指标。技术、功能和用户体验等也是影响场馆APP的重要指标。基于上述考虑，充分参考与借鉴已有研究，在指标体系设计原则的指导下，结合场馆APP自身的任务与功能定位，提出了包括三个层级指标体系的评价框架：一级指标为界面、技术、内容、功能和用户体验等；二级指标为色彩协调性、布局合理性等；三级指标为主次对比呼应等。

（二）指标的修正

专家征询法又称“德尔菲法”，是采用背对背的通讯方式征询专家小组的预测意见，经过几次反复征询和反馈，使专家小组的预测意见趋于集中，最后获得有很高准确率的集体判断成果。关于专家组的最佳人数，帕朗泰等提出专家组成员至少10人，一般认为10-30人就可以基本保证研究的信度和效度（Parente & Anderson-Patente， 1987）。鉴于此，将上述评价框架设计为五级李克特量表：非常同意、同意、一般、不同意和非常不同意五个尺度空间。选择15位来自于场馆学习、软件设计与开发、教学设计等研究领域的专家，其中教授3名、副教授6名、企业产品经理2名、场馆工作者4名，通过邮件方式逐一发送专家征询问卷，详细解释了研究意图。

由于征询前所做的工作比较充分，第一轮共收到来自12位专家的回复，所以第一轮专家咨询的积极系数，即征询问卷的回收率为80%，表明所选专家参与征询的积极性较高。回收的问卷也都全部有效，不存在填答不完整、没有按要求填答或不合理填答的问卷。第一轮征询的重点问题是，在指标体系中各个指标设置的合理性和必要性如何？描述是否合适？根据专家的建议，对指标进行增加、删除及修改，具体修订如下：删除了指标D23“有帮助手册或在线服务”和E32“智能化推送”，將指标C41“主动推送信息”改为“个性化内容推送”，增加了指标C42“个性化内容呈现”，增加了指标E34“APP大小及升级”。

第二轮征询的重点问题是，针对第一轮修正后的指标体系，是否需要再次进行删除或修改？针对经过第一轮专家咨询后修正的指标，再邀请这12位专家进行咨询，由于经过第一轮征询专家对本研究及指标体系有了具体的了解，12位专家均再次给予答复。在本轮征询中，使用平均数和标准差等量化数值进行指标的修订。平均数反映的是专家对指标的认可程度，值越高，表明该项指标越重要。通过开展小组讨论反复研究指标筛选的标准和原则，可以认为如果某一个指标的平均数小于3分，说明该指标的重要程度没有达到本研究指标体系的选择标准，可以删除。标准差是重要的差异量指标，可以反映出一个数据集的离散程度，反映出专家意见的一致性程度。如果某一指标项的标准差大于1.0，则此指标项专家意见离散程度较高，需要进一步对专家进行咨询。如果标准差小于1.0，说明专家对指标合适程度判定的一致性较高。通过对第二轮回收的专家征询表的各项指标评分结果进行录入与分析，计算出每项指标的重要性和可操作性的平均数和标准差，在42个三级指标中，有41项二级指标的平均数都大于3，标准差小于1，占总指标数量的97.6%。这说明专家对该指标体系中的大多数指标持赞同意见。A33项“输入指导”平均数小于3，标准差大于1，出现了异常情况，原因可能在于交互技术越来越多样化，如屏幕触控技术、传感感应技术、语音交互技术、虚拟现实技术、增强现实技术等，“输入”一词的表达具有一定的局限性。考虑将其修改为“交互个性化”，旨在评价APP是否可以为用户提供个性化的交互方式。

经过两轮专家意见征询和反馈，专家意见基本趋于集中，不再进行新一轮的专家意见征询。

本研究使用层次分析法以确定各项指标的权重。该方法需要通过专家来初步确认各项指标的权重值，并设定了一致性检验环节，对专家判断的结果通过设立判断矩阵的方式进行一致性检验，如果无法通过检验，则需要专家团重新讨论设定权重值，直至通过检验为止。根据专家打分推荐的指标权重，结合指标项在整体指标体系中的重要程度，得到各个项指标的权重数值。一致性指数（CI）的计算公式为：

[λi=j=1maijwjwj] [λmax=i=1mλim] [CI=λmax-nn-1]

其中，m为受检验层次的子目标数，λi为该层次目标成对比较判断优选矩阵的特征根，λmax 为特征根的平均值。经过检验后，如果CI值大于0.1，需要重新设定两个指标间的对比值；如果CI值均小于0.1，说明指标组成的矩阵具有相对一致性。

经过两轮专家意见征询之后，得到评价指标体系及各指标的相应权重如表1所示。

四、应用研究

以笔者团队开发的某科技馆APP为例，使用本研究的评价指标体系进行应用研究。将上述评价指标体系改编成问卷的形式，增加前言、个人特征资料、结语等部分，将评价框架设计为五级李克特量表的形式，划分为非常满意、满意、一般、不满意、非常不满意（分别赋值5、4、3、2、1）五个尺度空间。在正式施测之前，选择25位使用者进行一次试测。通过试测，修订描述不清或容易引起歧义的语义问题。Cranbachs Alpha系数为0.871，探索性因子分析结果为0.763，说明该问卷通过了信度、效度检验，满足本研究的需要，可以正式发放。正式施测的样本对象为该科技馆APP的使用者，共回收问卷124份，剔除无效问卷以后，有效问卷为108份。其中，男性65名，占样本总数的60.2%；女性43名，占样本总数的39.8%。从样本对象的年龄区间来看，18-25岁的15名，占13.9%；26-30岁的45名，占41.7%；31-40岁的28名，占25.9%；41-50岁的12名，占11.1%；51-60岁的8名，占7.4%。将收集到的有效问卷统一进行编号处理，利用SPSS 22.0等数据分析工具进行统计分析。

根据问卷的统计结果汇总，将每个指标项得分取平均值，界面、技术、内容、功能、用户体验等维度分别得分为4.82、4.04、4.36、3.78、3.52，乘以各维度的权重0.151、0.123、0.235、0.194、0.297，最终的综合得分为4.028，综合评价雷达图见图1。总体而言，界面维度的指标得分最高，内容维度次之，技术维度得分居中，功能与用户体验得分较低一些，该科技馆APP的设计和开发重视界面的设计和内容的呈现，对功能设计有待提升，需要更多地关注用户体验。

界面维度的指标得分最高。从具体的单项指标来看，A11、A12、A21和A22 四项指标的平均值较高一些，这些指标描述了色彩协调性、布局合理性等属性，说明该APP的色彩、布局等得到了用户的认可，满意度较高。A31、A32和A33三项指标的平均值相对较低，其中以A32项指标“用户参与方式”得分最低。原因可能在于，当前的交互技术如屏幕触控技术、传感感应技术、语音交互技术、虚拟现实技术、增强现实技术等的发展，人与场馆、展品之间的交互更加多样化，带来超越现实的感官体验。而该APP的交互设计采用了常用的屏幕触控技术，用户参与方式较为单一。部分界面截图如图2所示。

内容指标项的得分仅次于界面。从具体的单项指标来看，C11、C12、C13、C22、C31、C32等各项指标的平均值较高一些，因为在设计时将科技馆内的展品按照内容进行整合，分为磁电展区、天地自然展区等12个展区，每个展区主题鲜明、结构合理，并结合每个展区的主题设计了一些相应的学习资源，如微视频、任务单等，既突出了科技类场馆的特色，又在一定程度上体现了地质科学、生物科学、物理科学等学科的特点，方便用户按展区来查找相应的展品内容，这一点得到了用户的认可。也有一些指标得分相对较低一些，如C41、C42等。该APP还不能实现为用户定制信息，提供个性化的信息推送，在内容的呈现上仍有提升空间。

技术维度均值为4.04。从具体的指标项来看，B11、B12、B14、B21、B23等得分较高一些。该APP的基础性能较好，稳定性高、兼容性强、没有植入外部插件，对其他软件平台的交互通过超链接实现，内部纯净，不會出现冲突。在安全隐私上，用户可以通过创建自己的个人账户与空间，保障用户的个人隐私。同时，该APP没有广告插件，也没有恶意链接，不存在病毒干扰。

從功能来看，有一些指标项的得分较高，如D11、D12、D13、D31等。该APP为用户提供了在线讨论及咨询功能，方便用户进行交流互动；还提供了简单易懂的导览功能，结构框架清晰、链接资源丰富，所以用户满意度较高。还有一些指标项得分相对较低，如D21、D22等，原因在于该APP没有为用户提供基于位置的服务，还有待改进与提升。

从用户体验维度来看，有一些指标项的得分较高，如E11、E12、E31等。该APP的操作简便，页面之间的转换灵活，为用户带来了易用的满意体验。在用户体验层面如何去平衡各方面的指标，提升整体满意度，需要从学习者的角度进行设计与开发，才能更好地满足学习者的需求。

实证研究表明，本研究构建的场馆APP评价指标体系是可行的，在具体指标的设计上能体现移动APP的共性指标，也凸显了场馆APP的特色，具有一定的理论和实践价值。从理论上来讲，场馆APP评价体系的理论模型是一个创新，为后续研究提供了理论依据。从实践意义上来讲，本评价体系有助于发现场馆APP中存在的问题和不足，对改善场馆APP的设计与开发起到一定的导向作用，对场馆评价研究工作提供现实参考和依据。总之，该评价体系对场馆APP的设计、开发、评价等具有重要的理论和现实意义。

五、结语与展望

在场馆的教育功能日益凸显、信息技术发展日新月异的今天，如何借力技术更好地发挥场馆的教育功能是当下需要深入思考的问题。场馆APP的设计与开发恰恰迎合了这一发展趋势，目标指向为学习者提供个性化、精准的场馆移动学习资源，有助于提高学习者的满意度，从而更好地发挥场馆的社会教育职能。本研究仅选择场馆APP评价这一角度切入，系统性的研究还有待后续进一步展开。另外，由于在建立本评价指标体系的过程中我们收到的专家权威意见和样本范围较小，其有效性还有待更深入的实证研究来检验，使之更加完善。

[参考文献]

陈锡晶. 2014. 辰山植物园科普导览App可用性研究[D]. 上海：东华大学.

黄炜，李总苛，黄建桥. 2016. 移动应用程序（APP）评价指标体系研究[J]. 图书与情报（4）：110-117.

李冬霞. 2015. 微课程的可用性研究[D]. 金华：浙江师范大学.

秦银. 2011. 大学生智能手机应用软件设计的用户期望研究[D]. 无锡：江南大学.

孙艳超，杜华. 2016. 国际场馆学习研究：引文编年图与主路径分析[J]. 远程教育杂志（6）：103-110.

谭翠萍，郑怀国. 2016. 北京农业数字博物馆门户可用性评价指标体系[J]. 安徽农业科学（9）：12321-12323.

余玉龙. 1998. 试析博物馆教育的特性[J]. 中国博物馆（3）：88.

郑奕. 2015. 博物馆教育活动研究[M]. 上海：复旦大学出版社.

Barberis， C.， Xhembulla， J.， Rubino， I.， Chio， L. D.， & Malnati， G. （2014）. Enhancing a museum mobile application through user experience design： a comparative analysis. Wseas Press.

Damala， A.， & Kockelkorn， H. （2006）. A taxonomy for the evaluation of mobile museum guides. Conference on Human-Computer Interaction with Mobile Devices and Services， Mobile Hci 2006， Helsinki， Finland， September （pp.273-274）. DBLP.

Falk， J. H.， & Dierking， L. D. （2000）. Learning from museums：visitor experiences and the making of meaning. Altamira Press.

Huang， W.， Kaminski， B.， Luo， J.， Huang， X.， Li， J.， & Ross， A.， et al. （2015）. SMART： Design and Evaluation of a Collaborative Museum Visiting Application. International Conference， Cdve 2015， Mallorca， Spain， September 20-23， 2015. Proceedings （Vol.9320， pp.57-64）.

Huy， N. P.， & Vanthanh， D. （2012）. Evaluation of mobile app paradigms.International Conference on Advances in Mobile Computing & Multimedia（pp.25-30）.

Kenteris， M.， Gavalas， D.， & Economou， D. （2011）. Electronic mobile guides： a survey. Personal & Ubiquitous Computing， 15（1）， 97-111.

Kjeldskov， J.， & Stage， J. （2004）. New techniques for usability evaluation of mobile systems. International Journal of Human-Computer Studies，60（5-6）， 599-620.

Martín-Monje， E.， Arús， J.， Rodríguez-Arancón， P.， & Calle， C. （2014）. Reall： rubric for the evaluation of apps in language learning.

Ok， M. W.， Kim， M. K.， Kang， E. Y.， & Bryant， B. R. （2016）. How to find good apps： an evaluation rubric for instructional apps for teaching students with learning disabilities. Intervention in School & Clinic， 51（4）：244-252.

Parenté， F. J.， & Anderson-Parenté， J. K. （2010）. Delphi inquiry systems.In G. Wright and P. Ayton （eds.）， Judgmental forecasting（pp. 129-156）.New York：John Wiley.

Stoica， A.， Fiotakis， G.， Cabrera， J. S.， Frutos， H. M.， Avouris， N.， & Dimitriadis， Y. （2005）. Usability evaluation of handheld devices： a case study for a museum application. Proceedings Pci Volos.

Zhang， D.， & Adipat， B. （2005）.Challenges， methodologies， and issues in the usability testing of mobile applications. International Journal of Human-Computer Interaction， 18（3）， 293-308.

收稿日期：2017-08-25

定稿日期：2017-11-29

作者簡介：杜华，在读博士；杨晓宏，教授，博士生导师。西北师范大学教育技术学院（730070）。

责任编辑韩世梅