展览教育效果评估的理论、方法与实践<br/>——以山东博物馆2018—2019年展览观众评估项目为例

展览教育效果评估的理论、方法与实践
——以山东博物馆2018—2019年展览观众评估项目为例

2021-05-11赵星宇姜惠梅

东南文化 2021年1期

赵星宇姜惠梅席丽

（1.山东大学历史文化学院山东济南 250100；2.山东博物馆山东济南 250014）

内容提要：教育是博物馆的重要职能，展览是博物馆发挥教育职能的重要载体，展览是否具有教育效果对于评估博物馆的社会价值具有重要意义。因此，博物馆需要对展览的教育效果展开评估。基于山东博物馆2018—2019年进行的两次展览观众评估项目，可全面呈现评估过程中所采用的理论基础、方法设计与实践过程。结果表明，在以信息传播为主要目的的历史类展览中，适合采用“建构主义学习理论”作为评估的理论基础，采用“展览信息传播效率影响因素框架”作为评估指标设计的依据，采用访谈法与跟踪观察法作为获取数据的途径。评估的结果能够比较全面地反映观众对展览的注意力分布情况、对展览的评价以及学习效果，从而为展览的改良提供来自观众视角的依据。

一、前言

2007年，国际博物馆协会（ICOM）修正了博物馆的定义，将教育视为博物馆的重要目标[1]，这标志着长期以来博物馆所扮演的教育角色得到了进一步的认可。对于许多依赖基金会资助的西方博物馆来说，证明自身所发挥的教育效果是获得资助的关键，因此在20世纪60年代直接催生了观众评估的大发展[2]。我国大多数博物馆由政府财政统一支持。随着2008年博物馆免费开放政策的实施，博物馆观众数量激增，无论是政府、博物馆还是公众，都逐渐意识到博物馆所扮演的社会文化角色的重要性，特别是其中蕴含的巨大教育潜力。

在这样的背景下，山东博物馆选择从观众入手，探索展览教育效果的评估方式。山东博物馆展览观众评估项目始于2018年，截至2020年初，共完成了八个展厅的教育效果评估工作。项目的设计与实施由山东博物馆和山东大学历史文化学院“博物馆学习项目组”[3]共同承担。经过两轮评估，馆方对展览的教育效果有了较为全面的认识，并对展览设计中存在的普遍问题与潜在的改进方向有了新的理解。本文以该项目为案例，系统阐述此次评估的理论基础、方法设计和实践过程，并探讨此次评估的适用范畴与不足之处，以期引起业界对于此问题的更多讨论与实践。

二、理论基础

检验展览的教育效果，关键在于检验观众的学习效果与展览的教育目标之间的关系，而其中最重要的地方在于“捕捉”目标观众的学习效果。展览教育效果评估的出发点是观众，落脚点是对某个具体展览的教育效果的判断，所以属于博物馆观众领域内“观众评估”的范畴[4]。因此，此次评估的设计与实施实际上是对“如何理解观众的学习”这一问题的基本判断。展览教育效果评估的理论基础很大程度上可以理解为评估者的“学习观”，即在评估者眼中，观众如何在博物馆中学习。

关于学习的理论，长期以来是心理学领域重点探讨的内容之一。例如，传统行为主义学派的“刺激—反应”理论和“试错学习”[5]、新行为主义学派的“社会学习理论”和“模仿学习”[6]，都在尝试从不同的角度理解学习的发生。克努兹·伊列雷斯（Knud Illeris）尝试整合这些理论，提出了“全视角学习理论”。该理论指出，学习包含两个完全不同的过程，一个是个体与其所处环境的互动过程，一个是心理的获得过程，关于学习的研究都可以从内容维度、动机维度和互动维度来进行划分[7]。

研究人员将发生在博物馆中的学习现象概括为“博物馆学习”（museum learning）。与传统意义的“学习”相比，博物馆学习具有如下两个重要特征：首先，博物馆学习是一种“自由选择式”的学习[8]，特别是与以学校教育为代表的“正规学习”场所相比，个体在博物馆中的学习具有极大的主动性；第二，观众在参观博物馆之前并非“一张白纸”，个体的动机、需求、先前知识、兴趣等均会对观众的学习效果产生重要影响[9]。基于这些特点，与其他理论相比，建构主义学习理论的视角能够对“博物馆学习”作出更恰当的解释。

建构主义（constrcutivism）虽然存在不同的流派，但是它们具有一个显著的共识，即“概念的理解是通过学习者的主动建构来实现的”[10]，这要求学习者基于自身的经验和与环境之间的交互来实现学习这一过程。通常建构主义被认为有三个源头，分别是约翰·杜威（John Dewey）对经验的论述[11]、让·皮亚杰（Jean Piaget）的发生认识论[12]以及列夫·维果茨基（Lev Vygotsky）及其追随者对环境和互动的理解[13]。乔治·海因（Gorge Hein）最早将建构主义与博物馆学习建立联系：1991年，海因就明确提出博物馆中所发生的学习是一种建构主义视角下的学习[14]；1998年，他进一步指出，“博物馆是用建构主义来解释学习的理想场所”[15]。

在建构主义学习理论的视野下，可以从两个方面来理解观众在展览中的学习效果：第一，观众在展览中的学习效果受自身因素的强烈影响，这体现在观众对同一个展览的学习效果存在显著的个体差异；第二，观众的学习效果也受到环境因素的直接影响，这体现在“个体差异”背后所具有的共性“趋势”。因此，在建构主义视角下进行的展览教育效果评估，一方面要承认观众学习效果的多样性及其多样性背后的合理性；另一方面要着重考察观众所呈现出来的共性“趋势”，并用该趋势与展览的目标信息相对比。所以，在观众评估的过程中，关键在于获取目标观众群体对于展览目标信息的总体认识与理解。

三、方法设计

在明确了评估要以“获取目标观众对于展览目标信息的总体认识”为旨要之后，具体的方法设计将围绕这一目标展开。首先，评估者可以选择对观众展开“前置测量”和“后置测量”两次测量。采取这种方法的初衷在于“排除观众先前知识背景所带来的影响”，以更直接地体现展览带给观众的“变化”。这样的方法也具有一定的不确定性，如对观众的“前置”干预是否会对观众的参观体验造成“额外”影响，这一问题在后文中会有单独的讨论。此处选择“前测”和“后测”相结合的形式并不意味着对“仅后置测量”这种评估方法的否定，而是权衡之下前者更符合本次评估的目标。这样就构成了一个基本的方法框架，即分别就观众在观展前和观展后各进行一次数据采集工作。

其次，评估者需要记录观众在展厅中的注意力分布情况（参观投入程度）和参观动线。一方面，先前研究成果表明，观众的参观行为和学习效果之间存在显著关联[16]；另一方面，对观众参观行为的记录和分析将有助于直接反映展览环境对观众学习的影响，并为展览的进一步提升和改进提供具体依据。

综上所述，在进行展览教育效果评估时，评估者需要分别采集目标观众在参观前、参观中和参观后三个阶段的相关数据。这里存在两种采集逻辑：三个阶段分开采集不同的观众，或者采集同一名观众的三个阶段。朵琳·扎哈瓦（Doering Zahava）等人曾采用第一种方式进行调查[17]，约翰·福尔克（John Falk）等人则采用第二种方式[18]。综合对比两种研究结果，可以发现两种方法的主要分歧点集中在“前置干预是否会对目标观众造成影响”这一假设上。若三个阶段分开进行，显然会在最大程度避免前置干预的出现，虽然目前尚未有专门的研究予以证明，但是在建构主义理论的视角下，干预一定会产生影响，只是影响的程度不同而已。而采集同一名观众的三个阶段，优势在于有条件为评估者和研究者提供个体的完整材料，这意味着评估者和研究者可以针对样本中的某个或某类观众展开进一步的评估和研究，极大地扩展了这批材料的潜在价值。从样本数量来看，第一种方法对样本容量有较高的要求，显然，在参观前、参观中和参观后分别对不同的个体展开研究，数量越少，就越受个体差异的影响；第二种方法则对样本数量没有特别高的要求，当观众在参观前、参观中和参观后所呈现的信息开始大量反复出现时，样本量即已趋于饱和。从时效与成本的角度看，二者都需要投入较大的人力物力，前者虽然可以各个阶段同时进行，但是需要更多的样本；后者虽然不太追求“数量”，但是由于必须保证每一个样本都具有三个阶段的数据信息，因此增加了获取样本的难度。两种形式各有利弊，需要结合特定情况加以取舍。山东博物馆此次进行的评估项目由于侧重未来对数据的进一步发掘，故选择第二种方式，即采集同一名观众三个阶段的信息。

在明确了采集数据的逻辑后，需要确定采集数据的具体目标和方法，这里采用的是“展览信息传播效率影响因素框架”[19]（以下简称“框架”，图一）。该框架明确指出了影响博物馆观众学习效果的12项个体因素与环境因素，它们按照核心因素、间接因素、直接因素自下而上逐级排列，彼此之间相互联系。该框架源于福尔克和林恩·迪尔金（Lynn Dierking）提出的“情景学习模式”（the contextual model of learning）[20]，是情景学习模式在本土情境下进行再次验证的结果。该框架提出的目的之一，就是为展览的教育效果评估特别是评估变量的设计提供框架支撑。

图一// 山东博物馆展览信息传播效率影响因素框架（图片来源：作者绘制）

基于该框架和评估的具体目的，可以对方法进行如下设计：第一，由于评估既要采集观众的学习成果，又要指出展览中存在的影响观众学习的潜在因素，因此，评估需要通过“前置测量”和“后置测量”的方式来获取观众在参观展览前后的认知变化，并记录观众在展厅中的参观行为；第二，通过框架可知，观众的“参观动机”“参观兴趣”“主动性”和“先前知识”都会对观众的学习结果产生影响，因此在评估的过程中也需要采集相关信息，以帮助博物馆更好地理解观众学习；第三，通过框架，可以发现展览的环境设计会对观众的参观行为产生直接影响，因此在评估时需要记录观众的参观动线，以此判断环境设计对参观行为所产生的具体影响；第四，从框架可知，观众的参观行为具体表现在“参观投入程度”“团体交流程度”“参观时长比重”和“先行组织者”（advanced organizer，此处代指辅助展品）四个维度，因此也需要做相应的记录。综上所述，此次评估可以设计评估指标表如表一。

表一// 山东博物馆展览教育效果评估指标设计表

“评估指标”中所涉及的项目均来自框架。“操作方法”包括观察法和访谈法两类；“示例/描述”指的是操作方法具体的呈现形式；“实施阶段”指的是操作方法作用于“参观前”“参观中”和“参观后”的具体阶段；“数据类型”反映了评估者所采集信息的呈现方式，例如，“参观动机”“学习效果”是通过访谈法获得的质性文本，“参观投入程度”是通过观察法获得的量化数据。关于这些数据信息的具体判定方式，笔者已在他文详细指出[21]，此处仅以“参观投入程度”为例进行说明：参观投入程度指的是观众对展览中各个区域或内容（也可以称为“展示单元”）的注意力分配水平，所代表的是观众在某一展示单元前的参观状态。由于单纯的参观时长并不能很好地满足评估者对观众注意力分配情况的判断，因此，此处采用两名观察员对同一名观众在每一个展示单元前的参观状态进行评分的方式来完成。评估标准沿用福尔克等人的研究方法，将观众的参观状态分成五个等级[22]，依次反映了从“观众没有看展品”到“观众深入地看展品”的不同状态。

四、实践流程

下文以山东博物馆2018—2019年所进行的观众评估实践为案例，对每一个流程进行具体说明，以阐释如何将理论基础和方法设计应用到实际的评估实践中。需要注意的是，任何评估都必须服务于特定目的，并兼顾到评估的成本与可操作性。因此，评估流程不可能从一个展览完全复制到另一个展览中。介绍“实践流程”的意义不在于提供一个可以完全复制的模板，而是呈现出一套包括“筹备阶段”“采集阶段”“分析阶段”和“撰写阶段”在内的完整逻辑。

（一）筹备阶段

在筹备阶段，首先需要明确的内容是“评估标准”。这要求评估团队必须与策展团队深入沟通，以了解“展览最想传达的信息是什么”以及展览的“目标观众”。例如，在2018年评估“万世师表展”之前，策展团队向评估团队明确表示，希望第一次参观此展的观众可以理解四个方面的信息：（1）孔子是谁？（2）孔子思想是什么？（3）孔子思想为什么产生在春秋时期的鲁国？（4）孔子思想如何发展和影响后世？对目标信息和目标观众的明确，决定了评估在数据采集和分析上的方向。

其次，在明确评估目标和成本的基础上完善评估团队、设定样本容量。评估根本上是一个实践的过程，因此工作的开展最好是以团队的形式来进行，团队的规模取决于评估的规模与成本。团队成员通常至少需要三人。原因在于，在“采集阶段”中，要求两名成员同时负责“参观中”的观察，一名成员负责“参观前”和“参观后”的访谈，因此三人小组是评估中的最小单位。样本容量也取决于项目成本、评估目的和展览内容。在理想状态下，容量越大，评估结果的信效度越高。但是考虑到评估的成本，可以通过提高对单个样本信息的挖掘深度来换取样本容量上的让步。通过前期的探索性研究，评估团队最终与馆方议定每个展厅采集60例有效样本。

再次，充分了解展览的信息和内容，设计具体的方案。方案设计的具体指标可参考上文“方法设计”一章，此处需要强调的是关于采集“学习效果”数据信息的设计，这项设计要求评估团队必须紧紧围绕展览的目标信息展开工作，目标是在对观众产生最小程度干扰的前提下，最大程度地获取观众在参观前的认识和在参观后的理解。以2018年进行的“山东历史文化展·夏商周时期”展览评估为例，该展厅的目标信息是“展示山东地区夏商周时期的历史文化”，因此可以通过“关于夏商周，您会想到哪些内容”等问题来获取观众对于展览主题的理解；此外，由于该展厅的展品以青铜器为主（90%左右），所以观众的学习效果必然更多地围绕青铜器来展开（试测结果也证实这一假设），为了让结果更加准确，故在“参观前”补充提问“关于青铜器，您会想到哪些内容”。

最后，将展厅划分成若干单元并绘制成图。这一环节是为跟踪观察提供便利，同样需要建立在对展览充分理解的基础上。理论上，每一件展品都应该被视为一个独立的单元来观察，以获得最为精确的数据。但是从实践上看，这一点很难实现，特别是对于那些展品密度大的展厅，观察员并不能做到准确区分观众对每一件展品的参观投入程度。因此，评估团队需要先对展览内容进行人为分区。分区遵循两个标准：一是同组展品之间具有比较接近的信息，二是同组展品的空间距离接近。

（二）采集阶段

“采集阶段”是评估团队直接接触观众并采集相关数据信息的重要环节。以三人小组为例，分为一名访谈员和两名观察员。第一，访谈员一般立于展览入口一侧，负责按照设计要求选取样本，选取的规则是“在访谈员完成上一轮后置访谈后，在入口处遇见的第一个有明确参观倾向的观众”。第二，开始访谈前，访谈员需向受访者征求意见是否同意录音。当访谈员开始访谈后，观察员需要明确受访者的体貌特征，以防止在展厅的跟踪观察环节失去目标，然后在展厅入口附近以自然状态等待参观的开始。第三，访谈员在结束访谈后需要向受访者征求意见，询问其是否愿意参与后置访谈。如果受访者拒绝，则该样本无效，需进行下一轮选择；若受访者应允，访谈员须前往展厅出口处等待，参观期间由观察员进行无干扰跟踪观察。第四，在观众结束参观后，访谈员对其进行后置访谈以完成全部的数据采集工作。在这一过程中，访谈员要填写“受访者基本信息记录表”，并给予样本唯一编号；观察员要保证编号与访谈员一致，并在参观过程中完成跟踪观察表的填写。前置访谈、跟踪观察和后置访谈三个阶段的数据缺一不可，否则该样本将被视为无效样本。

（三）分析阶段

“分析阶段”包括整理数据和分析数据两个部分。在整理数据环节中，首先需要将录音文件转录为逐字稿，以便展开质性文本分析；第二，统一整理量化的全部评估指标，以便展开量化统计和分析；第三，以“样本”为单位，整合基本信息、访谈文字转录和跟踪观察表，形成“原始数据资料表”。

根据数据的性质不同，分析数据有两种方式。一种方式是分析观众的学习效果。这一部分数据通过访谈获得，属于质性文本，因此对它的分析应采用质性文本分析的方式进行：首先对原始文本进行“编码”，将表述不同但具有相同或相似含义的文本提炼成“符码”；其次，根据符码的意义、内涵以及评估的目的和展览的目标对符码进行“分类”，以形成“类目”；最后，对“类目”进行词频分析和内容对比，就可以实现观众学习效果与展览目标信息之间的对比。本次评估使用Nvivo11软件[23]完成质性文本的编码过程。

另一种方式是分析观众的参观投入程度。这一部分数据通过观察法获得，属于量化的范畴。在此次评估中，获取观众参观投入程度的数据是为了反映展览各个区域对观众的吸引力水平，因此首先需要将“观众在每个展示单元前的参观投入程度”转换为“每个展示单元前观众的平均参观投入程度”。基于这一结果，评估者可以清晰地发现哪些展示单元相对而言更容易引起观众的注意，哪些难以吸引观众的注意。为了更加直观地表述这一结果，可以通过“热区图”的形式来说明[24]。

（四）撰写阶段

撰写阶段要求评估者以报告的方式向博物馆提交评估结果，明确呈现出对展览教育效果的评估设计、经历及结果。以山东博物馆展览教育效果评估为例，评估报告包含如下几个部分。（1）“展厅基本情况说明”：介绍展厅的基本情况及评估的准备工作，明确提出展览的目标信息和目标观众。（2）“观众基本信息统计”：介绍样本在人口统计学意义上的分布情况，包括但不局限于性别、年龄、职业、团体性质（个体、家庭、亲密、朋友），以及是否具有参观经验、是否对展览主题感兴趣、参观的时长和比重。（3）“观众参观信息统计”：将“观众在每个展示单元前的参观投入程度”转换为“每个展示单元前观众的平均参观投入程度”。（4）“观众知识变化统计”：分别列出观众在前置访谈和后置访谈中就展览主题和内容所阐述的关键词句及其频数、比例。（5）“观众展览评价统计”：统计观众对展览的评价并分类。（6）“展览教育效果评估”：分别从观众参观信息和观众知识变化两个方面来分析。前者生成观众注意力分配的“热区图”，评估每一个展示单元是否实现了吸引观众注意的目的；后者生成不同级别的“节点对比图”，评估观众在参观前后发生的知识变化是否与展览目标信息相符。（7）“总结”：综合判定展览的教育效果。

五、应用范围与局限

任何方法都有其应用范围和局限性，在这一部分中，本文将讨论哪些情况比较适合采用相似的评估逻辑，而哪些情况不适合采用。

第一，必须明确评估的应用对象和目的。此次评估的对象是博物馆的展览，而不是博物馆。因此，此次评估并不适用于那些以评估整个博物馆教育效果为目的的项目。此外，该评估的目的是检验展览的教育效果，而非其他效果。例如，艺术类展览大多旨在提升观众的审美情趣，虽然审美也可以“教育”，但这显然与以认知为主的教育不同。因此，建构主义学习理论是否能够恰当解决这一问题需要进一步的验证。理论基础的不确定，使得该评估方式不能贸然在以提升审美等其他非认知目的为主的展览中使用。

第二，必须明确评估的目标观众群体。不同的展览有不同的目标观众，针对不同的目标观众，评估的方法和逻辑也会发生变化。此次评估也有特定的适用群体，主要针对那些在博物馆中可以“自由选择参观”的观众。因此，由学校组织参观博物馆的学生团体、全程有讲解员陪同引导参观的个人或团体以及必须在他人陪同的情况下才能参观的低龄儿童或高龄老人等，均不在此次评估的应用对象中。目前，越来越多的博物馆特别是科技类博物馆，注重展览对于儿童和青少年群体的教育效果，而这一部分群体大多都不具备“自由选择参观”的能力或条件，该评估方法也没有在类似的情境中得到过检验，因此需要在使用前慎重对待。

即使在应用范围之内，该评估方法也存在一定的局限性。最大的争议在于，对观众施加前置干预是否会对观众的参观行为与学习效果产生影响。目前，虽然没有实证研究专门针对这一问题展开探讨，但有学者为此问题作出辩解。例如，福尔克在美国加利福尼亚科学中心（California Science Center）对观众施加前置干预时（要求观众在参观前用绘画的方式表达出他们对展览主题的理解），曾提出一个假设。他认为，如果前置干预对观众的参观行为与结果产生影响，那么就有理由认为，前置干预的时间越长，对观众产生的影响就越大。基于这一假设，福尔克检验了前置干预时长和学习效果之间的相关性，结果显示二者之间没有显著的相关关系。因此，福尔克认为前置干预对观众没有显著影响[25]。

在此次评估中，评估团队也注意到了这一问题。评估者假定，前置访谈会让观众在展厅中“看得更仔细”，这通常体现在参观时间的延长和参观比重的上升。但是由于没有条件设置对照组，所以无法使用这两个标准来判断。因此，评估团队记录了每一个观众的参观动线，并绘制在平面图上。评估团队假定，如果前置访谈会让观众倾向于在展厅中“看得更仔细”，那么至少会有一定比例的观众在展厅中呈现出相对复杂的参观动线，这样才能保证在展厅中看到更多的展品。结果显示，在全部的八个展厅中，平均70%左右的观众在接受了前置访谈后仍然采用“最省力”的参观动线，即沿着一侧通柜前进，几乎很少发生折返或在两侧之间反复移动的行为。

尽管福尔克的研究和本次评估实践为前置干预的潜在影响提供了另一种解释，但仍然不足以断定前置干预对观众没有影响。然而，这两次探索也表明，影响的程度不一定是普遍的、显著的，它既取决于评估者的干预程度和干预技巧，也取决于观众自身的个性特点。综上所述，一方面，需要承认该评估方法中前置干预会对观众造成不同程度的影响；但另一方面，前置干预尚不足以对总体的评估结果产生直接影响。通过设计来减少前置干预对观众的影响是评估者的重要任务。

六、小结

展览评估长期以来是国内博物馆界难以回避的问题之一，特别是每年的“全国博物馆十大陈列展览精品奖”的评选都在不断地考问何种展览才是好展览。任何评价都有自身无法舍弃的立场，由于个人的诉求并不一致，因此在一定程度上，关于评价的结果也很难达成真正的统一。一些学者也意识到了评价的多面性。沈辰强调“展评”（exhibition review）和“展览评估”（exhibition evaluation）的区别，他指出，“展览评估更强调具体的工作有没有到位，但这里的展评则更注重评论展览的策展思想方面，是从观众的角度对展览的深度进行挖掘”[26]；严建强提出展览评估应该分为“专家”和“观众”两个部分[27]。显然，这都反映了任何评估都是“一家之言”，但这并不意味着展览评估是“无用”的，评估的价值恰好体现在能够帮助博物馆更加清晰地认识多方的诉求及诉求产生的原因。对展览质量的评估并不是某一种单一的评估方式能够解决的，也正因为如此，在评估时必须要清楚地表明评估者所处的立场。

从2018年开始，山东博物馆与山东大学“博物馆学习项目组”展开合作，旨在探索一种可操作的、有效的评估方式，获取展览对普通观众所产生的教育效果，并为未来的改陈提供参考。此次评估所采用的立场就是“普通观众”的立场，博物馆可以通过这种立场来判断展览的教育效果是否得到实现。但是，如果展览的策划者希望获取外界对于展览的内容设计、叙事方式或艺术表现力等方面的评价，则不宜采用这种立场。虽然不排除个别观众具有专业背景，但是对于绝大多数普通观众来说，似乎不会比策展团队更清楚“哪些文物更能够代表山东地区大汶口文化的面貌和特点”；但是普通观众却可以告诉策展团队，在观展结束后，有没有理解“为什么这些文物能够代表山东地区大汶口文化的面貌和特点”，而这恰恰是专家难以回答的。

如上文所言，此次评估的目的，一方面是对展览的教育效果作出判断，另一方面为展览的改进与提升提供依据，这意味着“评估的意义”最终需要通过博物馆各个部门后续的联动才能实现。当这种评估与回应形成良好的循环时，不仅能够有效提升博物馆的展览效果，还能为研究者进一步研究观众的学习特点、参观体验等问题提供富有价值的信息、材料与学术资源。