一项工具开发：如何才能测评学生美术素养？＊

2023-06-02宋乃庆王诗梦孙小坚

华东师范大学学报（教育科学版） 2023年6期

李健宋乃庆王诗梦孙小坚

（1.西南大学数学与统计学院重庆 400715；2.西南大学基础教育研究中心重庆 400715；3.中国基础教育质量监测协同创新中心西南大学分中心重庆 400715；4.西南大学美育研究院重庆 400715；5.西南大学附属中学重庆 400715）

引言

美术素养是学生核心素养在美术学科的重要体现，是学生心智发展中独特且不可替代的组成部分（李健, 于泽元, 2020），美术素养能够完善感官系统并培养想象力（Eisner, 2004），进而塑造人的完美品格，提高公民审美品位。美术素养的提升也是学校教育的重要目的，良好的美术素养能够帮助学生使用审美参照系来学习（Eisner, & Elliot, W.., 1998），例如空间思维与几何学习，色彩知识与物理现象，绘画表达与作文撰写等（杨建滨, 2001）。党的十八大以来，国家高度重视学校美育工作，尤其是2020 年中共中央办公厅、国务院办公厅首次联合印发《关于全面加强和改进新时代学校美育工作的意见》，学校美育工作受到了前所未有的重视，美育评价作为倒逼机制成为了此意见最重要的标志。科学地监测学生美术素养水平已成为学校美育工作的硬性要求。但是目前仍缺乏科学的、系统的、可操作性的美术素养评价工具，因此力图通过评价促进美育育人效果提升的内在动力就没有充分发挥，妨碍了学校美育工作健康、可持续发展，这是当下学校美育工作的重大不足，因此对美术素养测评工具的研发就显得尤为迫切。

对学生美术素养进行测评的实质是通过对学生外显的行为表征来测量学生潜在的美术能力，由于潜在美术能力是一种不可观察的特质，因此将适用于测量潜变量的项目反应理论模型引入至学生美术素养测评中，以评价学生行为表征背后指向的美术潜在特质具有重要的理论和实践价值。项目反应理论假设在测试情境中，学生的潜在特质可以通过学生在测试中的外在表现来预测，进而可估计学生在相关特质上的潜在能力水平和作答反应之间的关系，从而对学生的美术素养进行预测或解释。对学生美术素养进行测评难以用准确的数字或分数来进行评判，只能给予美术作答表现一个等级评判，项目反应理论模型是一个非线性的用来表征题目参数、学生潜在特质和学生作答情况之间关系的数学函数（辛涛, 2005），避免了经典测量理论对分数的严格要求，具备灵活处理等级性作答情况的能力，因此美术测评也应引入项目反应理论来确保其评判标准的灵活性。项目反应理论已应用于SAT、PISA 等考试（闫成海, 杜文久, 宋乃庆, 张健, 2014），特别是在1997 年美国国家教育进步评估中视觉艺术项目运用了项目反应理论来进行试题验证（Persky, Sandene, & Askew, 1998），由此，本研究试图利用项目反应理论来开发美术素养测评工具。

一、小学生美术素养的内涵阐释与重新认识

在我国“美术”一词是舶来品，在五四运动中才开始被普遍运用，其原意是指“自然造化”“人工技艺”，因此早期的美术概念不仅指各种手工制作的艺术品，还包含文学、戏剧、音乐等。美术和艺术这两个词在翻译中并没有明确的区分，随着艺术门类的分化，逐渐演化为“艺术”一词包含一切艺术门类，美术则主要指在二维或者三维空间上塑造可视的静态艺术形象的活动。随着带有实验性质的美术活动出现，美术的概念也在不断变化，美术不单是“静止的艺术形象”，而变成了一个综合色（空间要素）、音（时间要素）、运动（在时间和空间中）等一切心理与物理要素的创造行为（梁玖, 2005）。总体来说，美术是人类认识世界和表达世界的一种手段，是人类基于一定的造型元素和形式原理，合理运用各种媒材，借助一定的物质文化实体，反映客观世界和表达创作者内在的情感与思想的表达形式。

关于“素养”的内涵，在《辞海》中，“素养”有两种释义：一是指“修习涵养”；二是指“平时所供养”。由此可知，素养并非人们先天就有的，而是后天形成的，是人们在日积月累的“修习”中逐步形成的。而素养介入到教育领域则源于经济合作与发展组织（OECD）启动“素养的界定与遴选：理念和概念基础”项目中，“competence”被界定为“……不只是知识与技能。它还是在特定情境中，通过利用和调动心理社会资源（包括技能和态度），以满足复杂需要的能力（张华, 2016）”。受OECD 组织的影响，2006 年，欧洲议会和欧洲理事会联合批准《为了终身学习的核心素养：欧洲参考框架》，其中指出“competence”是“适用于特定情境的知识、技能和态度的综合”（Gordon et al., 2009）。蔡清田认为“素养”是个体发展成为一个健全个体所不可或缺的（蔡清田, 2010），是可超越传统教育所强调的知识和能力（蔡清田, 2011），包含知识、能力和态度（蔡清田, 2011）。张华教授提出“素养是人在特定情境中综合运用知识、技能和态度解决问题的高级能力与人性能力（张华, 2016）”。综上可以看出，“素养”不仅局限于以往教育研究中所提出的知识与能力，而是知识、能力与态度的综合体，是一个整体性（holistic）和有机性（dynamic）概念，包括复杂需要、社会心理条件（包括认知、动机、道德）以及在特定环境中满足需求的能力。

什么是美术素养？不同国家地区对美术素养的界定有所不同：美国国家艺术教育协会认为美术素养是指使用传统的以及当代的和新兴的媒介，以促进思考、决策、沟通和学习的方式来解释、理解、欣赏、使用和创建视觉作品的能力（National Art Education Association, 2018）。新加坡2018 年美术课程大纲中指出美术素养是通过视觉的交流，通过与社会和文化的联系来创造意义（Ministry of Education Singapore, 2020）。在澳大利亚昆士兰州颁布的《艺术实践》课程教学大纲中指出：“美术素养”是指艺术创作所需具备的基础知识、理解和技能，包括艺术交流（Arts communication）、艺术原则（Arts principles）、审美欣赏（Aesthetic appreciation）三个要素，同时指出具备良好艺术素养的学生能够对艺术作品进行解读、欣赏、评价和审美活动（QCAA, 2020）。《美国国家核心艺术标准》中对“美术（视觉艺术）素养”的界定为：切实参与艺术活动所需的知识和理解，通过运用艺术独有的象征性和隐喻性，借助流畅的艺术语言来进行创作、表演/制作/呈现、反应和联系的能力（国家核心艺术标准联盟, 2018）。王大根教授认为，美术素养是指学生学习了美术课程之后，所形成的关于美术方面的感知、想象、思维、表达、设计、审美、评鉴以及参与的意识与能力，及其所伴随的个性品质和价值观念（王大根, 2007）。在我国义务教育美术课程标准中，主要从三方面对学生所需具备的美术素养进行要求：一是对美术的内容和现象有基本的了解；二是对美术的创作方法和过程有基本的了解；三是对美术在社会中的价值和作用有基本的了解。基本的美术素养不仅仅指的是对基本的美术知识和技能的掌握，关键是应该具备基本的艺术态度。其中，基本的艺术态度主要是要有敏锐的视觉意识、能运用媒材表达自己情感、追求更高的审美品位等（美术课程标准研制组, 2002）。虽然以往研究未形成对“美术素养”概念的统一认识，但是从各国的艺术/美术课程大纲中对相关概念（如：艺术素养、视觉素养等概念）的阐释中，对“美术素养”概念的内涵包含以下几个要点：

（1）美术素养关注传统经典内容，重视纯艺术的文史价值，更加注重学科整合、更具时代特性、生活实用性。

（2）美术素养不仅仅是美术知识和能力的培养，更是艺术态度和文化素质养成的教育，要求将学生置于人类文化的历史长河中（冯红梅, 2012），陶冶情操，修身养性。

（3）“美术素养”内涵不仅囿于美术学科领域，也强调将美术和自然、学习、社会联系起来，已然成为个体为适应未来社会所不可或缺的素养。

综上，我们认为“美术素养”是知识、技能与品格的统一体，不仅局限于美术学科领域，更是指向学生全面的、未来的发展，是学生适应未来不断变化世界所必须具备的素养，同时也十分强调学生的自主性以及个体的感知与体验。因而，本文认为“美术素养”的内涵是个体基于造型元素和形式原理，采用象征、隐喻等视觉方式（李健,于泽元, 2020），对观念、情感、事物进行感知、表达、联结和鉴赏等活动时所具备的知识、技能以及品格的综合表现。

二、小学生美术素养测评的理论基础与指标体系构建

在某种意义上，评价决定教育的价值，当评价指向的是完整的学习内容时，那么评价就是好的，反之则会导致教学与学习走向片面（Wilson, 1996），面对小学生美术素养测评工具开发这一长期困扰美术教育领域和教育评价领域的难题，我们需要在深层次上对小学生美术素养测评的理论体系进行探讨。

（一）小学生美术素养测评的理论基础

1.美学基础：模糊美学理论

模糊思维是人类固有的一种思维方式，主要是在处理模糊的、不确定的、复杂事物和联系中的各个不同因素时，以一种不确定的、全息式状态来对事物进行整体观照的多维思考方式。美学从属于哲学，以艺术创作为主要研究对象，美学具有天然的模糊性，美学之父鲍姆加登认为美学的目的是感性认识本身的完善（鲍姆加登, 1987），在西方美学的论述中也有涉及模糊的表述，从理念层面而言，古希腊哲学家赫拉克利特认为最美丽的猴子与人类比起来也是丑陋的（北京大学哲学系外国哲学史教研室,1961），强调了美的相对性、不确定性。德国哲学家莱布尼茨阐述了美感属于既明白又混乱的认识，是一种“混乱的知觉”，我们对它“无法充分说明道理”的朦胧美理论（彭立勋, 2005）。从审美实践层面而言，美术创作也是具有模糊性。首先，就创作者来说，人在观照、鉴赏客体时，由于审美客体具有模糊性，再加上人本身的审美心理存在着特殊的模糊机制，因而所产生的美感也必然是模糊的。美术创作过程需要感性与理性的交融，在形似与神似之间进行取舍，利用形象思维和逻辑思维。缺少任何一个方面都不能传达美术的本意。由此可见，美术素养是以模糊美学基础的。

2.指标划分依据：认知心理学理论

测评是为了进行评估而收集信息的各种过程（Beattie, 1997）。美术素养是学生的一种视觉认知方式，从认知心理学来看，人类艺术思维的发展离不开主体的元认知系统、艺术本体工作记忆、本体艺术知识三个系统（琚军红, 2015）。小学生美术素养是学生内在情感、灵感、经验的外显，首先是学生自我思维心理的认识与调节，包含对对象有选择的感知与识别；其次是主体在执行艺术具体认知任务时所动用的相关记忆内容，这个阶段包含美术表达与创意联结；最后是本体艺术经验和情感意象的具身建构与对象化映射等认知操作环节即审美鉴赏阶段。

3.评价依据：表现性评价

评价是决定素养能否落地的关键（周文叶,陈铭洲, 2017）。素养是建立在真实情境之上复杂、综合、多元的能力。传统的评价只能推导出学生知道什么，而不能推导出学生能做什么。对素养的测评要有真实的、生动的情境，激发学生在特定情境用外显的表现形式进行问题解决。表现性评价更适合检测高水平的、复杂的思维能力（Darling-Hammond & Adamson, 2010），有很多研究对其进行了界定，美国学者斯蒂金斯认为：“表现性评价为测量学习者运用先前所获得的知识解决新异问题或完成具体任务的一系列尝试（沈南山, 2017）。美国教育评定技术处将表现性评价界定为“通过学习者自己给出的问题答案和展示的作品来判断学习者所获得的知识和技能”（崔允漷, 2016）。表现性评价强调目的素养化、真实化、能力化，淡化单纯的知识本位和技能本位，不仅评价学生知道什么还评价学生能做什么。

4.相关理论辨析

不同的理论展现了不同领域的研究对学生美术素养的侧重和切入视角的差异，但彼此能够融合互补。模糊美学理论将不确定性引进美学领域，从人类固有的思维模式和现代美学的基本特征出发，对美术素养的本质进行了剖析，认为人类的主观创作过程、作品的客观呈现状态，以及审美主体的主观解读过程都是具有模糊性，并不能给予一个精确的评价，这是本研究的美学基础。对素养的测评还需要采用专业的技术路径，在教育目的与学习结果之间设置一定的层级，并对每一层级的目标作出可理解、可传播、可实施、可评价的陈述（戴海琦, 罗照盛, 2013），而认知心理学理论为美术素养测评提供了指标划分的依据。对素养的评价需要为学生提供展示指向素养的学习证据的机会，而表现性评价理论被认为是核心素养时代最有价值的评价设计理论。

（二）小学生美术素养测评指标体系的构建

测评工具的研发，需要以系列指标为载体（范涌峰, 宋乃庆, 2019），测量的操作性定义是研究变量与如何测量之间的桥梁，将抽象的概念变得能够观察与测量。从操作性定义构建指标体系是切实可行的做法（宋乃庆, 罗士琰, 2018）。本研究借鉴我国基础教育质量监测领域成熟的研究范式，如：教科书的难度分析（邝孔秀, 姚纯青, 蔡庆有, 宋乃庆, 2015）、阅读素养（罗士琰, 宋乃庆, 2016）、信息技术素养（张辉蓉等, 2017）中测评指标体系构建的路径，结合本研究构建的小学生美术素养的内涵，从操作性定义入手，根据内涵界定与理论基础，通过实证的方式构建小学生美术素养测评指标体系，再结合专家的建议和一线教育工作者的实践经验，修订完善指标体系进而计算各个维度的权重。

1.小学生美术素养的操作性定义

虽然前文已经对美术素养概念进行了新的内涵解读，但是这个解读距离在测评中如何具体操作的要求还很远。任何一个概念的意义只有借助于人们使用和检验这个概念时所采用的操作才能加以确定（布里奇曼, 1927）。前期的研究是操作性定义的前提和依据，下操作性定义就是怎样描述变量与测量变量，即采用可观察、可测量、可操作的特征来界定变量。通过前期的文献研究可知，对美术素养操作性定义的研究付之阙如，因此对其研究就显得尤为迫切。本研究采用常用的下操作性定义的方式，首先分析变量的概念性定义，其次根据概念性定义，明确变量的本质特征，最后采用恰当的方法，根据研究需要将变量本质特征具体化、操作化（赵军, 周玉清, 2011）。

美术素养的操作性定义是对美术素养概念的具体化，美术素养是比较抽象复杂的概念，并且在不同的情境下的表现也是千变万化的，在下操作性定义的过程中，不能将美术素养的所有因素都测量出来，但是必须保证操作性定义基本能够反映美术素养的固有特性。首先，美术素养的内涵指向个体在美术活动中表现出对观念、情感、事物的观察与探询。其次是在过程中观测要点感知、表达、联结和鉴赏方面的表现，综合来说是知识、技能、品格的水平。第一、根据操作性定义界定的步骤，学生美术素养概念性定义限定为学生在美术情境中的各个环节表现水平的价值判断，表现为在感知、表达、鉴赏、联结层面所体现过程与结果之间的价值表征。第二，确定变量的本质特征。美术素养在于通过制作可视物体来建构、传达意义，把美术作为交流思想的重要工具，特点在于整合智力、情感和身体技能。第三，运用指标描述法将变量本质特征具体化、操作化。因此本研究认为美术素养的操作性定义，即：第一，从更广泛的信息源中寻找、选择、统整信息，把握信息的形式特征；第二，运用美术知识与技能，使用各种媒材将内化的信息、感受、情感等内容表现为可视化的作品；第三，基于具体问题，用美术知识、技能与思维方式，对跨学科问题和生活中的实际问题形成解决方案。第四，运用对比、分析、阐释等方式对美术作品教学分析，理解与尊重文化多样性。

2.测评指标的征集、抽取、发散和收敛

指标的征集，采用访谈与问卷结合的形式进行，首先选取义务教育美术课标组成员、高校美术教育研究者、特级教师、教研员进行访谈。围绕美术素养的内涵、意义以及在我国义务教育美术课程标准及美术教学现状下从哪些方面进行测评等问题进行。对访谈的结果进行要素分析，结合对义务教育美术课程标准（2011）进行解读，制定初步指标。随后进行问卷调查请专家们根据自己的理解在初步指标选项上做认同度调查。另外设计了开放性问题“您认为除了问卷中总结的指标外，还有哪些要测量的内容？以及您认同的指标应该如何才能测量”等问题展开。

指标抽取是建立在访谈与问卷调查的基础上，根据指标的内涵与所属关系分为主要素和次要素，并通过规范性的陈述将要素表述为适合小学生美术素养测评的具体指标。具体而言，欣赏与文化传承为主要素抽取为审美鉴赏一级维度，内容的知觉与美学原理的体验以及对文化的传承与诠释为子要素；制作与表达为主要素抽取为美术表达一级维度，规划、调查、主旨为子要素；跨学科思维与创新思维维度为主要素抽取为创意联结一级维度，综合、联系、关联、解决问题为子要素；感知、识别为主要素抽取为感知识别一级维度，观察、辨别、感知为子要素。

指标发散过程主要是依据可观察、可操作、可测量性依据一级指标的涵义对子要素进行分解，进而形成二级指标。例如，感知识别一级维度是小学生美术素养的基础，感知的首要行为是对信息的抓捕，形成整体的印象，然后根据学生的期望、需求、习惯和态度对感知到的信息进行转换，进而从图像中获取有用的信息，因此可以分为图形感知和图像识别两个二级维度。美术表达一级维度是小学生美术素养的主要外显形式，表达的第一步是通过理解、想象等过程，明确表现主题、意图、情感走向或者是明确亟待解决的问题，形成结构化的创作意向；其次是能灵活运用线条、形状、形体、空间、色彩、明暗、质感等视觉元素，运用均衡、重复、对比、节奏、比例等构成形式通过意象符号丰富艺术形象，并构成一个有意义视觉框架，由此可以发散出主题构思和形式表达两个二级维度。创意联结一级维度是美术素养与外界联系纽带，主要表现为了解美术与其他学科及生活的关系，能够将美术思维与其他知识技能相融合，形成跨学科、跨知识群思考的意识，能以独特的视角看待周边事物，能创造性地解决生活中的实际问题，由此可以发散出创想构建和实践运用两个二级维度。审美鉴赏一级维度是美术素养内化于心的阶段，是美术素养的进一步巩固和发展，学生基于图像信息所表达的意蕴和情感特征，领悟美感的特质、认知与表现方式，增进生活的丰富性与美感体验完善审美知觉能力，美术来源于生活而高于生活，美术从文化中衍生，最终也是要促进文化的发展，主要对文化的传承与认同，由此可以发散出审美知觉与文化认同两个二级维度。

指标收敛是指修改和删除含义重叠或与所属上级指标关联程度不高的同级指标，以达到同级指标相互独立并与上级指标涵义一致的目的。例如，“审美鉴赏”包括审美知觉与文化认同两个二级指标，然而虽然这里的知觉更多的是指向认知层面，但是容易和感知识别维度里面的初级知觉混淆，也不容易区分并有一定的重复性，因此将其修改为“审美阐释”。在此基础上形成了小学生美术素养测评指标体系初稿。

3.指标的修订与认同度调查

经过多轮征求意见，专家和一线教师对测评指标体系认同度较高，同时对部分指标表述的规范性以及指标划分的合理性和测评的可操作性提出了具体的修改意见，根据修改意见本研究对指标体系进行了多次修订与再次征求意见。具体而言，一级指标划分中对感知识别维度，是否能测以及是否存在，有专家提出修改意见；二级指标主要存在部分指标划分后重叠、与认知心理学有较大的差异，与儿童艺术心理学有较大的差异，综合意见后修改3 项指标；观测点主要存在描述不清晰和重叠的问题，还存在着二级指标修订进而涉及观测点的调整，主要涉及5 项指标修改。

为进一步检验“小学生美术素养测评指标体系”的适切性与科学性，对高校美术测评领域权威专家以及一线美术教师进行了实证调查。结合学生美术学习特点，我们编制了“小学生美术素养测评指标体系认同度问卷”，通过问卷星平台定向发送给美术教育领域研究人员，调查了京、沪、渝等20 个省份以及国外的高校专家、教科院所研究人员、一线教师，共回收有效问卷643 份，其中包含高校专家17 份、高级教师71 份、一级教师221 份。专家对感知识别、美术表达、创意联结、审美鉴赏四个维度认同度的平均值分别为92.2%、95.3%、96.4%、94.6%，其中感知识别下的图形感知和图像识别指标的认同度平均值分别为93.31%和92.42%，美术表达下的主题构思和形式表达指标的认同度平均值分别为94.56% 和95.96%，创意联结下的思维建构和实践运用指标的认同度平均值分别为95.49% 和96.43%，审美鉴赏下的审美阐释和文化认同指标的认同度平均值分别为94.87%和87.93%。由此可以初步判断所构建的小学生表现素养测评指标体系是基本合理的。

4.小学生美术素养测评指标体系的确定

国内关于小学生美术素养测评的本土化研究不多，并且并未涉及到权重赋值的工作，需要对其进行赋值研究。本研究采用主观赋权法和客观赋权法结合的方式进行赋值，以确保指标权重更加准确。本研究首先征求了19 位美术教育专家关于指标的权重赋值意见，经过一致性检验后确定各指标的主观权重。其次，使用本研究获得的测评数据进行熵值法计算客观权重。最后，合并主客观权重，确定小学生美术素养综合权重值，如下表1，在前期研究的基础上构建了小学生美术素养测评指标体系。四个一级指标的综合权重值的作用在于说明哪个指标在表征美术素养时相对重要一些。这四个综合权重值将用于计算学生总体美术素养水平的IRT 分数，具体而言，通过IRT 模型得到学生在各一级指标（维度）上的能力估计值之后，将各能力估计值乘以相应权重再相加，用公式表示成：Y=0.288*X1+0.278*X2+0.255*X3+0.179*X4，其中Y 表示学生总体美术素养水平，X1-X4 分别表示四个一级指标的IRT 能力估计值。

表1 小学生美术素养测评指标体系

三、小学生美术素养测评工具的开发与检验

（一）测评工具的开发理论依据

在教育和心理学领域中，人的潜在心理特质（如态度、能力等）通常无法直接观察得到，只能通过相应的刺激使个体展示出能体现该潜在特质的外在行为表现（戴海琦, 罗照盛, 2013）。教育测验通常是通过给学生呈现一套测验题目，根据学生在测验题目上的作答情况来推测学生的潜在特质。美术素养测评的难点在于，学生创作的艺术作品是一个有意义的对象，反映了自身的艺术价值和审美意图，并为观赏者提供了感官感知和欣赏，涉及到深层次的动机和学生与环境之间的互动等不可直接观察因素（Dorn, 2014）。IRT 通过非线性的数学函数将可观察到的应试者外部表现和不可观察的潜在特质或能力之间的关系给予刻画，较为合理地反映了学生外在的美术作品和其潜在美术素养间的内在关系。经典测量理论虽然也可以通过测试对学生能力进行测量，但由于其理论体系上的先天不足，因而具有许多局限性，如只含有一个测量误差，导致误差估计的不精确性和笼统性，另外，题目难易估计值受不同能力水平的学生群体的影响，当学生群体的整体能力水平较高时，题目难度较低，反之难度较高。IRT 在潜在特质的测量上则更加科学，如IRT 框架下，各测验题目对于不同潜特质水平均有相应的测量误差给予表征，有利于研究者判断估计结果的准确性，再者IRT 框架下的题目难易估计值则不依赖于学生群体。因此，项目反应理论可更加科学地用来揭示所观察到的学生测试表现背后所反映的不可观测的潜在特质或能力。

由于反映学生美术素养的测试表现难以用正确与错误这种客观题型进行评判，而应使用多级计分形式进行评判，而等级反应模型（Graded Response Model, GRM）适用于主观题的多级评分形式（康春花,孙小坚, 曾平飞, 2016, 2017），即每道题的测评结果具有三个及以上等级的试题，是多级记分模型中应用最广的模型之一，因而可以用于对美术素养进行测评。GRM 假设每道题有一个区分度和多个难度等级，且每道题各个等级上的难度值单调递增。

GRM 假设，学生在第i题上得k及以上等级分数的概率为：

学生得分属于第k个等级的概率为：

其中，K为题目等级数，D为常数，通常为1.702，ai为题目i的区分度，bik为题目i在第k等级的难度，θ表示学生的潜特质水平，Pk(θ)表示潜特质水平为 θ的学生在题目i上达到得分等级k及以上的概率，P*k(θ)表示潜特质水平为 θ的学生在题目i上刚好得分等级为k的概率，学生得0 分及以上的概率为1（即P(x1≥0|θ)=1），而得K+1 及以上等级的概率为0（即P(xi≥K+1|θ)=0）。

（二）测评工具的编制与修订

一般而言，同一试卷中部分试题测量的是某一主要潜质，另一部分试题测量另一主要潜质，即一个试卷可以分解成若干个单维量表（雷新勇, 2007）。本研究根据确定的小学生美术素养测评指标体系进行试题研发，在分析美国“国家艺术核心标准”（National Arts Standards）、“国家教育进步评价”（National Assessment of Educational Progress）与澳大利亚昆士兰学习管理局（Queensland Studies Authority）的试题，并筛选出与本研究合适的题目，进行翻译、校对，同时根据测评指标体系组织一线教师、教研员出题。本阶段共搜集到45 道试题，经过多轮的讨论、反馈、修改，最终确定了包含30 道测试题的《小学生美术素养测评工具》，对象是针对五年级学生。测评工具采用闭卷作答、彩色印刷，测试时间为40 分钟。

经过两轮试测与试题修订后，最终保留25 道试题，形成了《小学生美术素养测评工具》。测评工具测试学生在感知识别、美术表达、创意联结、审美鉴赏四个维度上的潜在特质，每个维度所对应的题号具体情况如表2。

表2 小学生美术素养测评工具结构表

（三）工具质量验证

为了检验所编制的测评工具的科学性，本研究在广东省深圳市、重庆市、河南省南阳市各随机选择7 所小学共410 名学生进行预试，对美术素养测评工具的质量进行初步验证，其中，城市学校11 所，乡村学校10 所。

研究得到测验的克隆巴赫α 系数为0.753，表明了测验内各题目一致性程度较高；此外，四个子维度的克隆巴赫α 系数分别为0.79、0.73、0.74 和0.76。由此可知，测验中的试题在整个测验和各子维度上均具有较高的信度。效标效度是指试卷的得分与某外部效标之间的一致性。选择教师对学生美术素养的等级评价（优、良、中、差）作为效标进行效标效度检验，结果发现教师评价等级与试卷评价等级两者之间的相关系数为0.504，并且通过了显著性检验，以此得到试卷的效标效度较好。

IRT 参数方面，研究将使用R 软件中的mirt 包进行模型参数的估计，其中，学生能力水平使用期望后验（expected a-posteriori）进行估计，而题目参数则使用期望-最大化算法进行估计。学生参数的估计结果显示，感知识别、美术表达、创意联结、审美鉴赏维度上男生能力均值分别为-0.076、-0.141、-0.108、-0.087，女生能力均值为0.080、0.151、0.107、0.084，显然，在四个维度上女生的表现均比男生好，且经过独立性T 检验后证明男女生表现差异显著；感知识别、美术表达、创意联结、审美鉴赏维度上城市学生能力均值分别为0.181、0.148、0.126、0.141，乡村学生能力均值为-0.107、-0.086、-0.077、-0.093，显然，在四个维度上城市学生的表现均比农村学生好，且经过独立性T 检验后证明城乡学生表现差异显著。因此，测验能够很好地检验出不同群体中的异质性。

预测试中的题目参数将用于估计题目和测验信息量，IRT 使用题目信息量来反映试题信度，而使用测验（维度）信息量来反映整个测验或维度的信度。信息量是指测验题目在评价学生特质水平状态时所提供的信息的确定性水平，信息量越大代表测验提供的关于学生潜在特质水平的相关信息越多，测验的信度也就越高。图1 呈现了预测试中四个一级维度的信息量（该维度下所有题目信息量的加总），由图可知，感知识别维度上各题目对于感知水平在-3.9 到1.2 之间的学生可以提供2.38 及以上的信息量，此时，学生素养水平的估计准确性能够达到中等及以上水平（Baker & Kim, 2017），说明当学生对美术的感知识别水平在-3.9 到1.2 时，这些题目可以为学生提供较为准确的能力估计值；美术表达维度上的题目对于美术表达水平在-4 到4 之间学生可以提供比较多的信息量(2.38 以上)，因而这些题目适合测量美术表达水平在-4 到4 的学生，并且在-1.9 到2.6 之间的所提供的信息量达到4 以上，可见当学生的美术表达水平在-1.9 到2.6 之间时，所估计的学生美术表达水平的标准误在0.5 以下（为信息量，θ 为素养水平）；而创意联结维度上的题目对于美术创意水平在-3.3 到1.2 之间学生提供了比较多的信息量，因而适合测量美术创新水平在-3.3 到1.2 的学生；最后，审美鉴赏维度上的题目对于美术审美水平在-1.9 到3.5 之间学生提供了比较多的信息量，故这些题目适合测量美术审美水平在-1.9 到3.5 的学生。综合各维度的总体信息可知，对各个美术素养水平的学生来说，该美术素养测评工具中有合适的试题为其提供较多的信息量，故测验在估计学生各维度的素养水平时可以提供较高的信度。

图1 四个一级维度的测验信息量

四、小学生美术素养测评工具的应用

（一）测试实施与数据处理

本研究在全国进行了美术素养测评工具的大范围应用。研究在重庆市、广东省深圳市、四川省成都市、河南省南阳市、贵州省遵义市各选择3 个区（县），每个区（县）抽取8 个学校进行施测，共抽取120 所小学的3 770 名五年级学生参加测试。剔除空白卷及作答异常卷后，有效学生为3 695 人，有效率为98%。

本研究使用GRM 分析数据，采用R 软件中自带的mirt 包实现模型参数估计，其题目参数和学生参数的估计方法与预测试时的方法相同，最终可以得到各道题的难度参数和区分度参数以及学生的潜在美术素养水平。

（二）模型拟合和题目拟合情况

模型和数据之间是否拟合关系到后续估计结果的有效性问题，故在具体分析题目和学生参数之前，先对模型和数据间的拟合情况进行分析，由于研究具有比较大的样本量，传统的基于卡方分布的统计量在大样本情况下很容易出现显著情况，故研究使用RMSEA、SRMSR、CFI 和TLI 四个绝对拟合指标来刻画模型和数据间的拟合情况，其中RMSEA 值在0.08 以下、SRMSR 值在0.05 以下，CFI 和TLI 值在0.9 以上时，说明模型和数据之间的拟合度较好，四个维度的整体拟合结果如表3 所示。四个维度下的RMSEA 均在0.08 以下，而SRMSR 均在0.05 以下；此外，感知识别和审美鉴赏两个维度在TLI 和CFI 两个指标上的表现相对较差，二者在CFI 上的表现较为接近临界值（0.9），但在TLI 上的表现则离临界值较远；美术表达和创意联结两个维度则在TLI 和CFI 上的表现比较好。总体而言，四个维度的模型拟合情况比较理想（RMSEA、SRMSR 和CFI 值较好），说明研究所用的模型可以较好地拟合数据。

表3 各维度下模型-数据拟合情况

各题目的拟合情况将使用RMSEA 进行表征，其结果如表4 所示。有5 个题目的RMSEA 值在0.05 以上，但所有题目的RMSEA 均未超过0.08，说明这些题目的拟合情况均比较好，题目可以较好地拟合研究中所采集到的三千多名学生的作答反应情况。

表4 25 个试题的区分度值及各个难度等级的难度值

（三）测验试题的难度与区分度分析

此外，在IRT 中，题目难度参数b 表示能力连续体（如从-3 到+3）在各测验题目上呈S 型的正确作答概率曲线在拐点处所对应的能力值。难度的取值范围大体在[-3, 3]之间，难度值越大，则题目的作答难度也越大。本研究中，难度值1 表示学生得且仅得1 分的难度值，难度值2 表示学生得且仅得2 分的难度值，以此类推，难度值5 表示学生得且仅得5 分的难度值。所有25 道题目中，五个分数对应的难度值最大分别为0.067、1.665、3.617、4.583、5.887，最小分别为-5.027、-4.063、-2.650、-1.800、-1.630。难度值1 中共有10 个题目的难度低于-3，难度值2 中共有3 个题目的难度低于-3，难度值3 中共有4 个题目的难度高于3，难度值4 中共有3 个题目的难度高于3，难度值5 中共有6 个题目的难度高于3。25 个题目的难度值3 大小范围为[-2.650，3.617]。综上，试题难度分布范围较广，可对水平很高和很低的学生进行测试，使得整套试题能够较为全面反映学生的能力状况。

（四）小学生美术素养整体情况

测验总分平均为55.013 分，标准差为11.903。测验得分集中于50 分到68 分，测验分数分布如图2所示，其偏度为-0.63，峰度为0.54，正态分布检验（Shapiro-Wilk 正态性检验）结果显示，该测验得分为负偏态分布，得高分的人数相对较为集中。

图2 学生美术素养测验总分分布情况

研究计算了学生作答与题目之间的拟合情况（即学生拟合情况），学生拟合将同时使用infit 和outfit 拟合进行评估，当两个指标的值在0.7 到1.3 之间时，说明学生拟合良好，否则学生拟合较差。研究结果表明在感知识别维度上，有3 622 名学生的拟合情况良好，在美术表达维度上，有3 598 名学生的作答拟合良好，在创意联结和审美鉴赏两个维度上，分别有3 576 和3 512 名学生的拟合情况良好。由此可见，整体而言，绝大多数学生在测验题目上的作答能够较好地体现其潜在美术素养水平。

IRT 框架中，为保证模型可被识别，通常假定学生的潜特质分布服从标准正态分布，此时其均值为0，方差为1，此处的潜特质即为学生美术素养水平。但经过实际数据的不断校正，样本中学生能力估计值的均值和标准差跟假定的值将有所出入。基于实证数据得到的学生在感知识别、美术表达、创意联结、审美鉴赏四个维度上的素养情况如表5 所示。就平均值而言，学生在四个维度上的平均素养水平差异不大，在-0.001 到0.005 之间，均在0 附近，可见，学生在四个维度上的素养处于平均水平；就标准差而言，学生在四个维度上的素养水平标准差在0.675 到0.762 之间，说明学生在美术素养各个维度上水平差异度不大。获得学生在四个一级维度上的素养水平后，通过公式Y=0.288*X1 + 0.278*X2 + 0.255*X3 +0.179*X4 可得到学生的总体美术素养水平，其中Y 表示学生总体美术素养水平，X1-X4 分别表示四个一级指标的IRT 能力估计值。结果显示，学生总体美术素养水平的均值为0.004，标准差为0.55，中位数为0.07，偏度和峰度分别为-0.54 和0.51；正态性检验的结果表明学生总体美术素养水平不符合正态分布，与原始总分分布相同，亦为负偏态分布。图3 呈现了不同素养水平区间上的学生分布情况，由图可知，约有1 400 名学生的总体美术素养水平在0 到0.5 之间，有1 000 多名学生的总体美术素养水平在-0.5 和0.0 之间，素养水平在-1.0 以下和在1.0 以上的人数比较少。可见，绝大多数学生的总体美术素养属于中间水平[-1, 1），美术素养水平突出和不足的学生比较少。

图3 IRT 框架下学生总体美术素养水平分布情况

表5 小学五年级学生美术素养水平在各个维度的基本情况

五、分析结论

自从2015 年教育部颁布《中小学生艺术素质测评指标体系（试行）》以来，各级教学与研究机构都对学校艺术素质测评进行了研究，但由于缺乏从可观察、可测量视角出发的学生美术素养内涵把握，测验编制过程中对测量学问题的思考不足，对相关测量学技术的应用程度不够（易晓明, 2018），导致当下学生美术素养测评工作陷入了困境，测评结果出现偏差。基于项目反应理论的工具开发就成了扭转这种现象的重要手段。

（一）项目反应理论为科学的研制小学生美术素养测评工具提供了可行路径

当下大多数的美术素养测评工具都是由学科专家研发。学科专家大多数缺乏教育测量学的知识，也缺乏对试卷的质量进行验证的研究方法，很难保证命题工作的科学化、规范化，经常出现出题人觉得题目简单但是很多学生却作答错误的现象（张兆远, 陶剑, 2018）。测评工具作为检验学生学习水平的重要载体，是评价工作开展的基础，凭主观经验建构的试题，有相当大的随意性和不可控性，虽然也能够对学生的美术素养水平进行一定的判断，但是很准确描述学生美术素养发展水平。本研究使用的《小学生美术素养测验题》通过项目特征曲线来综合展示各项目分析的结果，直观地对题目的难度、区分度和学生能力水平等进行科学把控。采用项目反应理论建构了测验试题，对学生美术素养试题的反应与其潜在特质之间的关系进行了测量，用项目反应理论函数对测试者的多个特质进行分别的推断，得到每个应答等级的难易程度，以及哪些题目上哪些群体的学生更容易出错，进而得到不同学生在不同维度上的掌握情况，较为全面地对学生的美术素养水平进行了监测，了解了不同类型学生的美术素养水平差异。

（二）项目反应理论是建立基于计算机的美术素养测评题库的有力保障

为了保证学生美术素养监测的科学性、公正性，学生美术素养测评逐步进入了人们的视野，适用于不同目的的考试也逐渐增多，对试题质量的要求也逐渐增强，题库的建立迫在眉睫。题库是指按照一定的教育测量理论在计算机系统中实现某个学科试题的集合，是严格遵循教育测量理论，在精确的数学模型基础上建立起来的教育测量工具（余胜泉, 何克抗, 2000）。经典测量也可以提供项目的难度与区分度，但是只适合于特定的群体（余嘉元, 1992），使用项目反应理论可以更客观地得到试题的区分度、难度，以及学生的能力参数，即便在不同的群体中使用的时候数据也具有可比性，可以以此作为试题命制的标准，为建立适用于大规模测评的试题库打下基础。

（三）美术素养测评工具的推广需要建立教育评价研究共同体

当下对测评工具质量的把握存在两张皮的现象，关注与测评理论研究的人员往往在高校，缺乏一线教学经验，而进行学科试卷开发的人员多是教研员，前者缺乏学科领域的知识，后者缺乏测评理论素养。就测评技术来说，虽然项目反应理论所采用的试题参数不受样本的影响，并能为学生提供不同的能力估值，但是由于其需要有要较为深厚的统计学功底，同时还要运用多个软件来进行辅助研究，一线教研员和教师都缺乏相关的数据处理能力，故而很难在一线大规模运用。要改变当下美术素养测评的现状，需要建立由学科专家、测量专家共同参与的研究团队来对测评工具的科学性指标进行不断修正，从而保证测评工具的有效性、公正性和全面性。本研究基于项目反应理论对小学生美术素养的测评工具的研究还很肤浅，但是期望能作为引玉之砖，期盼更多的美术教育工作者和教育统计学同仁推动美术素养测评的研究“淡化形式，注重实质”（宋乃庆, 陈重穆, 1996），避免测评工作流于形式。

（李健工作邮箱：541206550@qq.com）