区域教育质量评估学业工具的研发

2018-08-30孙婷婷温红博

中国考试 2018年6期

李丹孙婷婷杨涛温红博柯李

（北京师范大学，北京 100875）

为落实《国家中长期教育改革和发展规划纲要（2010—2020年）》的要求，进一步全面推进区域素质教育实施，评估区域所在政府近年加大了教育经费的投入力度，对区域教育发展采取了一系列的改革与保障措施。区域所在教育部门为科学评价教育改革和保障措施的有效性，准确把握改革实施与预期目标的达成情况，切实了解中小学办学质量与水平的变化，2013年启动中小学办学质量评估项目，连续3年对中小学办学质量进行独立第三方的追踪评估。本研究借鉴国内外学业质量测评工具的研发经验，结合区域测评目标与需求，设计了区域学业质量测评工具，以期为提高区域教育质量提供参考。

1 国内外学业质量测评工具的发展趋势

自20世纪60年代以来，一些国际组织和国家相继启动了对大规模基础教育质量的监测探索。其中，最具影响和代表性、参与国家最多的是国际学生评估项目（Program for International Student As⁃sessment，PISA）、国际数学和科学成就趋势研究（Trends in International Mathematics and Science Study，TIMSS），其他具有较大影响的国家监测项目是美国国家教育进步评价（National Assessment of Educational Progress，NAEP）、泛加拿大计划（Pan-Canadian Assessment Program，PCAP）、新西兰国家教育监测项目（National Education Monitoring Proj⁃ect，NEMP）、英国KS1～KS3国家课程评价、法国基础教育质量测评体系、中国基础教育质量监测项目（Collaborative Innovation Center of Assessment toward Basic Education Quality，CICA-BEQ）、日本全国学力调查（National Assessment of Academic Ability）等。

随着测评理论和技术的完善，国际大规模教育质量测评也在不断发展，虽然不同国际组织和国家的测评理念、测评目标各不相同，但在学业测评工具的设计上呈现出一些共性和发展趋势。

1.1 测评领域

国际测评项目基于学生终身发展的需要，评估主要集中在数学、科学、阅读3个核心领域，不同评估项目略有差异。如PISA从2000年开始，每次测试都涵盖这3个领域，只是侧重点不同：2009年以阅读素养为重点测试领域[1]，2012年以数学素养为重点测试领域，2015年则以科学素养为重点测试领域。TIMSS每次都以数学、科学作为重点测试领域[2]。国际教育成就评价协会（International Associa⁃tion for the Evaluation of Educational Achievement，IEA）2011年开展国际阅读素养进步研究（Progress in International Reading Literacy Study，PIRLS）测评，以全面了解学生阅读水平及发展趋势。

各国为了对学生整体学业水平的发展状况有比较全面的了解，均结合本国课程设置体系。虽测评领域各不相同，但大多数国家的测评领域均覆盖学生学习的所有或若干个学科，基本都包含阅读、数学和科学。如美国NAEP涵盖了阅读、数学、科学、写作、美国历史、公民、地理和艺术，其中阅读和数学是各州必测的领域；法国国家测评包括科学、数学、口语和写作、外语、社会态度、社会学习6个领域；新西兰NEMP包括科学、视觉艺术、信息能力（图像、表格、图表与简图处理能力等）、语言（阅读与口语）、语言（听力、理解与写作）、技术、音乐、数学、社会学习、健康与体质教育10个领域[3]。

1.2 核心目的

教育质量的内涵是多方位、全过程、多角度的，其核心直接指向学生的学习结果，即学生所获得的知识和认知能力，并认为能在学生的实际生活中体现这种学习结果才是基础教育质量的关键。因此，基础教育质量测评的核心目的是对学生在学校学习中发展的核心素养进行测评，以帮助解决“教育应培养什么样的人”的问题[4]。

PISA以“素养”为测试核心，其中对数学素养的定义为个人在不同情境下用公式表述、使用和解释的能力，包括数学推理能力和使用数学概念、过程、事实与工具来描述、解释以及预测现象的能力；科学素养是指作为公民参与科学技术相关事务的能力，包括解决生活中与科学技术相关的问题以及具有科学探究的意识、进行科学反思等；阅读素养是指学生具有为了实现个人的目标、发展个人的知识和潜能以及参与社会活动，对文本的理解、使用、反思和参与的能力[5]。

PISA以素养为核心的理念对各国基础教育质量测评产生了重要影响。各国都试图在教育领域建立核心素养结构，以指导本国的教育实践。例如，根据经济合作与发展组织（OECD）的经验，核心素养被概括为人与工具、人与自己、人与社会3个方面。新西兰构建的核心素养在人与工具方面是指运用语言、文字符号的能力，在人与自己方面是指交流能力、自主管理能力、思维能力，在人与社会方面是指参与和贡献的能力，并据此教育目的开展NEMP国家基础教育监测[6]。

1.3 测评框架

国际组织和国家在开展基础教育质量测评时，学业测评大多包含内容维度和认知过程2个基本维度以及与学生学习相关背景的问卷调查，以全面了解学生的学业和发展水平。

PISA对素养的测评包含了情景、内容（或知识）、过程（或能力）3个基本维度。例如，2012年的数学测评框架为：数学内容考查了变换和关系、数与代数、空间与几何、概率与统计4个方面；数学情景是指题目的情境材料，涉及职业、个人、公共、社会4个方面；数学过程是指学生作答该题目所需要运用的加工过程，涉及问题数学化、应用和解释3个方面[7]。

TIMSS数学包含内容、认知过程2个维度，科学包含内容、认知和科学实践方法3个维度。例如，2015年针对4年级的数学测评框架，数学内容包含数量、几何图形与测量、数据呈现；认知过程主要考查学生的理解、应用和推理。针对8年级的测评框架，数学内容包含数、代数、几何、数据与概率；认知过程也考查理解、应用和推理[8]。

1.4 题目类型

学生学业成就测评试卷主要由客观题和主观建构题构成。客观题是指题目答案不依赖评卷人员和考生的意志而客观存在的，且具有唯一答案的测试形式，题型有选择题、判断题、连线题等形式[9]。主观建构题是指考生必须组织文字、数字、图形等材料回答问题，包括填空题、简答题、作文题、数学计算与证明题、科学实验题等形式[10]。

PISA以选择题、封闭型试题、开放型试题为主，3种题型使用的比例相当。选择题有标准答案，属于客观题；开放型试题采用双位编码评分标准对学生的可能回答进行水平划分，与封闭型试题同属主观题。TIMSS试题主要为多重选择题和主观建构题。多重选择题是从多个选项中选择一个正确答案，主观建构题则要求学生分析解释、提供证据。NAEP的试题类型包括多项选择题、问答题和新题型。

1.5 测试形式

随着信息技术的广泛应用和测评技术的发展，大规模教育测评项目已由纸笔测试为主逐渐转向计算机化测试。PISA在2009年首次采用计算机进行阅读测试，经过2012年和2015年的不断完善，已由以纸笔测试为主向以计算机化测试为主转变。2015年参与计算机化测试国家的比例高达79.17%[11]。计算机化测试便于模拟真实情境，能够开发更丰富的测试题型，同时能够记录和收集过程数据，了解学生认知过程，完善评估结果。

TIMSS于2015年开始使用IEA Online Survey System软件，为参与国提供在线调查以及管理学校、教师和家长问卷，不仅节约了印刷成本和时间，而且提高了问卷发放、数据录入和整理的效率。从2019年起TIMSS将在正式测试中引入计算机化测试[12]。

NAEP在2009年引入人与计算机交互任务的科学测评新题型，2011年引入基于计算机的写作测试。科学测评要求学生在计算机创设的虚拟情境下，根据计算机的提示逐步完成包括信息搜索和分析、实验探究、模拟实验和概念图4种类型的任务，通过记录人与计算机交互过程的信息，达到良好的评估效果[13]。

1.6 测评工具的跨年度设计

随着测评的开展，分析学生学业质量发展变化的趋势成为大规模测评的重点。为此，国际大规模测评在测评工具设计和数据处理方法上进行了大量的探索。

为了满足学业测评内容的覆盖范围，实现不同年度间测试结果的可比性，国际学业测评工具主要采用多题本设计和共同题设计。例如，TIMSS 2011年数学与科学有14个题本，共28个组块，其中16个组块的题目作为不同年度间锚题，在2015年的测试中继续保留，与新命制的12个组块，组成2015年的数学和科学共14个题本。PISA 2012共有13个题本，其中271道试题作为年度间的锚题，在2015年的测试中保留，与新命制的99道题目构成了2015年测试的50个题本，共计370道题[14]。

2 我国开展区域学业质量测评工具的设计

2.1 测评领域

国际经验表明，阅读、数学、科学是基础教育学业质量监测的主要领域，这些领域的素养是学生未来发展的必备基础。具体来说，阅读素养涉及理解书面文章的含义，根据文章类型、目的与情景，恰当使用语言。良好的阅读素养为学习其他课程奠定基础，是吸收古今中外优秀文化，提高思想文化修养，促进自身精神成长的基石[15]。数学素养是指顺利完成数学活动所具备的、直接影响其活动效率的素质。数学是人类文化的重要组成部分，数学素养是现代社会每一个公民应该具备的基本素养，对培养人的思维能力和创新能力具有不可替代的作用[16]。

在我国义务教育阶段，语文和数学是重要的学科，9年的课时数占全部课时数的33%～37%[17]。本研究选取我国北方某市下辖的市辖区，该区地处山区，区域所在教育部门以“加强基础教育工作，以农村教育为重点推进义务教育均衡发展”为职责，对区域教育发展采取了一系列改革与保障措施，但相比城区仍较为薄弱。选择从语文、数学入手，可以切实了解区域中小学办学质量与水平及其变化的真实状况。因此，学业测评选取了语文和数学2个领域。

2.2 测评框架

借鉴国内外学业质量测评经验，结合我国《义务教育语文课程标准（2011年版）》、《义务教育数学课程标准（2011年版）》、区域使用教材及教学现状、遵循学科知识体系及特点、教育与心理测量学的要求以及区域测评的具体需要，确定测试框架包括内容、认知过程2个维度。其中，内容维度主要依据课程标准、教材分析，认知过程主要基于布鲁姆的教育目标分类法，并加以修改。

语文测试分为语言要素和阅读素养2部分。其中，语言要素主要包括学生的识字量和词汇理解，阅读素养分为文学性文本和信息性文本；认知过程包括获取与检索、整合与解释、鉴赏与评价3个方面（见表1）。数学测试内容包括数与代数、空间与图形、统计与概率3个部分，认知过程包括知道事实、应用规则、数学推理和非常规问题解决（见表2）。

2.3 题目分布

测评试题主要依据测试框架和课程标准的要求编制，不仅考查学生对基本知识和技能的掌握程度，而且考查学生的认知能力。此外，试题基本以实际生活情境为背景。

以2015年监测为例，四年级、五年级、七年级和八年级的数学测试每年级2个题本，语文测试每年级1个题本，涉及所有的内容维度和认知过程，试题分布如表3和表4所示。

表1 语文测试框架

表2 数学测试框架

表3 语文测试题目分布

表4 数学测试题目分布

2.4 题目类型

学业测评题型包括客观题和主观题，客观题具有客观、高效、覆盖面广等优点；主观题便于考查学生的理解分析能力，了解学生作答思路和认知过程。从国内外教育质量测评的发展过程来看，客观题无法代替主观题，主观题也无法代替客观题。

在区域学业质量测评试题中，客观题与主观题并重，语文测试题型包括填空题、选择题2种题型，分别约占52%和48%；数学测试题型包括选择题、填空题、解答题和作图题4种题型，分别约占74%、13%、9%和4%。

2.5 测评工具的设计方法

区域学业质量测评共进行了3年，测试分4次进行。2013年测试四年级和七年级学生，作为前测，建立评价基准。2014年测试四年级和七年级学生，2015年测试四年级、五年级、七年级和八年级学生，2016年测试四年级、五年级、六年级、七年级、八年级和九年级学生。学业测评不仅报告每年参加测试学生的基本情况，还对2013—2016年学生能力发展变化进行分析比较。

借鉴国际大规模测评中跨年度比较的技术方法，区域学业测评工具采用了多题本设计和共同题设计的方法，以适应区域的特点。例如，数学测试每个年级每年有2个题本，不同年度之间设置一定比例的共同题，并根据测试框架的要求，对共同题的题型、内容分布等进行合理设置。

3 区域学业质量测评工具的特点

3.1 充分结合区域测评目标和实际情况

纵观国外基础教育质量测评实践，其主要目的是提供有关教育质量、尤其是学生学习结果的信息，以促进国家基础教育质量整体水平的提升。区域所在教育部门启动与实施中小学办学质量评估项目，目的在于了解区域中小学办学质量水平及其变化的真实状况，包括学生学习结果的状况，不同区域、不同群体之间的差异状况，学生能力的发展变化情况等。

在借鉴国外经验的基础上，学业测评工具充分考虑评估区域的实际需要和发展状况，如在确定测试领域时，通过选取义务教育课程中的重要科目反映区域学生发展的基本状况；测评框架制定时除了考虑课程标准的要求、区域使用的教材版本以外，还强调对学生能力的考查，通过制定清晰、明确的能力指标，指导试题的命制。语文测试在兼顾识字量的基础上，注重考查阅读能力；数学测试在兼顾基础知识和基本技能的基础上，注重考查解决问题的能力。这些做法使学业质量测评能够比较准确地反映学生的能力发展变化，为区域提供更加丰富的学生发展信息。

3.2 适应区域学生的发展状况

试题命制是学业测评的重要环节，为此，聘请了具有丰富命题经验的学科特级教师、优秀教研员和大学教师。他们不仅参与了试题命制，而且通过多轮测试对题目进行了筛选和修订，使试题既符合测试框架的要求，又具有良好的测量指标，符合区域学生的实际情况。如以2015年语文测试为例，试题难度分布趋于正态，区分度良好，各年级试卷的内部一致性系数均在0.90以上，结构效度指标（RM⁃SEA）均小于0.05，比较拟合指数（CFI）和非规范拟合指数（TLI）在0.90附近，满足了测试对信度和效度的要求，保证了测试结果的准确性和可靠性。

3.3 满足对不同年度测试结果比较的需要

区域教育质量测评项目历经3年，不仅能提供每年的测试结果，而且还能反映出3年的发展变化情况。具体来说，以2013年为基准，利用项目反应理论模型估计学生能力与项目参数，将2014年、2015年和2016年的量尺分数等值到统一的量尺上，使分数具有可比性。测试结果报告不仅给出区域各个学校在语文和数学领域每年的测试结果，而且展现出3年的变化趋势，对各个学校的基本情况形成了相对全面、综合的呈现。

随着测评理论的完善、信息技术的广泛应用，区域学业质量测评还有许多需要改进和探索的方面。从现有大规模教育测评的开展情况来看，国内外测评主要是从宏观层面对学生的学习和发展有了比较全面的了解，测评结果多为教育政策和方向提供借鉴。未来学业质量测评可进一步发挥工具的诊断性作用，从微观层面上对学生的知识和技能以及情感进行诊断和预测，为实现因材施教提供依据。此外，学业质量测评应逐步采用计算机化测试，计算机不仅在测试问卷发布、数据采集等方面便于收集和管理，而且能够在题目呈现方式上引入视频、色彩、图画等多媒体技术，实现题目形式的多样性、互动性。