学业增值评价探索过程中应关注的几个问题*
2022-03-17张青华
张青华
2018 年9 月,习近平总书记指出,要深化教育体制改革,健全立德树人落实机制,扭转不科学的教育评价导向,坚决克服唯分数、唯升学、唯文凭、唯论文、唯帽子的顽瘴痼疾,从根本上解决教育评价指挥棒问题。2020 年10 月13 日,中共中央、国务院引发《深化新时代教育评价改革总体方案》(以下简称《教育评价方案》),明确要求坚持科学有效,改进结果评价,强化过程评价,探索增值评价,健全综合评价,充分利用信息技术,提高教育评价的科学性、专业性、客观性。到2035 年,基本形成富有时代特征、彰显中国特色、体现世界水平的教育评价体系。可见,增值评价的理论与实践研究已经成为当前教育评价改革的重要任务。
一、增值评价研究现状
增值评价起源于20 世纪六十年代美国的学校效能研究,其研究的目的是更客观、更科学地评估学校、教师在学生成长进步过程中的作用。近三十年来,增值评价在美国、英国、中国香港等地得到较为广泛的应用。1992 年美国田纳西州开发了田纳西增值评价系统(Tennessee Value Added Assessment System,简称TVAAS),对测试型课程进行增值评价,2012 年又开发了学生成长档案袋模式(Student Growth Portfolio Models,简称Portfolios)对非测试型课程进行评价,TVAAS 和Portfolios 两者互为补充[1]。英国从1992 年开始探索增值评价,到2002 年在英格兰和威尔士推广,2006 年在全国实施。英国增值评价的技术由最初的控制背景因素的多水平模型,到目前在中学和大学过渡学段(16-18 岁)增值评价中保留多水平模型,在英格兰地区基础教育增值评价则采用简单的均值计算方法[2]。我国的香港特区政府2000 年建立香港学校增值资料系统(Schools Value Added Information System,简称SVAIS),采用多层模型为学校提供年度增值评价研究报告[3-4]。
国内近二十多年来对增值评价进行了多方面的研究与实践应用。增值评价的研究主要有两方面:一方面应用增值评价方法进行实证研究,如马晓强(2006)对河北省保定市普通高中学校的增值实证研究[5],王家美(2009)对江西省上饶市30 所高级中学语文学科进行的教育增值评估实证研究[6],杜屏(2011)对基于我国西部五省调研数据的农村初级中学学校效能的增值性评价实证分析[7],王帅鸣(2020)基于成长百分等级模型开展增值评价的实证研究[8]等;另一方面对增值评价模型方法进行探索研究,如万兵涛(2019)教学质量增值评价中数学模型的选择与应用[9],周园(2020)教育增值评价中嵌套数据增长百分位估计方法探析:多水平线性分位数回归模型的应用[10]等。国内增值评价在研究探索的过程中也进行了实践应用,如天津赵彤璐(2014)利用大规模考试数据开展学业增值评价[11],苏州罗强(2020)利用义务教育阶段监测数据进行增值评价[12],还有温州、北京等地也都开展了增值评价的一些探索性实践应用。
二、学业增值评价探索中应该关注的问题
学业增值评价是以学生的学业进步程度作为尺度依据,间接地对学校、教师帮助学生学业提升的程度进行评价。它是对学校效能、教师绩效进行评价的方式之一。由于它是对学生的学业水平进步程度的评价,充分考虑了学生学业水平变化过程中的前因与后果的关系,因此与结果评价相比(对学生最终的学业水平的绝对高与低进行评价),能够更为客观、更科学地反映学生的学业发展变化,能够更公正地评价学校、教师在学生学业变化过程中的作用。
就目前国内增值评价的研究与发展的现状而言,对于增值评价的探索应该是多方面的。一方面应加强对德、体、美、劳增值评价的探索。学校对于学生的效能不仅限于学业的传授,还有在德、体、美、劳等方面对学生的全面塑造。由于德、体、美、劳很难通过可操作性、可量化的工具——测试来进行评价,因此国内在这些方面的增值评价研究相对较少。针对德、体、美、劳增值评价的现状,除借鉴国外在这方面有关经验之外,还需要结合国内实际教育情况进行方法与实践的探索研究。另一方面加强对学业的增值评价探索。虽然近二十多年来国内对学业的增值评价进行了诸多的研究与实践应用,但并没有得到大规模广泛的开展。在学业增值评价由理念、研究、走向实践应用的探索过程中,需要探寻实现理念的方法和有效途径,需要思考诸如学生学业用什么工具来测量,测量后用什么方法来计算学业的增长,如何对学业增长的情况进行判断(评价指标体系的设计),以及在实践中对评价的结果如何解释、科学恰当地使用等。以下就学业增值评价探索过程中需要关注的五个主要方面的问题进行探讨。
(一)学业测验工具的科学、有效性
学业测验工具是进行增值评价的基石。用于增值评价的测验质量,即测验能否对学生的学业发展变化进行科学、准确的测量,是影响学业增值评价结果的科学性、可靠性和准确性程度的重要影响因素之一。从教育测量学的角度而言,学业测验质量至少包含了四个层面的内涵:第一测验工具的信度,即测验的测量结果具有一致性、稳定性及可靠性。第二测验工具的效度,即测验是否能够测出所要测的目标,如学生的学科知识、能力、核心素养等。第三测验工具应具有合理的总体难度,以及合理的难度结构,能够将不同层次水平学生的真实水平测量出来。对于学业增值评价而言,测验的对象是广大的学生群体,在学生的学业水平差异程度较大的情况下,如果测验难度结构不合理,试卷难度过于容易,高水平学生都会作答,会导致无法测量出他们的真实水平。而试卷难度太大,会导致低水平学生作答不出来,也无法测量出其真实水平,从而使增值评价的结果不可靠。第四测验的试题具有较好的区分度。依据测验的测试目标,每道试题能有效区分相应层次水平的学生,从而使测验对不同学生水平达到预定的区分效果。因此用于增值评价的学业测验应该具有高质量,从而保证学业增值评价结果的可信、可靠。
(二)学业增值评价模型的局限性
增值模型是进行增值评价研究与应用的核心技术。目前国内外增值评价采用的主要模型有多层线性模型、学生成长百分等级模型(Student Growth Percentile)等。无论哪一种增值模型都不可能解决所有的问题,或多或少会有一定的局限性。如多层线性模型的优点是通过排除影响学生学业变化的学校以外的背景因素(个人背景、家庭社会经济等),纯粹获取学校教育对学生进步的影响。它强调的是学校的“净效应”。然而影响学生学业变化的学校之外的因素一方面不可能穷尽地找到,另一方面也存在能否收集到这些因素的数据。而且,模型本身的两个假设——线性和方差齐性,实际数据未必一定都能够满足。学生成长百分等级模型的优点在于考虑了不同水平学生群体在其相同起点水平群体中各自的学业增长幅度。它是通过计算一名学生在水平相似的一组学生中相对位置的变化来对“成长”进行评估的。模型假设与考生起始水平相同的群体在第二次所得的分数呈正态分布,当参与评价的学生群体数量并不大时,实际数据并不一定能满足该假设。因此在进行增值评价研究或实践应用时,选择或开发模型要充分考虑实际可操作性(模型考虑的有关变量是否可收集到)、评价结果的准确性(模型可能带来的误差量)、评价结果的可理解性(模型得出的评价结果是否通俗易懂)、评价结果的运用目的(用于高风险问责或用于改进)等诸多方面的因素。
(三)学业增值评价指标体系设计的科学、合理性
学业增值评价通过其模型能够计算出每名学生的增值量,进而获得学校、班级的增值量。如何通过模型计算的增值结果对区域、学校、班级、学生进行评价,需要设计评价的指标体系。指标体系设计的合理与否关系到学业增值评价的目的是否能够实现,能否保证评价的结果对不同评价对象公平公正。
在设计学业增值评价指标体系时一方面要考虑评价结果的使用者是谁,不同的使用者(全市、区域、学校的行政领导),他们的需求、关注点是什么,有什么不同。例如,对于全市教育行政领导而言,可能更关注整体的学业增值情况,以及各区域整体增值情况。对于学校而言,可能更关注各学科的增值、不同教师的增值、不同起始水平的学生增值有何不同,以及如何通过增值评价提供的有价值信息,发现教育教学中存在的问题,从而改进教育教学。因此针对不同的使用者,增值评价指标体系的设计侧重点应该有所区别,同时在设计指标体系时要考虑对使用者而言指标体系是否科学、能否提供有价值的信息、是否简单易懂便于使用。另一方面要考虑设计的指标体系对于被评价者而言,是否科学、公平,如不同层次水平的被评价者,他们增值对应的参照群体设置是否合理等。
(四)学业增值评价结果使用的谨慎性
目前,国内外对于学业增值评价结果的使用主要有两方面:一方面用于学校效能、教师绩效的问责;另一方面根据增值评价的结果,研究影响学校效能、教师绩效的因素,对学校、教师的教育教学进行改进。无论增值评价的结果是用于问责,还是用于改进,应该充分认识到学业增值评价是利用学生学业进步程度的结果,间接地对学校效能、教师绩效进行评价。测验工具的信度、效度无论有多高,对学生学业真实水平的测量仍会存在测量误差;无论采用什么最优的模型,都不可能把与学校无法控制的因素穷尽地纳入模型,从而达到无偏估计。由于数据收集、模型等因素存在随机误差、系统性误差,因此对于学业增值评价的结果需要客观、谨慎地使用,尤其是用于学校、教师高利害的问责,学业增值评价的结果应该作为问责的依据之一,而不是唯一依据。
(五)数据收集、管理、分析信息化构建的系统性
学业增值评价从研究到实践应用,首先都会面临有关数据的收集,诸如学生个人的纵向成绩和有关的背景信息、学校、班级等信息;其次信息收集后需要进行储存、管理、运用;再次根据研究或应用的需要,进行相应的数据统计分析,最后得到增值评价的分析结果或报告。在整个学业增值评价研究的探索和实践应用过程中每一步都离不开信息系统的支撑,需要全面考虑实际情况,系统地进行设计和构建增值评价所需要的信息收集、管理、分析系统,为学业增值评价的开展提供有力的信息技术保障。
三、结语
国内二十多年对增值评价的研究一方面传播了增值评价的先进理念,另一方面基于理念在实践中进行了积极有益的尝试和探索。然而增值评价在国内并没有形成大规模的应用,其原因是多方面的:第一,用于增值评价的数据资料获取不易。目前国内用于增值评价的主要是中考、高考、国家义务教育监测、区域阶段性监测等考生测验数据。这些高质量的测验数据主要由国家、不同省市的教育考试机构掌握,对这些数据的使用需要具有一定的权限。独自开发用于增值评价的测验,一方面人力、物力、财力成本很高,另一方面会加重学生的测试负担。第二,增值评价的模型有关问题。首先国内外常用模型都具有较严的模型假设,而现实收集的数据资料并不一定能很好满足模型的这些假设;其次模型的计算较为复杂,需要专业人员;再次模型计算的结果对于许多增值评价结果的使用者而言较难理解。第三,用于增值评价的指标体系过于笼统,从而导致增值评价结果无法满足用于改进教育教学的需要。目前国内的众多研究还处于使用不同的增值评价模型对同一批学生两次测试数据计算出学校的增值量,进而与按最终测试成绩进行的结果评价的排名进行对比。这样的研究结果虽然比结果评价更为客观、合理,但与改进教育教学的目标还有差距。
实现增值评价由理念到广泛应用,在目前国情条件下可以考虑:一方面加强高校与省、市教育考试机构的合作,充分发挥高校专业人员的科研优势、教育考试机构的数据资源优势,共同协作。另一方面完善增值评价指标体系,细化区域、学校、班级及其不同层次水平学生的增值结果,为实现增值评价的教育教学改进功能提供科学、客观、有价值的依据。同时,还要加强对使用者的增值指标专业知识的培训,只有使用者能够理解,增值评价才能得以推广使用。此外,为实现增值评价应用目标,还应加强信息化系统团队的构建。增值评价从最初的数据收集到最后评价结果报告输出,每一步都离不开信息化系统,信息化系统既需要财力支持,也需要专业的测量、统计、计算机等专业人员通力合作,这是一般的研究者无法单独完成的。