APP下载

高等教育增值评价的研究进展

2022-09-26

教学研究 2022年5期
关键词:测试评价学校

姜 华 王 淼

(大连理工大学 高等教育研究院,辽宁 大连 116024)

2020年,中共中央国务院印发《深化新时代教育评价改革总体方案》,方案指出,要扭转不科学的教育评价导向,坚持科学有效,改进结果评价,强化过程评价,探索增值评价,健全综合评价,提高教育评价的科学性、专业性、客观性。其中,增值评价成为对学生进行学业评估的重要手段和内容。当前高等教育评价忽视了对作为教育主体的学生学习与发展成效的评估,不能体现“以学生发展为本”的教育理念,不利于促进学生发展。增值评价通过对学生学业成就进步程度的测量与分析,进而对高校教师教学质量、高校人才培养质量进行评估,更好地发挥教育评价的作用,促进高等教育评价朝着全面又公平的方向发展[1-2]。

1 增值评价简介

“增值”本身是经济学中的一个术语,也被称作“附加值”。对增值进行测量与评价即增值评价的内涵。研究者们对高等教育领域的增值评价有着不同的看法。美国高等教育评估家阿斯汀提出:学生从入学到毕业期间各方面发生的变化都是增值评价关注的焦点,这些变化包括思维方式、认知水平、人际交往等[3]。他认为,学生的培养质量是大学办学水平高低的根本指标。学校教育质量的高低取决于学生在校期间各方面产生“增量”的大小。高等教育所带给学生的“增值”体现在学生在经过大学教育之后,对其走出校园后的生活及工作所带来的积极影响,对这种影响程度的评估即增值评价的内涵所在[4]。上述对于增值评价的理解在整体上基本一致,所谓的“增值”从学生角度来讲,指学生在接受一段时间教育后在知识、技能、能力和其他方面所取得的进步[5];从学校层面来讲,增值也可以定义为学校对学生在一段时间内朝着既定的教育目标前进所作出的贡献。增值评价则是对这种变化程度进行测量与评价,以此来评估学校的教学质量。

增值评价主要有以下特点。

首先,增值评价是一种纵向评价,也是一种过程性评价,这是增值评价最显著的特征。传统教育评价方式往往将某一个时间节点学生的平均成绩或升学率作为评价指标,来衡量教师工作或学校办学的效率。这种横向比较不仅缺少一定的说服力且会造成“唯分数”的弊端。增值评价关注的则是一段时间以来学生的成长进步以及学校的发展变化,其评价结果对学生、教育工作者、学校都更具指导性[6]。

其次,增值评价是一种更为公平的评价。现有的评价倾向于对学生在某一时间点所取得的成绩进行评价,并以此作为学校对学生学习成就的贡献。由于学生入学时的知识和技能水平有所差异,仅以达到某一标准的学生的百分比来评价每个学校对学生成就的贡献是不公平的。增值评价不用同一把尺来度量不同的学生以及办学差异较大的学校,而是基于学生自身的进步程度以及学校教育质量的增值来作出价值判断,体现了教育评价的公平性[7]。

再次,增值评价是一种多元评价。学生的学业成绩往往受到多重因素的影响,每一次成绩都是各种因素共同作用的结果[8]。这些因素包括学生自身的基础水平、教师的教学水平、家庭经济状况、学校办学条件等。增值评价则将多种因素纳入进来,并利用统计分析技术,挖掘学校对学生学业成绩的相关影响因素,得到学校在学生成长发展中的“净效应”,以此衡量学校、教师对学生发展产生的具体作用[9]。

最后,增值评价是一种促进发展的评价。增值评价本身是针对一段时间的纵向评价,其具有跟踪观察的特征,是一种过程性评价。它关注学生、教师、学校的发展,其评价结果对于学生、教师、学校发现问题极为重要,起到一定的引导作用。学生可以从评价结果中看到自身进步状况,及时做出调整,取得更大进步。教师与学校可以利用评价结果更好地掌握学生状况,及时采取措施,改善办学质量。

2 增值评价起源与发展

在20世纪60年代的美国,当时人们普遍认为学校缺乏效率,因此一些学者开始对学校效率问题展开调查,其中以詹姆斯·科尔曼为代表的学者们提出了著名的《关于教育机会平等性的报告》,即“科尔曼报告”。这一报告表明学校对学生学业成就的影响程度不大,也印证了人们的担心。除此之外,原有的评价方式关注横向比较,使得具有较好生源的学校始终具有显著优势,而生源较差的学校,其在学生成长过程中的效应无法体现出来,不利于学校的发展;原有评价方式更加关注结果性评价,以某次考试成绩作为评判学生的标准,这种评价方式造成学生无法得知自己的真实进步情况,也无法计算学校层面对学生学业成就增长的净效应,不利于学生的成长。由于公众对于学校效率问题的关注以及原有评价方式的不足,人们迫切需要一种关注纵向评价的评价方式,从而催生了增值评价在教育领域中的应用[10]。

1983年,美国出台了《国家处于危机之中:教育改革势在必行》报告,这一报告主要针对美国中小学教学质量滑坡、学生学业成就下降的现状,强调各州要开始大力推行教育改革,核心目标就是提升教学质量。为评估教育改革的效果,增值评价开始被使用。1992年,美国田纳西州签署了《教育改进法案》,法案中指出:增值性评价将成为教育问责制的重要一部分。这部法案的颁布使得增值评价从理念层面真正落到实处,标志着增值评价在具体运用上迈出了重要一步[11]。在此之后,增值评价受到了教育研究者及教育工作者的广泛关注,逐渐成为教育评价的一种主要方式。2001年,美国出台《不让一个孩子掉队》法案,明确规定学校评价要使用“年度进步值”这一关键指标,要求通过高标准和效益核定来实现教育平等。到2010年,田纳西州颁布“捷足先登”计划,该计划旨在对中小学教师评价进行新一轮改革,计划明确指出要形成增值性评价与其他评价方式相结合的综合评价模式。增值评价一步步地发展起来。由于增值评价对统计技术的要求较高,其最初在英美等国家发展起来,且增值评价最初应用于美国K-12教育中(基础教育阶段)[1 2 -1 3]。增值评价提出的初衷旨在通过更加精准的统计分析方法解决教师评价中的一些难题。之后教育研究者发现增值评价不仅仅是一种评价方式,更是一种教育理念,增值评价可以解决传统教育中的不足,弥补以往对学生的结果性评价及横向评价的缺陷。此外,还有研究者提出站在学校效能的角度看,增值评价可以从影响学生成长发展的众多因素中剥离非学校可控因素,进一步测量学生在一段时间内的进步程度,从而得出学校对学生成就影响的净效应,促进学校评价更加公平[14]。

3 高等教育增值评价数据获取途径

大学生在高等教育背景中呈现出与基础教育阶段不同的特点,其学习过程与身心发展更加多元化。皮特·尤厄尔认为:“大学生的学习成果是指学生在经过一段时间的学习后,其在知识、能力、思维等方面所取得的进步,包括认知与非认知的收获、心理与行为上的收获。”[15]目前获取大学生学习成果数据可以通过标准化测试与自陈式量表来收集[16]。

标准化测试主要针对大学生的核心认知能力,具有直接、客观等特点。一般来讲,大学生核心认知能力包括批判思维能力、书面交流能力、逻辑推理能力等。目前美国具有代表性的标准化测试有以下几种:《大学学习评估》(The Collegiate Learning Assessment,简称CLA)[17]、《大学生学术熟练程度评估》(Collegiate Assessment of Academic Proficiency,简称CAAP)[18]、《大学生学术熟练度与进步测量》(Measure of Academic Proficiency and Progress,简称MAPP)[19]、《基础学科测试》(Basic Academic Subjects Examination,简称BASE)[20]等。其中,美国的《大学学习评估》(简称CLA)测试对学生的评价主要包括三方面:阅读写作能力、分辨推理能力和问题解决能力,可以在测试中通过模拟真实性情景来考察学生的三种能力,测试中可以为学生提供必要的数据、新闻报刊、研究成果的摘要等内容,学生根据自身需要对材料进行处理后解决测试中给出的现实问题。在学生完成测试后,根据其回答判断学生综合能力掌握的级别标准,通过纵向测试,即入学时和毕业时,或者每一年度进行一次测试,从而完成对学生核心认知能力的增值评价[17]。国际组织也开发出相关的标准化测试,称为《高等教育学习成果评估》(Assessment of Higher Education Learning Outcomes,简称AHELO)[21],该标准化测试不仅可以用来测试通用技能,还可以用来测试不同专业的专业知识与技能。

自陈式量表是根据学生的自我报告来实现的,学生通过问卷等形式对自己在课内外活动中的感受与收获、个体发展情况以及进步情况进行自我陈述和自我评价。当前美国高等教育评估中,使用较多的自陈式量表有:美国大学生学习经历调查(the National Survey for Student Engagement,NSSE)[22]、全美大学生满意度调查(National Student Satisfaction Study,NSSS)[23]、大学生就读经验调查(The College Student Experiences Questionnaire,简称CSEQ)[24]、《加州大学本科生就读经验调查》(University of California Undergraduate Experience Survey,简称UCUES)[25]等。

有研究者认为标准化测试不能全面反映学校对学生发展变化所产生的作用,其忽略了学生的家庭背景、经济状况、自身经历与学校特征对学生学习成果的影响;自陈式量表则弥补了标准化测试的缺陷,将影响学生发展变化的诸多因素纳入考虑。由于自陈式量表基于学生的自我汇报,一些研究者认为其准确性可能会受到影响,并且可能存在低回收率的问题。因此,在增值评价数据收集时,应充分考虑以上两种方式的结合,尽可能保证数据的准确性与完整性[26]。

4 高等教育领域的增值评价模型

高校在对学生的相关数据进行采集之后,则会面临技术问题。这一问题就是如何对所获取的数据进行分析。增值评价中分析数据的主要工具为增值模型,其是在统计分析技术基础上设计的。教育中使用的增值模型与基础教育阶段使用的增值模型在许多方面有所不同,这是因为学生的发展情况与数据的可用性不同。基础教育阶段所使用的绝大多数增值模型都是基于多年来对同一学生和同一科目相关的纵向数据开发的。这种带有重复测量设计的纵向方法在高等教育中很少见,目前在高等教育增值评价计算中主要采用横截面设计,即接受测试的大一新生和大四毕业生并非同一组学生。以下是高等教育中使用的四种不同的增值模型,四种模型对增值分数的详细计算各不相同,但它们均为横截面设计[27]。

4.1 残差模型:基于OLS线性回归的方法

如上所述,所谓“增值”是指大学教育对学生学业成就所带来的积极影响。从实证研究角度来讲,“增值”主要体现为横向研究中不同年级学生群体间的差异,残差模型则是通过学生学习成果的平均变化值与方差来表示增值的幅度大小及其变异程度[28]。

普通最小二乘(OLS)回归方法首次用于2004~2005年的美国大学生学习评估(CLA)中。

OLS线性回归模型是将大一学生和大四学生的平均学业增长与具有类似入学学习能力的学生群体作比较,即是否接近或高于“预期”考试分数或总体平均测试。

为了衡量“预期”考试成绩,该模型将大一和大四学生当前的平均考试成绩(在美国一般采用CLA标准化测试成绩)分别对他们的平均入学能力成绩(如SAT平均分)进行回归。OLS线性回归模型的典型公式为:

(1)

变式为:

(2)

该模型的优点是依赖于OLS线性回归模型和简单的减法,易于实现,结果也相当直观。此外,与纵向设计相比,采用横断面设计进行增值测量的成本更低,可行性更高[2 8,3 1,3 3]。

但是,该模型在使用中存在一些问题:第一,由于该方法的计算是在学校层面上,这样会忽略学生层面的相关信息,可能会造成结果的不准确性。第二,该模型使用时是将不同类型的学校集中在一起进行增值分析,而忽略了学校本身的特征。不同学校对于学生的学业成就产生的影响也不尽相同,该模型未将学校特征作为影响因素纳入分析中。

4.2 差值模型:基于HLM的方法

多元线性回归法是分析一个因变量与多个自变量之间线性关系最常用的统计方法,也是估计观测值与期望值之间残差值的标准统计技术。与上述基于OLS线性回归的模型一样,该模型同样根据残差的差值计算各学校的增值分数。然而,该模型不同于OLS线性回归模型,该模型采用了多层方法[33],采用二级HLM(层次线性模型)来计算大一学生成绩和大四学生成绩的残差。考虑到学生是嵌套在学校内的,学生的成绩会受到不同学校特点的影响,因此增值模型需要反映分层的数据结构,并在评估每个学校对学生学术成就的贡献时考虑学校特征的影响。

HLM模型分两级:第一级的分析单元是学生,每个学生的考试成绩都是以一组个体特征的函数来表示的。第二级的分析单元是学校,每个学校的1级回归系数被认为是因变量,假设这些因变量取决于不同的学校特征[34]。

该模型的简单版本如下。

第一级(学生):

(3)

第二级(学校):

β0j=γ00+γ0sWsj+u0j,

(4)

β1j=γ10,

(5)

其中,γij表示学生i在学校j中的考试成绩;SATij表示学生i在学校j中的入学成绩;SATj表示j学校SAT成绩的平均分;β0j表示学校j目前的平均成绩(第一级的截距);β1j学生入学学业能力得分的第一级回归斜率;εij表示假设残差是正态分布且独立于第一级协变量;Wsj表示学校j的制度特征;γ00表示第二级截距;γ0s表示学校特征的二级回归斜率;u0j表示假设残差是正态分布且独立于二级协变量。总残差由两部分构成:即总残差=εij+u0j。该模型采用多层模型来反映高等教育中嵌套的数据结构,从而更精确地测量学校效应[30]。

该模型弥补了基于OLS线性回归的差值模型的不足,将学生层面与学校层面同时纳入分析,一方面HLM考虑到群体水平的差异,可以更好地估计个体效应。另一方面,其充分考虑学校因素对于学生成绩的影响,可以获得更加准确的增值成绩。

上述两个增值模型,都是通过计算新生和大四学生成绩残差的差值来衡量学校的增值分数,即通过“观察到的”平均测试分数减去“预期”测试分数得到的。换句话说,这两个模型关注的是各学校入学新生和大四学生的学业增长量,并将学校的学业增长量与所有学校录取的入学能力相似的学生的总体增长量进行比较。

4.3 剩余分析模型:基于HLM的方法

剩余分析模型比较的是每所大学大四学生的平均考试成绩(如CLA测试),而不是新生和大四学生之间的分数差。该模型通过控制入学学生的学术能力(如大四学生的入学能力、大四学生的SAT平均成绩等),根据大四学生的平均考试成绩超出或低于预期成绩的程度来测量增值分数[31]。例如,如果某学校的大四学生在成绩测试中比其他学校有类似学术能力的大四学生成绩更好,那么就可以说该校学生的学术能力增长超过预期,该校教育增值程度更高。

为了探究制度对学生学术成就的影响,该方法结合了两个层次的分析。在第一级,分析单元是学生,大四学生当前的考试成绩是关于学生入学学术能力分数(如SAT分数)的函数。在第二级,分析单元是机构,每个学校的第一级回归系数是因变量。

第一级(学生):

(6)

第二级(学校):

(7)

β1j=γ10,

(8)

该模型提高了分析学校特征对于学生学业成就影响的可靠性与准确性,但使用该模型时需要较大的样本量,若样本量不足,测量出的增值结果会产生偏差[35]。

以上三个模型在使用时都需要对学生进行标准化测试来控制学生的初始学业成就水平,这就要求标准化测试具有普遍性以及全面又合适的考量指标,否则模型将无法使用。此外,若要大范围开展增值评价,则需要对标准化测试进行统一设计与认定,标准化测试的内容与考核方式需有严格的标准与规定,确保考试的准确性与公平性,避免对增值分析产生影响。不同的学校应采用相同的标准化测试对学生进行考核,这样对学校进行评估时才具有可比性。

4.4 异方差多维层次线性混合模型(HMHLM)

该模型旨在对学生多方面成绩进行联合增值分析,并探究它们之间的内在相关性。马丁等人使用哥伦比亚大学数据库,对多维增值模型进行了探究[36]。其中学生成绩包含以下几个方面:定量推理、批判性阅读、英语语言、公民能力和书面交流。该模型的开发是基于矩量法的。所收集的数据包括两类:一类是学生入学时参加的入学考试成绩;另一类是大学毕业时参加的国家考试成绩。每一门考试都包含几个方面(例如,定量推理、批判性阅读、英语等),将它们称之为模块。

该模型的一个基本结构公式为:

假设用Ymj=(Y1mj,Y2mj,…,Ynjmj)T表示j学校中m模块最终成绩的nj个向量,则对于每所学校来讲,多维模型表示为:

E(Ymj|Zmj,γmj)=Zmjβm+γmjιnj,

(9)

其中,Ymj表示学生j在模块m中的考试成绩;用Zmj表示大小为K的列向量,它包含了入学考试的分数和所有其他协变量,包括可能的截距;γmj表示随机变量,用来解释M测试分数中存在的异质性,它不能用观察到的学生和大学的特征来解释;lnj=(1,1,…,1)T,表示1的n维列向量。

该模型相比于其他模型的优点在于:之前的增值模型只对一维分数进行计算,但不同的学校在培养学生时,会根据他们对理论训练和实践训练的重视程度而有所不同。因此,为了对评估学校的增值指标做出公正的判断,该模型可以基于所有可衡量技能的分数进行增值测量,使得评估更加细化、更加全面公平。

5 使用增值评价模型时存在的问题

在使用增值模型对学生的学业成绩增值进行评价时,往往有很多无法排除的干扰因素可能会造成结果的不准确。因此,如何尽可能控制这些因素的干扰成为目前需要解决的问题。以下是几种可能的干扰因素。

(1) 学生的动机:当考试结果对学生的学术地位或毕业没有什么影响时,学生缺乏在考试中表现良好的动机,可能会对考试分数的有效性和考试结果解释的准确性产生一定影响[3 7-3 8]。如果一所学校中学生的动机普遍较低,那该校在学生学业成果增值性评估中产生的增值分数就更低[3 9-4 1]。为了避免这样的问题,学校必须制定适当的机制,利用各种激励手段鼓励学生,提高参与率,让学生以积极的态度对待考试[42]。

(2) 学生的流动性:高等教育的学生往往会改变课程,如休假甚至中途辍学等,这导致很难跟踪学生数年。不同学校的学生流动率各不相同。当一所学校的学生流动性大于其他学校时,增值模型所产生的学校效应可能存在偏差。例如,一些学生可能在考试之前离开学校,或者在学校的时间不足以纳入分析,那么学校对这类学生学业成绩的增值效应无法体现出来。因此,有必要考察增值模型中学生流动率如何影响学校对学生成绩影响的测量,并寻找合适的方式来反映模型中各学校的学生流动率水平[43]。

(3) 增值分数的波动:在增值模型中最重要的问题之一是学校效应的稳定性[30]。当然,学校对学生成绩的影响每年都会有所不同,但如果学校效应发生了根本性变化则会导致一些问题。如果学校效应每年波动很大,那么学校对学生成绩的影响程度就很难具备说服力。因此,在选择增值模式后,应检查每个学校每年的增值分数之间的一致性。如果增值分数在各年之间发生了根本性变化,则应考虑哪些因素造成了这些变化,并将这些因素纳入到增值模型中。此外,样本量会影响增值模型的准确性,要保证一定的样本量才可以得出较为准确的数据[44]。

6 对我国高等教育增值评价的启示

《深化新时代教育评价改革总体方案》明确提出了探索增值评价。然而我国教育领域引入增值评价的时间并不长,对高等教育领域增值评价的研究目前大多停留在理论层面,相关的实证研究较少,且所用的增值评价模型引自国外,本土对增值模型的开发处于起步阶段。面对这些现状,应从以下方面着手。

(1) 以增值评价促教育公平。2020年国务院政府工作报告中提出要推动教育公平发展和质量提升。教育公平包括起点公平、过程公平及结果公平。在推进教育公平的举措中,除强调教育资源配置公平外,评价方式不同也会对教育的公平性产生影响。评价方式更关注过程公平与结果公平,关注教育本身所带给学生的收获和影响。以往教育评价方式与指标侧重于学校办学条件、教师教学能力、学生考试成绩和升学率,而忽略了学生个体的获得与进步程度,造成教育评价的不公平。增值评价提供了一种新的教育评价理念,以教学效果作为衡量学校教育效率以及教师教学能力的指标,这对于现有评价中的“弱势学校”更加公平。教育的本质是促进学生发展,增值评价以学生的学业成绩进步程度为指标,能使学校更加关注学生发展,从而提高教育质量,更好地促进教育公平。

(2) 构建完善的增值评价体系。首先,评价理念落实到实践需要有完善的体系支撑。增值评价可以从影响学生学业成就的诸多因素中剥离出学校效应的影响,得到学校对学生影响的“净效应”,因此指标的合理性至关重要。评价前需要对影响学生学业成就的因素进行全面分析,选择出合理的指标。其次,增值评价对数据的依赖性强,需要对样本数据进行纵向长时间追踪,这就要求有强大的数据采集工具支撑,开发增值评价适用的教育大数据中心。此外,增值评价对于数据的处理分析大多通过统计分析模型来实现,要开发更加准确的增值评价模型,并且在实施时选择最适合学校特点的模型,以促进评价结果的准确性与公平性。

(3) 调动多元协同评价。目前增值评价在我国还没有大规模推广,应调动各方积极性、整合多方力量开展和参与增值评价。高校可以从两个方面来入手:一方面,学校内部应充分调动学生参与评价的积极性,学生的积极性会直接影响数据的准确度,并且在选择指标时应充分听取学生意见,确保评价指标的全面性。另一方面,学校应联合校外技术部门以及教育相关部门共同实施评价,在获得技术支持之外,相关教育部门应对评价过程起到一定监督作用,以确保评价过程的公正进行。

(4) 科学把握评价结果,合理利用评价结果。评价的最终目的是给出反馈,引导发展。评价结果需要具备一定的科学性与准确性。应当建立问责监督机构,对评价结果进行监督与反馈,从而规范学校行为,引导学生发展。对于高校来讲,教师应对评价结果进行充分分析,发现问题与优点,从而改进教学过程,及时引导学生。学校可以鼓励学生根据评价结果撰写分析报告,使学生对自身学业成绩有更加清晰的了解,并且培养学生的自我反思能力。学生的反馈结果也可作为调整评价指标的重要依据。对于相关教育部门来讲,应充分对评价结果进行剖析,将评价结果作为制定相关教育政策的来源与依据,促进教育公平公正发展。

猜你喜欢

测试评价学校
SBR改性沥青的稳定性评价
幽默大测试
“摄问”测试
“摄问”测试
“摄问”测试
学校推介
基于Moodle的学习评价
奇妙学校
保加利亚转轨20年评价
多维度巧设听课评价表 促进听评课的务实有效