外语教育评估视域下的大学课堂评估与启示
2019-06-04穆罕默德阿拉维
王 玮 穆罕默德·阿拉维
(德黑兰大学外国语学院,伊朗德黑兰 1417466191)
为了全面贯彻党的教育方针,深化大学英语教学改革,根据《国家中长期教育改革和发展规划纲要(2010—2020年)》和教育部《关于全面提高高等教育质量的若干意见》等文件精神,教育部大学外语教学指导委员会制定了《大学英语教学指南》,成为我国大学英语教学的纲领性文件。《指南》明确指出,要实现从传统的“对课程结果的终结性评价”向“促进课程发展的形成性评价”转变[1],切合外语测试正在经历的范式转变。范式是一系列相互关联的概念,是我们认识和理解特定问题和活动的框架。
一、心理测量的特征和缺陷
心理测量(Psychometrics)从智力测试中发展而来,用于测定固定的个体属性。智力是天生恒定的,同其他遗传特征(如肤色)一样能够被观察到,通过测试结果可将个人划分为不同的智力集群。心理测量是常模参照测验,用来测量个人与其他同伴的表现并打分。心理测量模式是基于一系列传统技术工具的标准化测量,如信度和效度。如果要将不同的个体进行比较,就需要确定测试是否在同一个地方进行,评判标准和解释成绩的方式是否相同。
心理测量理论强调客观性和科学性,产生的数据准确度较高。被测试者通过这种测试方式得到的结果具有强大的标记潜力。但是,这种心理测量范式基于两个假设:第一,普遍性假设。心理测量分数对所有人具有相同的含义,这意味着一个标准化写作测试中获得相同分数的被试者拥有相同的写作能力;第二,单维性假设。在心理测量理论中,测试项目应该测量单一属性。与总分相关性高的选项被认为区别性好,与总分相关性较低的选项区别性较差,通常会被删除或修改。这种基于因子分析技术评判测试的方法旨在测量一个潜在因子,然而这种方法把被测属性人为简单化了,因为许多属性实际上是多维的。如果一系列原始的选项被用来测量两个及以上的属性,由于与总分的相关性低,不占优势的附属属性的选项最终会被剔除。由于我们需要测量多个属性和技能,这种强制性的、单维性的测试结构是不合逻辑的。1950年代,心理测量在教育领域被质疑。批评者认为对于学业表现差的儿童,应该考虑教育、教学等方面的问题,而不是家庭及父母的问题。同时,基于统计分析的心理测量要求标准化的测试,不可避免地忽略了信度和教师的有效性[3]。
二、心理测量模型的范式转变
Wood[2]8-10提出了教育测量(Education Measurement)的概念。与心理测量相比,教育测量旨在将每个学习者视为独立的个体,具有以下六个特点:
(1)涉及相对于自己而不是他人的成就;
(2)旨在测试能力而不是智力;
(3)发生在相对不受控的条件下,因此不会产生“表现良好”的数据;
(4)寻找“最佳”而不是“典型”的表现;
(5)放宽标准化测试的规则是最有效的;
(6)体现了评估的建设性观点,其目的是帮助而不是判断个人。
Wood认为教育、培训的“产品”是能力而不是智力。学习成就是教学的直接结果,受教师和教学方法的影响很大,然而智力、天资是不受此类影响的特征;教育测量旨在寻找最佳的表现,而不是典型性的表现。测试者与被试者可以合作,促使学生达到最佳的学习效果,这符合Vygotsky的最近发展区理论(Zone of Proximal Development);同时,测试的结果应对教师的教学产生影响,教师在教育测量中扮演主角,而不仅仅是测试的组织者。教育测量现在更普遍地被叫做教育评估(Educational Assessment),主要是因为测量意味着精确的量化。
评估必须用于支持学习,展示可以模拟的、连贯的、有原则的、以目标为导向的学习者模型,而不仅仅是测定当前或过去的成就。也就是说,评估必须为学生和老师提供“可执行建议”。评估本身必须有用,并且必须关注学生所学的知识和技能。测试不是对学生没有影响的静态活动,学习活动参与者的心理状态在测试结束时会被改变。例如,测试初期成功完成题目可能会增强信心,并影响整体的测试结果。因此,我们应该构建一个更具互动性的评估模型,该模型假设个人在测试期间对项目响应能力是变化的[4]。
三、外语教育评估的特点
(一)评估具有多维性和复杂性
心理测量确定正确选项得分的数量,而不是总体响应质量。基于单一统计概念的分数在许多情况下具有误导性,实际上可能提供“不真实的分数”。教育评估着重于描述学生的表现和成就的“厚度”[5],如Wolf等人所述的“学生表现的差异化肖像”。
(二)评估具有明确标准
外语教育评估的标准比标准参照评价(Criterion-Referenced Assessment)更全面,教师和其他相关参与者都有解释标准范例的义务。教师对学生的学习反馈是评估过程中一个关键因素,教育评估强调实际成就和进步,而不是学生的排名。因而,教师不仅与学生分享评估标准和评估过程,而且鼓励学生在教师地帮助下监控和反思自己的学习表现,使学生成为元认知模式中的自我监控学习者。
(三)高质量的任务
任务的设置要与主题相关,任务要有吸引力。如何才能让学生明白较好地完成任务所需要的条件,同时激发学生的积极性并减轻学生的压力?任务呈现必须清楚、不具威胁性,同时与学生目前的关注相关。只有当学生面对熟悉、亲切的内容和话题时才会产生学习兴趣,才能唤起他们的学习意愿[6]。
(四)教师需要具备评估能力
教师对学生的评估是教育评估的关键组成部分。教师必须了解他们正在评估的结构(设置什么类型的任务);知道学生已经获得的知识(问什么样的问题);如何引导学生表现最佳。为了提高一致性,评分教师需要了解评分类别和与之对应成绩的关系。这可以通过培训向所有教师提供范例和标准来实现,同时阐明技能或概念的性质。教师对学生的评估可以是非正式的,如观察和提问。这种评估是互动的,以便与学生充分接触,并衡量他们对知识的理解程度,以便支持他们的学习过程。
(五)评估是低风险的
在课堂和学校层面发布测试数据会扭曲教育过程并鼓励各种“欺骗”。在传统的高风险测试(High-Stakes Testing)中,老师和学生都无法避免这种情况。如果风险太高将会导致“考什么就教什么”。高风险考试会导致相当一部分学生失败,由于自尊和动机的问题,低分学生会面临辍学的风险。因此,教育评估应明确评估标准、降低测试风险、提供建设性反馈、关注个人表现与标准的相关性,从而提高学生参与的积极性。
四、重新被定义的课堂评估
如今,传统大规模测试和课堂内部评估方法已演变为对心理测量和教育评估两种不同范式的讨论,并且使用的术语也不同。如课堂评估(Classroom-Based Assessment,CBA)与大规模测试(Large-Scale Testing),教师评估(Teacher Assessment)与正式评估(Formal Assessment),促进学习的评估(Assessment For Learning,AFL)与学习评估(Assessment Of Learning,AOL)等。
长期以来课堂评估仅被认为是传统大规模测试的分支。20世纪90年代,师范教育和在职教师教科书开始关注课堂评估,并认为课堂评估是一种独特的范例[7]65,以教与学为重点的评估越来越受到关注。2007年欧洲委员会欧洲现代语言中心颁布的《欧洲职前语言教师档案袋:语言教师教育的反思工具》和美国外语教学委员会与美国全国师资培养认证委员会共同制定的2013年版《美国教师培养课程标准》都要求教师能设计和使用课堂活动监控来评估学生的表现。两份职前外语教师标准都将课堂评估置于课堂教学规范的核心地位[8]。
大量关于课堂外大规模测试方法的研究有助于提高测试质量,并为判断个人语言能力的有效性(如效度理论和信度理论)提供了重要标准,这些标准也可以应用于课堂评估。一般而言,外语教育的重点是大规模测试理论,而不是外语课堂环境和外语教师的角色。随着人们越来越关注建构主义(Constructivist)和社会文化学习理论(Socio-Cultural Theories of Learning)以及Vygotsky的最近发展区理论,课堂评估正在成为一种不同的范例。课堂评估支持更广泛的评估实践,包括那些不太符合“标准”的评估形式,扩大了对“教育学和测量范式”的讨论。不同的学者对课堂评估有着不同的定义,Davison和Leung[9]认为,“所有关于课堂评估的定义旨在强调更多教师参与的、基于情境的、嵌入课堂的评估实践,直接或间接地反对传统的、主要适用于选择或问责目的大规模考试”。课堂评估与传统测试的比较见表1。
文献中与课堂评估同义或结合使用的一些术语还包括动态评估(Dynamic Assessment)、学业评估(Performance Assessment)、诊断评估(Diagnostic Assessment)、促进学习的评估(Assessment for Learning)、真实性评估(Authentic Assessment)等。诊断评估对学习者的优、缺点提供推断依据,并将其用于促进学习的积极变化。诊断评估的依据是当前知识和预期知识之间的性能垂直差异(Vertical Discrepancy),根据知识点的诊断反馈来指导学生[10]。诊断评估对外语课堂中发生的语言学习行为的认知和非认知特征进行微观分析,特别是学生深层思考的过程。
动态评估被定义为评估和指导相结合的交互式评价,其目的是衡量和提高个别学习者的学习潜力,并制定适当的学习策略。动态评估基于三种基本假设:(1)传统测试可能无法捕捉来自不同文化背景学习者的认知发展水平;(2)评估的重点不仅是学习者现在可以做的事情,还是他们将来可以做的事情;(3)评估应与干预相结合。因此,动态评估能够为教师开发满足特定学习者需求的教学干预措施,并提供多种有用的信息[11]。
学业评估系统性地衡量学习者使用先前获取知识的能力。学业评估旨在模拟真实的学习活动、口头和书面沟通技巧、解决问题的活动。将学业评估与真实评估区分开来也很重要,真实的评估是在真实环境中进行的学业评估,是在课堂上自然发生而不是作为特定任务的一部分而产生的。并非所有学业评估都是真实的,但真实评估却是学业评估的一个特例。真实评估的一个例子是档案袋(Portfolio),它包含学生实际表现的记录。大部分学业评估是基于课堂评估开发的,具有诊断和教学的目的。学业评估也可用作大规模测试,要注意以下原则[12]:
图1 课堂评估的过程
(1)详述认知需求、评分标准、学业标准和背景,以确保评估发展的质量;
(2)校准和调整不同评估者的分数,使其具有可比性;
(3)调和不同评估者对学业标准的共同理解;
(4)培训评估者根据商定的标准对学业进行评级;
(5)以适当的评估标准验证和审核评分、评估内容。
课堂评估的操作框架是多样化的。Rea-Dickins[13]提出了“课堂评估的过程和策略”框架,该框架确定了四个主要决策阶段(计划、实施、调整、记录和发布),每个决策阶段都有一些优先关注事项的例子(见图1)。从第一步到第四步并按照严格的线性先后顺序来进行。在第二步的实施中获得的信息可能促使“计划”的修正。第三步的“调整”中包含修改教师的教学计划和学生的学习计划,直接为“计划”的完善提供信息。至于第四步的评估结果发布,则使得形成性评估具有一定的“高风险”[14]。
五、课堂评估对我国大学外语评估的启示
(一)重新思考效度是一个优先性和分配任务的问题
人们普遍认为效度是测试质量的评价标准,并把效度当作“测试产品”自身的属性。Messick认为效度包括构造效度(Construct Validity)和测试使用的社会后果(Social Consequences of Test Use)的证据。教育评估视域下的大学外语课堂评估需要明确测试开发人员、政策制定者和用户的责任[2]170:测试开发人员必须明确课堂评估的建构和适当的测试用途;为了强调大学外语课堂评估的责任,政策制定机构应该评估测试的影响;测试结果的“出版者”必须提供这些信息,以及与个人实际评估相关的背景信息。例如20世纪90年代中后期实施的大学英语四、六级考试改革,将总分转换为级点分并向高校提供所有考生的平均级点分[15]。
(二)发展教育评估中替代传统信度的标准
在传统标准化测试统计方法不合适的情况下,我们需要以同样的方式向所有评估的学生提供测试任务,实现可持续性的一致性;所有教师都以同样的方式解释评估标准;测试使用者根据相同的量规和标准评估学生的表现。这些可以通过培训、自我节制和提供范例来实现。外语课堂评估所要求的可比性与测试使用有关,其他替代传统信度的标准有:课程忠实度(Curriculum Fidelity)、公信力(Public Credibility)、可靠性(Dependability)等[2]172-174。课程要求包括测试构造和测试内容,具有比构造效度更明确指向性的优点。对于高风险测试或问责制测试(Accountability Testing),公信力是一个重要的标准。管理各部门为测试使用者和普通公众提供的结果应是一致的,从一个学校或评估者到另一个学校或评估者是可以比较的。可靠性是“效度和信度的交叉点”[16],课堂评估依靠内容的有效性和可靠性。
这些标准中有些是定性的而不是定量的,因为教育评估视域下的大学外语课堂评估不支持把评估作为一种客观活动或精确的科学。教育评价范式下的转变向政策制定者传递的信息是:即使是为了计量的目的,也需要包括多元的评估类型;构建典型代表,着重考虑评估深度和广度,以提高不同学生群体的公平性;尽可能地降低与评估相关的风险,特别是在教师和学校层面。对于测试开发人员而言,特别是选拔和认证评估,需要更多高质量任务,促进教学和学习的发展。
(三)培养大学教师的评估素养
基于建构主义理论,外语教师不仅是“反思者”“研究者”,还应该是“自我更新者”[17]。任何评估模型、政策或计划最终都是由教师实施的,限制教师在课堂评估中的作用是对教学过程最大的误解。研究者逐渐意识到教师在课堂评估中的关键作用,以及职前和在职教师评估素养(Assessment literacy)的重要性。评估素养是指评估原则和实践的知识和技能,包括理解课堂评估策略、测试开发策略、测试分数解释等。Turner对教师评估“专业性”的研究表明[18],教师愿意推动教学评估的进程来促进教与学和教育体系的完善,但课堂评估和高风险测试不同目标之间的矛盾很难解决,这要求在教师评估素养培训中帮助教师成为代理人,而不是评估实践中的工具。
大学英语教师的评估素养与大学英语教学的效果紧密相关,然而大部分的英语教师在入职前没有接受过专业语言测试与评估方面的训练。即使对于毕业于英语教育专业的大学英语教师,评估素养也不一定能达到实际工作的要求。所以,应加强岗前培训和入职后的继续培训,并建立大学外语专业学习共同体,强调教师间的协作与交流。在技术革命的日新月异的时代背景下,在线外语学习、翻转课堂等逐渐占领英语教学的半壁江山,如何更新新形势的评估知识,成为我们亟待解决的问题[19]。
(四)课堂评估应作为教师和学生之间互动的基础
课堂评估获取的信息能够确定学习者的学习进度,实施时应包括以下内容:有效的提问促使学生参与有关主题的活动;利用反馈来帮助学生理解高质量学习的标准以及他们为达到这一目标需要做的事情;培养同伴评估(Peer-Assessment)和自我评估(Self-Assessment)。大学外语教师应使用多种方法获取有关学习者语言能力的信息,建立学习者档案以支持课堂上的语言学习。
当学生评估自己的学习成果时,会尝试更高的标准,并且愿意将这些标准应用到自我评估中[20]。同伴评估也具有优势,不仅为学生提供识别学习目标的机会,而且帮助他们辨别自己与同学的优、劣表现。我国相关研究表明在大学英语写作教学中开展学生的自我评估和同伴评估是可行的,不同写作水平的大学生适应不同的评价组合,如写作水平高的学生更适合自我评估和同伴评估,自我评估时需要教师适当引导[21]。档案袋是收集学生学习过程中所做的努力、取得的进步以及反映最终学习成果的集合体[22]。档案袋的功能就像是一本相册,包含在不同时间、不同环境下拍摄的各种照片[23]。虽然文献和书籍提供了各种方法供教师选择,但更重要的是在不同背景和文化下如何重新定义。大学教师需要考虑以下问题[7]73-74:
(1)为什么要使用这种方法?
(2)该方法将如何使用?
(3)参与者是谁?
(4)谁是评估者?
(5)如何记录和解释结果?
(6)将产生什么类型的反馈和反思?
(7)在进一步学习的过程中会做出什么决定?
在过去的几十年里,教育经历了诸多革新。特别是信息技术、人工智能在学生的学习生活中发挥了重要作用,改变了我们的教学方式。科学技术的快速发展也为研究方法和研究技术的多元化提供了可能[24]。然而不管用于传授知识的载体是什么,都必须测量传授的知识量和获得的知识量。教师不仅要评估学生的学习,还要评估自己的教学方法,判断什么时候需要巩固教学。总之,大学外语课堂评估适应了《大学英语教学指南》的要求,从传统的“对学习的测试”向“促进学习的测试”转变,将课堂教学、学生参与、教学评估和教师专业发展有机地结合起来。