《国际中文教育中文水平等级标准》背景下国际中文教师测评素养实证研究
2023-01-19王姝娇加拿大麦吉尔大学医学院
王姝娇 加拿大麦吉尔大学医学院
彭 越 上海财经大学外国语学院
提 要 测评素养是中文教师能力的重要组成部分。2021年颁布的《国际中文教育中文水平等级标准》为中文教、学、评提供了科学规范的标准,也意味着对中文教师测评能力素养提出了更高的要求。本文通过问卷调查、工作坊开发设计以及基于工作坊的半结构式访谈,梳理中文教师在语言测评素养方面的理解与实践现状、兴趣点及薄弱环节,并进一步探讨适合培养国际中文教师语言测评素养的路径,以期对中文教师测评素养的提升提供借鉴和参考。
一、研究背景
语言测评是语言教学中的关键环节,语言教师在测评方面的知识背景和实践能力将直接对教学效果产生重要影响。Stiggins 在1991年首次提出了“测评素养”(assessment literacy)的概念,指出测评素养的核心是评估人员需要具备相关专业知识和技能。语言测评素养(language assessment literacy)的概念由测评素养发展而来,并与语言测评理论的发展一脉相承。近年来,语言测评素养逐渐成为国际第二语言教学领域的研究热点,在这一背景下,我国外语教师测评研究和探索也逐渐展开并在近十年内取得了长足的发展。
就汉语作为第二语言教育而言,目前针对汉语教师(或其他利益相关者)测评能力的探讨较为零散,甚至汉语国际教育专业的课程对此领域也缺乏较为科学、系统的介绍(Lin 等,2021)。2021年颁布的《国际中文教育中文水平等级标准》(GF0025-2021)(以下简称《标准》)是一套科学规范、包容开放的全新规范标准。将《标准》落实于日常教学,用以指导教、学、评的各个环节,迫切要求汉语教师提升测评素养,这也为开展汉语教师测评素养研究带来了新的契机。
二、国内外语言测评素养研究现状
(一)语言测评素养基本概念及范畴
Stiggins(1991,1997)将教师测评素养定义为具备测评能力的教育工作者在测评程序中所使用的知识和技能。语言测评素养植根于测评素养,主要指语言测评活动的利益相关群体所应掌握的知识、技能和原则,因具有 “语言”这一学科特征而成为区别于其他测评素养的独立分支。Davies(2008)提出了“知识+技能+原理”的语言(外语)教师测评素养框架。Bierema 和Eraut(2004)、Inbar-Lourie(2008)、Fulcher(2012)则从社会建构主义视角解释语言测评素养,强调知识和意义在社会环境中的共建,由此形成了由“为什么评”“评什么”和“怎么评”共同组成的语言测评素养观。
同时,随着测评素养研究方法的不断多样化,语言测评素养的研究范围也从研究概念本身延伸至如何提高。比如Walters(2010)的实证研究,提倡基于需求分析来设计用于提高语言教师测试素养的内容,进行教材的开发。Taylor(2009)则进一步细化,认为语言测评素养应从八个方面进行提高,包括:理论知识,技术技能,原则和概念,语言教学法,社会文化价值,地方性实践,个人信念以及分数和决策。Brown(2006)开发的自我报告量表是检验教师评估概念较有影响力的工具之一,主要由以测评促教促学、用于分班或选拔目的的测评、用于评估教师或学校价值的测评、与教学不相关的测评等几个方面构成。
近年来,针对我国外语教师测评素养的研究和探讨也逐渐丰富,以综述或书评(如:许悦婷,2013;林敦来、武尊民,2014;辜向东、钟瑜,2017;吕生禄,2019;肖杨田、潘鸣威,2020)和框架构建(如:金艳,2018;张娟娟等,2018;俞婷、宫学玲,2020)等基础研究为主。同时,也出现了教学标准、语言框架、等级大纲等此类等级量表或纲领性文件相关研究(如:肖杨田、何琼,2021),影响因素与策略分析(如:江进林,2019;尹亮宇,2020)等新的研究热点,这为形成我国独立的外语教师测评素养概念体系,进一步探索测评素养模式奠定了重要基础。
(二)国际中文教师的测评素养研究
测评素养近年来在国际中文教育领域也逐渐受到重视。2007年版的《国际汉语教师标准》对教师提出的10 条标准中,包括对教师在测试与评估方面应该具备的知识与能力的规定。尽管中文教师测评素养的重要性不言而喻,但目前相关研究仍停留在“应然”阶段,即讨论汉语教师应该具有怎样的测评素养,包括哪些方面的知识与技能。职前和在职教师在日常教学中如何开展测评工作、哪些知识与技能需要进一步提升等问题尚缺乏“实然”性的调查。
作为此领域较少的实证研究之一,Koh 等(2018)通过在新加坡开展的一个为期两年的汉语教师培训项目,揭示了汉语教师在学习设计具有真实性的形成性评估任务方面的成长与难点,对设计和开展教师培训具有参考意义。此外,Lin等(2021)对279 名汉语国际教育专业的研究生(即职前教师)的语言测评素养进行了调研。基于Brown 的量表模型和因子分析等统计分析方法,Lin 等发现职前汉语教师对测评的认知与我国过度看重考试结果的教学现状密切相关,且受到其在学生时期所经历的高风险标准化考试的明显影响。职前教师从专业学习中获益较少,对测评的理解比较欠缺和分散。因此,该研究呼吁将测评理论与实践列为汉语国际教育硕士学习的必修科目,并从教师理念与实践上推动以考试为导向的总结性评估向形成性课堂评估转变。
三、研究问题与研究方法
(一)研究问题
本文是针对《标准》在汉语课堂中的应用研究的先导性研究(pilot study),旨在对以下研究问题进行初步探究。
(1)汉语教师对语言测评的理解和应用现状如何?
(2)《标准》等纲领性文件1对汉语教师教学和测评过程有何影响?
(二)数据收集
本研究使用问卷调查、工作坊开发设计以及基于工作坊的小组访谈三种方式对一线汉语教师开展调研,主要包括两个阶段。
第一个阶段是开发、发放与回收问卷。问卷分为三部分。第一部分是关于教师背景的开放性问题,如教龄、最高学历及专业、主要授课名称和任教环境等。第二部分采用李克特量表(0—5 分),包括课程评价方案的制定、课堂评价工具的设计与使用、向学生提供高质量的反馈、学业考试的设计与实施、《标准》在课堂评价中的应用、标准化考试的构念与效度、汉语水平考试(HSK)的分级与成绩解读和标准化考试的备考,教师需要根据兴趣与需求对语言测评的这八个部分进行打分。这八个部分的选取主要参照中、英、美、欧盟教师教育职业能力测评标准、语言测评素养培训大纲等文件的内容,涉及汉语测评基本概念、测评方案、标准化考试、语言纲领与标准等方面。第三部分为开放性问题,参与者可以根据自己的兴趣与需求就第二部分进行展开或补充。经测量,问卷信度克隆巴赫系数值高达0.924,证明了问卷的可靠性。我们于2021年6月通过社交软件在各汉语教师微信群中分发了问卷。有29 位汉语教师参与填写。其中,17 位来自国内,其余12 位来自海外。调查对象的教学范围涉及K–12、大学及社会教培机构等。
第二阶段是开发工作坊并开展访谈。填写问卷的29 位教师均报名参加工作坊活动,两场活动分别于2021年7月底和8月初进行,单场时长两小时,实到20 人次。在内容上,工作坊内容由两名科研人员设计,设计初稿由两名一线教师试答并分别提供详细反馈,设计人员在此基础上再次进行修改并定稿。工作坊由语言测评的基本概念理论、课堂测评操作思路、标准化考试与《标准》等纲领性文件对接三个板块构成。具体内容的选取与详略分布主要根据问卷结果所反映的教师兴趣与需求设置。在形式上,工作坊采取“介绍”加“讨论”两种形式。科研人员对相关概念与操作案例进行介绍,并通过讨论环节与教师共同构建起对教师测评实践与知识的反思。
(三)数据分析
行了分析。定性数据来源于问卷调查的开放性问题以及基于工作坊的小组访谈。针对这部分数据,我们采用主题分析(thematic analysis)的方法,经过编码与提炼,找到其中集中反映的规律性特征。最后,将不同部分的数据分析结果进行整合,以分别回答本文提出的两个研究问题。
四、汉语教师对语言测评的理解和应用现状
本研究的数据由定量数据和定性数据两部分构成。定量数据来源于问卷调查中的量表部分。针对这部分数据,我们通过SPSS24.0 统计软件采用了描述性统计、相关性分析以及方差分析等方法进
(一)汉语教师对语言测评领域的兴趣与需求
如表1所示,汉语教师对课堂评估相关内容的兴趣与需求较高,相比之下,对标准化考试相关内容的兴趣与需求则略低。
表1 汉语教师对语言测评领域的兴趣与需求
皮尔逊相关性分析的结果显示(见表2),教龄与标准化考试方面的兴趣与需求显著相关(P<0.05,Pearson correlation=0.423),即教龄较长的教师对标准化考试实物兴趣比教龄较短的教师大。此外,方差分析结果显示(见表3),参与问卷调查的教师所教授的课程与对“标准化考试的备考”的兴趣表现出显著差异(F=3.955,P<0.05):其中,教授中小学课程的教师最感兴趣(均值为4.85),在大学任教的教师则有所下降(均值为4.45),在教培领域的教师兴趣度最低(均值仅为3.80)。
表2 皮尔逊相关性分析
表3 标准化考试备考的方差分析
除量表问题外,教师们在作答开放性问题时也积极表达了自己的想法,其内容主要可归纳为四个方面。一是对接问题,包括标准化考试之间的对接、小测验与标准化考试的对接、等级标准与课程的对接、语言标准之间的对接等。二是各类型考试,包括线上测试、口语考试、听说读写所占比重、词汇量、分班测试、青少年测试、口语考试、语音自评、试卷分析与评价等。三是课堂评估,包括语言测试对教学的反拨作用、形成性评估的案例分享、课堂奖励机制、对交际水平进行测评等。四是教研设计,包括针对汉语国际教育专业学生的语言测试课程设计、学生和教师的互相反馈等。
(二)教学环境对测评方式的影响
基于教师们在工作坊的讨论环节对自己教学常用测评方式的描述以及使用的原因,我们发现任教环境对教师测评方式有明显的影响。下文以在中国内地高校、中国香港国际学校(K–12)以及加拿大高校教师所阐述情况为例进行说明。
调研发现,在中国内地高校任职的教师普遍采用的是以终结性测评为主、形成性测评为辅的实践方式。X 教师实行期中、期末考试成绩占课程总成绩的80%,平时成绩(根据考勤、课堂参与、课后作业等)占20%的测评方案;对于部分短期项目,则无期中考试安排,因此期末成绩占80%。
对上述以终结性测评为主的实践测评方式,Z教师认为这样“为学生提供了方便”,“因为通过一两个考试2是比持久的认真学习更容易的。而平时成绩因为比重轻、衡量标准模糊,对学生日常学习的监督与促进作用十分有限”。至于为什么“二八开”的测评方案得以普遍实施,Z 教师认为“很多事其实就是约定俗成的一个划分,并不是说我们会仔细地去想它是怎么回事”,“好像很少有老师去仔细分析,这样设定这个比例是不是有一些问题,是不是应该再改进一下”。
与内地高校情况不同,任教于香港一所国际学校的B 教师介绍道,其学校明确要求教师“避免期末考试比重太高”。因此在B 教师的课程中,形成性测评与终结性测评各占总评成绩的50%。据B 教师介绍,形成性测评主要由每周的作业或小考组成,而终结性测评则通过期末考试开展。此外,作为一种形成性评估工具,他也在所教授班级中试验使用“在线档案袋” (E-portfolio),以对学生的水平与所取得的进步进行记录与搜集。
据在加拿大高校教授汉语的W 教师介绍,形成性评估在课程总评成绩中也占有比总结性评估更高的比重(一般为7∶3),这是与加拿大高校课程评估的一般情况相符的,据其任教大学要求,评估方式应多种多样,是否设立终结性测评由教师决定(如有,也不能超过总分的一定比重)。她还列举了一些较为新颖的形成性评估工具,例如应用于高级汉语课程的语言运用任务(language use activities)、研究任务(research paper &presentation)、小组阅读(group reading)等。
(三)对形成性测评的初步探索
参加工作坊的教师们对形成性评估表现出了浓厚兴趣,并在日常教学中摸索实践。据Z 教师介绍,在每学期的第一节课,她会开门见山地跟学生交代清楚计入成绩的形成性评估内容:“比如有几次小组报告,每一次报告要占多少分。我觉得这是一个很重要的开始的工作,让学生很清楚我知道这个学期在干什么。”B 教师则以正在尝试的在线档案袋为例,说明了积极进行专业数据阅读、参与工作坊等方式对自己测评能力的提升。针对“形成性评估所提倡的学习者自评和同伴互评”,教师们纷纷表示尚未实践。B 教师反思道:“我觉得目前来说还是由我来给学生做这些。但是我会慢慢考虑在小组作业中去加入一些,比如40%的小组成员互相评估,然后60%我来做。之前我是担心学生会给好朋友分数高一点,但其实我觉得这个主动权是可以放给学生的,可以慢慢尝试。”在海外某中小学任教的H 教师也同样认为开展互评与自评是值得尝试的方向:“今天觉得学到的特别重要的一点就是把一些权力或者一些主动性放到学生手里。可能我们学校现在还是老师占主导,其实对于高年级的学生,完全可以让他们自己来思考和评判。”
工作坊向教师介绍了多种形成性评估工具的设计与使用,包括日常教学中普遍使用的口头和书面报告以及较少使用的学习日志等方式。以学习日志为例,教师可要求学生针对学习过程展开反思与总结,如:本周我学到了什么?我遇到了哪些问题?接下来我想要学会什么?任教于国内一所国际学校小学部的J 教师认为,这是她很感兴趣的测评形式,并认为其中一个突出原因在于“对学生自主学习能力的培养非常重要”。她进一步表示:“我觉得现在大部分时间还是我们把生词等列好了让学生回去抄写,是比较被动的。所以我觉得主动的笔记小结挺好的,可以让他们尝试一下。”
五、纲领性文件在汉语教学与测评中的落实与应用
(一)纲领性文件对各教学环境的影响
参与该研究的教师教学环境多元,因此指导其教学的纲领性文件(如课程大纲、教学标准、等级大纲、语言框架等)不尽相同,各纲领性文件在日常教学与测评中应用的情况也存在显著差异。
(1)海外中小学学分课程:海外中小学往往采用当地教育局制定的标准指导教学和测评,如加拿大各省教育大纲、英国会考大纲、AP 中文课课程标准等。也有一些地区无具体指导标准,如A 教师任教的泰国中小学,当地教育局并未对汉语课程做出要求,因此汉语课主要依据国家汉办(现名为教育部中外语言交流合作中心)提供的教材设计期中、期末考试等测评。
(2)国际学校:汉语教学、测评与教学系统相关。如B 教师任教的IB 国际学校将汉语课程分为作为母语的教学以及作为第二语言的教学两类。作为母语的汉语课程与作为第二语言的课程内容差异很大,但两者的测评方式具有相似性,因为都是参照IB 系统所要求的考核标准。
(3)海外高校:海外高校的汉语纲领及课程主要呈现区域性的特征。以法国为例,尽管《欧洲语言共同参考框架》是欧洲各国在能力标准、课程大纲及教学评估等方面较为主流的参考标准,但在汉语教学方面则推崇白乐桑等开发的《中文国际班双语教学大纲》。除华人聚居较多的国家或地区之外,大部分中文课程并无可直接参照的纲领性文件,因此教学和测评的开展通常由教师自主把握,与所选用的教材直接相关。若选用中国国内编写出版的教材,则主要参照国家汉办推出的一系列纲领性文件和标准,因为国内大部分教材与这些标准直接相关。
(4)国内高校:与其他教学环境相比,纲领性文件在国内高校的影响十分直接。例如,C 教师所在院系会选取依据《国际汉语能力标准》和《HSK 考试大纲》所开发的教材。此外,院系对教师编写课程大纲也会做出明确要求,即必须写清楚在课程结束后学生要达到的知识目标、能力目标、文化目标等与纲领性文件相对接的目标。因此,教师对纲领性文件熟悉度较高。C 教师所在教研室会定期组织探讨设计课程时如何贯彻这些纲领性文件。
(5)教培机构:各类培训班在不同程度上体现出对“应试”的需求,因此对《国际汉语能力标准》的依赖性较高。D 教师解释说,考查学生入学时的语言水平是他所在的培训机构的重要工作之一,考查结果会对分班、教材选择等产生直接影响。而分班考试主要参照《国际汉语能力标准》,再结合学员的期望值(如其公司或学校所规定通过指定等级的HSK 等)进行课程的安排。
(二)以HSK为基石,以《标准》等纲领性文件为参照的教学与测评方式
参与本次调研的教师们均不同程度提及HSK或《国际汉语能力标准》,并多次将之与其教授的课程、选用的教材、实施的测评等建立联系。例如,课程设置是否与HSK 等级挂钩、课程是否以备考HSK 为目的等。国内高校E 教师所教授的HSK 备考课程,严格参照《HSK 考试大纲》设计,测评方式和内容也尽量与HSK 题型保持一致。她所教授的其他普通汉语综合课也在一定程度上延续HSK 等级标准。新《标准》一经颁布,E 教师任教单位就组织教师学习并探讨如何将《标准》落实到课程和评估中去。另外F、G 两位教师也提到他们的口语课参照新《标准》中的语速要求,并根据《标准》关于听说技能的具体要求对课程设计做出了调整。
尽管大家对新《标准》的指导意义非常认可,然而由于颁布时间较短,教师们对其理解主要停留在字、词、语法点层面,甚至有部分教师表示“还不太清楚具体内容”,但是“对新《标准》对HSK的影响感兴趣”。同时,部分教师也表达了对于新增补部分的一些意见。例如,对于《标准》中纳入的翻译技能,B 教师认为,“尽管这是一种重要的技能,但是因其受传统的语法翻译教学法影响较大,学生们语言背景差异较大,翻译也通常不被大型标准化语言考试所采用”,因此他对“如何考查这一技能”“是否在新版HSK 中会有所体现”等提出疑问。
六、讨论
(一)考试文化向测评文化的转换
部分参与本课题调研的教师将标准化考试(如HSK)作为汉语教学的指挥棒、将《HSK 考试大纲》与其他纲领性文件(如《国际汉语教学通用课程大纲》《国际汉语能力标准》等)混淆,并存在教学与测评分离、考试手段单一等问题。造成这种现状的原因众多,如传统考试文化(test driven culture)的深入影响、工作环境和学生因素以及纲领性文件在教学中落实不力等。一些教学单位对教师的奖惩制度也由考试成绩决定,这一外因也导致了“为考试而教学”(teach to tests)。
然而,值得欣慰的是越来越多的教师和教学单位已经意识到传统考试文化的局限性。随着教师教学经验的提升以及对二语测评理论的学习,教学界呈现出由传统考试文化占主导向以学习为导向的测评文化(learning oriented assessment)转变的趋势。日后应进一步推进由阶段性考试、标准化考试向在线档案袋、学生反思日志等表现性评估方式转变,由非情境化、机械化测验向真实的情境化测验转变,由单一的汇报分数向对测评结果进行解释和向学习者提供反馈转变。
此外,研究发现,教师们在实际操作过程中都会受教学环境、教学项目的规范与制约,因此在学校、项目、培训机构层面,制定完善的测评制度(而非掣肘教师在测评方面的主动性),并将教师对教学的有效测评作为教师业绩考核的参照之一,从外部条件保障并激励教师做好测评实践也会对测评文化的发展有益。
(二)基于实践的汉语教师测评素养提升
本研究发现,多数职前教师对测评的理解相对较浅。因此,在教师教育的课程设置方面,应开设教学评估类的课程。除了系统的理论学习,将理论应用于教学实习并进行反思等过程尤为重要。Baker 和Riches (2018)把语言测评素养定义为一种专业能力素养,在前人关于测评素养定义的基础上增加了基于工作经验的有关意识和认知层面的理解。因此,通过实际工作获得与测评相关的经验可以被视为提升此方面素养的重要途径之一。就在职汉语教师而言,教学反思总结、教学研讨交流、参与测评领域的进修或会议等,将有助于汉语教师测评素养的提升。
七、结语
国际中文教师的测评素养包含其测评知识、技能、态度等,具有养成性、多维性、动态性的特征,是教师综合素养的重要组成部分,并对教学质量产生直接影响。在新《标准》这一纲领性文件颁布之际,本文通过对汉语教师目前的测评素养的调研,对构建具有国际中文教育学科特色的测评素养评估体系和建立长效培训机制进行了探讨。除加强教师测评理论的学习之外,应注重实践和反思,并落实以《标准》等纲领性文件为参照的新教学与测评方式。
附注
1 目前全球已有 70 多个国家将中文纳入国民教育体系,纲领性文件包括语言框架、教学标准、课程大纲等,对语言学习、教学、测评具有重要指导性意义。
2 此处是与零散的日常测验相对而言的期中、期末等大考。