APP下载

《国际汉语教师证书》考试的效度研究①

2020-06-22李亚男

华文教学与研究 2020年2期
关键词:笔试效度合格

张 洁,李亚男

(1.中国人民大学国际文化交流学院,北京100872;2.北京语言大学语言科学院,北京100083;3.汉考国际教育科技(北京)有限公司,北京100088)

0.前言

《国际汉语教师证书》考试是由孔子学院总部/国家汉办主办的一项标准化考试,包括笔试和面试。“考试主要面向海外孔子学院(课堂)从事汉语教学的教师、志愿者;同时面向有志于从事汉语国际教育工作的各类人员,包括海内外各类教育机构的教师及相关专业学习者。考试可以作为孔子学院(课堂)选拔和评价汉语教师、志愿者的重要参考标准,可以作为海内外学校、教育机构选聘和评价汉语教师的参考依据”。(孔子学院总部/国家汉办,2016)从理论上讲,一种测评工具是否可靠和有效,关键在于该测评工具的信度和效度,具备良好的信度和效度是一个有效的测评工具的必备条件,因此,有必要对《国际汉语教师证书》考试的信度、效度展开研究。

国际教育与心理测量界广泛采用的《教育与心理测量标准》(Standards for Educational and Psychological Testing)(2014),对效度、效度验证及效度证据进行了说明。效度是指所积累的证据对考试用于特定目的后所产出分数的解释提供支持的程度,是教育测量的核心内容,是开发、运作和评估考试时应该考虑的一项最为基本的内容(刘庆思,2018a)。效度验证则是收集相关证据为特定分数解释提供科学依据的过程,是考试研究实践中必须要面对的问题。效度证据包括:基于内容的证据(Evidence Based on Test Content);基于反应过程的证据 (Evidence Based on Response Processes);基于内部结构的证据(Evidence Based on Internal Structure);基于与其他变量关系的证据(Evidence Based on Relations to Other Variables);基于测验结果的证据(Evidence For Validity and consequences of testing)。该标准细化了效度验证所需的类似于检查清单的标准条目以及效度验证的基本模式,“证据”成为效度研究的核心概念。效度研究被视为一种通过积累“证据”对测验的效度提供支持、对测验分数做出合理解释的过程(刘庆思,2018b)。

本研究基于《教育与心理测量标准》(2014版)中效度研究的基本流程,搜集《国际汉语教师证书》基于内容的证据、基于与其他变量关系的证据,为其效度提供支持。

1.基于内容的效度证据

从考试设计的步骤来说,在考试试卷编制之前,需要对考试的内容范围进行界定,如考试考察的知识点、能力要素或任务等,并确定各部分的比例。通过系统比较一份试卷的实际内容与考试大纲中对考试内容范围的界定,通过比较实际测试各个部分的内容比例与测试说明所确定的比例,可以得到重要的效度证据。基于内容的效度证据通常以专家评定的方式进行。专家可以对题目的覆盖程度进行评价,也可以对各部分内容的相对比重或相对重要性进行评价;可以是对试卷对内容总体代表性的评价,也可以是试卷所包含的一组任务对一个任务总体代表性的评价。

基于国际汉语发展的需要,国家汉语国际推广领导小组办公室(简称国家汉办),组织汉语教学领域的专家学者研发,于2007年发布了《国际汉语教师标准》(以下简称标准),并于2012年12月12日正式推出新标准①http://www.chineseteacher.org.cn/readyExamGuide.do。新标准更为凝练,突出汉语教学、中华文化传播和跨文化交际三项基本技能,注重学科基础、专业意识和职业修养,增强了实用性、操作性和有效性;构建了国际汉语教师的知识、能力和素质的基本框架,形成了较为完整、科学的教师标准体系。目前,这一标准不仅是国家汉办选拔和培训海外孔子学院汉语教师和志愿者的标准,也是汉语国际教育专业学位研究生培养以及国际汉语教师资格考试制定的依据,对国际汉语教学有重要指导意义。《国际汉语教师证书》考试正是基于该标准中汉语教学基础、汉语教学方法、教学组织与课堂管理、中华文化与跨文化交际、职业道德与专业发展五个标准所包含的知识与能力的考查,评价考生是否能够成为合格的国际汉语教师。

从考试性质上来说,《国际汉语教师证书》考试属于标准参照考试。《国际汉语教师标准》明确了该考试所考察的“标准”,因此,需要评价该考试试题对“标准”内容的总体代表性或任务总体的代表性。试题考察的知识与能力既要在“标准”考察目标的范围之内,也要对“标准”有较好的覆盖率。这是基于内容的重要效度证据,通常由专家基于一定规则,对题目和“标准”的匹配程度进行经验判断。

《国际汉语教师证书》考试的笔试全部为客观题,分为基础知识、应用能力和综合素质三部分。基础知识和应用能力主要采取源于教学实际的案例导入式形式,重点考察应试者的汉语交际能力、语言分析能力、教学设计能力、教学资源应用能力、课堂活动组织能力、课堂管理能力、中华文化阐释与传播能力、职业发展能力、现代教育技术应用能力等,以及对相关理论知识和应用方法的掌握;综合素质部分采用情境判断测验的形式,重点考查应试者的跨文化适应性及交际能力。笔试试卷结构如表1所示。

为了获得《国际汉语教师证书》笔试基于内容的证据,我们对某次笔试客观试题,共计100道题目逐一进行了考察(仅包括笔试第一、二部分,第三部分综合素质不在分析范围内)。在试题审定的过程中,每个案例及案例下的每道试题都由三到四位专家(主要为国内外长期从事汉语教学的一线教师,语言学、汉语教学及相关领域的研究者),根据《国际汉语教师标准》进行了标定,由专家共同判定,每道试题考察的知识或能力属于哪一标准,随后对该套试卷中针对各标准设计的题量进行统计。

在这次笔试试题中,考察较多的是“标准2汉语教学方法”(31题)与“标准3教学组织与课堂管理”(31题);其次是“标准1汉语教学基础”(23题),“标准4中华文化与跨文化交际”(中国文化部分13题)②标准4中的跨文化交际能力重在第三部分考察,共50题。,考察最少的是“标准5职业道德与专业发展”(2题)。从题量来看,《国际汉语教师标准》中的五大标准在全卷中均有分布,在笔试前100题中,主要考察的是标准1、2、3中对教师知识与能力的要求,共有85题。第一部分共54题,第二部分共46题,基本符合笔试试卷结构中有关第一部分和第二部分的题量设计要求。

表1:《国际汉语教师证书》考试笔试试卷结构

2.基于与其他变量关系的证据

考试结果的使用者或者根据考试结果所做的评价或评判,是一个与效度有关的问题。如果考试的用途已明确,那么就需要提供支持其用途的相关证据。《国际汉语教师证书》考试可以作为海内外学校、教育机构选聘和评价汉语教师的参考依据,也用于评价国际汉语教学机构师资和水平及教学实例的参考。试卷以及题目的质量会影响测试目的的实现。高质量的试卷及题目可以为效度提供支持,试卷信度、试题难度、区分度都是重要的效度证据。

如前所述,《国际汉语教师证书》考试属于标准参照测验,其目的在于考察被试所预测之目标的掌握程度,如果测验目标所要求的知识与技能比较简单,那么试题难度应该相对较小,反之亦如此。对于某些难度为1或0的试题,若其内容在测量目标范围内,也不能认为其存在问题,同时,这些试题的区分度相应不高,甚至可能为0,也仍不能认为试题质量存在问题,由于标准参照测验的题目分析关键在于题目与目标之间的一致性的分析,删去此类看上去质量不佳的题目反而会影响效度。不过尽管如此,仍需要对测试进行一些定量的分析(赵世明、刘景轩,2001)。

2.1 考试质量分析

本研究中的数据为某次《国际汉语教师证书》考试的实测数据,共有6540人参加考试,本次试卷的α信度为0.746。由于信度系数易受考生群体影响,当考生群体的同质性高时,信度会降低。从本次考生的基本信息来看,考生专业集中为汉语国际教育、语言学及应用语言学,多数为本科毕业,可以认为考生群体的同质性较高,这在一定程度上影响了本次考试的信度系数,可以认为该试卷的信度较好。

2.1.1 难度分析

考生成绩分布的偏态系数为-0.488,高分者较多,本次考试相对简单。本次考试试题的平均难度为0.632。从全卷难度分布统计来看,全卷难度在0.6以上,即中等难度到易的题目共有60题;难度小于0.3,即较难的题目有7题。从标准参照考试的考试性质出发,这一考试以《国际汉语教师标准》为衡量尺度,考察考生所具备的知识与能力水平。在这样的情况下,难度有难、有易更为合理,难度差异大是可以接受的,但是对于过难或者过易的题目应引起重视,需要专家从内容上做进一步定性分析。

将试题按标准分类后,统计各标准的题目难度。标准1与标准5大致相同,较难,平均难度分别为0.56,0.57;标准2与标准3大致相同,平均难度分别为0.66,0.67;随后是标准5,平均难度为0.62。

2.1.2 区分度分析

标准参照测验的区分度计算并没有公认的最佳方法。在这里,仍计算每题的题目得分与总分的相关作为区分度质量指标。经统计,全卷平均题总相关为0.199,平均点双列相关为0.286。将试题按标准分类后,统计各标准题目区分度。标准1、2、3、4的平均区分度大约为0.19,0.20,0.21,0.19,大致相同。标准5为0.12,略低。

难度是影响区分度的重要因素。考生水平如果差异不大,题目会过难或是过易,也会在一定程度上影响区分度。根据实测数据,低于0.3的题目,对考生来说过难,高于0.9的题目对考生来说过于容易,区分度都低于0.2。在一般的证书和资格考试等标准参照考试中,题目区分度只需大于零并具有很好的内容代表性即可(刘晓瑜,1996)。对于《国际汉语教师证书考试》这一标准参照的考试来说也是如此。

2.2 与面试成绩相关分析

面试是对笔试合格的考生进行的考官小组面试。与笔试这种间接测量考生能力的方式相比,面试更直接、真实、有效。三位考官均由资深汉语教师担任,面试试题为教学中的教材,或是一个有关教学的真实案例。通过对考生反应情况的观察,考官所做出的对于考生教学设计能力、教学实施能力和跨文化交际能力的评价更为真实有效。因此,对于《国际汉语教师证书考试》笔试来说,以面试为效度研究标准,也可以获得关于笔试的效度证据。

2.2.1 面试基本情况

《国际汉语教师证书考试》的面试采用结构化面试和情景模拟相结合的方法,包括说课、试讲、问答和外语能力考查。面试卷满分150分,试题结构及评分维度如表2所示。

三位考官均需根据考生面试过程中的表现,进行综合评分。面试题目按作答语言可分为汉语和外语两个部分,其中汉语部分从5个方面进行评价,分别评价考生的教学设计能力、教学实施能力和跨文化交际能力,而外语部分从3个方面评价考生的外语跨文化交际能力,整体印象主要评估考生的心理素质、教姿教态等职业素养。

本研究采用了某次面试数据,共有2164位考生(缺考考生不计算在内,该批考生均已参加前文中的笔试且笔试合格)。按照面试流程,每个考场配置3位考官:主考官、考官及外语考官。每个考场每天可以容纳15位考生考试。同时,为了避免考生之间互相提示,每一个考试日使用两份不同的面试试卷,分别用于当天上午与下午。本次面试共进行了8天,使用了16套试卷,约有145考场,435名考官参与评分。由于缺乏考官信息,仅对主考官、考官及外语考官的总体评分一致性情况进行了评估,三考官评分的皮尔逊相关系数如表3所示,统计分析显示,三考官的评分相关系数呈显著性相关,一致性程度较高。三考官评分维度之间的相关如表4所示,统计分析显示,三考官在各维度上的评分相关系数呈显著性相关,一致性程度较高。

表3:三考官评分的皮尔逊相关系数

对面试成绩进行初步因素分析,KMO值为0.873,分析显示适合进行因素分析。检查所得数据之后,对数据进行因子提取和因子旋转。因子提取采用主成分分析法的初始分析,因子旋转使用方差最大化正交旋转,得出旋转后的矩阵,抽取三个公共因子,特征值均大于0.5。旋转在5次迭代中收敛,共解释81.079%的总方差。表5反映的是各变量与公共因子之间的相关系数,也反映了各个变量与公共因子之间相关的重要性,因子载荷量的绝对值越大,表示该变量与公共因子的相关密切程度越高,由此可发现:

表4:三考官各评分维度之间的相关

(1)A、B、C评分维度在第一个因子上载荷的绝对值较大,三个变量之间有共同的因子,关系比较密切,构成第一个因子。因子1可命名为汉语教学设计与实施能力。

(2)F、G、H评分维度在第二个因子上载荷的绝对值较大,三个变量之间有共同的因子,关系比较密切,构成第二个因子。因子2可命名为基于外语的教学组织与管理能力及跨文化交流能力。

(3)D、E评分维度在第三个因子上载荷的绝对值较大,两个变量之间有共同的因子,关系比较密切,构成第三个因子。因子3可命名为基于汉语的教学组织与管理能力及跨文化交流能力。

结合面试评分维度及因素分析的结果,以及《国际汉语教师标准》中对各标准的定义,可以看出笔试与面试所考察的能力存在相关性,两者之间的相关性可以作为效度证据。

2.2.2 笔试成绩与面试成绩的相关

根据考试流程,笔试合格的考生才会参加面试,因此面试数据中,不包括笔试未合格的的考生,样本数据的同质性提高,个别差异减小,计算出来的相关系数会变小,预测效度总是会低估测验的效度,从而弱化效度证据(张敏强,1996:126)。经统计,笔试总成绩(100题)与面试总成绩的相关为0.21(在0.01水平(双侧)上显著相关),表明笔试(100题)可以预测面试表现。

表5:旋转以后的因子载荷矩阵

根据面试成绩因子分析的结果,以因子1(汉语教学设计与实施能力,考生在面试A、B、C三个评分维度上的得分之和)为效标,计算与标准1、标准2、标准3(分别为考生在笔试中考察标准1、标准2和标准3试题得分)的相关。以因子3(基于汉语的教学组织与管理能力及跨文化交流能力,考生在面试D、E三个评分维度上的得分之和)为效标,计算标准3、标准4(分别为考生在笔试中考察标准3、标准4的试题得分)的相关。根据表6的分析结果,考生在笔试中标准1、标准2、标准3上的得分与因子1各维度成绩之间存在相关关系,且达到显著性相关。根据表7的分析结果,考生在笔试中标准3上的得分与因子3各维度成绩之间存在相关关系,且达到显著性相关。但在标准4上的得分与因子3各维度成绩之间存在相关较小。

表6:因子1及其各维度与标准1、标准2、标准3的相关系数

表7:因子3及其各维度与标准3、4的相关系数

2.2.3 笔试的正命中率

若笔试及面试成绩合格,则认为考生已达到《国际汉语教师标准》,考生将被授予《国际汉语教师证书》。考生在该考试上的成绩是是否授予证书这一决策的重要依据,那么可以通过计算正确决定的比例来评价效度。比较依据笔试成绩分数和面试分数做出的决策,即比较预测结果和实际结果,可以得到预测成功而且实际成功(正确授予),预测成功而事实上不成功(错误授予)、预测失败而事实上成功(错误拒绝)、预测失败而事实上失败(正确拒绝)四个组。对于决策者来说,更关心的是正命中率,即预测成功而且实际成功(正确授予)所占的比率,可以此来评价测验效度(张敏强,1996:132)。

对此,以考生笔试成绩(100题)60为合格线(满分100),面试成绩90为合格线(满分150),将考生按笔试与面试成绩,分为合格与不合格两类,对这一数据进行了卡方拟合度检验。检验结果显示,根据学生笔试成绩做出的判断与根据学生面试成绩做出的判断之间存在显著关联(x2=15.422,df=1,p<0.05)。具体说来,如果学生在笔试(100题)上合格,面试也很有可能被判定为合格(1113/1961=56.8%);当学生笔试(100题)被判定为不合格,面试也很有可能被判定为不合格(117/203=57.6%);正中率为0.57。

表8:卡方独立性检验变量列联表

2.2.4 合格与不合格团体的差异性

考试分数是否可以区分以效标行为定义的不同群体,也可以用于评估效度。一般的标准参照测验将要求掌握的最低知识或能力水平作为分界标准。根据《国际汉语教师证书》考试的笔试或面试的考试设计,考生分数若达到合格线,即达到了最低的效标水平。根据考生参加该考试成绩将考生群体分为“合格”和“不合格”两组,如果两组之间在测验分数上存在显著差异,那么可以认为该考试是有效的,即考试可以对效标分数的高低进行区分,否则可认为考试是无效的。对此差异进行统计上的显著性水平检验的结果,也可作为测验效度的指标(张敏强,1996:132)。因此,可以考生笔试成绩(100题)60为合格线(满分100),粗略地将考生分为合格与不合格两类,对面试成绩进行独立样本t检验;以考生面试成绩90为合格线(满分150),粗略地将考生分为合格与不合格两类,对笔试(100题)成绩进行独立样本t检验。

统计结果显示:笔试(100题)成绩合格、不合格两组考生的面试(ABC维度)成绩有显著性差异 (t=5.618,df=2162,p<0.05):笔试(100题)合格的考生面试(ABC维度)成绩显著高于笔试未达到合格的考生面试(ABC维度)成绩。对面试得分(DE维度)进行了独立样本t检验,结果显示:笔试(100题)成绩合格,不合格两组考生的面试(DE)成绩有显著性差异(t=3.365,df=2162,p<0.05):笔试合格的考生面试(DE维度)成绩显著高于笔试(100题)未达到合格的考生面试(DE维度)成绩。同样对面试得分(ABCDE维度)进行了独立样本t检验,结果显示:笔试(100题)成绩合格,不合格两组考生的面试成绩有显著性差异 (t=5.388,df=2162,p<0.05),笔试 (100题)合格的考生面试得分(ABCDE维度)显著高于笔试(100题)成绩未合格的考生面试(ABCDE维度)得分。

以考生面试成绩90为合格线(满分150),粗略地将考生分为合格与不合格两类,对笔试(100题)成绩进行了独立样本t检验。结果显示,面试成绩合格,不合格两组考生的笔试成绩有显著性差异(t=8.714,df=2162,p<0.05):面试达到合格标准的考生笔试成绩显著高于面试成绩未达到合格标准的考生笔试成绩。

3.小结

基于《国际汉语教师证书》考试笔试的效度验证过程,可以认为:

《国际汉语教师证书》考试笔试的考试内容合理,较好地满足了《国际汉语教师标准》中对于教师应具备的知识与能力考查范围。

从笔试试卷及试题质量分析上来看,在考生同质性较高的情况下,该套试卷的信度,试题的难度与区分度基本达到了试题质量的评价标准,可以认为该试卷的信度较高,试题质量较好。

以面试成绩为效标,衡量笔试的效度,可以发现,笔试成绩与面试成绩之间有较高的相关性,笔试成绩可以较好地预测面试成绩。根据笔试成绩所做的决策较为有效。

猜你喜欢

笔试效度合格
疫情下的笔试
慈善募捐规制中的国家与社会:兼论《慈善法》的效度和限度
我是合格的小会计
2016年基层医疗卫生事业单位考试招聘人员笔试工作完成
谁不合格?
做合格党员
被看重感指数在中国大学生中的构念效度
外语形成性评估的效度验证框架
句子的合格与不合格
复杂图形测验对区分阿尔茨海默病与非痴呆的诊断效度