APP下载

汉语二语教师评估工具建构能力初探

2016-05-14李春琳

现代语文(教学研究) 2016年5期
关键词:构念试卷汉语

前言

测试工具的建构是教师评估能力的核心维度,而测试卷的设计是典型的测试工具构建行为。本文通过对汉语二语综合课的期末试卷进行项目难度和区分度等的数据分析,发现测试卷的整体构念和单项选择题干扰项的设计等具有不同程度的问题,这表明教师的评估能力并不是与生俱来的,也不可能从教学中自动习得。而针对性强、注重实践的教师评估能力课程是系统提高职前和在职教师评估能力的有效途径。

Popham(2014)认为教师应该具备三种评估技能:构建评估工具、懂得使用别人构建的工具以及根据评估信息来备课。测试卷的设计是典型的测试工具构建行为。在对外汉语教学中,教师需要构建评估工具来衡量课程效度、了解学习者学业进步情况和收集实证研究数据等,并为接下来的课程安排提供证据。评估工具的构建要求教师清晰评估与测试的核心理论和基础概念,并熟悉评估工具构建的每个步骤的理论含义。这就说明评估工具建构能力的形成会遇到理论与实践结合带来的挑战。本文通过对广东省某高校综合汉语课的期末试卷进行宏观和微观的项目分析,来管窥汉语二语教师评估工具构建能力的现状。

一、研究背景

Grabowski & Dakin(2014)提出的测试模型认为编写测试卷需要经历三个步骤(如图一):确定测试构念、确定目标语使用域和编写测试规范整合测试细节。

首先是确定测试的构念。“构念”( construct)是指一种心理构想,是对不能直接测量或观察的人类行为的理论设想。构念的例子有动机、焦虑、阅读理解能力等( Ebel & Frisbie 1991,转引自Alderson 2000: 183) 。构念的确定是为了确保测试能够获取学习者语言能力和知识的准确信息(Grabowski & Dakin 2014)。如果测试能够有效测量所要了解的能力( ability,or construct,or trait) ,那么该测试就与其构念吻合,达到了预期目的,具有“构念效度”。“构念效度”是指根据测试分数对假设的能力做出推论的程度(肖维青 2012:109-112)。简而言之,构念效度主要从理论上回答,应该测试哪些能力和是否测试了应测的能力。

第二步为确定目标语言最终使用的情境(TLU Domain),即学习者学得的语言最终会用到什么情境。例如对外汉语教学中,学习者学汉语是为了从事贸易,还是将来要进行汉语的学术研究。这一点是为了确保测试任务的真实性,使得测试能够达到评估和促学的功能。

第三步是对测试的格式和具体内容的确定。一般是基于教学大纲或者教学情境中的其他关键特征,这一点旨在保证测试质量,确保测试公正有效。(Alderson2000)考试规范( test specification)的制定是命题教师在考试命题前所做的必要准备,对考什么和如何考做出详细描述,并书写编辑成正式的文件。考试规范的制定包含以下内容:测试目的、测试范畴、考试对象、考试内容、考试方式、考试题型、试卷结构及分值、评分标准等(Alderson 2000)。

在此模型中,测试构念和目标语使用域是编写测试的基础,唯有对二者有清晰地认识和把握,测试卷才可能有效的测量目标语言能力。本文以广东省某大学汉语二语综合课期末考试的试卷为分析材料,对其进行项目分析(item analysis),反观教师设计测试时对测试构念、目标语使用域的理解,以期发现汉语二语教师构建评估工具时的特点。具体而言,本研究旨在回答两个研究问题:

1.汉语二语综合课试卷的构念和目标域是否能够保证综合汉语课的测试效度?

2.项目分析体现出汉语二语教师评估工具建构能力的哪些问题?

二、汉语二语综合课期末考试试卷数据分析结果

该期末考试的试卷是几位任课教师合作编写,完成初稿后,再进行讨论,最后对试卷的整体构成进行调整完成的。

该考试的测试对象是来自八个不同国家的16名留学生(见表一)。

从考试分数分布可以看出,分数基本处于正态分布,56%的学生八十分以上,初步发现试卷偏易。

通过进一步的难度系数分析(正确项目数/项目总数),发现试题整体难度偏低(详细数据见表三)。一般来说,难度系数高于0.8的属于简单;0.5难度适中;低于0.3属于难。而本卷平均难度系数为0.75,偏易。

区分度是指试题能够将高分学生和低分学生区别开的能力。0.3为临界值,高于0.3都视为区分度良好,低于0.3高于0.2,可进行修改测试项,改进题目区分度;区分度低于0.2的测试项应当删除。从数据可知本卷区分度良好。

三、讨论

针对前文提出的两个研究问题,讨论部分将对试卷的底层构念和任务类型进行逐一分析。

(一)试卷的构念和目的语使用域

根据Grabowski & Dakin(2014)的回顾,确定测试构念的方法有以下两种。第一种是以理论为基础定义语言测试构念,这种方法一般都运用于编写语言能力测试。这种情况下,语言能力被定义为不同的语言技能(听说读写)或者语言成分(语法、词汇和语音等),或者二者结合。另一种构念界定是使用大纲、教材以及教学目标等材料作为决定测试形式和内容的基础。这种情况下,测试的构念是基于不同的教学标准或者学习标准的。理想试卷构念来自于学习标准和某一个语言学习理论相结合。前文提到的构念效度具体而言是指教师编写测试时计划达到的目的(构念)与测试卷实际测试得出的结果必须是匹配的。如果不是,测试卷的效度就有问题。例如测试任务(要求学生写出生词的意思)和测试的目的(写作能力测试)没有呈现出必然的联系,那么测试的效度就值得怀疑。

就目前汉语综合课(中级)的构念界定而言,编写测试的教师应该考虑以下问题:中级学生综合语言技能应该处于什么水平?这个学习水平阶段综合语言能力应该包含哪些独立的语言能力?学习者之间的差别有可能体现在什么方面?由于试卷测试的是综合语言技能,理论上,测试卷应涵盖听说读写技能的考察以及正确使用语法、词汇、汉字和语音等能力的评估。另外,很重要的一方面是确定目标与将来可能会用到的场景,设计相关的测试任务,测试学习者语言应用能力,并反过来引导学习者在今后的学习中关注这些使用语言的场景和技巧。

从本试卷的测试构念(见表四)来看,共有六道大题是针对学习者词汇能力的,可见该测试的重心是“词汇能力”。整个试卷并未出现单独的听力、口语和写作能力的测试部分,也没有专门针对学生的实际场景语言运用能力的试题。后来通过邮件采访教授此课的教师得知:“有专门的听说课和写作课,所以就没有在综合课里再单独测试这几项能力了”。实际上,综合语言技能并非单个语言技能的简单叠加,而是各个方面的有机合成(Lia 2013)。因此综合课中听说读写能力与分项技能课中的语言能力构念是不同的,不可以简单的等同和互换。

本测试卷未涉及交际能力或者语用能力,没有考虑目标语使用域,构念效度未达到理想的状态,对学习者的综合语言能力预测价值有待商榷,对未来促学效应不确定。

(二)试题任务类型

测试任务通常分为两类:选择题型(selected response)和建构题型(constructed response)。选择题型主要包含选择题(填空和单项选择等)、连线题和是非题。建构题型可以进一步的分为短建构题和长建构题。典型的短建构题包含简短问答、完形填空(用短句填空)和完成对话题。最常见的长建构题是读完文章之后完成写作或者口语任务。由于两类题型测试效度各不相同,一份高质量的测试卷应该包含不同的测试题型。

该卷的选择题明显偏多(见表五),占总数的81.25%,优点是可以提高评卷效率,并且考试信度较高。但是,建构题型效度更稳定,也就是说,对于预测学习者语言能力方面,建构题更好。因此,适量提高建构题型的比例很有必要。

另外,测试任务的选择要遵循两个“一致”的原则(Grabowski & Dakin 2014):和课堂任务一致、和真实生活中语言使用一致。其中,第二点强调任务的真实性,关注测试任务的目的语使用域。根据教师采访得知,测试的题型与平时课堂训练相一致。但是,该卷测试项并未考虑与真实生活场景的语言场景的一致性。在目的语环境下,留学生应该有大量实际使用汉语的机会,像是购物、邮寄和校园内各类师生互动,因此也面临对着实际交际中的挑战,例如语用知识的有限和恰切语言形式的选择等。如果该测试能够适量添加和实际语言使用相关的建构题型,如根据场景完成对话题(语用能力典型题型),将会提高学习者对目标语法结构及语用技能的关注,进而提高学习者的交际能力和语用能力。

(三)完形填空题项目分析

为了对试卷的构念和目的域有更深地了解,本文选择该卷中唯一一道综合技能测试题进行细节的项目分析。该题为完形填空题,包含一篇短文和六道单项选择题。

对本文目标试卷的完形填空的项目分析结果(见表六)可见,题目难度为0.31~0.81不等,均在合理范围内,但是区分度(-0.25-0.75)却不如人意。题目3和题目6的区分度出现负值,这表明高分组的学生选错答案,而低分组的学生却能做出正确选择。而题目2和题目4没有区分度,即高分组和低分组学生的对错率是一样的。进而考察题目四个选项的选择,发现题目3的四个选项都为转折连词,词汇结构一致,但是正确答案“但是”为高频词。语言水平较低的学习者会因为对该词更有把握做出正确的选择,而语言水平略高的学习者会因为选项过于简单和明确而产生怀疑,反而会选择词汇频率等级略低的词汇,比如“即使”和“只要”。如果,四个选项都是一个频率等级的词汇有可能可以避免这样情况的发生。另外,题目6的四个选项词性不同,干扰项不符合逻辑。

近年来,越来越多的学者提出“促进学习的评估”(Airasian等 2007),呼吁教学与评估紧密结合,促进学习者学习效果。评估作为教学决策的重要证据,必须和教学目标和语言实际运用紧密结合,并且评估的结果要真实有效。可是,从本文的试卷文本分析和项目分析发现,教师对测试的设计原则(测试构念和目的语使用域)并未完全贯彻。不难推测,信度和真实性不高的测试目前并不鲜见,这样的测试结果被用来作为下一步教学决策的证据,后果堪忧。最直接改善这种现象的方式就是提升教师对评估和测试这一核心概念和理论的学习和实践。

四、启示与结论

从该综合课试卷项目分析结果来看,测试卷的编写并非易事,直接迁移课堂教学的内容很难达到理想的测试效度。究其原因,教师仍缺乏如何将测试与评估的基本理论概念应用到实践中的技能与知识。

自二十世纪九十年代以来,学者们不断提出对外汉语教师应当具备的知识和能力,比如电脑能力(卞觉非 1997)、跨文化交际意识(周健 2004)以及学生意识、课型意识、目的意识等(李泉 2005),但是都没有提出对外汉语教师应该发展语言评估能力。

实际上,不仅对外汉语教学界对职前教师的评估能力发展重视不够,全世界的评估能力培养普遍缺乏(Mertler2004)。主要原因是针对教师评估能力的培训课程的严重匮乏(Mertler 2003)。大部分在职教师都修过学校开设的语言测试与评估课程,但是教学内容也大多是与心理测量学范畴下的语言测试的基本理论有关( Jin 2010;Mertler 2003),和教师的实际需要相去甚远。而语言评估与测试领域的著作专业性太强,使得很多在职教师很难自学,因此对相关的评估知识与技能望而却步( Taylor 2009) 。这使得职前教师的评估能力培训状况和发展情况不容乐观( DeLuca & Klinger 2013)。

可见,目前提高汉语二语教师评估能力的关键是创造汉语二语教师测试与评估能力的培训机会。培训内容不仅需要理论和其他外语语种的实践经验,更需要有针对汉语二语教师评估能力发展的切实需求,建构实践性和针对性强的培训,以期高效提高汉语二语教师评估工具编写的能力。

参考文献:

[1].Alderson,J.C.Clapham,C.& Dianna,W.Language Test Construction and Evaluation[M].Cambridge:Cambridge University Press,2000.

[2].Airasian,P.W.,Engemann,J.F.,Gallagher,T.L.Classroom assessment:Concept and applications[M].Toronto,ON: McGraw Hill,2007.

[3].Deluca,C.& Klinger,D.A.Assement literacy development:Identifying gaps in teacher candidateslearning[J]. Assessment in Education: Principles,Policy and Practice,2013.

[4].Jin,Y.The place of language testing and assessment in the professional preparation of foreign language teachers in China[J].Language Testing,2010,27(4) :555-584.

[5].Lia Plakans,Assessment of Integrated Skills[C].in Carol A.Chapelle(Ed.)The Encyclopedia of Applied Linguistics: 2013:1-8.

[6].Mertler C A.Preservice versus in-service teachers' assessment literacy:Does classroom experience make a difference? [R].Paper presented at the annual meeting of the Mid-Western Educational Research Association,Columbus,OH,2003.

[7].Mertler C A. Secondary Teachers' Assessment Literacy:Does Classroom Experience Make A Difference?[J].American Secondary Education,2004,33(1):49-64.

[8]Popham W J.Classroom Assessment:What Teachers Need to Know(7th ed)[M].Boston,MA:Allyn&Bacn,2014.

[9]卞觉非.中国语文现代化:目标、现状与对策[J].扬州大学学报(人文社会科学版),1997,(6).

[10]肖维青.多元素翻译能力模式与翻译测试的构念[J].外语教学2012,(33).

[1]周健.论汉语教学中的文化教学及教师的双文化意识[J].语言与翻译,2004,(04).

[12]李泉.对外汉语教学理论思考[M].北京:教育科学出版社,2005.

(李春琳 中山大学外国语学院在读博士,广东外语外贸大学英语教育学院 511495)

猜你喜欢

构念试卷汉语
学汉语
轻轻松松聊汉语 后海
自我构念在认知和情绪加工中的作用及其生理机制
英语深读教学读思言模型构念与实践研究
追剧宅女教汉语
汉语不能成为“乱炖”
Module5 A Trip Along the Three Gorges
Module5 Great People and Great Inventions of Ancient China
Module 4 Sandstorms in Asia
Module 1 Europe