对外汉语听力考试的测试学效度研究
——以桂林理工大学2014下半年基础班汉语听力期末考试为例
2016-03-18全克林张震璇
全克林,张震璇
(桂林理工大学外国语学院,广西 桂林 541006)
对外汉语听力考试的测试学效度研究
——以桂林理工大学2014下半年基础班汉语听力期末考试为例
全克林,张震璇
(桂林理工大学外国语学院,广西 桂林 541006)
测试的质量一般可以用三个标准衡量:效度、信度和实用性。语言测试的效度,亦称有效性,反映的是考试测试的意图是否达到。对外汉语听力是学习汉语过程中必不可少的一门课,检测其效度,有利于汉语听力教师在出卷时做到考查学生真实的、全面的汉语听力能力,为其考试题本身的改进提高实证依据。文章选择桂林理工大学基础班汉语听力期末测试卷进行测试学研究,目的在于通过适当有效的测试,全面提升来华留学生的汉语听力。
汉语听力;测试;效度
一、引言
语言测试与语言教学之间存在着一种相互依赖的关系,它们既相互独立又相互影响。测试是教学成果的检验手段,教学又通过测试得到反馈,从而提高教学质量,二者相辅相成。语言测试不仅仅是针对英语教学,对于对外汉语教学也至关重要。对外汉语教师通过语言测试判断学生是否掌握所学知识,也能通过测试掌握学生在学习汉语时的不足之处,从而改进教学方法,提高教学质量,让更多的来华留学生,尤其是东盟留学生,能够学好、用好汉语。所以,测试的信度和效度的重要性就体现出来了。测试的信度较易掌握,在评分时明确根据每一题的得分点来评分即可。我们知道,一场测试是否成功,是否能起作用,很大程度上归因于这场测试的效度是否达到预期程度,而效度又较难把握,所以研究测试的效度对于达到测试的预期目的非常有用。
二、效度的概念及分类
(一)效度的概念
《语言测试科学与艺术》一书给效度的定义是:“语言测试的效度,亦称有效性,指测试所考的,是否就是所要考的,或者说,在多大程度上,是考了目的所要考的。”该书随后又对这个定义做了一点扩充,认为
《现代语言测试模型》一书对于效度的定义则是:“效度指证据支持我们根据测试分数做出的推论的程度。”这一个定义较难理解,因此,作者倾向于第一个定义,即认为效度是指测试的有效性,是判断测试的预期目的是否达到的标准。
(二)效度的分类
在《语言测试科学与艺术》一书中,效度被分为四大类:内在效度、外在效度、使用效度和超考试效度。其中每类效度又包括两种效度,内在效度包括内容效度和结构效度,外在效度包括同期效度和预测效度,使用效度包括表面效度和反应效度,超考试效度包括实效效度和反拨效度。而在《现代语言测试模型》一书中,效度主要被分为三种:内容效度、准则关联性效度(又称外部效度)和结构效度。其称“这三类效度研究是效度研究的主要方式,除此之外,效度研究还有一些其他方式”,包括表面效度、应答效度和后果效度。作者认为后者的分类方式不仅杂乱无章,而且不够全面,故作者将参考前者的分类方式把效度分为四类八种进行研究。
三、汉语听力测试的效度研究
(一)样本说明
本文分析的样本是桂林理工大学2014年秋季基础1班汉语听力期末测试卷,该班的留学生是以东盟学生为主,试卷由各班听力老师出题。该样本是汉语听力教程第一册中的第21课的内容,但部分题目作了适当修改,共包括七道大题,全部是客观题:第一题是听录音填表格,填写内容为时刻,第二题是听对话选择正确答案,第三题是听对话判断正误,第四题是选择你在句中听到的词语,第五题是选择你听到的句子,第六题是标出句中划线词语的声调,第七题是听后填空,写汉字。本次测试的目的是检验学生平时上课的学习情况,尤其是考验学生能否听懂,以及能否清楚区分声调中的轻声和四声,考试时间为100分钟。
(二)样本效度研究
1.内在效度
内在效度是指存在于测试本身的效度,包括内容效度和结构效度。内容效度是指测试是否考了考试大纲规定要考的,这点比较容易检验,因为一般稍正式的测试都有明确的考试大纲。由于来华留学生到校时间不一,每个班的上课进度不一样,期末试卷都是由各班任课老师自己命题,所以没有明确的考试大纲,只是简单说明试题要求的可靠性、有效性、区别性和可行性,这些正是我们接下来要研究的内容,故内容效度在此不作详细论述。
结构效度是指测试是否以有效的语言观(包括语言运用观和语言学习观)为根据,即根据什么理论结构为基础来设计试题。由于留学生为基础班,即刚开始学习汉语,故教师将试题出得较为简单,直接使用课本内容作为试题,所以不存在结构效度。
2.外在效度
据李筱菊所说,外在效度是指利用测试之外的标准(即外在标准)验证而得以证实的效度,主要包括同期效度和预测效度两种。这两种效度都需要另一次考试作参考,而此样本中受试者只有这一次测试,故无法研究外在效度。
3.使用效度
使用效度是指受试者对考试的反应,分为表面效度和反应效度两种。
(1)表面效度
表面效度指受试者在拿到试卷之后,试卷的形式和内容是否使受试者觉得它是一份有效的、确是考察受试者应考能力的试卷。据教师观察,由于此次测试是期末考试,所以学生们在拿到此次样本后,表现得非常认真。开始放听力录音前,大部分东盟学生都是先熟悉题目,只有少数几个学生不看试卷,相互说话。开始播放听力录音时,每位受试者都在认真听录音做题目,无人做其他事情。所以此次考试对基础班全体学生都具有表面效度。
(2)反应效度
反应效度是指受试者在做题时,是否按照试题设计的要求去作出反应。例如第一题,听录音填表格,要求用数字写时间,而不是用汉字写。基础1班共14人参加测试,无人写汉字,都是用数字写时间,当然也是因为在课本上已经做过这道题。那么我们可以知道,这道题具有反应效度。再例如此样本中第七题,听后填空,要求受试者在空格上写出听到的汉字。此题经过适当修改,材料还是课本上的材料,但填空的位置都变了。14位学生中有13人都理解是写出汉字,只有一位同学把此题理解成了标声调。所以这道题目对于绝大多数学生都具有反应效度,只对一位学生缺乏反应效度。
4.超考试效度
“超考试效度的依据是交际语言测试的超考试目的论。这些测试学家认为,从事语言测试,从一开始就应当有一个超出考试的目的。考试绝不仅仅是为了得到一些数据,说明受试者的目标能力的状况。”超考试效度包括实效效度和反拨效度。
(1)实效效度
实效效度是指受试者能不能够在实际生活中真正运用测试中所出现的内容。例如一次教师资格考试,具有了外在效度、内在效度、使用效度等等,但考出来的受试者实际站在讲台上却不会教书甚至根本说不出话,那么这次考试就是缺了实效效度。
在本次样本中,重点测试的是东盟学生及其他学生对于时间词的听力,以及能否分别汉语声调中的四声和轻声。任课教师与学生进行交流,询问他们现在几点了,每一位学生都能够正确地说出时间。在日常聊天中,教师有询问学生晚上几点睡觉,下午3点在哪里之类的问题,大部分东盟学生都能够用汉语回答,说明此样本中与时间有关的试题对学生有实效效度。关于另一点,测试学生能否区分汉语声调中的四声和轻声,小部分东盟学生在测试中的反应不太好。与此考点有关的是第六题,听录音标声调,有许多词语的第二个字都是轻声,如kuai zi(筷子)、nuan huo(暖和)等词。此题是所有题目中得分最低的一道题,满分30分,20分以上的只有3个人,大部分学生都只能得13、14分。通过任课教师观察,东盟学生在平时说话时也无法区分轻声和四声,把所有轻声都读成四声,不过汉语中的声调对于外国人来说本来就是最难的。所以我们可以知道,这道题缺乏实效效度。
(2)反拨效度
反拨效度是指考试对教学是不是有良好的反拨效应。例如,在对外汉语听力题测试中,如果考试只考汉字怎么写,那么教师在教学时必定会让学生死记硬背大量的汉字和词语。如果考试中把要考的词语放到实际情景中考,如听对话写汉字,那么教师必定会想方设法给学生讲解这些词语是什么意思,在实际生活中应该怎样使用。前者的反拨效应是不好的,不利于提高教学质量,后者的反拨效应是好的,有利于提高教学质量。
例如此样本中的第七题,两段材料都只是一段叙述,不是实际的对话。而且由于命题教师的修改,需要学生写出的文字根本不需要根据文章前后大意而判断,只需要死记硬背即可。只要听清楚了,就能写出正确的汉字,一旦没有听清楚,就写不对,无法根据上下文意思推断空格中应该写什么汉字。并且有几处需要填的内容,都已经在材料中出现过正确答案了,这是命题教师的失误。所以我们可以知道,这道题不具备好的反拨效度。此样本中的其他题目均是客观题,死记硬背即可得出答案,也不具备好的反拨效度。但样本中的第六题具有很好的反拨效度,根据测试的结构,教师知道让学生死记硬背某些词语的声调是没有用的,必须要找出一定的规律,或者找些有趣的资料帮助学生们学习声调才可以。
(三)研究结果
根据以上分析可以得出结论,此样本缺乏内在效度、外在效度和好的反拨效度,使用效度达到预期目的,实效效度也具备,但仍需要增加。总而言之,此样本不是一次非常成功的考试,效度不够,还有许多地方需要改进。第一,不管受试者如何,作为一次正规的期末测试,应该有具体的考试大纲。即使不需要像其他公共考试那么严格,也需要有一个简易的考试大纲,而不是用几个词语代替。第二,命题教师在出题时应当多使用与实际情景有关的材料,而不是选取空洞的,没有实际意义的材料。当然,由于受试者的汉语水平不够,许多题目理解不了,只能出简单的题目,效度自然不够。相信随着受试者汉语水平的提高,测试的效度也会随之提高。
四、结语
根据以上结论我们已经知道,试题样本的效度不够。这就要求我们汉语听力教师在今后的测试中,严格遵守命题的流程,一步一步从考试大纲做起,设计出真正有效的测试,从而了解本班学生的不足和优势,在以后的教学中突出重点,重点讲解学生们的学习难点,从而提高来华留学生的汉语听力水平。
[1]李聪.英语短文改错题型的测试学效度研究[Z].校园英语(教研版),2012.
[2]王振亚.现代语言测试模型[M].石家庄:河北大学出版社,2009.
[3]李筱菊.语言测试科学与艺术[M].长沙:湖南教育出版社,2001.
[4]陈炜.对外汉语教学成绩测试效度研究[D].上海外国语大学,2010.
Research on the Validity of Chinese Listening Test for Foreign Students
Quan Kelin,Zhang Zhenxuan
(School of Foreign Studies,Guilin University of Technology,Guilin,Guangxi 541006,China)
The quality of a test can be measured by three criteria,including validity,reliability and practicability.The validity of linguistic test reflects whether the purpose of a test is achieved.Chinese listening is an important course in Chinese as a foreign language teaching.The research of its validity can help Chinese listening teachers examine the students’real and comprehensive ability of Chinese listening, meanwhile it provides positive evidence to improving the exams.The authors choose the Chinese listening final exams of beginner classes in Guilin University of Technology to do some testing researches,aiming to improve the ability of Chinese listening of students from abroad by some proper and effective tests.
Chinese listening;test;validity
H13
A
1001-7070(2016)02-0094-03
10.16020/j.cnki.cn45-1302/z.2016.02.024“测试的效度,不仅表明它考了目的所要考的,还应表明它达到了目的所要达到的(Morrow,1986)。”
(责任编辑:彭志雄)
2015-12-30
广西教育科学“十二五”规划2015年度课题“跨文化适应视域下广西的东盟来华留学生管理和教育模式改革与创新研究”(项目编号:2015C368)。
全克林(1974-),男,广西桂林人,博士,桂林理工大学外国语学院教授;张震璇(1990-),女,湖北襄阳人,桂林理工大学在读研究生。