APP下载

普通话水平测试免测“选择判断”项实证研究

2014-05-16朱丽红

关键词:评分标准应试普通话

朱丽红

(教育部 语言文字应用研究所,北京 100010)

一、问题的提出

《普通话水平测试大纲》①教育部、国家语委发教语用[2003]2号文件。(以下简称“《大纲》”)规定:普通话水平测试的内容包括普通话语音、词汇和语法,试卷包括5个组成部分,满分为100分:读单音节字、读多音节词语、选择判断、朗读短文、命题说话。每个测试项分值不同,有各自不同的检测目的(表1):

表1 普通话水平测试项目、分值及检测目的

同时并说明:“各省、自治区、直辖市语言文字工作部门可以根据测试对象或本地区的实际情况,决定是否免测‘选择判断’测试项。”[1]

从各地区开展测试的实际情况看,除了内地个别省份、港澳台地区及海外测试还保留“选择判断”测试项,其他地区都采取免测“选择判断”测试项的做法。可以说,不论是在区域上还是在测试人数上,免测“选择判断”测试项的四项测试都是主流。

“普通话水平测试不是一般的学术性的测试,不是可有可无的,而是关系到推普大业的一项测试”[2],《中华人民共和国国家通用语言文字法》对应当接受测试的人群有明确的规定,普通话水平测试的成绩成为资格准入的条件。免测“选择判断”测试项,直接改变了测试项目和评分标准,这种变化对测试成绩会产生怎样的影响?《大纲》为什么允许“选择判断”测试项的免测与不免测并存?基于对母语的经验性认识和判断,免测“选择判断”测试项的大局早在普通话水平测试开始实施的阶段就已经形成,而实证研究一直比较缺乏。

关于免测“选择判断”(不免测“选择判断”的下文称“五项测试”,免测“选择判断”的下文称“四项测试”)对应试人成绩的影响,陶昱霖曾经做过一个小样本研究。[3]这一研究选择了28个样本,测试员先后根据《大纲》五项测试的评分标准和某省《评分细则》评分,通过应试人成绩的变化比较《大纲》的评分标准与某省的《评分细则》的差异。在这个小样本研究中,使用的评分标准并不完全相同,测试员先后两次评分也会存在差异,这些都是可以改进的地方。本研究拟扩大样本量,以《大纲》的评分标准为唯一依据,同时避免测试员重复评分时主客观条件变化带来的影响,再进行统计分析。

二、免测“选择判断”项的实证研究

限于语音样本选择条件,本研究随机选取88位香港应试人参加电脑录音测试的语音数据和评分数据进行分析。香港采用的是五项测试,本研究采用的方法是:先根据《大纲》五项测试的评分标准进行评分,语音数据不变、测试员不变、也不做重复评分,只是根据《大纲》对四项测试的评分标准调整评分,然后进行对比分析,借以观察免测“选择判断”后应试人成绩的变化情况。数据采用SPSS13.0统计工具进行统计。

《大纲》规定,如果免测“选择判断”项,单音节词、多音节词语、朗读短文的分值和评分标准都不变,只是“命题说话”测试项的分值由原来的30分调整为40分。具体来说,原来赋予“选择判断”的10分重新分配给“命题说话”项的“语音标准程度”和“词汇语法规范程度”两个评分项,“语音标准程度的分值由20分调整为25分”,“词汇语法规范程度的分值由5分调整为10分”。分值的调整存在以下规律(表2):

表2 免测“选择判断”后的分值调整

(一)免测“选择判断”项以后分数的变化

刘照雄先生曾预测,“免测‘选择判断’项相对提高了测试的难度。如果确定得不恰当,会在一定程度上影响测试的信度。”[4]应试人参加五项测试和四项测试最后分数的分布曲线的偏态系数和峰度系数都在±1之内,基本符合正态分布。五项测试的平均分为75.99分,四项测试的平均分为75.13分,五项测试比四项测试的平均分高0.86分。经配对样本T检验,在95%置信度下,双尾检验的显著性为0.000,小于0.05,五项测试与四项测试的平均分存在显著性差异,证明四项测试的难度确实大于五项测试。

同时,统计表明,五项测试与四项测试的分数的皮尔森相关系数(Pearson correlation)达到0.996,显著性为0.000,五项测试与四项测试的分数存在显著相关,证明四项测试与五项测试具有同样的信度和效度水平。

免测“选择判断”后分数变化的三种情况分别为(表3):

表3 免测“选择判断”后分数的变化情况

考察发现,总分提高的样本在“选择判断”测试项的平均失分为3.69分,而总分降低的68个样本在“选择判断”测试项的平均失分为1.16分,相差明显。如果不考虑语音失分,总分提高的应试人在“判断”中的平均失分达到2.17分,远远高于0.9分的平均失分。取消“选择判断”项以后,虽然在“命题说话”中“语音标准程度”和“词汇语法规范程度”的失分都会增加,但语音失分最多增加2分,词汇语法失分最多增加1分,再加上“选择判断”项中的语音失分失而复得,这部分应试人的最后成绩反而提高了。“选择判断”失分越多,免测“选择判断”项以后分数的补偿作用越明显,而那些在“选择判断”中本来失分很少或根本不失分的应试人只能眼睁睁地看着“命题说话”中的失分增加。

(二)免测“选择判断”项以后等级的变化

相对于分数,应试人更关注等级,因为行业准入标准一般是以等级来划定的。统计显示,五项测试与四项测试在等级上分布基本符合正态分布,等级分布的具体变化如下表(表4):

表4 免测“选择判断”后等级分布的变化情况

经统计,在95%置信度下,双尾检验的差异显著性为0.000,小于0.05,说明五项测试与四项测试的等级存在显著性差异。五项测试与四项测试的等级的斯皮尔曼相关系数(Spearman correlation)达到0.915,显著性水平为0.000,五项测试的等级与四项测试的等级显著相关,证明从等级的角度看,五项测试与四项测试也具有同样的信度和效度水平。

五项测试与四项测试的等级分布情况说明,虽然本研究语音样本的地域来源比较单一,但测试等级分布也与全国的分布形势大体相同,也就是“二级乙等数量最多,二级甲等和三级甲等数量其次,一级乙等和三级乙等再次,一级甲等和不入级最少”。[5]免测“选择判断”项以后,在等级分布上,一级乙等、二级乙等减少,主要向三级甲等集中,但二级乙等和三级甲等占主要的总趋势没有改变,也比较符合香港的实际情况。

免测“选择判断”后等级变化的三种情况分别为(表5):

表5 免测“选择判断”后等级变化的情况

数据表明,免测“选择判断”之后,测试项目、评分标准发生变化,几乎100%的应试人分数都发生了变化,但仍然有82%的应试人可以维持在原来的等级,原来是三级水平的样本都没有发生等级变化。考察等级发生变化的16个样本,发现应试人的分数有明显的共性:不论是等级提高还是等级降低,这些分数都是某一等级的临界分数(一般为±1分,不超过2分),等级变化之后的分数仍然属于临界分数。这主要是因为普通话水平测试的三级六等各有一定的分数范围,等级越低,分数范围越大,如果原来的分数处在边缘地带,调整以后很容易引起等级的变化。

(三)应试人“选择判断”项成绩分析

我们一直认为“选择判断”项存在难度低、区分度也低。“选择判断”测试项平均失分1.6分,其中“语音”平均失分0.7分,只有4人没有出现语音错误;②《大纲》规定在“选择判断”测试项中“答题时语音错误,每个错误音节扣0.1分;如判断错误已经扣分,不重复扣分”。“判断”平均失分0.9分,只有25人(28%)没有出现判断错误。除去语音因素,“判断”的平均失分仅为0.8分。以得分率计算,“选择判断”测试项总体的难度系数为0.84,不考虑语音因素,则达到0.92,得分系数偏高,说明“选择判断”测试项试题的难度偏低。

在经典测试理论中,区分度常常以某测试项高分组与低分组平均分数的差异或某测试项的得分与测验总分之间的相关程度来表示,差异越大或相关系数越高,试题的区分度越好。将应试人的“选择判断”成绩进行分组统计,有23人在高分组,65人在低分组,高分组平均失分3.49分,低分组平均失分0.96分,采用独立样本T检验的结果为,在95%置信度下,双尾检验的显著性水平为0.000,差异非常显著。同时,统计表明,“选择判断”与五项测试的总成绩之间的相关系数为0.863,在99%置信度下的显著性水平为0.000,相关性非常显著,说明“选择判断”的区分度良好。数据同时也能证明“选择判断”在普通话水平测试中也有效度和信度上的价值和贡献。但是,在“选择判断”测试项的失分中如果不考虑答题方式错误(比如照念题干和选项)有近50%来自语音失分,该测试项测查词汇语法规范程度的效度要打一些折扣。除去语音因素,“判断”与“命题说话”项中“词汇语法”小项失分情况对照(表6):

表6 “判断”与“命题说话”项中“词汇语法”小项失分情况对照

“选择判断”中“判断”与“命题说话”中的“词汇语法规范程度”的相关系数仅为0.035,双尾检验显著性水平为0.749,大于0.05,没有显著性相关,不能简单类推。

本研究中的应试人在有文字凭借的“选择判断”项中,有72%的应试人出现了判断失误,在无文字凭借的“命题说话”项中,78%的应试人出现了词汇语法错误。“普通话的语序及表达方式,粤方言口语虽然不这么用,但应试者在学习书面语时已掌握,有一定的语感,在测试中基本都有正确的选择”,但在实际的口语运用中还是不能运用自如。[6]

(四)结论

(1)由于五项测试与四项测试的分数和等级都存在统计学意义上的显著差异,为保证普通话水平测试的公平性,应尽量避免五项测试与四项测试两种测试模式同时存在。

(2)由于五项测试与四项测试在分数和等级上都存在统计学意义上的显著相关,五项测试与四项测试具有同等的信度和效度水平,采取五项测试或四项测试都是可以接受的,从工作实际来看,四项测试被广泛采用,也可以说四项测试是未来的发展趋势。

(3)“选择判断”项对某些特定人群来说仍有一定的价值。香港地区的语言生活与内地不同,对多数香港应试人来说,这一项的保留在超考试效度层面能够提醒应试人在普通话学习过程中词汇语法规范程度仍是需要注意的问题。

(4)由于事实上目前五项测试与四项测试仍是并存的局面,考虑到影响的主要是临界分数以及由此引起的等级的变化,应当加强对等级临界分数的复审。

本研究在语音样本的选择及数量上存在一定的局限性,但对于免测“选择判断”项的研究有一定的启发。鉴于普通话水平测试的测试量已达3 300余万[7],是大规模国家级测试,本研究的样本量仍然偏小,下一步的研究中可以考虑将样本量扩大到1 000个以上,并考虑样本地域分布、等级分布等相关因素。

三、余论

“选择判断”测试的目的是测查应试人词汇、语法的规范程度,它的存在直接体现了普通话水平测试的语言观和语言测试观——语音、词汇、语法是普通话不可缺少的要素,也是普通话水平测试不可或缺的内容。免测“选择判断”项被广泛采用和接受,与普通话水平测试的性质、应试人群以及“选择判断”测试项本身的试题形式有直接的关系。

“普通话水平测试主要考查应试人的语音规范程度,同时兼顾词汇和语法等非语音要素。”[8]语音是语言的物质外壳,普通话水平测试是面向汉语母语人的口语测试,在方言与普通话的差异中,最容易感受到的是语音的差异,普通话水平测试以语音规范程度、标准程度为检测重点是非常合理的。

从现阶段主要的应试人群构成情况分析,按照有关法律和规定的要求,目前应接受测试的人员为:教师和申请教师资格的人员;广播电台、电视台的播音员、节目主持人;影视话剧演员;国家机关工作人员;师范类专业、播音与主持艺术专业、影视话剧表演专业以及其他与口语表达密切相关专业的学生;行业主管部门规定的其他应该接受测试的人员。普通话既是学校母语教育的目的语,也是母语教育的工具,这些人群已接受比较系统的母语基础教育,达到中等文化程度,在长期的书面语学习过程中已基本掌握普通话词汇、语法,在从方言到普通话的转变过程中,普通话水平的高低主要体现为语音规范程度和熟练程度的差异。

“选择判断”的试题形式为多项选择和搭配组合,这两种题型客观性高,能实现较高的信度,但是不够真实,实验数据也证明“选择判断”与“命题说话”的相关性不显著。多项选择和搭配组合题型都很难排除答题时的猜测因素,选项越少,猜对概率越高。有些试题本身还有提示正确答案的作用,比如有的干扰项中用到“、”等字,这些字属于方言用字,该方言区的应试人和其他方言区的应试人看到这样的字都不会选择这个选项,这样干扰项就失去了干扰作用。这些因素都进一步降低了测试的难度,使“选择判断”几乎成了送分题。此外,“选择判断”现有题库中有些试题本身的典型性还值得商榷,用来作为试题未必是合适的。这些因素也是大部分地区选择免测“选择判断”项的原因。

另外,普通话水平测试的等级有一定的分数范围,越是高等级,分数的浮动范围越小,对评分标准的调整越敏感,最典型的应该是一级甲等。免测“选择判断”项对自我目标为一级甲等的应试人有什么影响也有待进一步探讨。

为体现词汇、语法规范程度在普通话中的重要地位,同时保证普通话水平测试的全面性,《大纲》对免测“选择判断”测试项以后的分值做了重新分配。从实验数据来看,由于免测“选择判断”测试项,应试人在“命题说话”测试项中的“语音标准程度”扣分平均增加了2分(约27%),在“词汇语法规范程度”上的扣分数值上虽然很少,但比例上平均增加了1倍(100%),扣分更为严格。这种调整是对免测“选择判断”以后对词汇语法规范程度检测的一种补偿,“使得词汇、语法与语音的分值权重比例保持了相对均衡”。[9]普通话学习者应清楚地认识到,免测“选择判断”项并不意味着免检词汇、语法的规范程度。在注重语音标准、规范的同时,不能忽略词汇、语法的规范程度的提高。相对于语音,普通话水平测试中词汇、语法的研究仍显不足,如何有效检测应试人词汇、语法的规范程度仍在探讨之中。在既有形势下,普通话水平测试员应按照评分标准对应试人的词汇、语法规范程度进行评测。至于在具体评测时如何把握尺度,已有很多专题研究,本文不再赘述。

[1]国家语委普通话培训测试中心编制.普通话水平测试实施纲要[Z].北京:商务印书馆,2004:5.

[2]姚喜双.推普工作的重要抓手——谈依法推进的普通话水平测试[J].语言文字应用,2010(3):26-34.

[3]陶昱霖.《普通话水平测试大纲》与江苏省《评分细则》的比较分析[J].语言文字应用,2007,增刊:126-130.

[4]刘照雄.《普通话水平测试实施纲要》概述[J].语言文字应用,2004(3):10-14.

[5]韩玉华.普通话水平测试等级标准样本库采集方案初探[J].语言文字应用,2010(4):98-104.

[6]刘慧.对“选择判断”中“语序及表达形式判断”项的一些建议[J].语言文字应用.2007(增刊):117-120.

[7][8]姚喜双.普通话水平测试概论[M].北京:高等教育出版社,2011:1,66.

[9]王晖.普通话水平测试中的词汇、语法问题[A]//第二届全国普通话水平测试学术研讨会论文集.北京:商务印书馆,2006:166-174.

【责任编辑 曹 萌】

猜你喜欢

评分标准应试普通话
2021年高考《选修3—4》考点预测及应试策略
体育课“大翻身”须警惕陷入“应试”误区
永远的格纹
我教爸爸说普通话
分析磁场应试中的四个易错点
初高中英语作文评分标准初探
应试写作的文化视角探讨
海峡两岸高考语文作文评分标准的比较研究
如果古人也说普通话
针对TOPIK评分标准的韩国语写作教育