影响普通话水平测试(PSC)成绩的因素分析
2020-05-10杨青
杨青
[摘 要] 测试员在进行普通话水平测试时,有时不可避免地受到一些因素干扰,使测试成绩出现偏差,无法反映应试者的真实水平。承认普通话测评误差是真实存在的,不可避免,基于这种认识,试图总结测试员测试过程中影响测试成绩的因素,探讨如何能最大限度缩小这些因素对测试成绩的影响,使考生普通话水平测试成绩更加接近真实水平。
[关 键 词] 普通话水平测试;测试员;影响因素;测试成绩
[中图分类号] H102-4 [文献标志码] A [文章编号] 2096-0603(2020)16-0150-02
普通话水平测试(汉语拼音简称为PSC)是一种国家考试,是对语言有较高要求的一些行业工作人员掌握普通话水平的测试。依据全国统一标准,通过朗读单字、词语、短文及说话等项目的口头测试,对他们掌握普通话的程度进行评定。普通话水平测试作为推广普通话的重要组成部分,无疑是使普通话工作逐步走向现代化的重要措施之一。实行多年发挥了巨大的作用。但是,无论什么考试,考试本身都不可能百分之百反映受試者的真实水平,都会存在误差,如何才能最大限度地把误差限定在最小的范围内,这是PSC所有工作人员应该探索的问题。本文就测试员主观因素对PSC考试的影响,做出分析,提出相应对策。
现阶段的PSC采用计算机辅助测试(CAT-Computer-aided test)的方式进行,应试者朗读单字、词语、短文及说话等项目的口头测试,全部用计算机录音保存,之后机器识别评分。机器识别语音有其客观上的公平性、准确性,如在测试单音节、双音节时,机器识别相对真实正确。但是有些内容的识别相对失真,比如朗读、说话,机器识别就比较机械,测试成绩有偏差,与应试者朗读技巧的真实水平有距离,在语感、情感、结构特点、思想内容等方面,机器无法像人一样细腻、深刻、灵活地感知。因此,普通话水平测试的后两道题部分地方采取人工评价的方式进行,把应试人的应试语料用计算机保存,然后线上分发给3个测试员(通过国家、省普通话水平测试员培训考试成绩合格者,被聘为PSC测试员)来评分。人工评价不可避免地受到“人”的主观影响。
一、主观原因
就是与“人”有关的原因,主要指由于测试员的原因造成的评测结果失准。
(一)个人评测水平不同
由于评估者的思想水准、技术水准、测试经验多少不同,测试水平也不同。评估标准的理解运用差异性较大,评估结果也就差异性较大。测试中有的测试员无法反映并记录错误、缺陷,造成测试结果失真。还有一种情况就是,测试员自己的普通话水平较低、知识掌握有限、经验不足、对错标准含糊不清,导致把应试者正确的答案记录成错误,错误的答案记录成正确,影响测试结果。虽然这种评分差距已经在努力缩小,例如测试误差越级的,那么评测无效,其他测试员重新评测;不越级的测试误差采用平均数计分,也会缩小误差。
(二)情绪化评价
情绪控制着人们的行为,也控制着对事物的评价。每个测试员都是一个相对独立的个体,都有各自相对独立的个性特征、价值体系、情绪体验。测试员的测试行为总是在各自的价值系统情绪体验下进行,个人的价值系统在测试过程中发挥着标准的作用(或者说代替标准行职),相对于被试者所表现出来的真实或实际的成绩,有些测试员评分过高,有些则过低。有的人成绩被高估了,即比他的实际水平要高;有的成绩则被低估了,低于应得的成绩,这种错误产生的原因是测试员的情绪体验,应试者关联到测试员高兴的情绪体验,或应试者的某些方面激发了测试员自身的情绪体验,从而得到增量评价,相反获得测试员的减量评价。增量评价与减量评价都是能够避免或者缩小差量的。
(三)偏见式评价
在生活中我们往往会遇到这样的情况:如果一个人老实忠厚,而另一个人狡诈阴险,那么就会有这样的评价,好事都是忠厚老实的人去做,而坏事都是阴险狡诈的人干的。其实有时也不尽然,这就是偏见。测试者对应试者偏见式的评价,影响到这个人各方面的正确评价,也就是戴有色眼镜看人。应试者的许多特质都可能影响测试员对其正确评价,如甜美的声音可能使测试员产生好感,使其犯增量评价错误,忽略其读音不准确或朗读不流畅的失误,给其一个夸大的评分。还有容貌美丽与丑陋、举止大方或心理紧张而忸怩、朗读方式等都可能获得增量减量评价,而不是正确的评价。
(四)相似性评价
这个名词来自Stephen P.Robbins的Organiazation Behavior一书,意思是说如果评估者对其他人进行评估时,特别注意别人是否具有他自己所具有的某些特点,那他就犯了相似性评价错误。例如,假如一个评估者认为自己进取心很强,在评估他人时,他就可能寻找进取心的特点。那么表现出这种特点行为的人就会受益,而其他人则会吃亏。在PSC测试中,如果测试员自己平翘舌音特别好,那么应试者的平翘舌音处理好的,就会得高分,即使他的调值、流畅度以及准确度都不好。相反,那些不好的应试者则会得低分,即使其他方面都不错。
(五)低区分度评价
一般来讲,PSC测试员可分两类,一种是高区分度者,能用测评标准各个分数级别进行评估;另一种是低区分者,只能用其中有限的等级评测。低区分度者倾向于忽视或缩小差别,他们看到的同一性比实际情况要高。相反,高区分度者则能更好地发现差异。在实际测试中,低区分度的测试员常常不能发现差别、错误,无法按评测标准评测出正确的成绩。而高区分度的测试员则能按标准评测出错误缺陷,记录详细完备,能够做出正确的评价。
二、客观原因
主要指试题命题及测试管理工作存在的不足。
(一)试题的歧义性
命题要求应该具有唯一性,口语测试是有时间限制的瞬间口语反应,如答案具有歧义性,则势必影响时间。所以岐义性试题应设置解题情境,避免答案的岐义性。例如,测试读单音节字词,经常出现多音字,本题最好不要出现多音字,即便出现,也应设计出具体的语言环境,使其读音在具体的语言环境中具有唯一性标准答案。测试题二,读多音节词语,应极力避免读音的双解,如“孙子”是读轻声sun zi,还是读sun zǐ。如果出现也应加注语言环境。部分测试题为了卷面整齐美观就忽略了标注语言环境,使应试者答案与试题标准答案有所不同,答案出现歧义。
(二)考试的信度
一项考试的信度,就是这项考试的一组成绩和对同一组考生实施等价考试所得的另一组成绩相比较,它们的一致性程度。在实际的测试过程中,PSC测试存在的问题,除了测试员问题外,应试者由于心理紧张、焦虑等因素外,可能还与试题的难易度区分度有关系。试题的区分能力就是试题用于考试时使水平高的考生得高分,水平低的考生得低分的倾向力。要做到区分度高,就应注意试题的难易程度,试题应难易程度适当,都在同一水平上波动。
(三)试题的针对性
由于汉语使用地域的广泛,使得各方言区的漢语语料有所不同。普通话是建立在“以北京语音为标准音,以北方话为基础方言,以典范的现代白话文著作为语法规范”的标准之上,所以普通话与各地区方言的差异是存在的。PSC除了要测出应试者的普通话水平等级之外,还有一个任务,就是推广普通话,使各地区的人们使用普通话工作、生活,所以可以研究各方言区人们的语料特点,学习普通话的难点,在拟题时,在满足评测标准覆盖率的前提下,拟定有针对性的题目并控制每一题型的比重,做到有针对性。这是建立在满足PSC标准试题的前提下进行的,只有这样,才能站在国家的立场公平地评估各方言区的应试者,使PSC公正公平地展开,并且能极大地在各方言区推广普通话。
(四)管理制度方面
就当前来说,测试工作的管理制度已经建立,但在具体测试中还存在不完善的地方,存在不能依法执行科学评测程序的问题。测试是由人来安排的,人有其主观的因素在支配着对测评结果的界定。测试人员的短缺,受试人数的倍增,导致测试人员的工作量增加,迫使测试员减免测试的步骤与程序。如试题口头说话,测试员评测时不按照评测量表评分,忽略量表的科学性计算,而采取缺乏细化的等级来评估应试者的成绩,使测试的精确度降低。可能也存在作弊现象,工作人员数量不足,势必要使用一些临时的借用人员,就给受测人员提供了作弊的机会,出现替考现象,机器储存的语料非本人的真实语料。
三、改进措施
(一)针对主观原因
一方面扩大机器评测的内容,加强机器评测的准确性、智能评测性,使机器语音识别的准确性增强。另一方面应加大培训测试员的力度,重点培训口语课教师的测试水平。对普通话测试的内容、评测标准、评测流程都有深入的了解,培训是建立在已有的知识经验基础上,培训双方都很轻松。他们还能把培训成果运用到实际的教学中,加强课堂教学实效,对推广普通话有着更大的意义。
加强制度的监管,加强工作人员的评测纪律约束。由于测试安排完全操纵在测试管理人员手中,管理人员又不足,加上受试者与日俱增使测试量增大,从而有可能导致管理人员工作量剧增,使他们根本忙不过来,于是就必须从下面各学校借人帮忙,抽调人的素质良莠不齐,应该加强监管和教育,制定相对的约束规则。避免可能出现的测试步骤与程序的监管不力,如替考、口头说话带草稿、提前指定考题等偶发事件。
(二)针对客观原因
一方面更加科学地制订评测内容,避免因测试内容难易不同造成测试评分的失真。拟题人员已经做出调整,新大纲已经把原40号作品《神奇的燕子洞》、39号作品《世界民居奇葩》拿掉了,因为确实很难。其实也可以把新大纲朗读作品54号《赠你四味长寿药》拿掉,因为文章中出现了四次“当”这个多音字,一个错了,四个都得错,这是不公平的。再如说话题目30个,难度也不一样,虽然从题目上看,在寻求最大化的难度一致性,可要做到完全一样的难度,是不可能的,只能缩小差别。还有就是针对多音字的试题,要加注其字的读音环境,以确保答案的唯一性,确保测试的规范性、科学性。
另一方面使用机器评测。机器语音识别度高于人,更准确、更高效、更科学,消灭了人为的不确定性、差异性。
综上所述,PSC误差消失的最主要因素就是实现更高水平、科学化、现代化、标准化。科学化就是测试过程及试题制定的科学化管理,它是提高测试信度与效度的重要保证,是克服上述客观原因的保证。现代化就是考试手段现代化,是解决测试完全由人所带来的主观原因造成误差的关键,要加强机器语音识别的精准度,是解决社会测试需求不断增加的根本出路。标准化就是在科学化现代化的基础上,按照最优化要求建立统一高效的工作程序。
参考文献:
[1]国家语言文字工作委员会普通话培训测试中心.普通话水平测试大纲[M].北京:商务印书馆,2004.
[2]斯蒂芬·罗宾斯,蒂莫西·贾奇.组织行为淡定[M].北京:中国人民大学出版社,2008-01.
[3]安妮特·西蒙斯.你的团队需要一个会讲故事的人[M].尹晓虹,译.南京:江苏凤凰文艺出版社,2016.
编辑 王海文