论普通话水平测试中的评分误差
2010-04-07刘冬冰魏海棠赵思达
刘冬冰,魏海棠,赵思达
(1.南京林业大学语言应用研究中心,江苏南京 210037;2.南京晓庄学院新闻与传播学院,江苏南京 211171;3.北京师范大学文学院,北京 100875)
论普通话水平测试中的评分误差
刘冬冰1,魏海棠2,赵思达3
(1.南京林业大学语言应用研究中心,江苏南京 210037;2.南京晓庄学院新闻与传播学院,江苏南京 211171;3.北京师范大学文学院,北京 100875)
对普通话水平测试的复审表明,评分中“朗读”与“说话”的误差较大,其原因涉及试卷构成与队伍建设等多个方面。为提高普通话水平测试的信度,以普通话语音知识和方言学、音位学的基本知识作为内容的测试员后期培训应尽快付诸实施。
普通话;水平测试;评分误差
普通话水平测试作为一项较新的语言测试,涉及到语言学中的实验语音学、言语声学、心理语言学、统计语言学和语言教学与测试等领域。因其新,故在测试的理论和方法上有待完善。目前,一些省份已经利用计算机辅助测试,对前三项进行评分,取得了较好的效果。但是,第四项“说话”仍然为人工打分。就笔者调查情况来看,测试员在实际操作中,由于主观因素的影响,对标准的把握不尽相同,测试误差在所难免。为了把因主观性评定而产生的测评误差降到最低限度,许多省份采取了复审制度。可以说,复审制度是普通话水平测试的补充和延续,是其重要的辅助部分。笔者近些年参与了江苏省普通话水平测试的复审工作,发现一些测试点的音档中存在着评分过松过紧现象,其中过松占多数。打分误差集中表现在第三项“朗读”和第四项“说话”上。即使是同一组测试员,在对同一个被测对象打分时前两项非常接近,而第三项“朗读”和第四项“说话”的打分却相差较大。本文拟以江苏省为例,就复审中发现的测试误差现象进行分析。
通过考察我们发现,造成评分误差的原因大致有这样几个方面。
一、试卷内容的特点不同
第一、二项的测试内容基本上处于一个较稳定的状态,对相对稳定状态中的错误和缺陷的认识容易取得一致;而第三、第四项的内容处于动态的语流中,对其语音错误与缺陷的认识不易取得一致。相对来说,测试第一、二项时,由于字词之间的间隔使应试人的语速也相对缓慢,测试员判定正误的时间较充分;而第三、第四两项中,汉语音节是以动态的形态出现在语流中的,被测的语速相对较快,发音不易稳定,这是造成判分误差的原因之一。
语言习得理论显示:同一个音位在不同的语流中出现时,被试者需用不同的音位去替换。这说明语音的静态难度和动态难度是不同的,对发音器官协调能力的要求也是不同的。现场测试也证明了这一点——被测的语速、词语在句子中的地位都可能使一个音节在音质上和韵律特征上发生改变。例如“很高兴”中的“很”如果发成“哼”的上声,既不应定为错误,也不应判为缺陷,因为“高”的声母是个舌根音,很容易同化“很”的韵尾。所以,测试不仅要求测试员的听觉高度灵敏,注意语音学上不同音素的分析,而且还要注意从音位学的角度进行分辨与归纳,即测试员应具备必要的音位学知识和对语流音变把握的能力,确认汉语普通话每一音位常见的条件变体,这样才可能不放过一个“错误”或“缺陷”,不冤枉一个正确的发音,才可能将错误与缺陷区分开来。
错误和缺陷的判定应该以音位理论为参照系,理由是,以能否区别意义为依据比较合理,也比较容易控制。所以,不能简单地认为凡把甲音素发成了乙音素或把甲调值发成了乙调值都为错误。例如:徐州方言区的人往往把[a]鼻化,失去韵尾,近乎[~a];南京方言区的人则易把[α]发成[ε],尽管把甲音素发成了乙音素,但并未造成意义的混淆,所以,应定为缺陷;另外,许多人把第一项中的上声也发成半上,调值为 21或 211,也由于并未产生歧义而只能算作缺陷。前鼻音与后鼻音的音质差别尽管在二者相混的方言区听来几乎为零,但从普通话音位系统的角度分析就特别重要了,倘若相混就是错误。都是相似,有的为错误,有的为缺陷,衡量标准是能否区别意义。就目前复审的结果看,有些测试员对音位理论的把握不甚到位,因此把一些缺陷判为了错误。这对第四项的评分尤为重要,因为“说话”是按照读错的音节的数量为主要参照系来定档的。
有时候,测试员判定错误与缺陷的标准会从一个角度偏向另一个角度,从而造成误判。我们注意到,在第一项读单音节字词时,不论汉语普通话中有无 B音节,被试者若把 A音节发成 B音节,尽管 B音节并不存在,测试员很容易将其定为错误 ,例如 :把“腾 ”读成“[tən]”或读成上声、去声。但是,在第二、三、四项测试中,如果把 A音节发成 B音节,B音节在普通话中本不存在,测试员却很容易将其定为缺陷。例如:把“沸腾”之“腾”发成[tən]。为什么同一种语音现象时而被认为是错误,时而被认为是缺陷呢?原因很可能就是:这时候,测试员判定正误的标准已经从“某个音素能否区别意义”变成“在语流中是否造成意义的误解”了。
二、对“语调偏误”的所指认识不同
“语调偏误”在江苏省的《细则》中被界定为重音不当、词的轻重格式不对、声调有系统性缺陷、句调不自然和语速不当等几个方面。由于测试员本人在朗读方面的理论知识和实践能力有差异,因此对以上语调偏误的种种表现理解起来就出现了一些差别,或者对一些明显的语调偏误能够正确处理,而对一些不大常见的语调偏误则因难以识别而不加处理。下面针对处理语调偏误的诸要素逐一进行讨论。
关于对重音不当的处理问题。重音可分为词重音和语句重音两类。词重音我们后边讨论。语句重音,是指句子中读得较重的词语,又分语法重音和逻辑重音两种。语法重音根据语法结构的需要把句子的某些部分重读。大致规律是:谓语比主语读得稍重,宾语比动词读得稍重;表性状和程度的状语、表结果或程度的补语、表疑问和指示的代词、名词前面的定语等常读重音。逻辑重音也叫强调重音,是为了强调语意重点或为表达强烈感情而把句子某些部分读得特别重。这种重音主要是由说话人的意图和情感决定的,没有固定的规律。[1]普通话水平测试 60篇朗读作品中没有重音标志,被测人完全凭着自己对作品的理解做不同处理。如果测试员对以上重音的基本规律有所了解,就会对被测者做出比较正确的评判;否则,就无法正确地进行判分,从而与其他测试员的评判结果出现较明显的差异。
至于轻重格式问题,主要是就复音词说的。这种重音大都有固定的格式,例如:带轻声的双音词,一般是重轻式。有一部分词语虽未明确标注要读轻声,但将其后一个音节轻读语感较自然,这些往往属于重次轻式。双音节的人名、带前缀的双音词、叠音形容词或副词、动宾式、主谓式、偏正式以及大部分联合式双音节合成词等常常是轻重式。三个音节的人名、地名、音译词、尾部叠音形容词、前正后偏的合成词,是中轻重式。而四个音节的专有名词、叠音形容词、象声词,为中轻中重式。双音动词重叠为重轻中轻式。[2]对于以上规律性的知识,并非每一个测试员都了解或掌握得恰如其分;同时,到底哪些词语为中-重格、哪些词语为重-中格,目前还没有可靠的言语声学数据支持和权威性依据。所以在测评时,测试员往往只能根据自己的感觉或者对汉语词语轻重格式的一般特征去把握,因此就必然出现评判不一的情况。
在“说话”或“朗读”中,发音是否清楚明白,是否生动中听,句调也是个重要条件。语句的这种高低升降的变化,应随着句子语气的不同而区别,或随说话者特殊的感情需要而变化。否则就会给人一种呆板、单调或句调不自然的感觉。[2]高等级的人员应该对此有明确的反应。但复审中发现,有相当多的测试员对此没有反应。
三、对朗读缺陷的认知不同
该问题容易忽略的是阴平偏低,有的被测者把 55发成 33还容易引起注意,但发成 44就不容易发现;[3]再有就是保留入声调方言区的测试员对声调不完整不敏感;对单音节字词中上声不到位容易发现,而对朗读中位于句末的上声调值是否到位则容易忽略。
在“句调自然”和语速的理解方面,笔者认为,自然流畅中的“自然”除了要求被测者不拿腔拿调、不生硬外,还应包括对作品基调的把握和感情的处理。尤其是对二甲和一级的人员,更要重视这一点。在测试中,被测者对于作品内容、层次的理解以及对作品风格的把握和感情基调的处理都存在着差别,从另一方面体现其朗读的自然度。意识到这一点的测试员可能在“语调偏误”的评分上予以显示,例如从自然、流畅度等方面处理。意识不到的测试员则可能对此恝然置之,于是就有了标准上的不一致。
朗读时,根据内容表达的需要或作者思想感情的变化,语速该快则快、该慢就慢、有快有慢,才能真实而生动地表达不同的内容和情境。[4]快慢没有一个绝对标准,只能以同一语境或文章中的各部分相互比较为依据。但是,有的被测者能够做到快慢适度,或快中有慢,或慢中有快,段与段之间,一般都有一个较长的停歇,处理得层次分明;有的则一味地快,看似流畅,却削弱了作品的艺术价值。这些在评分中本应考虑进去,但由于部分测试员的关注点过度集中在语音失误上,而对此不加考虑,也会出现判分不当的情况。
有的测试员对“自然流畅程度”仅停留在口语化程度的识别层面或说话中断的次数上,忽略了其他要素。第三项朗读和第四项说话旨在检测应试者运用普通话的水平,但由于朗读是借助于文字材料的作者说普通话,文字材料的作者对词汇、语法已进行过斟酌推敲,因此对应试者来说,主要就剩下语音问题了。说话显然不那么简单,它是对普通话口语能力的综合性考察,它要求在较短的时间内审清题意,确定主题,选择材料,构思层次,遣词造句,适当修辞,因而应试者的语音、词汇、语法各方面的熟练程度和规范程度都同时受到检验,其思维的敏捷性、语言与交际的能力也能得到一定程度的显现。《纲要》和江苏省《细则》均要求从语音面貌、流畅程度和词汇语法运用的规范三个方面评分。[2]15但在实际操作中,说话部分在评定成绩时伸缩性较大。有的测试员给分缺乏足够的依据,带有较大的随意性。如对应试者在某一话题上偏离主题或结构混乱,机械呆板、喜怒不闻于声、好恶不留于音、哀乐不见于调的,却按字词发音规范的标准评定为较好的等级;对轻重音、语调、停连、语流停顿、语速徐疾等表情达意的手段几乎无所显现的,有的测试员却本着错误不多的原则不予扣分。
我们认为,在朗读中,由于连贯的语流已经形成,所以要特别重视对被测者语感的宏观把握,在定量分析的基础上加大定性分析的力度。在说话项中,则应更重视对语流的动态的把握,以一种宏观的视角进行分析和评价,而不宜将注意力过多地放到单个的语音单位上,不宜将语音问题简单地累计或量化,而是将个别语音单位的表现作为判定整体语流规范程度的依据。
四、测评员心理注意的位移或逆转
测试的结果是否合乎被测的实际水平,在一定程度上与测试员心理注意密切相关。桂诗春先生在《实验心理语言学纲要》中科学地论证了“注意”在测试中的种种表现:每个音位都有着不同的区别性特征和非区别性特征,当区别性特征受注意时,测评的误差就小;而当非区别性特征受注意时,评价误差就大。注意的容量有限是听觉不能处理所有语音的根本原因。[5]在第三、第四两项中,当连续的语流中区别性特征与非区别性特征数量不断增多且频率加快时,每个区别性特征引起注意的心理几率便会减少,于是评价误差也会增大。另外,注意存在选择性,一方面,测试员自身方言基础难以摆脱注意,另一方面,审音水平差异也会影响注意力集中。于是,测试员就会出现顾此失彼的现象,在语音关键特征与无关特征中来回转换注意,而发生注意的位移或逆转,造成心理评价误差显著。
五、测试员自身素质的缺陷
首先,对朗读篇目的熟悉程度不一。有的测试员对作品没有做到烂熟于心,所以对添字、漏字意识不到,导致漏扣分;尤其是遇到朗读过快者就更跟不上打分,或分辨不清错误与缺陷了。其次,对词汇、语法错误的敏感度不同。词汇、语法问题只有在说话项中才得以暴露。最常见的语法失误是动词与宾语搭配不当、主语与谓语搭配不当、状语与中心词不搭配,等等。有的测试员则只关注前者,不留意后者;另有测试员不仅本身对方言词语不敏感,对诸如“蛮好的!”甚至“好好耶!”之类见怪不怪,对一些方言句式无所知觉,而且对病句不加扣分。对该项打分的差别之大,就可想而知了。其三,在“朗读”项重复扣分。有的测试员在“朗读”中既扣了声母或韵母的系统性缺陷的分,又在错误中重复扣分。在实际操作中,这一点比较难掌握。除了错误与缺陷的界限本来就难以分清外,对同一个难点音,被测者可能时而读错,时而不完全错,错误与缺陷的量也不好计算。其四,把“说话”中的缺陷算成了错误。按照普通话水平测试的打分原则,“说话”中错误的个数要量化,而缺陷只帮助定性,可以用来衡量被测方音是否明显。但是,有的测试员过于苛刻,把“缺陷”算成“错误”,自然造成打分的不公允。
普通话水平测试不仅存在着提高试卷信度的问题,也存在着提高评分者信度的问题。以往的测试员培训主要侧重于测试能力,这对于一部分具有较高专业水平的测试员来说不失为一种多快好省的培训,但对于那些没有受过正规语音学训练的测试员来说,似乎有些治标不治本。据了解,有的省份已经意识到这一点,拟在首次培训后进行后续培训,把普通话语音知识和方言学、音位学的基本知识作为后续培训的内容,但因《纲要》的颁布和测评内容的调整,需要在后续培训中学习,这一想法未能落实。
总之,从复审的结果看,测试员的后续培训问题需要尽快付诸实施。
[1]李晓华.普通话口语教程[M].开封:河南大学出版社,1996:142.
[2]国家语委普通话培训测试中心.首届全国普通话水平测试学术研讨会论文集[C].北京:语文出版社,2003.
[3]林焘,王理嘉.语音学教程[M].北京:北京大学出版社:1992:143-145.
[4]李晓华.普通话口语教程[M].开封:河南大学出版社,1996:266.
[5]桂诗春:实验心理语言学纲要[M].长沙:湖南人民出版社,1991:99,215.
The Rating Error in Putonghua Proficiency Test
LIU Dong-bing1,WEIHai-tang2,ZHAO Si-da3
(1.Language Application Research Centre,Nanjing Forestry University,Nanjing210037,China;2.School of Journalism&Comm unication,Nanjing Xiaozhuang University,Nanjing211171,China;3.School of Chinese Language and Literature,Beijing Normal University,Beijing100875,China)
It is shown in the reexamination of Putonghua Proficiency Test that the reason why the error in rating of“reading”and “speaking” is greater is concerned with a wide range of problems of the test paper structuring,the tester team constructing,and so on.Consequently,the post training of the testers focusing on the basic knowledge of the phonetics in Putonghua,dialectology and phonemics should be implemented as soon as possible to improve the reliability of Putonghua Proficiency Test.
Putonghua;proficiency test;rating error
H102
A
1672-3910(2010)02-0037-04
2009-09-10
江苏省教育厅课题(07SJD740009)
刘冬冰(1954-),女,河南开封人,教授,国家级普通话水平测试员。