APP下载

普通话水平智能测试对说话信度的影响及对策

2009-10-28刘湘涛

现代语文 2009年9期
关键词:信度影响对策

摘 要:计算机智能测试和信息管理系统的结合规范了普通话水平测试程序,提高了测试效率,降低了测试成本,促进了普通话水平测试管理工作的发展。但“说话”仍是依赖人工评判的测试项,新的测试手段、测试模式以及测试时出现的新情况、新问题会影响测试的信度。因此,把人文关怀渗透到测试的方方面面,是进一步提高“说话”的测试信度,完善普通话水平测试的有效尝试。

关键词:普通话水平智能测试 说话 信度 影响 对策

普通话水平测试(以下简称PSC)是国家推广普通话工作的重要组成部分。自2007年国家语委正式推广应用计算机智能测试和信息管理系统后,许多省市已实现了计算机辅助测试普通话。利用智能测试系统,计算机可以自动完成对有文字凭借的前三题的测评,而对于无文字凭借的“说话”测试项,则由信息管理系统分配给测试员进行评分,然后管理系统自动将计算机测评的前三题的分数和测试员评判的第四题的分数相加,计算出考生的测试总成绩,并评定出相应等级。普通话智能测试简化了评测程序,降低了测试站组织评测的难度和成本,减轻了测试员的工作量和劳动强度,提高了测试质量。但《普通话水平测试大纲》规定的考核内容与评分标准是既定的,特别是“说话”仍是依赖人工评判的测试项,免不了还是会受到测试员经验能力、心理因素或自身素养的影响。测试手段改变之初,一些新情况、新问题的出现,也会影响到测试的信度。

信度是指测试的可靠性或稳定性,指测试结果在多大程度上反映了受试者的实际语言水平。信度是测试的基本保证,一个良好的语言测试,必须要有较高的信度。影响信度的因素很多,并且存在于语言测试的每个环节中,如试卷样本的大小与区分度、测试环境、试题管理、考生的心理因素、评分者的经验能力及心理因素等。

为了进一步完善PSC,考察机辅测试中影响“说话”测试项信度的因素并探寻其改进途径具有重要意义。

一、普通话水平智能测试对说话信度的影响

(一)普通话水平智能测试中“说话”测试项的测评特点

普通话水平智能测试对“说话”测试项的测评方式具有以下特点:第一,机测人评,测评分离,测在前,评在后。机测结束后,由测试中心管理员按照登记的测试员和试卷的情况,将“说话”语音分配给各个测试员进行人工评判。第二,测试员通过网络进行远程判分。登录测试中心网页后,测试员通过网络对考生“说话”语音进行在线评分。第三,增加了评分标准。除了对语音档、词汇语法规范程度、自然流畅度进行测评外,还对离题、缺时、无效语料等方面做了规定。第四,测试员分散,“背靠背”独立评测,不能与其他测试员就同一应试者的评定进行沟通与商讨。第五,定时严格,测试过程完整。

与传统的人工测评相比,新的测评方式可以有效地防止以前存在的对“说话”测试项随意增删内容或时间的现象,可以避免在测试过程中由于测试员测试疲劳而导致的漏判和误判现象,可以杜绝人情分,加上“说话”由全省测试员独立打分,较以前多了一个复审环节,因此,从某种程度上说,其准确性有了一定的保证。但从测试实践来看,我们发现,新的测试方式带来了一些新问题、新情况,而这些新问题与新情况影响到了测试的信度。

(二)普通话水平智能测试对“说话”信度的影响

为了对机测的信度进行测定,我们运用重测法与重判法做了一些考察和实验。先拿同一份试卷用重测法对同一组受试者分时段进行传统的人工测试与机辅测试,发现应试者的应试状态有异,机辅测试时应试者的紧张、不自然等非语音因素较重。再用重判法比较测试员对“说话”测试项先后两次的评分结果,发现机测结果与人测结果之间存在较大差距。我们认为,测试手段的改变,对测试环境与测试方式、测试员的评分习惯、评分标准以及应试者的测试心理与状态都产生了较大的影响,这些都是测试信度受损的直接因素。

1.测试环境、测试方式及其对应试者应试心理的影响

“普通话水平测试是一种能力考察,因此测试环境越接近生活,越容易测查出真实的水平。”[1]“说话”本身就是一种倾诉,它需要倾听者与说话者进行思想与情感的互动。在传统的测试环境中,应试者需面对几位测试员就某一话题发表单向谈话,这种“三堂会审”式的阵势可能会增加受测者的心理紧张程度,但测试员可以通过表情、态度、眼神或偶尔的双向谈话来缓解应试者的紧张情绪。同时,遇到诸如声音过小、语速过慢过快、离题、缺时等不良现象时,测试员可对应试者加以提醒,这在一定程度上有助于应试者语言水平的正常发挥。但在机辅测试下,却是另一种情形。首先,应试者完全没有交流对象,没有互动,没有提醒,只有电脑屏幕下方不断累积时长的计分条,这有可能导致部分应试者紧张程度加剧,不可避免地出现严重缺时、无效语料、简单重复、离题等现象。其次,应试者测试过程的语速、音量把握不好会影响到录音质量,无意中把玩麦克风、数据线或其他物品,也会影响到录音效果。第三,机测时如果隔音效果不好,同一测试室中应试者之间的测查内容会相互干扰,这会在一定程度上影响应试者的测试情绪与测试成绩。最后,应试者一旦进入测试,就失去了对考试环境与考试模式熟悉的过程,为了不影响测试成绩,应试者必须在规定的时间内一道题接一道题地读下去,特别是语音提示后单调的一声“嘟”,更平添了许多紧张与压抑,尤其是“说话”,除非考前做好了充分的准备,否则是难以在瞬间的应急状态下做到思路清晰、语言流畅、言之有物的。

2.新增评分标准可行性不强

“说话”向来是测评难度最高、评分出入最大的测试项,主要原因在于评分标准难以把握。

在传统的测试中,《大纲》规定“说话”有4个评分项:语音标准程度、词汇语法规范程度、自然流畅程度、缺时扣分。开展计算机辅测后,由于考场的特殊性,考生极易出现无效语料、延时开口、内容雷同、离题、停顿过多等新情况,为了解决这些问题,国家新增了对离题、无效语料、朗读文本、缺时等评分项的补充规定。如对离题、雷同、无效话语等情况给出的标准是视程度扣4、5、6分。暂且不论如何准确地把握“视程度”,仅就扣分来看,就有点太过严格,扣分是为了惩戒测试中的恶意离题、雷同者,但这种情况的出现与测试自身存在的诸多不足有着莫大的联系。同时,对于出现的这些新问题,国家也没有形成统一明确的定性描述。如在朗读文本这一项中,对何为朗读文本,又有哪些具体表现,应如何判定,它和自然流畅度里的背稿子有何质的区别等问题没有做出明确的说明。再如,缺时与无效语料、自然流畅度之间有没有同质性?有没有重复扣分的可能?不同的理解会出现不同的评分细则,如何灵活地变通评分标准,对各种新情况做出客观公正的判断,对测试员来说无疑是一个严峻的考验。

3.新的评分方式太过孤立

“PSC得出的结论是建立在精确的定量评估和模糊的定性评价的对立统一之上的。”在传统的测试中,对“说话”的等级定性可以前三题测试的定量评估为参考依据。实施机辅测试后,测试员通过测试管理系统接受评分任务,对“说话”项进行在线评分,这样一方面失去了对前三项的定量参照与应试者语音面貌的整体感知,另一方面也失去了与其他测试员面对面互相参考的机会。测试方式的改变,使测试员在评分过程中难以改变原有的评测思维与习惯,评分尺度不好把握,甚至无所适从,不可避免地会出现评分较之前过严或过松的现象。

4.测试员对新的测试方式的适应能力有差异

普通话智能测试对测试员的素质提出了更高的标准与更严的要求。计算机辅助测试中出现的新情况、新问题,必然要求测试员改变固有的测试经验与评测习惯,在短期内适应和熟悉新的测试模式,准确把握新的评分标准,熟练地进行上机操作。但是测试员的职业、专业背景、文化素养、业务素质及测试工作经验等存在着个体差异性,他们适应能力的高低、责任心的大小、听辨能力的高低、语言理论知识的强弱、语音心理定势的有无、对评分标准理解程度的深浅等都有可能影响到“说话”评分的准确性。

二、突出人文关怀,提高普通话水平智能测试的信度

“人文关怀是社会文明进步的标志,是人类自觉意识提高的反映,简言之,就是关心人、爱护人、尊重人、关注人的生存与发展”。普通话水平测试中的“说话”不是语言知识、文化水平的测试,也不是演讲口才的评估,而是对应试者语言水平的考查,是对被测人在无文字凭借下运用普通话所达到的标准程度的检测和评定。普通话水平测试的最终目的是促进全社会普通话水平的提高,推动全国普通话的普及。测试只是一种手段而不是目的,机辅测试需要更多的人文关怀。坚持“以人为本”,关注应试者的感受和体验,使受试人始终保持一种轻松愉快的测试心态,对其进行公平公正的评测,可最大限度地反映受试者的实际语言水平,从而提高测试的可靠性。

(一)采取灵动自然的考核形式

“说话”测试项的主要目的是为了检测应试者在自然状态下使用普通话的能力,侧重语言形式的考核。目前“说话”测试采用的是“命题说话”形式,虽以言语内容为载体,但表达的内容却不是测试的初衷,同时单向的说话方式也增加了应试者表达的尴尬。基于此,我们认为有必要采取灵动自然的考核形式,比如在题后可就主题设置多个提问或作答提纲,这些提示的设计可以帮助应试者理顺说话思路,克服紧张状态,实现应试者与计算机的“双向”交流,把应试者从“无话可说”的窘境中解脱出来,让内容不再成为表达形式的羁绊,还应试者一个真正的自然状态。

(二)研制明确理性的评分标准

测试方式的改变,使测试员失去了对前三项的定量参照,从而在在线评分时可能会出现评分尺度把握不当的情况。解决这个问题的前提是必须研制出科学、细致、明确、操作性较强的评分标准,能对测试时出现的不同程度的新情况、新问题做出准确的定性判断与理性的定量裁定。并列评分指标之间要有明确的界限,不可笼统含糊,更不能有重复扣分或扣分过严过松的现象,真正实现测试的公平与公正,体现测试的人文关怀。

(三)设计人性化的说话测试模式

首先,进入测试后,系统应留有一定的时间,让应试者有一个思维缓冲、熟悉环境的过程,应试者做好适当的准备后再点击“开始录音”,让测试生效。其次,可赋予计算机以“灵性”与“生命”。如通过建立友好活泼和谐的界面给应试者营造一种轻松愉快的测试氛围;设计亲切可爱的小卡通与应试者进行简单的互动,如缺时或无效语料提醒等;在题目切换时,可辅以简短动听的音乐。总之,要尽量创造仿真的生活环境与语言情景,消除应试者面对计算机时因缺乏交流对象而产生的不适感或因特殊的测试环境而产生的紧张感。

(四)测试员要树立“以人为本”的理念

一个优秀的测试员应把应试者作为一个特殊的交际对象来对待,虽然在评分过程中只闻其声,不见其人,但也应给应试者一些人文关怀。由于没有考场监测,测试员更应对测试时出现的新问题尽量做出全面的分析与正确的判断,不能凭主观猜测,更不能凭已有经验草率评分,而要做到谨慎但不失灵活,严格但不失关爱。同时,要更多地学习与掌握有关的语言学知识,与时俱进,“适应新形势,研究新问题,了解新政策,学习新规章,掌握新措施”[2],做到以测促学、以测促研,不断提高自身素养,努力实现人文关怀与科学精神的有机统一。

注 释:

[1]佟乐泉.不断提高普通话水平测试的科学水平[J].语言文字应用,1997,(3):22.

[2]周小兵.论普通话水平测试的信度[Z].广东语言文字网,2005.

参考文献:

[1]沈昌明.国家普通话水平智能测试系统与人工测试之比较(上)[N].语言文字周报,2007-6-27.

[2]王永红.计算机智能测试系统辅助普通话水平测试应注意的问题[N].语言文字周报,2008-5-7.

[3]刘润清.语言测试和它的方法[M].北京:外语教学与研究出版社,1991.

(刘湘涛 重庆 长江师范学院教师教育学院 408100)

猜你喜欢

信度影响对策
提高中小学音乐欣赏教学质量对策探讨
“深度伪造”中个人隐私的保护:风险与对策
走,找对策去!
我国货币错配的现状及对策
这是一份不受影响的骨子里直白的表达书
大学生积极自我量表初步编制
论高职英语多元化综合评价模式的效度与信度
计算机辅助英语测试研究
如何搞好期末复习
墨子论度