计算机辅助PSC评分细则的制定
2013-08-15陆妙琴
陆妙琴
计算机辅助PSC(以下简称“机测”)是PSC手段的革命与创新,从2007年在安徽、上海等地开展试点以来,迅速在全国各地推广开来,其优越性被越来越多的人所认同,是PSC进一步科学化、规范化的必然趋势。机测作为一种全新的测试模式,不仅在测试手段、测试环境、测试程序、测试管理等方面体现出与人工测试不同的特点,而且在受测形式、评测形式上也发生了重大改变。在这种测试模式下,以前人工测试并不突出或未曾出现的一些情况相继显现出来,主要集中体现在“命题说话”上,如背稿、离题、内容雷同,无效话语等。为此,国家语委普通话培训测试中心在充分调研、收集、梳理、总结各地评分实践成功经验的基础上,研究制定了对全国各试点区机测具有普遍指导意义的《计算机辅助普通话水平测试评分试行办法》(教语用司函[2009]5号)(以下简称《评分试行办法》)。为帮助测试员准确理解和掌握《评分试行办法》的评分标准,明确机测具体的实施操作规则,保证机测的质量,尽快制定出各省机测的评分细则迫在眉睫。笔者曾参与陕西省机测评分细则的研讨制定,本文想就此谈点个人看法。
机测评分细则制定的目的及意义
机测评分细则是对PSC评分标准体系的完善和发展,是对《评分试行办法》的进一步阐释和描述,是《评分试行办法》的细化和补充,是《评分试行办法》不可缺少的组成部分。机测评分细则是机测的内在需要,它使得《评分试行办法》的评分标准更易于理解和操作,是提高机测测试信度、保证机测测试质量的基本要件,是PSC标准化、规范化的重要内容,对《评分试行办法》的实施具有辅助作用。
机测评分细则与《评分试行办法》的关系
1.层级性
《评分试行办法》是国家以部门规章形式在PSC领域发布的一个通用标准,是国家标准,机测评分细则是各地的地方标准。
2.宏观与微观
《评分试行办法》在机测中起着宏观导向作用,具有原则性、概括性、框架性的特点。各地机测评分细则在机测中起着微观指导作用,具有复杂性、差异性、针对性的特点。
3.互补性
《评分试行办法》是对机测评分操作的总体阐述,各地机测评分细则是对机测评分标准的具体说明,两者相辅相成。
4.科学性和操作性的统一
二者的制定都以语言本体的标准——普通话的语音、词汇和语法规范为依据,将普通话理论与实践研究的成果转化为测试领域中可操作性的标准,是科学性和操作性的统一。
机测评分细则制定的原则
1.以《普通话水平测试大纲》为指导
《普通话水平测试大纲》(以下简称“《大纲》”)是普通话水平测试的指导性文件,是普通话水平测试的基本依据,也是PSC理论体系的基石。《评分试行办法》规定:“根据《普通话水平测试大纲》(教语用[2003]2号),结合计算机辅助普通话水平测试实际,制定试行办法”。作为《评分试行办法》阐释的机测评分细则也必须以《大纲》为根本依据,维护大纲的权威性。“不允许出现偏离《大纲》原则的评判标准,更不允许为了操作方便或尊重他人的主观意愿而对《大纲》确定的原则进行随意修改”。①
2.与《评分试行办法》标准相吻合
《评分试行办法》是制定机测评分细则的蓝本,在制定机测评分细则时,评分要素、评分视点、评分方式、评分标准必须与《评分试行办法》保持一致,不能自作主张,另搞一套;也不能与《评分试行办法》的原则相抵触。如笔者看到有的省机测评分细则中有这样的表述,“‘说话’项直接读朗读作品或稿件者,按考试作弊处理,成绩记为零分”。这不只使评分要素比《评分试行办法》多出来一个,且与国家《评分试行办法》的标准不相吻合。
3.从实践中来,到实践中去
机测评分细则的制定不是闭门造车,不是几个人的主观臆想,必须从测试实践中来,再到测试实践中去。我省研讨制定机测评分细则历时近两年,多次召集一线资深测试员和复审员,结合本省测试实际提出方案,反复研讨,多次实践,不断验证,根据反馈情况多次调整,最终制定出我省的机测评分细则(试行)。在机测评分细则制订中切忌几个人说了算,切忌把尚未得到公认的个人观点写进评分细则。
4.定性与定量相结合
测试的量化评定较为清楚,易于把握,也便于操作,但单纯使用量化评定是不科学的,难以测出应试人的实际语言水平。笔者看到的几个省的机测评分细则,大都偏重于定量,有的评分要素中甚至忽略了定性评定,数量决定一切。笔者认为,一种科学的,成熟的语言测试,应该注意定性与定量的度的把握,把定性与定量结合起来,使定量避免定性时的随意性,定性以定量为基础,在定性与定量间找到平衡。如说话时语音错误次数为10次,扣7分还是8分(采用四项测试),就要在量化的基础上进行定性分析,是音质性的失误还是超音质性的失误,错误的类型多还是少,程度轻还是重;然后结合错误量、错误性质确定扣分的多少。
5.精确与模糊相统一
评分标准是粗略一些还是细致一些,这也是制定机测评分细则要处理好的一个问题。语言测试就是依据评分标准对应试者实际语言水平的“测量”。既然是测量,当然是越精确越好。从理论上来说,评分标准越是细致,测量越是准确。但是,从实际测试情形来看,评分标准太过细致、繁琐,检测点过多,会加重测试员负担,使测试员“注意分配”的难度大大增加,难以操作;反之评分标准太过粗略,会给测试员理解、操作带来困惑,影响测试的信度。笔者认为,应当在粗略和细致间找到一个平衡点,既能最大限度降低测量的误差,又易于操作,做到宽严适度,精确与模糊的辩证统一。
6.注重可操作性
制定评分细则的根本目的是增强评分标准的可操作性。各地在制定机测评分细则时应充分考虑评分标准的可操作性。机测评分细则的表述语言要尽可能准确、具体,避免理解上的困惑或歧义,对《评分试行办法》中一些定性的分析应尽可能详细地表述,统一测试员的认识,也便于测评操作;尽可能减少主观评判幅度较大的一些评分要素,增加一些操作性较强的、较为刚性的评分要素,使主观评分客观化,以保证测试质量。
机测评分细则制定的方法
1.准确揭示《评分试行办法》中出现的未作详细解释的概念内涵
如陕西省在制定机测评分细则时,对《评分试行办法》以下概念作了明确解释(一些解释也是语言学界公认的学术成果):
(1)方音程度
“方音程度包含音质性失误和超音质性失误两个方面。音质性失误是指声韵缺陷、错误的类型的多少、程度的轻重。超音质性失误是指轻声、音的变调、字调、轻重音格式、语调等失误类型的多少和程度的轻重”。
(2)词汇、语法不规范
“词汇、语法不规范指存在典型的方言词汇(含语气词)、语法以及错误词汇、语法两种情况”。
(3)语言不连贯,语调生硬
“指停连、节律、重音、轻声有偏差,相对音高不一致,语句重复、冗余”。
(4)缺时
“缺时有两种情况:一是说话最终时间不够3分钟;二是3分钟说话过程中时断时续,每次中断6秒以上即可累计”。
(5)离题
“是指应试人所说内容不符合规定的话题”。
(6)雷同
“包括:变相使用《普通话水平测试纲要》中的60篇朗读短文;使用报刊、书籍、网络等现成文章;多人使用同一篇文章;读稿;同一应试人所说内容前后相同”。
(7)无效话语
“指应试人的话语与要测查的语言特征无关,无评判效度。如语句不断重复、反复纠错、读秒、唱歌、念诗、数数字等,可视之为缺时”。
2.细致说明《评分试行办法》的定性部分
(1)“命题说话”语音标准程度
这一测试要素中出现的“方音不明显”、“方音比较明显”、“方音明显”、“方音重”等定性的描述,正是测试员评判时容易困惑,产生理解上的分歧,导致评分差异的地方。我们从音质性失误和超音质性失误、错误数量、失误类型的多少、程度的轻重等多方面对其作了细致说明,力求使测试员评定时能够有较为明确的依据。如对语音标准程度二档的评定,我们作了如下说明,“语音错误在10次以下,有1类不明显语音缺陷,扣3分;语音错误在10次以下,有2类以上不明显语音缺陷,扣4分”。
(2)词汇语法规范程度
首先我们明确地指出了词汇语法不规范的含义(如前所述);其次对其如何归档,又从量的角度给予说明,“方言性质的失误每出现一次扣0.5分”。
《评分试行办法》其他定性部分的处理采用了与以上各项类似的方法。
3.细化《评分试行办法》中不够具体、明确的内容
(1)说话缺时扣分
《评分试行办法》中这样表述:“说话不足3分钟,酌情扣分:缺时1分钟以内(含1分钟),扣1分、2分、3分;缺时1分钟以上,扣4分、5分、6分;说话不满30秒(含30秒),本测试项成绩计为0分”。我们在陕西省机测细则中细化为“缺时6至20秒,扣1分;缺时20至40秒,扣2分;缺时40至60秒,扣3分;缺时1分01秒至1分29秒,扣4分;缺时1分30秒至1分59秒,扣5分;缺时2分至2分29秒,扣6分;缺时2分30秒至3分钟之间,此项成绩为0分。缺时6秒开始扣分”。
(2)离题、内容雷同
《评分试行办法》中这样表述:“离题、内容雷同,视程序扣4分、5分、6分”。我们细化为“基本离题或离题,扣5分、6分;部分离题,扣4分;离题20秒以上即可扣分”。
(3)无效话语
《评分试行办法》中这样表述:“无效话语,累计占时酌情扣分:累计占时1分钟以内(含1分钟),扣1分、2分、3分;累计占时1分钟以上,扣4分、5分、6分;有效话语不满30秒(含30秒),本测试项成绩计为0”。对此我们也作了细化,具体标准与缺时项大体一致。
评分是影响测试信度的关键因素,评分细则是保证测试质量的基本要件。制定机测评分细则是一项严谨而又复杂的工作,要求我们在吃透《大纲》精神,准确理解把握《评分试行办法》的基础上,根据测试实践,运用语言学、语音学、方言学、语言测试理论等知识,依据测试手段、测试方式、测试对象的特点,进行明确具体的论述,制定出既标准、规范,又便于操作的机测评分细则,使机测评分达到我们所期望的科学性、操作性和公平性。
注释:
①屠国平.制定“PSC 评分细则”的原则与方法[A].国家语委测试中心.首届全国普通话水平测试学术研讨会论文集[C].北京:语文出版社,2003.
[1]姚喜双,韩玉华,聂丹,黄霆玮,孟晖.普通话水平测试概论[M].北京:高等教育出版社,2011.
[2]教育部,国家语委.普通话水平测试大纲[Z].教语用[2003]2 号文件.
[3]教语用司.计算机辅助普通话水平测试评分试行办法[Z].教语用司函[2009]5 号.
[4]王晖.普通话水平评分细则论析[J].语言文字应用,2007,(4).
[5]广东、广西、河北、山东、江苏、陕西省(自治区)机测《评分细则》[Z].