计算机辅助PSC评分细则的制定

2013-08-15陆妙琴

陕西教育·高教版 2013年5期

陆妙琴

计算机辅助PSC（以下简称“机测”）是PSC手段的革命与创新，从2007年在安徽、上海等地开展试点以来，迅速在全国各地推广开来，其优越性被越来越多的人所认同，是PSC进一步科学化、规范化的必然趋势。机测作为一种全新的测试模式，不仅在测试手段、测试环境、测试程序、测试管理等方面体现出与人工测试不同的特点，而且在受测形式、评测形式上也发生了重大改变。在这种测试模式下，以前人工测试并不突出或未曾出现的一些情况相继显现出来，主要集中体现在“命题说话”上，如背稿、离题、内容雷同，无效话语等。为此，国家语委普通话培训测试中心在充分调研、收集、梳理、总结各地评分实践成功经验的基础上，研究制定了对全国各试点区机测具有普遍指导意义的《计算机辅助普通话水平测试评分试行办法》（教语用司函［2009］5号）（以下简称《评分试行办法》）。为帮助测试员准确理解和掌握《评分试行办法》的评分标准，明确机测具体的实施操作规则，保证机测的质量，尽快制定出各省机测的评分细则迫在眉睫。笔者曾参与陕西省机测评分细则的研讨制定，本文想就此谈点个人看法。

机测评分细则制定的目的及意义

机测评分细则是对PSC评分标准体系的完善和发展，是对《评分试行办法》的进一步阐释和描述，是《评分试行办法》的细化和补充，是《评分试行办法》不可缺少的组成部分。机测评分细则是机测的内在需要，它使得《评分试行办法》的评分标准更易于理解和操作，是提高机测测试信度、保证机测测试质量的基本要件，是PSC标准化、规范化的重要内容，对《评分试行办法》的实施具有辅助作用。

机测评分细则与《评分试行办法》的关系

1.层级性

《评分试行办法》是国家以部门规章形式在PSC领域发布的一个通用标准，是国家标准，机测评分细则是各地的地方标准。

2.宏观与微观

《评分试行办法》在机测中起着宏观导向作用，具有原则性、概括性、框架性的特点。各地机测评分细则在机测中起着微观指导作用，具有复杂性、差异性、针对性的特点。

3.互补性

《评分试行办法》是对机测评分操作的总体阐述，各地机测评分细则是对机测评分标准的具体说明，两者相辅相成。

4.科学性和操作性的统一

二者的制定都以语言本体的标准——普通话的语音、词汇和语法规范为依据，将普通话理论与实践研究的成果转化为测试领域中可操作性的标准，是科学性和操作性的统一。

机测评分细则制定的原则

1.以《普通话水平测试大纲》为指导

《普通话水平测试大纲》（以下简称“《大纲》”）是普通话水平测试的指导性文件，是普通话水平测试的基本依据，也是PSC理论体系的基石。《评分试行办法》规定：“根据《普通话水平测试大纲》（教语用［2003］2号），结合计算机辅助普通话水平测试实际，制定试行办法”。作为《评分试行办法》阐释的机测评分细则也必须以《大纲》为根本依据，维护大纲的权威性。“不允许出现偏离《大纲》原则的评判标准，更不允许为了操作方便或尊重他人的主观意愿而对《大纲》确定的原则进行随意修改”。①

2.与《评分试行办法》标准相吻合

《评分试行办法》是制定机测评分细则的蓝本，在制定机测评分细则时，评分要素、评分视点、评分方式、评分标准必须与《评分试行办法》保持一致，不能自作主张，另搞一套；也不能与《评分试行办法》的原则相抵触。如笔者看到有的省机测评分细则中有这样的表述，“‘说话’项直接读朗读作品或稿件者，按考试作弊处理，成绩记为零分”。这不只使评分要素比《评分试行办法》多出来一个，且与国家《评分试行办法》的标准不相吻合。

3.从实践中来，到实践中去

机测评分细则的制定不是闭门造车，不是几个人的主观臆想，必须从测试实践中来，再到测试实践中去。我省研讨制定机测评分细则历时近两年，多次召集一线资深测试员和复审员，结合本省测试实际提出方案，反复研讨，多次实践，不断验证，根据反馈情况多次调整，最终制定出我省的机测评分细则（试行）。在机测评分细则制订中切忌几个人说了算，切忌把尚未得到公认的个人观点写进评分细则。

4.定性与定量相结合

测试的量化评定较为清楚，易于把握，也便于操作，但单纯使用量化评定是不科学的，难以测出应试人的实际语言水平。笔者看到的几个省的机测评分细则，大都偏重于定量，有的评分要素中甚至忽略了定性评定，数量决定一切。笔者认为，一种科学的，成熟的语言测试，应该注意定性与定量的度的把握，把定性与定量结合起来，使定量避免定性时的随意性，定性以定量为基础，在定性与定量间找到平衡。如说话时语音错误次数为10次，扣7分还是8分（采用四项测试），就要在量化的基础上进行定性分析，是音质性的失误还是超音质性的失误，错误的类型多还是少，程度轻还是重；然后结合错误量、错误性质确定扣分的多少。

5.精确与模糊相统一

评分标准是粗略一些还是细致一些，这也是制定机测评分细则要处理好的一个问题。语言测试就是依据评分标准对应试者实际语言水平的“测量”。既然是测量，当然是越精确越好。从理论上来说，评分标准越是细致，测量越是准确。但是，从实际测试情形来看，评分标准太过细致、繁琐，检测点过多，会加重测试员负担，使测试员“注意分配”的难度大大增加，难以操作；反之评分标准太过粗略，会给测试员理解、操作带来困惑，影响测试的信度。笔者认为，应当在粗略和细致间找到一个平衡点，既能最大限度降低测量的误差，又易于操作，做到宽严适度，精确与模糊的辩证统一。

6.注重可操作性

制定评分细则的根本目的是增强评分标准的可操作性。各地在制定机测评分细则时应充分考虑评分标准的可操作性。机测评分细则的表述语言要尽可能准确、具体，避免理解上的困惑或歧义，对《评分试行办法》中一些定性的分析应尽可能详细地表述，统一测试员的认识，也便于测评操作；尽可能减少主观评判幅度较大的一些评分要素，增加一些操作性较强的、较为刚性的评分要素，使主观评分客观化，以保证测试质量。

机测评分细则制定的方法

1.准确揭示《评分试行办法》中出现的未作详细解释的概念内涵

如陕西省在制定机测评分细则时，对《评分试行办法》以下概念作了明确解释（一些解释也是语言学界公认的学术成果）：

（1）方音程度

“方音程度包含音质性失误和超音质性失误两个方面。音质性失误是指声韵缺陷、错误的类型的多少、程度的轻重。超音质性失误是指轻声、音的变调、字调、轻重音格式、语调等失误类型的多少和程度的轻重”。

（2）词汇、语法不规范

“词汇、语法不规范指存在典型的方言词汇（含语气词）、语法以及错误词汇、语法两种情况”。

（3）语言不连贯，语调生硬

“指停连、节律、重音、轻声有偏差，相对音高不一致，语句重复、冗余”。

（4）缺时

“缺时有两种情况:一是说话最终时间不够3分钟；二是3分钟说话过程中时断时续，每次中断6秒以上即可累计”。

（5）离题

“是指应试人所说内容不符合规定的话题”。

（6）雷同

“包括：变相使用《普通话水平测试纲要》中的60篇朗读短文；使用报刊、书籍、网络等现成文章；多人使用同一篇文章；读稿；同一应试人所说内容前后相同”。

（7）无效话语

“指应试人的话语与要测查的语言特征无关，无评判效度。如语句不断重复、反复纠错、读秒、唱歌、念诗、数数字等，可视之为缺时”。

2.细致说明《评分试行办法》的定性部分

（1）“命题说话”语音标准程度

这一测试要素中出现的“方音不明显”、“方音比较明显”、“方音明显”、“方音重”等定性的描述，正是测试员评判时容易困惑，产生理解上的分歧，导致评分差异的地方。我们从音质性失误和超音质性失误、错误数量、失误类型的多少、程度的轻重等多方面对其作了细致说明，力求使测试员评定时能够有较为明确的依据。如对语音标准程度二档的评定，我们作了如下说明，“语音错误在10次以下，有1类不明显语音缺陷，扣3分；语音错误在10次以下，有2类以上不明显语音缺陷，扣4分”。

（2）词汇语法规范程度

首先我们明确地指出了词汇语法不规范的含义（如前所述）；其次对其如何归档，又从量的角度给予说明，“方言性质的失误每出现一次扣0.5分”。

《评分试行办法》其他定性部分的处理采用了与以上各项类似的方法。

3.细化《评分试行办法》中不够具体、明确的内容

（1）说话缺时扣分

《评分试行办法》中这样表述：“说话不足3分钟，酌情扣分：缺时1分钟以内（含1分钟），扣1分、2分、3分；缺时1分钟以上，扣4分、5分、6分；说话不满30秒（含30秒），本测试项成绩计为0分”。我们在陕西省机测细则中细化为“缺时6至20秒，扣1分；缺时20至40秒，扣2分；缺时40至60秒，扣3分；缺时1分01秒至1分29秒，扣4分；缺时1分30秒至1分59秒，扣5分；缺时2分至2分29秒，扣6分；缺时2分30秒至3分钟之间，此项成绩为0分。缺时6秒开始扣分”。

（2）离题、内容雷同

《评分试行办法》中这样表述：“离题、内容雷同，视程序扣4分、5分、6分”。我们细化为“基本离题或离题，扣5分、6分；部分离题，扣4分；离题20秒以上即可扣分”。

（3）无效话语

《评分试行办法》中这样表述：“无效话语，累计占时酌情扣分：累计占时1分钟以内（含1分钟），扣1分、2分、3分；累计占时1分钟以上，扣4分、5分、6分；有效话语不满30秒（含30秒），本测试项成绩计为0”。对此我们也作了细化，具体标准与缺时项大体一致。

评分是影响测试信度的关键因素，评分细则是保证测试质量的基本要件。制定机测评分细则是一项严谨而又复杂的工作，要求我们在吃透《大纲》精神，准确理解把握《评分试行办法》的基础上，根据测试实践，运用语言学、语音学、方言学、语言测试理论等知识，依据测试手段、测试方式、测试对象的特点，进行明确具体的论述，制定出既标准、规范，又便于操作的机测评分细则，使机测评分达到我们所期望的科学性、操作性和公平性。

注释：

①屠国平.制定“PSC 评分细则”的原则与方法[A].国家语委测试中心.首届全国普通话水平测试学术研讨会论文集[C].北京：语文出版社，2003.

[1]姚喜双，韩玉华，聂丹，黄霆玮，孟晖.普通话水平测试概论[M].北京：高等教育出版社，2011.

[2]教育部，国家语委.普通话水平测试大纲[Z].教语用[2003]2 号文件.

[3]教语用司.计算机辅助普通话水平测试评分试行办法[Z].教语用司函[2009]5 号.

[4]王晖.普通话水平评分细则论析[J].语言文字应用，2007，(4).

[5]广东、广西、河北、山东、江苏、陕西省（自治区）机测《评分细则》[Z].