普通话水平测试第四题“人机”测试模式信度研究

2023-02-03杨惠麟

绵阳师范学院学报 2023年1期

杨惠麟，张俊

(1.西南医科大学，四川泸州 646000；2.泸州市语言文字工作委员会，四川泸州 646000)

一、引言

普通话水平测试(Putonghua Shuiping Ceshi,以下简称PSC)是一项国家级语言测试。公平公正地执行测试，是国家宪法赋予的使命[1]。自从2007年计算机辅助测试在安徽、上海开始试点，PSC开始了计算机测试前三题，两位测试员测试第四题(“命题说话”项)的机测模式。这一模式在全国施行已有十多年。国内的研究者通过大量的数据收集和分析认为：计算机辅助测试是普通话水平测试未来的发展方向，但尚有许多技术问题需要解决。机测系统有其明显的优点，也有显而易见的不足。其优点主要表现为：减少了测试员的劳动，增加了测试量；减少了测试员主观因素的干扰，从而增强了测试的客观性和公正性。其不足主要有：计算机对“语音标准程度”的评测，“正误”辨识度高，“缺陷”辨识不准确[2]；计算机测试系统评测时“字化”现象明显[3];对整体的停连、轻重、节奏、流畅度把握不准确，不能有效评测朗读的语感；语调、协同发音、音节韵律等具有“模糊性”的语音现象，成为制约机评准确性的瓶颈[4]；机评前三题使两名测试员在测评第四题时无前三题的参考，对受测者“语音面貌”不能准确定档，导致评分差异加大，复评率上升[5]；机评导致复审二甲错档人数增加。

从2019年开始，计算机辅助测试又向前迈进了一大步，进入计算机与一名测试员共测第四题的全新阶段。这就意味着，普通话水平测试工作已大部分由计算机完成，测试员只参与第四题，并且是与计算机共同评分，采用“人+机”的全新模式。其信度目前尚无相关的研究。

二、研究设计

此次研究采用描述性统计分析方法，以2018、2019、2020年泸州市语言文字工作委员会测试站的测试数据为依据，筛选出偏差复审的被试成绩，提取第四题的评分细节进行分析。普通话水平测试中的复审包括一级复审、抽查复审、偏差复审、异常复审。偏差复审是指普通话水平测试中同一应试人第四题“说话”项的语料因计算机和测试员(2019年以前是两位测试员)评分差异较大，由复审员(国家级测试员)进行再次审核测评的考评机制。应试人的最终成绩由复审员给出的分数与一评时计算机或测试员中评出相近成绩一方的分数平均而成。此次研究偏差复审的标准，四川省语言文字工作委员会文件要求为：2018、2019年为2分，2020年为1.5分。本研究只选取偏差复审的语料进行统计分析，其优点是：统计偏差复审率，可以直观分析计算机与测试员的评分差异；通过复审员的复审可以进一步比较计算机与复审员的评分差异；便于从庞大的测试数据中选出有代表性的数据进行分析研究，减少了人力、物力和时间上的浪费。

由于计算机测试系统对第四题只提供一个总成绩，笔者分别进行了三年复审率比对，2019、2020年复审数据计算机与测试员评分差、计算机与复审员评分差、复审成绩等级变化比对，异常偏差复审语料50例语音面貌描述和第三次测评比对、讨论，并辅以测试员评分问卷调查表，多维度地探求计算机测试第四题的信度。

三、偏差复审数据分析研究

(一)(2018—2020)偏差复审复评率比对

从表1的数据看，2018年采用两名测试员测试第四题(即“人+人”模式)，复评率高于施行人机共测(即“人+机”模式)的2019年和2020年；2020年复评率略高于2019年，应是复评标准由第四题机器与测试员相差2分复评，改为相差1.5分复评的缘故。可以看出，“人+人”模式比“人+机”模式的复评率高。造成“人+人”模式复评率高的原因主要有：1.由于前三题为计算机测试，测试员只测试第四题，没有更多语料参考对受测者“语音面貌”准确定档；2.“人+人”模式的两名测试员是随机确定的，双方并不了解彼此的评分习惯，造成复评率高。但“人+人”模式的高复评率并不是坏事，有争议的语料可以通过复审再次测评，从而保证了测试成绩的准确、公正。“人+机”模式中，测试员有可能在长期的测试实践中与计算机“磨合”，自觉或不自觉地迎合计算机进行评分，从而使看似公平的测试有最终成为计算机“一言堂”的风险。

表1 偏差复审复评率比对

(二)偏差复审语料计算机与测试员评分比对

从表2可知，2020年偏差复审的语料以测试员评分高为主，占94.8%；计算机评分高的仅占5.2%。以往研究者认为计算机对前三题的测试存在过于严苛的现象，例如：1.计算机把原本应判为“缺陷”的语音判为了“错误”；2.对语调、协同发音、音节韵律等具有“模糊性”的语音现象判断不准确；3.对整体的停连、轻重、节奏、流畅度把握不准确，不能有效评测朗读的语感。第四题“说话”项，被测者根据所选的话题自由说话三分钟。面对不同说话对象，没有固定模板，语料测评情况更为复杂，这一现象似乎更为明显。除上述几点外，由于计算机评测时对无效语料时间的计算比测试员更为精准，因而会扣掉更多的分值，加之评测第四题的测试员评分往往是“定性”——整体语音面貌判断和“定量”——扣分数值相结合，因此导致计算机评分普遍偏低。

表2 2020第四大题偏差复审语料“人机”评分比对

(三)偏差复审语料复审员与计算机、测试员评分比对

为了使研究数据更为客观，此次研究的第三审测试员均选取未参加过“人+机”模式测试，对计算机评分习惯不熟悉的测试员。从表3和表4可知：1.计算机、测试员、复审员三方测试比对，2019年复审员评分最低，2020年计算机评分最低，初评测试员两年评分均为最高；2.复审员与计算机评分2019年至2020年分差值越来越小，与初评测试员分差进一步加大。这一情况是否说明，“人+机”模式说明了泸州市部分省级测试员业务水平有待提高，专业能力训练需要加强；专业能力强的复审员与计算机的评分高度一致，反映出计算机评分的准确性高，亦或更熟悉计算机的复审员会自觉或不自觉地为降低与计算机的分差而迎合计算机评分，从而使复审有失公正。这一统计与此次研究从2019年和2020年所有偏差复审语料中选出的异常偏差复审语料50例的情况一致。从表5的统计数据可看出，第三审测试员的评分与第一审测试员评分一致率高达70%，而复审员与计算机评分一致率竟高达90%。即便考虑测试员业务水平差异导致的误差，从统计数据的呈现上看，也让人忧虑偏差复审这一环节，复审员会自觉或不自觉地迎合计算机的评分规律评分，从而使复审失去意义。

表3 2019年偏差复审语料“人机”评分差比对

表4 2020年偏差复审语料“人机”评分差比对

表5 异常偏差复审语料50例“人机”评分差比对

(四)偏差复审语料等级变化比对

四川省偏差复审由语言文字工作委员会办公室组织，选调其他地市州国测员组织进行。从表6数据比对可见，机测第四题以后，复评等级变化情况不大，整体仍以等级降低占绝对高值，即便在异常偏差复审50例中也高达42%(见表7)。这一数据说明：1.复审等级降低占绝对高值这一情况在计算机参与第四题测试前后没有发生改变；2.异常偏差复审50例中的语料，虽因各种原因造成评分困难或分差较大，但等级不变的却能高达58%，这说明计算机对情况复杂、难于评分的语料定档还是比较准确的。此50例语料为2019、2020年共445例偏差复审语料中精选的有较强语音特征和评分争议的语料。等级降低的21例中“二乙”降为“三甲”15人，“二甲”降为“二乙”的6人。

表6 2020年与2018年偏差复审等级变化比对

表7 异常偏差复审语料50例等级变化情况

(五)异常偏差复审语料50例分析

1.8号语料

评分情况如下：第一审计算机评分23分、测试员评分29分；复审评分25分；三审评分28分。语料情况描述:“语音标准程度”定档四档，但因考前未做准备，有效话语时长共五个时段，共34秒左右。此语料计算机与一审测试员分差6分，与复审员分差2分，与三审测试员分差5分，其原因应为：(1)计算缺时的时间差异；(2)评判无效语料的标准。其中计算缺时时长应为最主要的原因，计算机显然比人工更为精确，测试员之间对时间的计算差异较大。这样的情况同样出现在4号、38号、40号、44号、47号、48号、49号语料上。依据《普通话水平测试大纲》(教育部、国家语言文字工作委员会发教语用〔2003〕2号文件)的评分标准，说话不足3分钟，酌情扣分：缺时1分钟以内(含1分钟)，扣1分、2分、3分；缺时1分钟以上，扣4分、5分、6分；说话不满30秒(含30秒)本测试项成绩计为0分[6]。另在评分时，补充评分标准为：(1)说话时间不足2分钟的，“语音标准程度”已得分数再降2分；“词汇语法规范程度”和“自然流畅程度”至多定为二档，这两项各自再扣1分或2分。(2)说话不足1分钟的，“语音标准程度”已得分数再降4分；“词汇语法规范程度”和“自然流畅程度”至多定为三档，这两项各自再扣3分或4分。缺时1分钟以内(含1分钟)按20秒为一个档次计，缺时1分钟以上按30秒一个档次计，时间计算相差几秒，有可能产生8分至9分，甚至更大的分差。这一标准使测试员在具体实施时很难操作。测试员之间差异大，计算机与测试员之间差异更大。随着评分方式的变化，为了考试的公平公正，国家相关部门应重新出台更适合目前测试方式的评分细则，减少计算机与测试员之间对“缺时”的差异，使评分更为客观公正。

2.44号、19号、21号语料

评分情况如下：第一审计算机评分29分、测试员评分33分；复审评分30分；三审评分33.5分。语料情况描述:“语音标准程度”定档四档，“词汇语法规范”和“缺时”两项容易判断，分差应出现在“自然流畅度”上。由于准备不充分，谈话者在1∶15—2∶40区间，每一两句出现2～3秒的停顿多次，2∶40—2∶48出现8秒停顿一次。另有两例为19和21号，将这两例语料由两名省测员进行了第四次测试并由几名测试员进行了讨论，较为认可的等级均为“二乙”，与初测等级相同。经讨论认为这两例语料的共同特点为：(1)整体语音面貌和语音标准程度尚可定为四档；(2)由于受测者在说话初始阶段，因紧张等因素，自然流畅度受到影响，但随着自我调整慢慢恢复到正常状态。其中21号语料此特点最为明显。三次评分均为计算机最低，复审员其次，第三测最高。其中初评与第三次测试的测试员评分分差低于1分，而与计算机分差为3～4分，和复审员分差2～3分。这一现象说明计算机的评分过于死板，忽略了人在情绪变化时语言流畅度正常的变化，而一般的测试员对这一现象有更包容的态度。

停顿是一种自然的言语现象，停顿的频次和长短常常被用作言语流畅与非流畅的量化标准。关于停顿的频次和时长，国内外语言学者都做了许多的研究，但在自然状态下的言语过程中，影响停顿的因素很多，例如年龄、性别、习惯、情绪等，因此并未有公认的较为客观的界定流畅与非流畅的明确标准。这使计算机和测试员在判断“自然流畅”“基本流畅”“语言不连贯”上很难统一。由于没有数据，无法知道计算机是怎样给一段3分钟话语的流畅度进行评分的，加之《普通话水平测试大纲》上并没有明确的频次和长短的参考数值，测试员基本上是依据自己的专业和生活经验来进行评分。从评分的情况对比来看，测试员的“人脑”似乎比“电脑”在评分标准上更具灵活性和包容度，能依据说话人的年龄、语言习惯、情绪等作出判断，因此普遍评分偏高。除了以上3例语料，在这50例语料中，还有多个语料亦是这种情况。

3.32号、40号语料

评分情况如下：第一审计算机评分30分、测试员33.5分；复审评分30分；三审评分34.8分。语料情况描述:语音面貌定档三档(扣4分)或四档(扣5分)，此语料在“词汇语法规范”“自然流畅度”和“缺时”上无争议。评分差应为录音效果不好(话筒距离受测者太近或录音设备故障)导致对“语音标准程度”的扣分。40号语料也是这种情况。40号评分情况如下：第一审计算机评分30分、测试员33.5分；复审评分31分；三审评分34分。为此，笔者组织了两名测试员第四次测试和讨论。结果为：32号和40号语料排除掉录音效果干扰，单从整体语音面貌印象来判断，32号为二乙高段，40号为二乙中段。有研究认为，“人脑”可以自动“修复”因外界因素导致的语音信息不全，排除干扰，从而获得更多的信息。而这也是导致计算机和测试员面对此类语料分差大的原因。如果上述两则语料不是受测者自身操作不当，那么提高计算机的语音识别能力，缩小与“人脑”的差距，会让考试更为公正。

(六)测试员问卷调查情况

本次研究，采用了问卷调查法，对参与初审的测试员进行了测试感受的问卷调查。此次问卷共7个问题，共20名泸州市语言文字工作委员会测试员参与，有效问卷14份，调查结果如下：

问卷问题分别为：1.测试的过程中，你是否有不自觉地根据电脑的评分特征评分的行为？2.测试的过程中，你是否会为减少偏差分数，根据电脑的评分特征迎合电脑评分？3.你认为机测与人测分数偏差最大的是哪项？4.你认为机测与人测分数偏差最小的是哪项？5.你认为机测与人测的分数偏差是否能接受？6.你认为电脑测试的最终结果是否可信？7.你认为电脑会不会最终完全取代测试员？

从问卷调查的结果，可以分析出以下信息：1.测试员有可能在长期的测试实践中与计算机“磨合”，自觉或不自觉地迎合计算机进行评分，从而使看似公平的测试有最终成为计算机“一言堂”的风险。2.从测试员主观感受来看，“词汇、语法规范程度”评分结果偏差最小，“无效话语界定”评分结果偏差最大。3.大部分测试员认为机测与人测的分数偏差是能接受的，并认为电脑测试的最终结果基本可信。4.大部分测试员认为电脑不会完全取代测试员，认为普通话水平测试是仍需要测试员参与的。

四、结论

从本次研究数据分析的结果，可以得出如下的结论：普通话水平测试机评第四题“命题说话”测试成绩基本可信，大部分测试工作者对“人+机”测试模式及测试结果是认可的。但第四题“命题说话”测试目的，是测查应试人在无文字凭借的情况下，使用普通话进行言语表达和交际的能力。不仅要测试语音标准程度，还要测试词汇语法规范程度，更要测试其使用普通话时的说话语感、自然流畅度。因此“人+机”模式仍有如下问题需要解决：1.测试员、复审员在长期的测试实践中与计算机“磨合”，自觉或不自觉地迎合计算机进行评分，从而使看似公平的测试有最终成为计算机“一言堂”的风险。2.计算机、测试员、复审员三方测试比对，计算机评分最低，最为严格，而这种严格与第四题测试目的不符，显得过于“严苛”。之前有研究者提出计算机在前三题的测试中存在以下问题：“语音标准程度”的评测，“正误”辨识度高，“缺陷”辨识不准确；评测时“字化”现象明显，对整体的停连、轻重、节奏、流畅度把握不准确；对语调、协同发音、音节韵律等具有“模糊性”的语音现象不能准确地处理判断。这些问题最终使计算机评分普遍低于测试员，从而造成了“严苛”这一现象。由于此次研究时间偏短，数据不够充分，未能作进一步探讨，但从已知的数据看，计算机在“自然流畅程度”和“缺时”的评分上与测试员有较大分歧，且评分较低。3.计算机对录音效果要求高，录音语料出现意外干扰会严重影响评分的准确性。

通过此次研究，笔者对今后普通话测试工作有如下建议：1.普通话测试应紧跟科技发展的步伐，不断完善测试系统平台的各项工作，进一步解决计算机语音识别系统存在的技术性问题；采集更多的语料数据，完善数据库；完善系统管理功能；紧跟时代特征，完善测试题库建设。2.建立协调互补的多维度评分体系和测试管理体系。如：评分差异最大的“无效话语界定”可否将评分细则进一步细化，以减少评分偏差；“缺时”扣分计算机比测试员更精准，这项评分是否可由计算机独立完成，测试员不再参与；“自然流畅度”评分，由于测试员在评分标准把握上更具灵活性和包容度，能依据说话人的年龄、语言习惯、情绪等作出判断，更符合第四题的测试目的，能否由测试员独立评分或测试员评分权重更大；3.应处理好计算机与测试员之间的协作关系。随着计算机技术的不断发展，计算机将更多地参与到国家各级各类考评测试中，处理好“人机”关系是不得不思考的问题。“人机”谁为“主导”，谁为“辅助”？扬长避短，充分发挥“人”与“机”各自的优势，才能使测试更加客观、公正。