计算机辅助普通话水平测试评分问题的研究
——以二级甲等“机测”成绩为中心的调查分析
2017-06-19童效杰
童效杰
(韩山师范学院文学与新闻传播学院,广东潮州 521041)
计算机辅助普通话水平测试评分问题的研究
——以二级甲等“机测”成绩为中心的调查分析
童效杰
(韩山师范学院文学与新闻传播学院,广东潮州 521041)
计算机辅助普通话水平测试将测试环境形式由人工转变为计算机,其突出作用是减少了人为因素干扰、增强了测试的客观性和公正性,进而提高了测试的规范性和权威性。然而通过对测试最终成绩进行分析和比较发现:计算机辅助普通话水平测试评判中,存在对应试者的“特殊发音错误”和发音缺陷“测不准”、对连读和语流“不评测”等问题。这一现象必须引起重视并加以纠正,否则不仅会失去普通话水平测试的严肃性、科学性和权威性,而且也会对普通话学习和训练带来错误的导向,进而严重偏离推广普通话工作的目标。要进一步加强对计算机辅助普通话水平测试的研究,扩大语音样本数据库语音样本类型和数量,以提高计算机网上评分的分辨识别能力,并通过加强人工复评来纠正部分计算机网上评分的偏差。
“机测”;特殊发音错误;发音缺陷;连读;语流;“测不准”;“不评测”
1994年10月30日,国家语言文字工作委员会、国家教育委员会、国家广播电影电视部联合颁发了《关于开展普通话水平测试工作的决定》(国语〔1994〕43号,下文简称《决定》),决定在全国正式启动普通话水平测试工作,这是保证推广普及普通话工作走向制度化、规范化、科学化的一项重要措施。在《决定》的指导下,全国各省从1995年开始陆续开展了针对在职教师、师范类专业毕业生、广播电视播音员、公务员等的普通话水平测试工作,大大推动了语言文字规范化工作的进程。到2014年,普通话水平测试工作已整整经历了20年。在这20年里,无论是对测试的宏观管理还是测试的细节操作,都取得了重大成果,获得了良好的社会声誉。特别是现代科学技术在测试中的运用,由中国科大讯飞承担的研究课题“计算机辅助普通话水平测试”成果得到专家的鉴定,并在全国范围内的实际测试当中全面实施,将测试环境形式由人工转变为计算机,这不仅把测试员从繁重的劳动中解脱出来,更重要的是大大减少了人为因素的干扰、增强了测试的客观性和公正性,也大大提高了普通话水平测试的规范性和权威性。2014年1月22日,时任教育部副部长、国家语言文字工作委员会主任李卫红在全国语言文字信息化工作视频会议上的讲话中讲到:“计算机辅助普通话水平测试快速发展,截至2012年底,全国共有30个省(区、市)已经试点和实施了计算机辅助普通话水平测试,当年使用计算机辅助测试的考生已达290万人次,累计达887万人次。”这样一个层次高、覆盖面广的国家级考试,评测标准和结果理应客观、全面、精细,可在实际测试中情况又怎样呢?
一、问题的提出
计算机辅助普通话水平测试(以下简称为“机测”)评分中,应试者的成绩前三项(即读单字词、读词语、朗读,共60分)测试结果由计算机自动评分,第四项“命题说话”(共40分)测试结果则由测试员通过在网上听应试者的录音进行人工评分,最后两部分分数合计即为应试者取得的测试总成绩,并以此确定应试者的普通话等级。
韩山师范学院自2009年3月开展“机测”试点工作,为了积累经验和平稳过渡,起初我们只是对少部分考生进行“机测”,对其他大部分考生仍进行传统的人工评测(以下简称“人测”),采用“机测”和“人测”并行的方式开展全校的普通话水平测试工作。通过近两年时间的试行,到2011年1月,全校的普通话水平测试工作就全部实行了“机测”。至今,“机测”已在我校实行了八个年头。八年中,我们一直关注着“机测”的运行情况和结果。实行“机测”后,普通话水平测试工作总体运行平稳、顺利、正常,大大减轻了测试员的工作负担,提高了测试工作的效率。从测试结果看,在“机测”与“人测”并行的头两年(2009年和2010年)里,两种测试方式下的应试者成绩相比较,其在各等级的分布比例就有了一些变化,“机测”方式下获得二级甲等成绩应试者的比例(占15%左右)比“人测”方式下获得二级甲等成绩应试者的比例(占5%左右)有明显提高,而获得二级乙等成绩应试者的比例(占70%左右)比“人测”方式下的(占80%左右)有明显降低,在其他等级上的人数分布比例变化不明显。但由于试行“机测”阶段参加“机测”的应试者人数比较少,绝大多数应试者参加的仍然是“人测”,对该两年度的全体应试者测试成绩整体分布比例没有造成太大的影响,因此这种情况没有引起我们足够的重视。2011年“机测”在我校全面实行后,我们更加关心“机测”结果的变化情况,发现几年来的测试成绩分布跟以往的“人测”相比有了一些明显的不同和变化:每年度的全体应试者中,获得一级乙等以上(≥92分)成绩者的比例与以往相比保持了相对稳定,跟以往相当,保持在0.1%以下;获得二级甲等成绩者的比例明显上升,由以往“人测”的5%左右大幅上升到现在“机测”的35%左右;获得二级乙等成绩者的比例明显下降,由以往“人测”的80%左右大幅下降到现在“机测”的55%左右;获得二级乙等以下(<80分)成绩者的比例也有下降,由以往“人测”的15%以上下降到现在“机测”的10%以下。
我们对我校“机测”方式下应试者测试成绩明显提高的现象进行了调研分析,认为这其中原因之一是学校加强了普通话教学培训和学生重视并强化了普通话训练学习的结果,但这个原因只能引起成绩的缓慢提高,不能完全充分合理地解释为何现行的“机测”成绩比以往的“人测”成绩会突然大幅变化(提高)。而且,一个现象更引起了我们的注意:有些“机测”应试者在第四项“命题说话”得分并不高(日常实际说话也的确存在突出问题)的情况下,总成绩分数却很高;尤其是有些“机测”应试者第四项“命题说话”得分在32分左右的情况下,总成绩仍然能够获得二级甲等(≥87分)的等级。通过进一步大量调查了解,我们发现这种情况还不在少数,而监控也没有发现舞弊现象,不存在作弊行为。这引起了我们的严重关切,为了弄清楚具体情况,了解产生这种情况的原因,我们对“机测”的评分过程和结果进行了调查和分析。
二、调查及分析
(一)分层抽样的调查分析
普通话水平测试是对应试者普通话标准程度的检测和评估,包括语音、词汇和语法三个方面。众所周知,语音是语言的外化形式,不同语言之间差别最大的是语音。因此,语音是否标准便是评判普通话水平的首要标准,普通话水平测试的评分标准也映证了这一点。可是为什么会出现上述现象呢?我们采用分层抽样的方法选取学校普通话水平测试站同一个测试任务(任务编号:130451)中获各个级别成绩应试者共112人(样本成绩全为“机测”结果,为了使样本更具代表性,其中一级乙等以上成绩者只有2人,全取;二级甲等成绩者中随机取30人;二级乙等成绩者中随机取50人;三级甲等成绩者人数较少,但也随机取30人)的测试原始录音,请资深的国家级普通话水平测试员进行人工复评,将其结果与“机测”成绩从不同角度进行比较,调查其变化情况。情况如下:
表1 对“机测”结果进行人工复评后的等级变化情况
表2 对“机测”结果进行人工复评后的总成绩分布变化情况
表3 对“机测”结果进行人工复评后的前三项成绩分布变化情况
表4 人工复评后的第四项成绩分布变化情况
通过对112个“机测”样本成绩的人工复评发现,“机测”样本成绩中有相当一部分与人工复评成绩存在不小的出入,而且,“机测”样本成绩普遍比人工复评成绩要高。对表1的分析显示,从等级上看,2个一级乙等“机测”成绩与人工复评成绩完全吻合;30个二级甲等“机测”成绩中,只有10个成绩与人工复评成绩吻合,其他20个成绩发生错档现象,其人工复评结果全部为二级乙等成绩,错档比例竟然高达66.67%,令人十分吃惊;50个二级乙等“机测”成绩中,有44个成绩与人工复评成绩吻合,其他6个成绩发生错档现象,其人工复评结果全部为三级甲等成绩,错档比例为12%;30个三级甲等成绩中,有28个成绩与人工复评成绩吻合,其他2个成绩发生错档现象,其人工复评结果全部为三级乙等成绩,错档比例为6.67%。
对表2的分析显示,从总成绩上看,一级乙等、二级乙等和三级甲等的“机测”成绩与人工复评成绩都不尽相同,但其与人工复评成绩还是很接近的,误差都比较小(相差都没有超过3分的;即便是二级乙等中错档的6个成绩和三级甲等中错档的2个成绩,其误差也在3分以内;特别是一级乙等的2个成绩,其误差更是在0.5分以下)。可是二级甲等的“机测”成绩与人工复评成绩却出现大部分分数悬殊的情况,不仅误差发生的面比较大,而且有些误差还比较大,最大误差竟然达到了7分以上。
对表3的分析显示,从前三项成绩上看,2个一级乙等的“机测”成绩与人工复评的成绩基本吻合,其误差仅为0.1分和0.6分,属于允许的误差范围,可以忽略不计。而二级甲等、二级乙等、三级甲等等三个级别的“机测”成绩与人工复评成绩比较,相当一部分样本存在较大误差;尤其是二级甲等“机测”成绩样本,其与人工复评成绩相比较,不仅误差面大,而且有些样本误差幅度很大,最大误差幅度超过了6.5分。
对表4的分析显示,从对第四项“命题说话”成绩的人工复评结果来看,所有样本成绩与人工复评成绩之间的误差都比较小或没有误差,其误差都在合理的范围内。
(二)对二级甲等“机测”成绩的随机抽样调查分析
上述情况是怎么发生的?它说明什么问题?为什么二级甲等“机测”成绩样本与人工复评成绩结果产生如此大的出入?为什么这种误差突出地发生在二级甲等“机测”成绩中?为了进一步弄清情况,我们以二级甲等“机测”成绩为中心,专门针对二级甲等“机测”成绩重新抽样进行分析,将上述测试任务(任务编号:130451)中“机测”成绩为“二级甲等”的测试录音材料重新随机抽取86份,请前述同一资深的国家级普通话水平测试员进行人工复评,并将“机测”成绩与人工复评成绩进行比较。
1.“机测”成绩与人工复评成绩的前三项得分总分差距比较
把“机测”成绩与人工复评成绩的前三项得分的总分进行比较,观察两者的差距情况,结果如下(见表5)。
表5 “机测”成绩与人工复评成绩的前三项得分总分差距比较
表5显示,人工复评成绩和“机测”成绩两者的分数差在3分以内的样本共有59个,占68.6%,其中分数差在1分以内的样本只占22.1%;而两者分数差在3分以上的样本达到了27个,占到了31.4%。而且,“机测”成绩普遍高于人工复评成绩,86个样本中只有3个样本“机测”成绩低于人工复评成绩,仅占3.5%。
2.“机测”成绩与人工复评成绩的前三项得分分数段分布比较
把前三项得分的总分分为9个分数段,将“机测”成绩获得者与人工复评成绩获得者的人数分布进行比较,观察两者在各分数段的人数分布情况,结果如下(见表6)。
表6 “机测”成绩与人工复评成绩的前三项得分分数段分布比较
表6显示,人工复评成绩和“机测”成绩的前三项得分总分所集中的分数段是不同的,人工复评成绩集中在54分以下,共有68个样本,其中还有7个样本的得分低于50分,占总样本数的8.1%;而“机测”成绩则集中在53-56分之间,共有69个样本,没有53分以下的,57分以上的样本有7个,占总样本数的8.1%。
3.第四项“命题说话”“机测”成绩与人工复评成绩比较
第四项“命题说话”成绩,无论是“机测”还是人工复评,都是由测试员根据统一标准进行评判所得,理应不会有较大出入,但为了全面准确地掌握情况和分析问题,还是有必要将两者之间的差距情况进行比较,结果如下(见表7)。
表7 “命题说话”“机测”成绩与人工复评成绩差距比较
表7显示,第四项“命题说话”“机测”成绩与人工复评成绩完全相同的样本有9个,分数差距在0.1-0.5分之间的样本有21个,分数差距在0.6-1.0分之间的样本有33个,分数差距在1.1-1.5分之间的样本有11个。也就是说,两者分数差距在1.5分之内的样本共有74个,占总样本数的86.1%;而分数差距在2.0分以上的样本只有5个,仅占总样本数的5.8%,而且最大分数差距也在3分以内。
4.“机测”与人工复评的四项总成绩得分分布比较
把样本的“机测”和人工复评总成绩得分分为13个分数段,将“机测”成绩获得者与人工复评成绩获得者的人数分布进行比较,观察两者在各分数段的人数分布情况,结果如下(见表8)。
样本的“机测”总成绩均为二级甲等,表8显示,其中87-87.99分的样本有53个,占总样本数的61.6%;88-88.99分的样本有19个,占总样本数的22.1%;89-89.99分的样本有9个,占总样本数的10.5%;90分以上的样本有5个,占总样本数的5.8%。而经人工复评,成绩为二级甲等以上的样本仅有23个,仅占总样本数的26.7%,绝大多数样本(有63个,占总样本数的73.3%)的人工复评成绩只有二级乙等;即使考虑到可能存在的可接受性误差因素,将人工复评成绩中86分以上的样本都记为二级甲等,二级甲等成绩者也只有37个,仅占总样本数的43.0%,仍未达到总样本数的一半。同时,还应看到,人工复评成绩中有38个样本(占总样本数的44.2%)的得分是低于85分的,甚至有9个样本(占总样本数的10.5%)的得分低于82分,只是刚过二级乙等。
表8 “机测”与人工复评的四项总成绩得分分布比较
值得注意的是,样本中,在第四项“命题说话”项目上扣分高达7.5分以上的情况下,“机测”总成绩也能达到二级甲等(即得分在87分以上)者竟然有31个,占总样本数的36.0%;最为突出的是,在该项扣分高达8.5分的情况下,竟有样本的“机测”总成绩仍然达到了88.6分。
对上述二级甲等“机测”成绩和人工复评成绩的比较和分析结果表明:“机测”总成绩和人工复评总成绩在第四项“命题说话”项目上的得分差异不大,其差异都在合理和可接受的范围内;两者之间的差异主要来自前三项的得分,而“机测”成绩的前三项评分是由计算机在网上进行的,也就是说,“机测”成绩的前三项计算机网上评分是有问题的,计算机网上评分存在“测不准”的问题。那么,计算机网上评分在哪些方面“测不准”呢?
三、实验分析
通过进一步的细致观察和分析,我们发现:“机测”中计算机网上评分对普通话语音的“对”和“普通发音错误”①为了研究的方便,根据实际教学和测试工作中掌握的情况,我们把普通话语音问题分为发音错误、发音缺陷、连读和语流问题。发音错误是指把一个字的普通话读音发成另一个字的读音,又分为普通发音错误和特殊发音错误。其中,普通发音错误是指由于认字错误而导致的发音错误,比如把“帅”认成和读成“师”、把“瘸”认成和读成“腐”等;特殊发音错误一般是受方言发音影响而与方言发音关系较大的发音错误,比如常见的特殊发音错误有把翘舌音读成平舌音、把后鼻音读成前鼻音、把鼻音读成边音等。发音缺陷是指普通话发音不到位的现象,比如翘舌靠前(即发音时舌尖放在上齿龈处)、尖音、声调调值忽高忽低等。的判断识别率高,计算机网上评分能客观准确地评判普通话语音的“对”和“普通发音错误”;对于标准规范的普通话,计算机在网上能准确地判别,计算机网上评测能达到很好的效果,因此,“机测”评分在高等级(一级乙等以上)上错误率低、正确率高,“机测”成绩能客观地反映应试者的普通话水平。但是,普通话水平测试不仅要考查应试者发音的“对”和“普通发音错误”,对于应试者的“特殊发音错误”、发音缺陷、连读、语流等也要进行考查。我们推测,“机测”评分“测不准”的问题就出在计算机网上评分对“特殊发音错误”、发音缺陷、连读、语流的评判上,普通话水平一级以下的应试者,其发音不仅存在“对”和“普通发音错误”的问题,而且还在“特殊发音错误”、发音缺陷、连读或语流上存在问题,由于计算机网上评分对这些方面不能有效判别,评判存在错误,评分也就不准确了,从而影响了“机测”成绩的客观准确性,导致“机测”成绩不能客观如实地反映应试者的普通话水平。事实果真如此吗?为了检验上述推测的正确性,我们进行了一个有针对性的初步实验:选择一份试卷(试卷编号:I-20071216)中的前三项(即读单字词、读词语、朗读)为实验材料,请普通话规范标准、娴熟地道(普通话水平为一级甲等)、经验丰富、语言模仿能力强的国家级测试员作为应试者,故意分全部平舌、后鼻音读成前鼻音、前鼻音读成后鼻音、翘舌音靠前、尖音、上声调值为21、声调调值忽高忽低、明显一字一顿读词语和文章、竖着读等9种常见“特殊发音错误”、发音缺陷、连读、语流问题进行模拟朗读,模拟朗读共分9次(每次只单独出现上述某一类语音问题,其他全为标准规范的普通话读音),分别对其进行“机测”评分和“人测”评分(“人测”评分仍由前述资深国家级普通话水平测试员进行),比较9种模拟问题读音情况下“机测”评分和“人测”评分的得分差异,结果如下(见表9)。
表9 模拟9种问题读音情况下“机测”和“人测”的得分差距比较
表9显示,9类模拟实验证明:(1)全部平舌、后鼻音读成前鼻音、前鼻音读成后鼻音是常见的“特殊发音错误”,从“机测”评分和“人测”评分结果看,两者在“全部平舌”读音项上的得分差异较大,“机测”得分明显高于“人测”得分,其差异达到了3.4分,说明“机测”对平翘舌音的分辨识别存在不准的问题;而在“后鼻音读成前鼻音”和“前鼻音读成后鼻音”两项上的得分几乎没有差异,说明“机测”对前鼻音和后鼻音的分辨识别是准确的。(2)翘舌音靠前、尖音、上声调值为21、声调调值忽高忽低是常见的发音缺陷,从“机测”评分和“人测”评分结果看,两者在这四个方面的得分都存在差异,“机测”得分均高于“人测”得分,每个方面的得分差异在1.5分左右,在四个方面的得分差异总计达到了6.25分,说明“机测”对发音缺陷的分辨识别也存在不准的问题。(3)明显一字一顿读词语和文章是典型的连读和语流问题,从“机测”评分和“人测”评分结果看,“人测”不评测、应试者不得分,而“机测”情况下应试者不仅得分,而且还得分很高,说明“机测”对应试者的连读和语流问题没有约束和要求。(4)“竖着读”是应试者对测试规则的严重和明显违反,“机测”和“人测”对其都不予以评分。
通过上述实验分析,我们可以发现“机测”中存在以下一些问题:第一,由于“特殊发音错误”和发音缺陷是与方言发音相联系或关系较大的一类语音错误和语音缺陷,而各地方言彼此各不相同、千差万别,语音缺陷更是繁杂多样,“机测”要准确精准地对其进行分辨识别比较困难,因此“机测”对应试者的部分发音错误和发音到位情况“测不准”的现象就出现了。第二,“机测”评分中对连读和语流没有约束和要求,应试者只要单个字的发音正确,即使把词语和文章一字一顿地都读成单个儿单个儿的字,照样可以得高分。也就是说,计算机网上评分根本就不把连读和语流作为考查的内容和范围,不考虑应试者普通话的连读和语流情况,存在“机测”“不评测”的问题,不能全面客观地反映应试者的普通话情况。这些问题是造成“机测”成绩不能准确反映应试者普通话实际水平的原因所在,因此,出现哪怕第四项“命题说话”得分只有31分、32分“机测”总成绩也能够上二级甲等的现象就不奇怪了。
四、总结和建议
普通话水平测试内容有四项,是按照语言学习的自身规律(即字——词——句)进行排列的:第一项读单音节字词,第二项读词语,第三项朗读短文,第四项命题说话。其测试语音由单一到综合、测试内容由认读到应用、测试形式从有文字凭借到无文字凭借,目的在于全面准确地考查应试者的普通话水平。在普通话水平测试的四个测试项中,每个测试项的评判标准不同,也就是说每个测试项的要求各不相同,各有侧重,其难度逐一加大。第一项考查的是普通话21个声母、39个韵母和4个声调发音的到位度。第二项是在发音到位的基础上,侧重考查词语的连读、轻重格式、音变等的准确度。这两项可以说都是纯粹地检测应试者读字和词语的发音准确度。而第三项和第四项才是进入考查应试者普通话的表情达意、自如交流情况的阶段,是以句子为单位,根据其“读”和“说”两种表达形式呈现的情况,除了考查其语音的标准度之外,还要考查其语气词“啊”的音变和“一、不”变调等音变现象的发音标准度、自然流畅度(第四项还要考查其普通话词汇、语法的规范度)。
“机测”评分是指普通话水平测试的前三项由计算机进行网上评分,其具体评判标准不得而知,但是从调查分析结果来看,显然没有达到上述目的和要求。其对“特殊发音错误”和发音缺陷分辨识别不准确,存在对应试者的部分发音错误和发音到位情况“测不准”的现象;而对连读和语流又不作考查要求,存在“不评测”的现象,把读词语、读句子等同于读单字(尤其是第三项朗读),不能全面客观地反映应试者的普通话情况。“机测”“测不准”和“不评测”问题的存在,导致其评分结果不能客观地反映应试者的普通话实际水平,这一点在二级甲等上表现得尤为突出。
为了加强对测试工作的宏观管理,使其更加规范、健康地发展,20年里,教育部、国家语委等部委有针对性地颁布了多部法律规章,这些法律规章的制定和实施,都在告诉我们:普通话水平测试是国家级测试,是推广全国通用的普通话的重要举措之一,理应具有高度的科学性和权威性。而且,我们普通话教学和推广的目的,是培养和训练人们能说一口标准流利的普通话,从而提高其语言表达能力和语言交际能力,而不仅仅只是使其普通话发音准确无误。教育部、国家语委教语用【2003】2号文明确指出,“普通话水平测试测查应试人的普通话规范程度、熟练程度,认定其普通话水平等级,是标准参照性考试”[1]。普通话水平测试的目的是考查和促进应试者熟练地运用规范的普通话进行交际的能力,使应试者能够运用普通话正确而自然流畅地交流。
“学习一种语言,如果只是能把每个音素或音位的音发得很准确,是不行的。”[2]有声语言的运动状态称为“语流”,口语交际过程一定是有一连串发音的,一个音接着一个音,连续不断,从而形成意思相对完整的语流。而这种语流所呈现出来的最小单位是句子,口语外化就是“读”和“说”,即“读句子”和“说句子”,而不是“读字词”和“说字词”。我们知道,“清晰、准确、流畅,一直是衡量一个人口语表达能力的三个基本维度”[3],朗读是把文字作品转化为规范的有声语言的再创作活动,其基本要求就是语音清晰、标准,语流流畅。语流所包含的基调、停连、重音、语速、语调等方面都是通过语音外化出来的,所以,在学习和训练普通话时,不仅要发音清晰准确标准,同时也必须做到语流流畅,要帮助学生在学好语音、学好声韵调的同时,学好语流的停连、轻重、抑扬、长短、语调、节奏等等,“要提高PSC(普通话水平测试,笔者注)的成绩,使学生的普通话水平能有一个质的提高,让学生说一口纯正流利的普通话,教师必须要重视和加强普通话的语流教学”[4],普通话水平测试必须体现对语流的评判。
而上述“机测”“测不准”和“不评测”问题的存在却违碍了这些要求的实现,对“特殊发音错误”和发音缺陷“测不准”,对连读、语流问题“不评测”,应试者的普通话实际水平得不到真实的考查和体现,“机测”成绩不能准确有效地反映应试者普通话的真实状况,“机测”的鉴别和导向功能负向作用,长此以往,不仅对普通话水平测试的可信度、严谨性、科学性和权威性造成负面影响,而且也会对普通话学习和训练带来错误的导向,进而偏离推广普通话工作的目标,对推普工作带来严重的消极后果。因此,对“机测”“测不准”和“不评测”的问题必须高度重视,要对其加强研究,尽快采取措施加以解决。
首先,要按照普通话水平测试的性质和要求,尽可能加大对各种“特殊发音错误”和发音缺陷样本的采集数量,使“机测”语音样本库能最大限度涵盖“特殊发音错误”和发音缺陷的各种语音表现情况,以增强计算机网上评分对应试者语音的分辨识别能力,从而使“机测”评分能准确地评判应试者的“特殊发音错误”和发音缺陷。其次,要加强机器对连读及语流的判断和分析能力的研究,“机测”语音样本库的建设要在采集大量单字词语音的基础上,增加以双音节词、多音节词、句子为单位的语音样本数据采集,把连读和语流作为“机测”考查的内容和范围,以便“机测”评分能分辨识别应试者语音的连读和语流情况,让语音识别做到精细、准确和客观,能全面客观地反映应试者的语音面貌和普通话语言水平。再次,现行的“机测”评分采用的是对前三项进行总体评价,给一个总的分数,没有对每一项单独进行评分,不便监测和掌握“机测”评分中存在的问题,不利于对“机测”的科学研究和进一步完善,建议采用适当的技术手段使“机测”评分能针对前三项的每一项进行单独评分。最后,在“机测”技术还没有完全达到前两者要求时,可以采用一些补救性措施来弥补和纠正“机测”的不足,以防范“机测”负面作用的进一步扩大。可以采用加大人工复评面的方式,来纠正部分“机测”成绩失真的问题。按规定,现行的人工复评只针对“机测”成绩为一级的应试者进行;今后,我们可以扩大人工复评的覆盖面,不仅对“机测”成绩一级获得者的测试录音全部进行人工复评,对其他等级“机测”成绩获得者也按一定比例或按某一分数范围抽取其测试录音进行人工复评,以便掌握“机测”评分的精准情况、监测“机测”评分中存在的问题、纠正部分“机测”评分偏差。
随着现代科学技术的飞速发展,我们有理由相信:“机测”技术也一定会不断提高、完善,“机测”结果一定会越来越客观、准确,“机测”一定会达到科学化和具有权威性。
[1]国家语言文字工作委员会普通话培训测试中心.普通话水平测试实施纲要[M].北京:商务印书馆,2004:1.
[2]吴弘毅.实用播音教程·普通话语音和播音发声[M].北京:中国传媒大学出版社,2002:88.
[3]刘传清,戴子卉.基于普通候车室的大学生口语表达流畅度研究[J].三峡论坛,2015(6):64.
[4]张建强.PSC与语流教学[J].贺州学院学报,2007(2):61.
A Study of the Problem sof Com puter-Aided Scoring in the Putonghua Proficiency Test——An Instigation into Grade A Level2“Computer-Measured”Scores
TONG Xiao-jie
(College of Literatureand Journalism,Hanshan NormalUniversity,Chaozhou,Guangdong,521041)
Computer-aided Putonghua proficiency test converts the test environment from manualwork into computers,the prominent role ofwhich is to reduce human interference and enhance the objectivity and justice of the testso as to increase its normativity and authority.However,through the analysis and contrastof the final scores of tests,it is found that computer-aided Putonghua proficiency testhas problems like incorrect measurementofexaminees’“unique errors in pronunciation”and defects in pronunciation,nomeasurementof sound-linking and speech flow.Such problems can’t be ignored.Otherwise,not only would the seriousness, science and authority of the test be undermined,but alsomisleadingmight arise in Putonghua learning and training.Studies of computer-aided Putonghua proficiency tests should be enhanced,and the categories and quantities of the database of phonetic samples should be enlarged so that the capacity of discernment of com⁃puter network scoring could be improved.Besides,the errorsof computer network scoring can be partly correct⁃ed throughmanual reassessment.
computer-measured;unique errors in pronunciation;defects in pronunciation;sound-link⁃ing;speech flow;“incorrectmeasurement”;“nomeasurement”
H 01
A
1007-6883(2017)02-0065-08
责任编辑 温优华
2016-07-21
童效杰(1966-),女,湖北通城人,韩山师范学院文学与新闻传播学院副教授。