普通话水平测试“命题说话”项计算机评测质量的考察与评价
2021-12-28胡智丹田娜王萌
胡智丹 田娜 王萌
摘 要:普通话水平测试“命题说话”项的计算机评测,技术难度要大大高于其他三项题型,其评测质量直接关涉考试信度。采用抽样统计的方法,对比人工评测和人机评测的组内初评数据、人机评测的组内复审数据,并对复审案例进行复听,试图通过人机数据互证来考察计算机评测的质量。研究结果显示,计算机评测总体达到人工评测水平,评分稳定性优于人工评测,但尚存在因信息处理能力欠缺而导致的少量误判、漏判现象。具体表现为对某些语言材料的识别不够精准,对不同水平考生的评分尺度难以高度一致。
关键词:普通话水平测试;命题说话;计算机评测;统计;评价
普通话水平测试是一项大规模的国家级通用语口语测试。2007年之前,该测试全程采用人工评测;2007年起,计算机辅助普通话水平测试开始试行[1](P108)。这一时期的计算机辅助测试仅实现了“读单音节字词”“读多音节词语”“朗读短文”三项内容的自动评测,第四项“命题说话”(以下简称“说话”)仍然由测试员评定分数[2]。2017年,“说话”项计算机辅助评测开始试点,本文调查的考点采用一名测试员和计算机合作评分的模式(以下称“人机评测”)。与前三项不同,“说话”项属于无固定文本参照的语音评测,评测内容不仅涉及语音,还涉及词汇语法、语言流畅度、内容相关性、缺时等多个方面,其性质决定了自动评测的技术难度要高于前三项。“说话”项计算机评测的质量究竟如何?本文抽取同一考点人工评测时期和人机评测时期的初始评分数据、人机评测中的复审评分数据进行统计对比,并对进入复审环节的考生录音再次复听,尝试通过人机数据相互论证的分析方法,来考察计算机的评测质量。人机评测的初始评分数据来自初评测试员(以下称“测试员1”)和计算机评测系统(以下称“机评”),复审样本的评分数据则在前两者的基础上又加入了复审测试员(以下称“测试员2”)的评分。
一、抽样考生的基本情况
关于人机评测的数据,本文采用某高校普通话水平测试考点2019年9月至12月4195名考生的样本。这些考生中,高校在读学生占93.37%,其余为高校教师和附属医院医务人员。考生来自全国31个省、直辖市、自治区,七大方言区均有分布。考生构成与测试成绩的等级分布分别如表1、表2所示:
我们同时抽取了该考点2016年9月至2017年6月人工评测的4863名考生数据作为对比组的样本,这些考生的构成情况与上述人机评测模式下的情况基本相似。
二、人机评测与人工评测初始评分结果的统计分析
(一)组内评分差异的比较
各省、直辖市、自治区对“说话”项的偏差数据都有复审的要求,如果两个初始评分的差异值在一定范围之内,成绩取两者的平均值;如果差异值超出一定范围,需要对考生录音进行偏差复审,重新计算成绩。因此,测试员间的评分差异是反映测试员评分一致性的主要指标,也是管理过程中衡量评分质量的重要依据。表3是对人机组、人工组各自初始评分差异值的统计学描述,表4是人机组、人工组各分差段人数及比例的统计。
“平均值”反映一组数据的一般水平,“标准差”则反映各项数据与平均值的接近程度,标准差越小,数据的离散程度越低。初始评分差异的平均值低、标准差小,则说明评分的准确性、稳定性较好。从表3的统计数据来看,人机组与人工组组内评分差异的平均值在1.27~1.29分之间,几乎没有差别,标准差则人机组略低。组内评分差异的“最大值”,两者虽然都达到10分以上,但通过“中位数”和“众数”可知,差异值小于等于1分的数据占多数。表4也显示,分差在1.5分以内的评分在两组的占比均接近70%,而分差大于等于4分的占比不到5%。
(二)评分相关系数的比较
两个初始评分的相关系数是反映评分一致性的另一项重要指标。普通话水平测试属于主观性测试[3](P101),依据被测人的语音表现来评定其能力水平。人工评测可能会因聽测能力、标准把握、心理和生理等多种因素的影响而出现评分的不稳定。因此,两名测试员之间或测试员与计算机之间的评分不可能完全同步,而是呈现出非确定的关系。这里主要是利用相关系数来度量评测者评分的相关程度和相关方向。表5是人机组和人工组评分相关系数的比较。
相关系数r是介于-1到1之间的一个数值。当|r|≥0.8时,认为两个变量有高度的线性相关性;当0.5≤|r|<0.8时,认为有中度线性相关;当0.3≤|r|<0.5时,认为有低度相关性;当|r|<0.3时,说明两个变量之间的线性相关关系极弱[4](P191-192)。相关系数r还只是总体相关系数的近似值,它能否说明总体的相关程度还需要结合样本相关系数的显著性检验进行考察,如果检验结果低于给定的显著性水平,则表示相关性显著。表5显示,人机组和人工组的相关系数都属于中度线性相关。我们按0.01显著性水平检验,显示两组的相关性均达到了统计学意义上的显著水平。虽然两组都处于中度相关水平区域,但人机组的数值临近低度相关,人工组接近高度相关,人机组相关系数明显低于人工组。
(三)人机组内部评分分布的比较
人机组相关系数低于人工组,说明机评系统与测试员1在有些评分上存在较为明显的不一致性。这种不一致具体表现在哪里?两者的评分分布可以提供分析依据。表6是人机组机评分和测试员1评分分布情况的对比,图1为表6数据的曲线示意图;表7是人机组机评和测试员1各自的总平均分及在不同成绩等级的平均分。
表6显示,机评给出35分以上高分126个,测试员1给出458个;机评给出29.5分以下低分122个,测试员1给出281个。机评分35分以上高分和29.5分以下低分的数量明显少于测试员1。图1则直观地显示了两者分数的分布,机评分在高分段和低分段的数量较少,评分有向中间分数段集中的倾向。
表7对比了机评和测试员1的总平均分及在各等级的平均分,同样揭示了上述倾向。两者总平均分几乎相同,但在不同成绩等级的平均分却并不一致。一级乙等中,机评分明显低于测试员1;二级甲等中,两者趋于一致;从二级乙等开始到三级乙等,机评分逐渐高于测试员1,并且随着等级的降低而差距逐渐扩大。
三、人机评测复审评分结果的统计分析
(一)机评、测试员1、测试员2的评测结果比较分析
初始评分数据可以从全局角度考察“说话”项的计算机评测状况,而复审数据则为深入分析提供了新的视角。偏差复审是测试管理中矫正评分偏差的重要手段。现将参与初评的机评系统、测试员1和参与复审的测试员2三者之间的评分差异、评分相关系数进行比较,分析大分差数据中它们各自的评分信度。我们从复审样本中随机抽取125份初始评分差异值≥4分的样本作进一步考察。复审测试员2的成绩来自两名测试员,一名国测、一名省测,两人均长期从事普通话教学和测试工作。表8、表9为机评系统、测试员1、测试员2相互之间评分差异和评分相关系数的统计。
表8显示,“机评—测试员2”和“测试员1—测试员2”的组内分差在中位数、众数、平均值各项均明显小于“机评—测试员1”。由此可见,复审测试员2评分的准确性显著高于初评测试员和机评系统。表9显示,“机评—测试员1”的评分出现负相关,虽然显著性不强,但同样能说明“机评”和“测试员1”中至少有一方的评分存在问题。“机评—测试员2”的相关系数高于“测试员1—测试员2”,这与初始评分中人工组相关系数高于人机组的总体情况并不一致。据此可以推测,在大分差样本中,机评系统评分的稳定性、准确性较高。
需要指出的是,机评系统的评分偏误同样存在。据统计,复审样本中仍有31.2%是测试员1、测试员2评分接近而与机评分偏离较大。对于机评系统而言,复审样本中发现的问题有可能在全体样本的初始评分中就已存在,应引起充分重视。
(二)复审样本的个案分析
复审后考生的最终成绩取三个评分中两个相近分值的平均值,这一规则的依据是相近评分的可信度较高,而偏差较大的评分可能会存在偏误。这样的预判与事实是否一致?评测偏误一方的问题可能在哪里?我们按照分值接近这一标准将样本分成两组进行了再次复听。
第一组是机评分与测试员2接近的68个样本录音。通过复听证实,机评分和测试员2的评分更加合理,而测试员1存在明显偏误。测试员1的偏误主要集中在两个方面:一是对缺时的计算不够准确,尤其对说话时中断多次的缺时计算扣分偏少;二是对语音面貌的评判有失误,评分有较大偏差。这一印象也可以通过比较考生前三项与第四项得分的相关性得到验证。例如:某考生前三项得分46.09分,按照前三项分值所占比例测算,该考生的总成绩应该低于80分。机评和测试员2对该考生“说话”项扣分均在10分以上,而测试员1仅扣6分。测试员1的评分不仅与机评、测试员2很不一致,也与考生前三项的成绩倒挂,这足以说明测试员1对语音面貌的评测存在偏误。
第二组是测试员1、测试员2评分相近而机评分偏离较大的39份样本。通过复听可以证实,机评分存在明显偏误。表10选取了6个典型案例进行描述(见下页)。
以上案例反映出机评系统的评测偏误主要有以下三种类型:
第一,“语音规范程度”评测偏误。表中第一类的前两例除“语音”项需要扣分,其他5项均无需扣分。案例(1)考生某一类语音错误或缺陷比较严重。案例(2)考生方言口音明显,语音错误类别在两类及以上,错误数量较多。机评对这两名考生少扣3—4分。案例(3)则相反,考生语音面貌较好,但或因录音质量问题而被过度扣分。
第二,“缺时”与“语音规范程度”失误共存时的评测偏误。第二类考生的扣分原因除语音不规范外,还伴有缺时。“缺时”和“语音规范程度”是两项分列的扣分规则,如果考生普通话水平相当,伴有缺时的考生得分应低于仅有语音问题的考生。但从案例(4)的机评分推测,机评系统在两项失误共存时扣分偏少。
第三,“离题”“无效语料”评测偏误。第三类考生在“离题”“无效语料”上出现明显失误,但机评系统没有作出有效识别,存在漏判现象。“离题”“无效语料”是评判说话内容与主题之间相关性的重要规则,需要机评系统对语义作出准确理解和判断。从案例(5)、案例(6)的评测结果来看,机评系统对这类现象的识别能力不足,因此造成评判的偏差。
四、“说话”项计算机评测质量的评价与思考
(一)智能评测系统具有较高可信度
“说话”项的自动评测虽然具有一定的复杂性,但依靠人工智能领域的研究成果和日趋成熟的语音识别、语义分析技术,机评系统整体上已经达到了测试员的平均评测水平。本文对初始评分的抽样调查显示,机评系统替代测试员之后,人机评分差异值的各项指标已经达到该测试点人工评测时期的水平。将人机评测的抽样数据与其他考点的人工评测结果比较,可以得出同样的结论。上海市语言文字水平测试中心2009年和2010年人工评测的组内分差标准差的估计值为1.47和1.53[5](P68),以该考点人工评分差异值的标准差进行估算,“在整个评分过程中,大概会有15%左右的考生,测试员对他们评分的差异会超过3分”[5](P71)。在我们的调查中,人机评测的标准差为1.133,人机评分差异值大于等于3分的只占11.21%。
在复审样本中,机评系统更是表现出稳定的评测性能。初评样本中人工组评分的相关系数为0.72,高于人机组的0.53,但复审样本中测试员1与测试员2之间的评分相关系数降为0.36,而机评系统与测试员2的相关系数仍然保持在0.52。这说明,测试员有可能受个人状态的影响而出现评分的不稳定,而计算机在这方面具有明显的优势。
(二)对某些语言材料的识别能力仍有欠缺
在初始评分中,虽然人机组评分差异的各项指标与人工组接近,但其相关系数却明显低于人工组。这说明相比人工评测,机评系统与测试员之间存在更多分歧,其中就有因计算机信息处理而引起的评测偏误。
复听复审样本发现,机评系统对某些语音错误和缺陷存在明显误判,仅我们观察到的就有两类。一类是对平翘舌音错误和缺陷的评判。这类考生的普通话存在舌尖后音明显偏前,或平翘舌混读同时伴有r读作l的现象。测试员对此一般都能明显感知并作出准确评判,而机评系统漏判较多。另一类是对明显具有粤方言口音的评判。这类问题人耳同样容易听辨,但机评系统扣分明顯偏少。
復审样本中,还有一定比例的评测偏误表现为计算机对说话中“离题”“无效语料”等现象无法有效识别,致使考生的错误没能在评分中得到体现。如一位考生在讲述“我的朋友”时,将历史上的一位革命领袖说成自己的朋友,并杜撰了共同参加战争的经历。对于如此离奇的编造,评分中只有“离题”一项可以反映,人工评测很容易判断出谬误,而计算机却未能识别,造成“离题”项的漏判。语义理解方面的缺陷反映出计算机在常识学习与归纳推理方面的能力亟待提高[6](P24)。
人工智能的近期研究目标在于研究用机器来模仿和执行人脑的某些智力功能[7](P18),但在进行智能信息处理时,人和计算机可以用不同的原理和方式进行活动[7](P13)。测试员对语音的评测建立在人耳听辨的语感基础上,而计算机的评测则是以声学建模、预测算法等为基础。数据学习表现的是统计频率,不是因果关系,不是客观规律[8](P3)。因此,计算机评测虽然在客观性、稳定性上会优于人工评测,但一旦信息处理系统的设计存在某些缺陷,它在某一类甚至某几类问题上的评测准确性以及对待各类考生的公平性都会受到影响。
(三)对不同水平等级的评测尺度不够统一
4195份人机初评样本显示,机评35分以上的高分和29.5分以下的低分的数量明显少于测试员1,分值有向中间集中的趋势。结合成绩等级考察发现,机评与测试员1的总平均分几乎相同,但在不同等级的评测结果却有差别,机评分呈现出高等级评测严格、中低等级评测宽松的特点。我们在机评偏误的39份录音中也发现,机评分显著偏高的31个样本中,二级甲等只有1个,其余均为二级乙等与三级甲等,这也再次印证了机评在中低等级存在宽容评测的倾向。
以上情况说明,对于不同普通话水平的考生群体,机评系统的评测尺度具有一定差异。总体而言,对一级以上的高水平考生评分偏低,对二级乙等及以下的中低水平考生评分偏高,其评测体现出宽严不一的特点。机评分的这一表现,反映了机评系统对语音面貌较好的高分考生和口音较重的中低分考生的评测还不够准确,识别能力尚有不足。虽然这类偏误程度较轻,但同样会造成一部分考生的测试成绩与实际水平相偏离,在一定程度上影响了测试的信度与测试结果的公平公正。
总的来看,提高评测的自动化程度是普通话水平测试走向现代化、科学化的必然需求,而自动化评测的生命力主要体现在评测的效率和评测结果的可信度。我们需要在广泛的评测实践中不断反馈信息、检验结果,发现计算机评测的偏误,优化评测系统的性能。普通话水平测试“命题说话”项采用人机合作评分的模式,恰好为我们提供了人机数据互证的条件。通过人机评分数据的对比、分析、论证,我们得以从宏观和微观两个层面审视计算机评测质量的总体面貌及存在的问题。“说话”项的机评质量在总体上达到了人工评测的水平,但人机评测的相关性仍然明显低于人工评测,反映出机评系统的评测能力尚有某些不足。语音识别能力强而语义理解能力弱;面对不同水平程度的考生,评分宽严尺度还难以高度一致;对某些方言口音的感知还不够敏锐;录音背景噪音对评分产生的干扰也不能完全避免。上述问题都反映出智能语音评测技术和评测系统设计尚有继续完善的空间,有必要在自然语言的深度理解、高质量的语音数据库建设与算法的优化等方面作出进一步的探索与改进。可以说,计算机智能只有在与人类的合作中才能不断提高,本文的讨论主要是基于语言学的知识和测试员对评分规则的把握,但分析的现象及揭示的问题能为进一步完善计算机评测系统提供参考。
参考文献:
[1]王晖,曹昭,云天骄.普通话水平测试发展历程的分期[J].语言文字应用,2013,(3).
[2]教育部语言应用管理司.计算机辅助普通话水平测试评分试行办法[S].2009-01-09.
[3]宋欣桥.普通话水平测试员实用手册(增订本)[M].北京:商务印书馆,2005.
[4]张瑜,牟晓云,等.统计学原理与应用[M].南京:东南大学出版社,2014.
[5]赵伟国,乔丽华,王颐嘉,等.普通话水平测试的评分误差的影响分析[J].语言文字应用,2012,(S1).
[6]宗成庆.中文信息处理研究现状分析[J].语言战略研究, 2016,(6).
[7]蔡自兴,等.人工智能及其应用(第5版)[M].北京:清华大学出版社,2016.
[8]李宇明.计算机正改变着我们的语言生活[J].韩山师范学院学报,2020,(1).