APP下载

大规模英语口语考试跟读题型采用机器阅卷的可行性分析与实践研究

2009-04-17梁维谦丁玉国

外语电化教学 2009年2期

宫 力 梁维谦 丁玉国

摘要:本文介绍了自主研发的英语口语跟读题型机器阅卷系统,该系统采用以非特定人标准英语发音音素模型为基础设计的口语发音评测技术。文章分析了在大规模英语口语考试跟读题型中,机器阅卷取代人工阅卷的可行性和必要性。文中针对大学英语四、六级计算机网络考试试点测试的4010句考生录音数据,进行人工阅卷和机器阅卷实验对比分析,实验数据表明,两者的相关度为82.7%。本文还针对如何进一步提高机器阅卷的性能提出建议。

关键词:英语口语考试;跟读题型;机器阅卷;人工阅卷

中图分类号:H319.3文献标识码:A文章编号:10013795(2009)02-0010-0006

2002年开始的新一轮大学英语教学改革,是指大学英语教学需以提高大学生的英语听力能力为主,以带动英语综合能力的提高为目标。作为检验教学效果的大学英语四、六级考试,在考试内容和考试方式上都将进行相应的改革:考试内容方面的改革,试题设计需要能够考查学生是否掌握了自主学习和不断提高英语实用水平的可持续发展能力;考试方法改革的思路则是采用信息技术,推进计算机考试。

随着社会对英语的需求越来越大,报名参加大学英语四、六级考试人数的不断增多,四、六级考试已成为世界单科考试参加人数最多的考试之一,每年达到1000多万人次。作为新增加的一项考核内容,英语口语考试将采用跟读题型。在这么大规模的考试中,如果采用人工方式阅卷,需要完成繁重的工作量,同时难以保证整体阅卷的公正性和一致性。

2008年10月,全国大学英语四、六级考试委员会分别在北京、南京、西安和哈尔滨进行了大学英语四、六级计算机网络考试的试点。本文引用的实验数据来源于对本次试点测试的考生口语数据、考试委员会组织的人工阅卷以及清华大学和北京凌声芯公司提供的机器阅卷评分结果。本文将依据此次试点考试的实践,论证在口语考试跟读题型评分中机器阅卷的可行性,并详细分析机器阅卷较人工阅卷之优点,以及在大规模英语口语跟读题型考试中,为更好地发挥机器阅卷的优势所提出的一些建议。

1口语考试采用跟读题型研究及阅卷分析

1.1口语考试中的跟读题型

英语口语考试大致可分为直接口试(OPI,Oral Proficiency Interview)和半直接口试(SOPI,Simulated Oral proficiency Interview)。直接口试由受过培训的考官主持并当场评分,内容包括对话、讨论和角色表演等,UCLES考试体系的口试常采用直接口试形式。半直接口试利用统一的录音材料和书面材料获取考生的口语话语样本,并进行即时录音,然后,考官听取录音带进行评分,TOEFL考试的口试部分采用半直接口试。

在口试实践中,到底采用直接口试还是半直接口试,应根据具体情况下测试的类型和测试的目的进行选择。Stansfield认为OPI更适用于分级考试和课程评估测试;而SOPI更适用于信度要求较高的大规模考试。许多研究者还对两种口试形式的共时效度进行了分析。Stansfield利用Pearson相关系数对两种口试形式的评分结果进行分析,发现两者相关度在0.89至0.95之间。1992年,Stansfield和Kenyon利用概化研究G2study对评分误差进行了分析,结果表明考生在语言能力上的差异是导致评分结果差异的主要因素,口试形式对评分结果并不造成显著差异。较近的研究有Kenyon和Rschirner 2000对ACTEL德语测试的研究,研究结果与前人研究基本吻合。从这些对评分结果的定量分析结果来看,直接口试和半直接口试评分结果高度相关,两者具有可替代性。

在英语口语考试中,常用的直接口试的题型包括:模仿(由考官朗读或播放录音,学生跟读)、朗读(考生准备数分钟,看着文字朗读)、对话(考生回答考官或录音中就短文提出的问题,要求学生就考官或录音所说出的日常交际用语作出相应的回答或反应,考生也可以就语言材料对考官提问或分角色对话等)、独白(考生看图说话,按中英文提示描述或叙述事件、人物和物件等)、讨论或争论(考生之间根据试题的提示,进行讨论或辩论)、面试(interview)(考官通过多种提问技巧,多层次多角度地观察学生的口语能力,也允许学生向考官提问)等多种方式。

跟读题型遵循模仿的原则来复述所听到的标准发音,可以综合考察学生的英语听力水平、语句理解、记忆、复述以及语音精准程度等能力,考试效度比较高。

跟读题型的设计,完全符合当前我国实施大学英语教学改革“以听力为纲”、解决学生的自主学习和可持续发展能力问题、全面提高英语综合能力的基本思路。

目前,大学英语四、六级网络考试采取的跟读题型为10个单句,机器每播放一条单句,要求考生发音跟读,考生的发音被录制存储下来,以待评阅打分。打分采用3档评阅,如果考生语音语调(包括单词重音和句重音)基本正确,语速及流利度正常、句子正确,可以评为1分;如果出现语音语调错误,句子支离破碎,语义或句法错误等情况,评为0分;对于介于其间的情况,酌情评为0.5分。

1.2人工阅卷标准及存在的问题

根据目前的统计,每年参加大学四、六级英语考试的考生人数超过1000万人。如果在这么大规模的英语考试中,对考生的口语试卷跟读题型采用人工阅卷,会存在诸多问题:

1.2.1人工阅卷工作量巨大

人工阅卷一般采取一道题目多个老师共同评分的方式。对于1000多万考生的试卷,需要大量的阅卷老师耗费大量的时间来完成。以每道题需要2位老师打分,每道题听完打分需要20秒计算,1000万考生的语音试卷需要2万名教师一起花费10个工作日才能完成评阅工作。

1.2.2人工阅卷存在主观性

采用人工阅卷的方式,不同的老师可能会按照各自理解的不同标准,或者阅卷老师以各自在听觉上存在的灵敏度以及精准度的个体差异进行评阅,这就带来很多的主观差异,评分标准较难统一,考试的信度会受到一定的影响。

另外,考生口语发音产生的错误差异性非常大,主要表现在发音的音准、插入、删除、替代错误、重音、语调、流利度等各个方面。如果我们要求阅卷老师在听一两遍录音后,立即做出各种判断并给出统一标准的打分,这对阅卷老师来说有相当大的难度。如果阅卷老师对学生口语发音采用百分制或十分制进行打分(虽然比较细致,可以在细微之处进行把握,但实际上可操作性不强),不同阅卷老师之间的相关度可能会比较好;但如果是采用三个档次评分,因为区分度范围小,如果阅卷老师的瞬间评判有误,造成学生得分不精准、不公平的可能性就会更大。从表1中我们可以看到,在这次考试试点中,人工阅卷得1分的平均比例为7.7%。而机器阅卷的平均比例为13%,相差近1倍。

如果大面积采用人工判分,对本可以得高分的考生来说,可能就会出现人工判分区分度低、高分比例比实际应得比例小而造成的不合理现象,影响考试的效度。

1.2.3科学的人工阅卷方式难以操作

本次试点测试仅仅是4个学校,如果固定的几位老师同时审阅批改4个学校考生的每一道题目,对所有题目给出统一标准的判分,最后再进行评分的汇总(比如去掉一个最高分,去掉一个最低分,然后进行平均给分),在做法上应该是比较科学的,在操作层面上也是可以做到的;但如果对于全国所有省份的1000多万考生,也采取同样的模式判分,这在操作层面上则是不现实、很难做到的。

1.2.4人工阅卷的耐疲劳问题人工阅卷是大工作量、重复性工作,难以保证评卷老师在长时间内保持较高的评卷质量。长时间进行人工阅卷,特别是长时间用人的耳朵去判别打分,因为受疲劳程度的影响,先后评分结果的一致性可能会出现差异。

1.2.5不同学校不同区域的判分差异

在人工阅卷当中,同一批次的阅卷老师不可能参与到全国所有考生的阅卷,这可能造成不同学校不同区域的判分结果产生差异。

1.2.6人工阅卷的“中庸化”趋势

人工阅卷时,按照主观的理解给考生发音分成1、0.5、0分三个档次。对于考生错综复杂的口语表现,阅卷老师要想快速给出一个比较恰当、精准的评判本身就存在很大的难度,加上经过较长时间的工作,会因为疲劳等因素的影响,阅卷老师为了保证阅卷速度、少出极端的评判失误,往往会少给最高分和最低分,更愿意采取“中庸之道”,给一个0.5分。从前面表1中的实验数据来看,人工阅卷的最高平均分和最低平均分都低于机器阅卷的相应分值。这也反映和证实了人工阅卷会存在“中庸之道”这种“人之常情”的倾向。

1.3机器阅卷软件系统概述

事实上,目前国内外已经有很多产品在英语口语教学、训练和考试当中运用了机器发音自动评测技术来取代主观人工评测,如清华大学出版社于2003年出版的《新时代交互英语》(New Era Interactive English)教学系统中的《视听说》教学软件、美国Ordinate公司的PhonePass SET系统、SRI International的WebGrader和EduSpeak系统等。其中,《新时代交互英语》是一套基于网络的、交互式大学英语教学系统,因其先进的教学理念和编写理念、精湛的教学内容,语音识别等先进技术的应用、良好的人性化设计、独创的教学模式和明现的教学效果,得到了国内外专家、学者和广大教师的一致认可和好评。

清华大学和北京凌声芯公司共同承担了北京市科委科技攻关关键技术“嵌入式智能英语、汉语教学机及课件制作系统的研发(Y01050080401t1)”,在基于音素的口语发音评测技术方面取得了突破性的进展。该技术可以应用到英语口语教学、口语训练及口语考试阅卷系统。基于音素的口语发音评测技术应用于大规模英语口语考试系统,在非特定人(speaker Independ—ent,sI)英语语音识别的基础上,采用基于后验概率的置信度(Confidence Measure,CM)计算方法,从音素发音音准、语速语调、句重音等多个角度评价考生的发音水平。采用机器阅卷前,先根据老师抽样打分的少量数据,经过机器学习阶段,充分学习老师阅卷的评分原则,最终实现大规模阅卷任务。跟读题型的机器阅卷系统如图1所示:

机器阅卷系统通过以下功能模块实现其功能:

(1)机器阅卷系统的准确性很大程度上取决于标准发音模型参数是否能够精确描述正确的英语发音。通过开发海量的英语语音数据库,可以做到对美式英语和英式英语发音进行精确建模。

(2)声学特征提取模块:提取考生语音的MFCC(Mel—Frequency Cepstrum Coefficients,Mel频标倒谱系数)特征,考虑到录音设备的不同导致的语音信道、频响特性、噪声特性等差异性,采用了倒谱均值减(Ceps trum Mean Subtraction,CMS)和能量归一化(EnergyNormalization,EN)算法排除噪声环境、信道的差异性对考生语音声学特征的干扰。

(3)标准发音的文本分析及判分规则建模:对标准发音进行文本分析的目的是将阅卷的判分规则进行建模,机器阅卷需要将判分规则中理出的各种发音的判分情况翻译成机器语言。

(4)多特征网络建模:对标准发音对应的文本进行多特征HMM(Hidden Markov Model,隐含马尔科夫模型)建模,描述合理发音的特征序列,多特征的信息包括发音音素的短时频谱分布、序列关系、每个音素的段长信息等。

(5)发音音准评分:考察考生发音的各个音素发音是否正确,根据海量的标准英语语音数据库进行建模,得到标准的非特定人发音音素模型,采取基于后验概率的置信度评分准则进行音准评分。

(6)语速语调、句重音等多维特征提取及评分:根据Viterbi搜索算法将考生的发音和标准音素序列进行强制对准,分析考生发音的语速特征评分;根据考生发音的重读元音段的基音范围,考察考生发音的句重音及语调得分。

(7)多维评分信息映射规则:机器进行大规模阅卷之前,先由老师进行少量考生的抽样评分,采取最小分类错误准则计算机器阅卷的多维评分信息映射规则。计算机器阅卷的多维评分信息映射规则的过程,相当于一个机器学习的过程。

在大规模英语口语考试中,采用机器阅卷可以有效地避免人工阅卷遇到的问题,保证快捷、有效地完成海量录音数据的评分工作。根据出题老师的考察意图,给机器阅卷设定好判分准则后,再经过完整的机器学习过程,机器阅卷就可以按照一套标准的程序完成判分工作,而且阅卷的时候采用统一的标准,保证阅卷结果的一致性和公正性。在口语考试中,采用机器阅卷代替专家阅卷存在以下的优势:

1.3.1机器阅卷的高效性

人工阅卷需要完成巨大的工作量,而机器阅卷系统可以采用软件形式集成在机考系统中,在各个考点的服务器终端上完成,这样考生完成口语考试的试题后,阅卷工作已经可以开始,当考试全部完成后,各个考点口语考试部分的阅卷工作已经完成,只需要将每个考生的得分上传到中心服务器即可。采用机器阅卷非常高效,还减少了数据存储、管理等中间环节,从源头上切断了数据泄密等可能性。

1.3.2机器阅卷具有较高的一致性

机器阅卷本质上是针对每一句语音,对单词音素发音音准、单词重音、句子语调、整句的流利度等多个细节进行综合评分。机器阅卷可以分辨插入错误(插入不存在的单词发音)、删除错误(遗漏单词的发音)、替代错误(单词被错误发音)等错误类型。机器阅卷将提示音作为标准,严格按照统一的判分准则对所有试卷进行评分,避免一个专家只能对应某一部分试卷

而造成的非一致性差异,更好地满足公平、公正、整体一致的阅卷原则。

1.3.3机器阅卷可以提供更多的统计数据

人工阅卷评分划分档次到3—5档就已经难再提高,机器阅卷可以从多个角度按照百分制的连续数值评分,这样可以提供更高的评阅区分度。机器阅卷完成后,还可以提供大量的后台统计数据,分析考生的口语水平细节、试题的难度、区分度、一致性、信度等。

2实验数据分析

2008年10月,参加由全国大学英语四、六级考试委员会组织的大学英语四、六级计算机网络考试的试点测试的考试人数共401人,每位考生的口语录音数据都有效。考试委员会组织专家老师和机器阅卷系统分别对这401名考生的口语录音进行了评分。

2.1人工阅卷结果

考试委员会组织老师对4010句录音进行了评分,表2是人工阅卷的结果。

(1)按照人工阅卷的结果,0、0.5、1分分别为1390、2312、308句,分别占有效语音的34.7%、57.6%、7.7%。

(2)人工阅卷的结果客观地显示出各个学校考生英语口语水平的差异,而这些差异的形成也不排除由于人工阅卷判个体或区域差异所带来的影响。

(3)在10道题中的前两道题当中,考生得分普遍较低,这与考生熟悉这种考试形式以及考题的难度有关。一方面,在考前两道题的时候,考生可能还不太适应新的跟读题型,影响了发挥;另一方面,前两道题的句子长度都较长,由11个单词组成,客观难度要高于后面的考题。这些问题的出现也为今后做好同类型考试的考前准备工作和采取更好的出题策略提供了可参考的意见。

2.2机器阅卷结果

表3是采用机器阅卷的结果。

(1)按照机器阅卷的结果,0、0.5、1分分别为1476、2011、523句,分别占有效语音的36.8%、50.2%、13%。从表中看出,按照各个学校得分统计,其分布和人工阅卷基本相同。

(2)针对每句录音分析,不存在机器评分和人工评分相差1分的情况,说明两种评分方式下,差异存在于0分和0.5分或者0.5分和1分之间的分界处。

(3)从人工阅卷成绩分布和机器阅卷成绩分布当中的最好成绩(1分)对比(表4)中,我们可以看到:除了学校B(录音数据质量存在一些问题)的人工阅卷平均得1分的比例比机器阅卷平均得1分的比例要低以外,机器阅卷得1分的其他所有数值都比人工阅卷得1分的比例要高,而且几乎高出1倍,这个现象说明专家老师阅卷在给出高分方面比较保守,更情愿给中间分值。

2.3不同阅卷方式的结果分析

跟读题型总得分,我们将考生得分的分布采用直方图的形式表示出来,如图2所示,考生的得分分布在机器阅卷和人工阅卷的方式下,其分布非常相近。

从图2中能够看出:采用机器阅卷的形式,考生的得分分布更分散,区分性更接近统计分析的特点。而人工阅卷的结果比较集中,这也佐证了上述提到的,人工阅卷的老师“更愿意”给考生0.5分,结果造成区分性不足,影响了考试的效度。

根据考生得分累计百分比例曲线来分析人工阅卷和机器阅卷的结果,如图3所示,横轴表示考生的得分P,纵轴表示考生累计得分的百分比f(P),即人工阅卷时f(5)表示考生得分超过5分的累计比例:f(5)=14%。

从图3中我们也可以看出,机器阅卷的结果很好地拟合了人工阅卷的结果,两者的相关性很高。按照下面的公式计算机器阅卷和人工阅卷的相关度:

其中,n表示考生人数,x和y分别表示机器阅卷和人工阅卷情况下,考生的总得分序列。根据计算,机器阅卷和人工阅卷的相关系数为82.7%,这一数值和采用人工阅卷时不同专家之间评分的相关度接近。

3提高机器阅卷性能的建议

以上的实验数据说明,在大规模英语口语跟读题型考试中,我们的机器阅卷系统可以代替专家进行阅卷,它不仅可以大大减少人工阅卷的工作量,而且机器阅卷的客观性、一致性等优点也充分地表现了出来。为了进一步发挥机器打分的优势,还需要解决以下几个方面的问题:

3.1解决好录音设备的测试和调整,提高录音质量和可靠性

实验数据中,学校B的录音数据质量存在一些问题,包括声卡不能输入语音、语音信噪比较低、底噪太大、零点漂移严重等现象。

计算机考试系统对Pc机声卡的要求如表5所示,用于英语口语计算机网络考试的Pc机声卡要求低于普通Pc机声卡的标称值。

在考试之前,需要对考场设备的声卡进行简单的性能测试,对于不能满足要求的声卡进行维修或更换,以保证录音设备的可靠性和稳定性。

3.2大规模考试前,需对学生进行充分的培训

实验中存在考生抢先发音、多次重复发音或录音滞后无效等现象。这些录音数据的评分较低,会影响考生的成绩。学校A的考生多次出现重复句子的某一部分内容或全部内容,这样的录音有100多例。如果能在考前对考生进行培训,说明注意事项和录音要求,出现这样答题的情况可能会大大减少。也可以采用另外一种做法,在进入有效考试之前,先进行几次练习,让考生适应跟读的方式。

3.3出题策略

(1)考题的出现次序应当先易后难,先短后长,使考生容易适应;

(2)充分考虑机器评阅打分和跟读题型内容的特殊属性,尽可能避免一些考生基本听力理解正确,但由于记忆或跟读内容与原句内容不完全一致而造成的不能得分的现象。比如原句中说的是United States,结果考生跟读时说的却是USA或America,如果是人工判分,也许能够得分,但在机器判分当中,由于跟读内容不完全匹配,不能得分。所以在考试当中,如果要求考生跟读句子的考点不在国名、人名、地名等要素上,建议在出题的时候尽可能考虑到考点内容的数量和考试内容的实质与核心,尽量减少干扰因素,让考生把注意力放在语言基本理解和运用上,考出真正水平。

3.4判分准则的制定

任何成熟的考试,在出考题的同时都制定有详细的判分原则和标准。在采取计算机网络考试的时候,除了需要老师在出题的时候,将每一句的考核重点以及判分要求预先告知软件测评人员,以便让评测软件根据这些规则生成机器判分的标准以外,还要求出题的老师充分了解机器阅卷的机理,在出题的同时考虑到机器阅卷的可操作性等。另外也需要将测试录音的人工阅卷抽样结果提供给机器阅卷人员,使得机器阅卷系统学习人工阅卷的判分细则,以更好地拟合人工阅卷的判分结果。

4结束语

本文介绍了机器阅卷系统在大规模英语口语考试跟读题型中取代人工阅卷的必要性和可行性,介绍了机器阅卷系统的基本技术原理和阅卷流程。

本文重点针对本次401人测试数据进行实验结果分析,结果表明在这次实验中,机器阅卷和人工阅卷结果具有良好的一致性,考生得分累计百分比曲线拟合度很高,两者的相关度达到了82.7%。本文最后分析这次测试中存在的问题和现象,就如何发挥机器阅卷在大规模英语口语考试中的优势提出建议。

这次实验是采取大规模口语考试之前一次有效的尝试,验证了机器阅卷系统的合理性和可行性,为大学英语四、六级考试采用网络考试系统提供了充分的技术保障,对英语教学改革、提高学生英语口语水平也将产生积极的影响。