语音检测技术在高考外语听说机考中的应用探析
2017-09-12吕鸣
吕鸣
(上海市教育考试院,上海 200433)
语音检测技术在高考外语听说机考中的应用探析
吕鸣
(上海市教育考试院,上海 200433)
本文介绍应用语音检测技术实时甄别听说机考语音异常的方法和策略:先由机器学习异常语音特征,再经反复试验,优化检测组件,最终集成入机考系统。上海市高考外语听说机考的结果表明,应用语音检测技术检测听说机考语音异常非常有效。
高考;外语听说测试;计算机辅助考试;语音检测技术
1 引言
依据2014年9月颁布的《上海市深化高等学校考试招生综合改革实施方案》,从2017年起,上海市高考外语考试包括笔试和听说测试,听说测试部分采用人机对话的方式,一年举行两次,分别在每年1月和6月。高中生可最多参加两次外语考试,选择其中较好的一次成绩计入高考总分[1]。由于外语听说测试纳入统一高考,并以多批次人机对话方式实施,使得考试安全管理内容变得丰富而复杂,其重要性和高利害性不言而喻。从以往仅关注现场考试安全,发展为硬件环境的可靠性、考试系统的稳定性和现场监考的完整性三个方面,而现场监考也分成了候考管理、现场监考和留置管理三个环节,不仅环节增多、人员多样,还要空间支撑,可以说这已经不是原有管理方式或规则可以涵盖的[2]。由于前几年口语机考均在非标准化考场中进行,不同考点的考场环境各不相同,耳麦的选择参差不齐,座位间距也各不相同,可能会因噪声干扰或设备故障导致极个别考生答卷语音异常而影响评卷。为避免高考外语听说机考中因设备原因导致录音异常,需要通过技术手段,在系统收卷过程中实时发现可能的异常,及时进行人为干预,避免考试结束后某份答卷因录音问题而影响评分。
2 语音检测技术的设计与应用
2.1 设计思路
使用2016年上海市普通高中学业水平考试英语口语考试中已知的因设备故障影响评卷的语音样本作为训练集,分析并归类异常类型,提取异常语音的特征,确定语音检测组件的检测对象,并初步调整其各项参数,尽可能多地覆盖训练集中的异常语音,然后使用调试过的语音检测组件筛选出2013年至2015年所有考生答卷中存在的异常语音,分别与各年度的异常列表进行对比,优化语音检测组件的各项参数,并将语音检测组件集成入机考系统,在随后的全真模拟考试中测试其效果,最终应用于2017年1月高考外语听说机考。
2.2 语音异常分类
在调整语音检测组件各项参数前,首先需要对训练集中的录音异常样本进行分析,找出可以作为机器学习的对象。通过对2016年因设备故障影响评卷的16个异常样本逐一试听后发现:其中1个样本录音正常,但答题错位,判断为考生错拿邻座耳麦答题造成,不能作为机器学习的对象;另外1个样本录音时长严重不足,需要强化考试系统对录音设备的监控,也不能作为机器学习对象;最终确定有14个语音样本可以作为机器学习的对象。
人工反复试听这14个异常样本,可以将它们分成无语音、杂音多和信噪比低三大类(见表1)。机器可以通过分析异常语音样本的各项物理参数,较为精确地找出这三类异常语音,并通过调整参数来实现判定尺度的松紧。
2.3 调校原则
所有答卷包中的语音文件经过语音检测组件筛选后,会生成疑似语音异常列表。将这个列表与答卷总数以及各年度已知的因设备故障影响评卷的异常列表进行关联,可得到如下四个指标:
报出数:系统判定为疑似语音异常的样本个数报出率:(报出数/实考总人数)×100%
召回数:系统判定为疑似语音异常样本与该年因设备故障影响评卷的样本交集中的样本个数
召回率:召回数/该年因设备故障影响评卷的样本数
在正式考试中,系统判定为疑似语音异常的答卷需要人工逐一小题试听,因此报出数的多少将直接影响到每场考试的正常进行。一场考试如果仅有个别答卷被判定为语音异常,可以安排考生在后续批次的备用机上完成重考;但如果有超过5%的考生被判定为语音异常,那将造成重考考生过多而不断积压,影响后续场次考试的进行。召回率能直观地反映语音检测组件的准确性,召回率越高说明语音检测异常越准确。经实验发现,召回率与报出率两者间强相关,提高召回率将导致报出率的增加。因此,为了确保语音检测组件不影响正常考试进行,报出率必须经过反复实验并控制在一定范围内。
对于历年异常列表中没有被召回的部分,要分析遗漏的原因。如因训练集中缺少某种异常类型,则要将其添加入训练集,逐步提升语音异常检测覆盖的种类;如因检测参数精度设定不合理,则需要调整组件参数。但某些参数之间存在一定的相关性,需要综合考虑如何最大可能地提高检测准确率,同时降低可能产生的负面影响,使语音检测组件达到最优。
2.4 判定策略
语音检测的对象是单个语音文件,而整套试卷由12个小题构成,因此每个考生答卷包中包含12个语音文件。一份答卷是否存在语音异常,不能简单地根据每小题语音是否存在异常来判定,需要按语音异常类型和题块类型制定判定策略。经调试后的判定策略为:(1)有任意一个小题为静音,则判定该答卷为语音异常。(2)为尽可能降低报出率,提高召回率,需要将小题语音组合成块,以降低单个短语音报异常的权重。将12小题组合成4个题块,如表2所示。只有题块中所有语音均异常,才判定该题块异常。异常的题块数大于或等于3个,则判定该答卷为语音异常。
表1 训练集异常情况
2.5 功能集成
将调试完毕的语音检测组件集成入机考系统,原先的收卷流程会略微发生变化。考试结束自动收卷时,答卷包会首先经过语音检测组件;如果发现疑似语音异常,系统会提示需要人工试听。试听后如所有小题录音声音或环境声音清晰且完整,则判定为有效答卷,不需要重考,点击“语音正常”后退出检查对话框;如有任一个小题的录音声音不清晰或不完整,则判定为无效答卷,需要安排考生重考,点击“语音异常(安排重考)”后退出检查对话框。流程如图1所示。
表2 试卷各题块情况
图1 机考收卷流程图
3 效果验证
3.1 测试结果
使用调校完毕的语音检测组件,对近四年所有考生答卷中的语音进行检测,测试效果如表3所示。可以看出,所有未召回样本中只有一个是检测误判造成的,其余均由于未满足判定策略而未被召回。
通过对每年度所有考点及场次的报出数进行统计,列出报出数最多的前三名(见表4和表5)。可以看出,报出数较多集中在固定的几个考点中,且每场次报出数最高不超过13个,绝大部分考点的报出数在合理范围内,可以基本忽略对考试组织的影响。
表3 调校后的语音检测组件测试效果
3.2 未召回分析
语音检测的目的就是要在考试现场迅速找出录音存在异常的答卷,理论上召回率越接近100%越好。但提高召回率势必会大幅增加报出率,可能会影响到考试的正常进行。从测试结果中可以看出,每年均有未被召回的异常。根据判定策略,只有异常的题块数大于或等于3个,才判定该答卷为语音异常,绝大多数未召回的答卷中题块异常数均小于3个,这些考生的答卷会被系统误判为“语音正常”。因此,判定策略还存在改进空间,需要通过反复试验来验证,确保报出率在正常可接受的范围内。
表4 2013—2016年按考点统计报出数前三名
表5 2013—2016年按场次统计报出数前三名
目前语音检测组件在单个语音的判定上,还做不到100%的准确,存在误判的可能:(1)由于运算精度的限制,目前语音检测组件对于波形起伏与正常语音波形接近的异常判定准确度还有待提高。有时噪音波形看起来与正常语音的波形很类似,系统会误判为正常语音。(2)由于采样精度的限制,对于有些语音,从波形上看类似一条直线,应判断为静音,但经放大后便可听清语音。系统在此类情况下也容易出现误判。
3.3 实战效果
从以上数据分析可以看出,设备故障和判定策略是目前部分异常答卷未被召回的主要原因。其中,录音时间不足的故障已由考试系统进行实时监控并拦截,可降低因录音设备故障导致的未被召回。
调试完毕的语音检测组件最终应用于2017年1月高考外语听说测试,总报出疑似语音异常数241个,占比0.47%。对所有考点及场次的报出数进行统计,列出报出数最多的前三名(见表6和表7)。可以发现,单考点、单场次的报出数相比往年有明显下降,且最终所有答卷语音均正常,这得益于首次投入使用的外语听说测试标准化考场。标准化考场使用考试专用USB耳机和全新的品牌电脑,并安装有可升降式隔断;采用高指向性拾音麦克风,当距离麦克风50 cm以上时,其拾音效果衰减10 dB,尽可能减少采集远距离的噪音,提高了录音效果。另外,在考试过程中,当耳机出现人为拔插时,监考端会产生报警并记入日志,同时考试机退出考试状态。这些举措均能大幅降低设备的故障率,提高录音质量,确保录音数据的完整性。
表6 2017年1月正式考试按考点统计报出数前三名
表7 2017年1月正式考试按场次统计报出数前三名
4 结论
通过对2016年上海市普通高中学业水平考试英语口语考试中已知的异常语音进行特征提取并由机器学习,然后在2013年至2015年所有样本中进行反复试验,不断优化检测组件并集成入机考系统,在考试收卷过程中便可将录音异常的答卷实时检测出来。2017年1月高考外语听说机考首次使用表明,语音检测组件能非常有效地检测出可疑异常,以便现场进行人工处理,最终所有答卷语音均正常。这也得益于外语听说测试标准化考场的投入使用,在硬件上确保了可靠性。
由于语音检测组件只能针对目前已知的异常进行检测,在今后的考试中,难免会出现漏判或者误判的可能性。因此,需要时刻对新的异常样本保持关注,遇到新的异常情况,及时分析是否可以通过技术手段检出。同时,还需要不断改进判定策略,提高检测的准确性。
[1]上海市人民政府.上海市深化高等学校考试招生综合改革实施方案[EB/OL].(2014-09-18)[2017-03-29].http://www.shmec.gov.cn/html/xxgk/201409/420032014012.php.
[2]上海招考热线.高考也进入了计算机时代[EB/OL].(2017-01-15)[2017-03-29].http://www.shmeea.edu.cn/page/17122/20170115/7780.html.
Exploratory Analysis of the Application of Voice Detection Technology in the Computerbased Test of Foreign Language Listening and Speaking for College Entrance
LV Ming
(Shanghai Education Examinations Authority,Shanghai 200433,China)
This article introduces the method and strategy of the application of voice detection technology in realtime screening of abnormal voices for computer-based testing of listening and speaking.To optimize the detection components,which will be ultimately integrated into the computer test system for the live test,the computer learns the abnormal voice features first,which are then confirmed through repeated trials.The result of the computerbased test of foreign language listening and speaking for college entrance in Shanghai shows that the use of the technology to detect abnormal voices is very effective.
College Entrance Examination;Testing Foreign Language Listening and Speaking;Computer-assisted Test;Voice Detection Technology
G405
A
1005-8427(2017)06-0055-5
10.19360/j.cnki.11-3303/g4.2017.06.009
(责任编辑:陈宁)
吕鸣(1982—),男,上海市教育考试院,工程师。