语音识别应用于大学英语听力教学的实证研究
2020-12-11魏琼华
魏琼华
摘 要:随着语音识别技术的应用,出现了一种新的可能性,即在与英美外籍人士交流时,可以使用语音识别技术对话的同时在手机显示对应的英文文本,这将显著减小交流的障碍。本文将这种新的模式应用于大学英语听力教学中并进行定量评估,通过实验证明基于语音识别的大学英语听力教学模式可以更有效提高学生的英语听力成绩,这有助于学生树立信心,提高学习兴趣,达到良好的学习效果。
关键词:语音识别;大学英语;听力教学
中图分类号:H319.9 文献标识码:A 文章编号:2096-3866(2020)24-0-02
近年来,以深度学习为代表的人工智能飞速发展,各种软件和功能不断出现。其中不少深度学习的应用和英语教学密切相关。在听的方面,语音识别已经取得了长足的进展,准确率不断提高。说的方面则更为简单,语音合成技术已经非常成熟,除了有时有语调或者断句之类的小问题,根据文本的自动语音合成效果已经可以和真人比拟。使用深度学习的翻译机则表现了读写方面的能力,在注意力机制出现之前,RNN曾经取得了不少令人瞩目的结果,在注意力机制和BERT出现之后,翻译水平进一步提高。不仅如此,人工智能也可以用来做文甚至写诗,还出现了能够看图做文的深度学习神经网络[1]。这些成果都表明,过去需要枯燥学习和长期积累才能获得的语言能力,可以使用人工智能轻易地获得。这将给英语教学带来天翻地覆的变化。
不过,尽管人工智能已经取得了丰硕的成果,但是其不同领域的表现仍存在差异,特别是在机器翻译方面,由于语言可以被用来表述不同专业领域的知识,使用语言时可能还有暗喻/典故/倾向/背景等很多因素的影响,所以机器翻译还难以在所有领域代替人工翻译。这一问题在可预见的将来(数十年内)应该也不会改变。相比之下,语音识别的表现则略胜一筹,其误差主要来自背景噪音。在信噪比较高的场合,语音识别的正确率可以相当高。考虑到中国学生的英语能力有一个突出的特点,就是读写较好而听说却差强人意,所以在需要和英美人士交流的场合出现一种新的可能性:语音识别软件将英语语音转换为英语文本并显示给国人,从而方便一个方向的交流。当然,语音识别对反向的交流没有帮助(外籍人士不可能阅读中文文本),但语言交流的另外一个特点是,母语人士会很轻易地理解非母语人士说出的话。所以反向交流障碍会小很多。基于这些特点,将出现全新的涉外交流模式。
随着社会国际化的不断发展,在大学英语教学中,各高校越来越重视学生听说能力的培养,但是实际的教学效果不容乐观,因而,本文将通过具体的实证研究,对将语音识别应用于大学英语听力教学的效果进行探讨和评价。
一、语音识别技术
语音识别的本质是一种基于语音特征参数的模式识别,即通过学习,系统能够把输入的语音按一定模式进行分类,进而依据判定准则找出最佳匹配结果。语音识别技术已经经过了几十年的发展,曾经使用过的技术包括支持向量机、BP人工神经网络、循环神经网络(RNN)、长短时记忆模块(LSTM)、卷积神经网络(CNN)等[2]。其中,LSTM、CNN 等技术都基于深度学习技术。深度学习技术自 2009 年兴起之后,已经取得了长足进步,语音识别的准确率也随之同步提高。目前,语音识别的精度和速度取决于实际应用环境,但在安静环境、标准口音、常见词汇场景下的语音识别率已经超过 95%,意味着具备了与人类相仿的语言识别能力。随着技术的发展,现在口音、方言、噪声等场景下的语音识别也达到了可用状态,特别是远场语音识别已经随着智能音箱的兴起成为全球消费电子领域应用最为成功的技术之一。
当然,当前技术还存在很多不足,如对于强噪声、超远场、强干扰、多语种、大词汇等场景下的语音识别还需要很大的提升;不过,在需要和外籍人士交流的场合,一般都可以保证相对安静的环境和较高的信噪比,不会有太大的干扰,所以这些障碍一般不会表现出来。
二、实验方案与结果
(一)研究假设与对象
本研究的主要目的是检验语音识别是否能够对具备相当英语读写能力的学生提高听力水平,能够提高多少。研究对象为河南中医药大学2018级非英语专业本科生80人,由于考虑到英语成绩太差的学生看字幕可能有困难,而成绩优秀的学生语音识别作用不明显,选取的80位同学在2019年春季期末英语考试成绩均在60分至75分之间,将这80人随机分成实验组和对照组,两组均为40人。
(二)研究步骤
本文实验具体方法:选定听力语料,对实验组和对照组进行听力测试,统计考试成绩进行分析。实验组和对照组的听力语料相同,實验区别在于,实验组听力测试的同时在学生前面的显示器上显示语音识别的英文文本。实验结束后,对两组成绩核对分布、方差齐性,再进行独立样本t检验。
在实验中,首先确定实现语音识别的接口。目前,百度和科大讯飞等公司都提供了中文语音识别接口,但是这些公司更多地关注中文。相比之下,Google云提供的语音识别引擎不仅提供流式语音识别,还能通过提供提示来定制语音识别功能,以转录特定领域的术语和生僻字词,并提高特定字词或短语的转录准确率。所以是我们实验中选用Google云的引擎。
本文测试选用的语料则为大学外语题库中的听力测试题目,按照常规考试安排,包含对话理解(60分)和短篇理解(40分)。其中对话理解的难度较低,而短篇理解来自大四听力考试的题库。所有题目语音识别的结果均来自Google云服务。需要注意的是,尽管Google语音识别的速度很快,但是流式语音识别毕竟要搜集到一段话后才能结合上下文给出语音识别结果,表现为语音识别给出的文本会滞后于语音发生时刻,这一时延一般在5-10秒之间(有时为网络延迟),为真实计,在给学生显示语音识别结果时,也同时精确地体现这一时延。这延时正好可以让学生评价自己所听到的内容,并且跟随后的语音识别提供的文本进行对比,找出听力的不足。此外,语音识别偶然会出错,对应的错误文本也不加修改向学生展示。