APP下载

一种基于河南方音的英语语音学习系统

2015-12-22李楠

安阳师范学院学报 2015年4期

一种基于河南方音的英语语音学习系统

李楠

(河南师范大学 外国语学院,河南 新乡 453007)

[摘要]在评价现有的语音学习软件的基础上,结合河南英语语音教学的需求,提出了建立语音学习系统的模型与基本方法,并尝试结合以河南方音为背景的学生来形成相应诊断,进而提升其英语语音学习水平。

[关键词]方音背景;非本族语的英语语音识别;机助语音学习系统;二语语音习得

[基金项目]教育部人文社科项目“基于词汇坐标的英语语料库检索平台研究”(12YJC740062);教育部人文社科项目“基于语料库的中国学习者英语搭配认知模式研究”(12YJC740088)。

[作者简介]李楠(1980-),女,河南安阳人,讲师,主要从事应用语言学研究。

[中图分类号]G434

[收稿日期]2015-05-11

一、引言

目前,英语语音的重要性及其在外语教学中的首要地位已成为每一位英语教师及学习者必须承认的现实。英语语音教学已经成为贯穿英语学习各个阶段的重点。然而,河南省英语语音教学方面依然存在一些问题。这些问题阻碍了河南省英语教学质量的整体提高,亟待解决。英语教学资源配置向城市倾斜、农村英语教学的师资素质问题及英语学习环境的严重缺乏成为阻碍提高英语语音教学整体质量的关键[1,2]。据河南省次方言区的调查显示,有32.05%的学生反映自己的单词的发音水平较差,26.92%的学生反映自己对重音的把握能力较差,而只有分别为11.53%和21.79%的学生认为自己对单词的发音和重音的把握基本可以[3]。对此,英语课堂教师及研究者提出了各种解决方案:进行渗透式语音教学;提高教师业务素质,完善硬件设施的配备,使英语教学方式多样化等[4]。经过政府教育机构和教师们多年的共同努力,在英语教学改革上取得了一定的进展,但是其效果远远未能满足当今社会的需求。教师队伍整体素质的提高需要不间断的努力,不能一蹴而就。另外,硬件配置又受多方限制,不能一朝一夕得到解决。相对而言,如果能够有一个集检测、评价、反馈功能于一体的软件来指导学习者英语语音习得过程中的听和说,那么学习者就可以通过该软件的评价系统更加清晰地了解自己发音的不足之处,对自己的语音水平有一个整体的把握;通过该软件的反馈系统就可以对发音困难进行纠错和跟读模仿训练,这样就等于有了一个贴身老师,从而可以取得更大的进步。

从语言本身的特点而言,虽然学习者学习动机较强,模仿也很认真,但是他们的发音仍存在一些问题,语音在某些内容上可意会不可言传的特性导致了这种局面,如音高、音强、音长等物理特性就很抽象。英汉语音的诸多差异更为细微和难以把握。教学中希望有一种仪器使发音的特征通过可视的形式显示出来,可使学生直观认知,再进行操练,与样本对照,不断修正自己的发音,提高语音学习效果。

二、研究背景

目前,国内外对于英语语音的研究分为音段层面(如音位)及超音段层面(如语调)。在英语语音教学中对超音段往往没有给予足够的重视,或者缺乏有效的训练手段,而利用计算机软件提供的视觉反馈来进行训练是解决这一问题的有效途径。中国学生的语音练习通常采用听录音并且跟读模仿的方法,练习过程中学生得不到任何反馈引导,因此我们很难确定机器播放出的语音与学生跟读两者之间的相关性。在课堂教学中,即使有教师指导,也很难做到对学生的语音、语调提出实时的、准确的指点,使学生立即明白问题出在什么地方。针对上述种种问题,国外不少语言研究机构都致力于开发用于语音训练的计算机软件,其中有以旨在训练口语的基于一定句法规则的Y Nut[5],也有 PRAAT语音学习分析软件。国内也有语音助学软件,如百度语音、超级语音学习系统(SuperSpeech)、新东方国际音标发音软件。现有语音学习软件大都以习得标准目标语为目的,不考虑方音因素。要么以神经网络和监控理论为框架[6],要么通过对比标准语音库和学习者语音产出给出评分,少有软件能够根据学习者语音产出进行相应诊断,给出改进方法或建议。总的来说,国内的机助语音学习软件大都停留在音段音位层面,对非连续语流中的音段音位的判断相对准确。而对于超音段音位层面的重读、节奏以及语调的判定较为模糊。相比之下,国外的此类软件则相对成熟,但是,由于母语背景不同,以及界面语言采用的并非汉语,中国英语学习者使用起来较为费力,并且针对性不强。地处中原的河南省拥有众多的次方言区,有些方音差别极大,甚至会产生省内交流不能相互通达的情况,方音背景的差别使得英语语音学习也出现了诸多问题。

本研究以河南方音为背景的英语学习者为依托,首先找出英语发音困难较大的典型次方言区的学习者,采集他们的发音数据。通过对发音数据的分析,得出发音困难的模式,形成凸显发音困难的语音数据库,以方便与标准英语参照数据库进行比照。基于方音自动分析和识别技术,对学习者的语音输入自动识别、归类,并根据分析结果给出反馈和评价。在此基础上为不同方言背景和发音困难的学习者订制练习,从而增强语音学习的交互性和灵活性,提高学生参与学习的主动性和积极性,使学生更加容易掌握语音知识。

三、理论模型

语言学习遵循听、说、读、写这一发展顺序的轨道[7],即听说在先,读写在后。没有听觉输入的语音产出在正常条件下几乎是不可能做到的。所以,听为语音产出提供了前提和基础,而说是语音输入的检验。传统的语言学习是基于文本,或叫做基于教材的学习。基于教材的学习一直是学校教育所采取的最基本的教学手段,长久以来,它对于语言能力的训练的效果是毋庸置疑的。但是在传统的基于文本的教学过程中,听与说的能力的锻炼未能得到很好的体现。同时,人们也开始质疑基于文本学习的效率[8,9]。以听力和口语锻炼为基础的活动是不能只靠文本形式的教科书实现的,但是通过视觉、语音的输入,听力和口语活动开展起来却事半功倍。随着时代的发展,对英语学习者的口语表达能力提出了越来越高的要求。同时,成功的语言交际又离不开可以为国际言语交际社团所接受的语音。

3.1框架设计

开发一个系统,首先需要建立整个系统的框架,确定系统的体系结构由哪些模块组成,模块间的调用关系如何,需要哪些全局变量等。通过分析和查阅文献,参考现有的语音学习软件的开发理念,我们总结出如图1所示的系统结构图[7]。

正如图1所展示的那样,精心设计的多媒体练习可以激活视觉处理器、听觉处理器及概念处理器,并且技术上可以实现多媒体练习与三个处理器的实时、同步运作。这对提高系统效能有着非比寻常的意义。与此同时,他们和学习者的现时记忆及长时记忆相互作用。于是,学习者便能够将语言和多媒体练习提供的感官输入拼凑在一起,形成有意义的理解。学习者的长时记忆、系统提供的视觉信息及概念处理器共同工作可以将看到、听到的语音信息解码,最终形成自己的理解。通过练习,学习者可以将脑部系统中的相关机制调动起来,为学习过程提供便利。这样,不仅可以锻炼学习者的口语表达能力,还能经过反复练习,充分调动脑部相关机制,便于学习者从练习中发现语言的规则和模式。这种有意义的、反复的练习对口语流利性的达成是十分有益的。

在语音练习这个最主要的模块中,系统不光向学习者提供反复聆听、录音、发音对比的功能,还可以在学习者听取系统提供的规范发音的同时,提供与语音信号同步的视觉画面。这样,学习者不仅可以锻炼发音,还可以掌握在真实的语言环境下得体地使用语言的交际能力。

3.2 工作原理

本文所描述的语音学习系统与以往的语音学习软件最大的不同之处就在于加入了方言的因素。所以,以图1所示的语音识别系统的设计原理为指导,我们建构了以河南方音为背景的机助语音学习系统。我们的系统仍然保留原有的标准语音库,即声学参数模板。它是用训练和聚类的方法,从一人或多人的多次重复的语音参数之中,经过长时间的训练而聚类得到的。或者我们可以参照现有的语音库。但是,我们将在标准语音库之外设计一个以河南方音为背景的英语学习者的发音数据库(或称为方言数据库),作为原有的标准语音库的补充数据。测度估计是语音识别的核心,用来表征参数与模板之间的测度。这样做,在测度估计中,可以参照方言数据库提供的以河南方音为背景的英语学习者的发音数据,以增加对学习者的失误发音或错误发音的判决的准确度。在输出识别结果之后,可以通过语音评价机制对学习者的发音做出反馈。通过在视觉上规范语谱图和学习者语谱图的对比、听觉上规范发音和学习者发音的对比,可以更快地帮助学习者改正错误的发音习惯、掌握正确的发音方法。系统将向学习者提供反复听、练习的机会,直到学习者达到自己预期的语音水平。除此之外,我们还将在听取系统规范发音的同时提供与发音同步的视觉画面,这样能够使学习者在真实的语言环境下掌握和使用正确的发音。

四、方音的凸显与自动分析

自动语音识别是任何语音学习平台的核心技术。一般采用的基本方法有三:基于声道模型及语音知识的方法、模板匹配的方法和利用人工神经网络的方法[10]。本语音训练系统采用的是模板匹配的方法,其核心概念支持为隐马尔可夫理论(Hidden Markov Model,简称HMM)。自动语音识别技术领域亟待解决的一个难题就是必须在自适应性能方面有待进一步地提高,做到不受特定人、口音或者方言的影响[11]。口语方音研究主要围绕两大问题展开,通过发音建模的口音适应以及方音的识别[12]来进行。方音较重造成的语音错误在所有发音错误中占据了相当一部分比重[13,14]。另外,同一方音背景的人在语音产出中会犯类似的错误。基于错误数量比重大及错误类型模式集中这样两点,基于方音的建模就成为一个理想的解决方案[15]。在我们的研究中,也就是收集并建立有河南方音的英语发音数据库。

语音识别基元的选取和识别是以方言为背景的语音学习平台建立中的另一个重要问题。它对于语音识别系统的实现和准确度的高低有着重要的意义,必须要对它进行准确地界定。同时还需要确保有足够的数据对其进行训练,使其涵盖数据群体特征[16]。此语音识别系统的识别基元采用音素建模。音素是采用最多的英语语音识别基元[17]。由于受方音背景影响的英语发音情况的复杂性,在识别操作过程中应充分考虑对识别影响较大的因素,如清辅音的浊化、词尾辅音的加音、鼻辅音的脱落等[14]。

此外,语言模型和声学模型是语音识别的基础,必须具有抗噪的强健性[18]。其性能受诸多因素的影响,包括不同的说话人、说话方式、环境噪音、传输信道等等[19]。提高系统强健性,就要提高系统克服这些因素影响的能力,使其在不同的应用环境条件下工作性能稳定。一个高效的语音识别系统还必须同时具有一定的自适应能力,根据不同的影响来源,自动地、有针对性地对系统进行调整,在使用中通过语音输入的增加得到不断地训练从而逐步提高性能。

五、机助语音学习系统的发展前景

机助语音学习系统的建立同语音识别技术的发展密不可分。从一定程度上来讲,机助语音学习系统的有效性很大部分上取决于语音识别率的高低。尽管语音识别的研究已长达半个世纪,但现有的语音识别系统离实用化的要求还存在一定的差距。在语音识别中遇到的另外一个难题是语音识别基元的选择,在实际应用中表现为,如何根据存贮空间、搜索速度和使用者个体特点的要求,选择合适的识别单元,如词、音节、音素。目前,语音识别系统中很少涉及到的一个语言特征就是韵律信息。韵律信息指的是说话之中的重音、语调等超音段信息。说话的韵律可以传达出很多重要信息。因此,如何在语音识别中结合韵律信息还有待进一步的研究。

由于技术和资源方面的局限性,以方言为背景的语音识别技术在语音教学中的应用还鲜为人们所涉及。但是,此项研究却具有重大的理论意义和现实意义。一方面,以方言为背景的语音识别为现有语音识别技术增加了一个新的研究层面。从语音习得的角度讲,以方音为背景的机助语音学习系统的建立更是二语语音习得研究的一项有益尝试。另一方面,针对河南省英语教学衔接不够合理、教师的知识结构落后、硬件设施配备不完善等现实问题,以及中国和河南方音情况复杂这样一个现状,以方言为背景的机助语音学习系统的建立更是迫在眉睫。以方言为背景的机助语音学习系统的建立能为语音教学提供有效的手段,从而有效地促进不同方言区的语音教学。

[参考文献]

[1]高鹏. 中学英语口语教学 [J]. 康定民族师范高等专科学校学报,2002,9(2):60-62.

[2]顾俊秀. 中学英语课堂教学改革小议 [J]. 大同职业技术学院学报,2006,20(4):93-94.

[3]马均平,贾慧范.农村中小学英语词汇及语音教学情况调查及研究(未发表)[Z].全国教育科学“十一五”规划2007年度教育部规划课题研究论文. 2012.

[4]吴效锋.新课程怎样教 [M].沈阳:辽宁大学出版社,2005,1-324.

[5]Timo, O L N, Bissyandé, T. F. Y Nut, a Phonetic-Based Learning System for Spoken Languages [Z]. E-Infrastructure and E-Services for Developing Countries -- 5th International Conference, AFRICOMM 2013, Blantyre, Malawi, November 25-27, 2013, Revised Selected Papers, 229-233.

[6]Moulin-Frier, C, Arbib, M A. Recognizing speech in a novel accent: the motor theory of speech perception reframed [J]. Biological Cybernetics, 2013, (4): 421-447.

[7]Knowles, L. The Evolution of Computer Assisted Language Learning [J]. Journal of Communication and Publication, 2004, (1): 1-38.

[8]Thompson, C L. Pronouns and Voice in Koyukon Athapaskan: A Text-Based Study [J]. International Journal of American Linguistics, 1989, (1): 1-24.

[9] McCarthy, J C, Miles, V C, & Monk, A F. An Experimental Study of Common Ground in Text-based Communication [R]. CHI ’91 Proceedings of the SIGHI Conference on Human Factors in Computing Systems: Reaching through Technology. New York: Association for Computer Machinery, 1991: 209-217.

[10]Lee, Kai-Fu. Automatic Speech Recognition: The Development of the SPHINX System [M]. Norwell: Kluwer Academic Publisher, 1989: 1-211.

[11]钟玉琢. 多媒体技术基础及应用[M]. 北京:清华大学出版社,2006,1-376.

[12]Huang, C, Chen, T, & Chang, E. Accent Issues in Large Vocabulary Continuous Speech Recognition [J]. International Journal of Speech Technology, 2004, 7 (2-3): 141-153.

[13]Huang, C, Chang, E, Zhou, J L, & Lee, K F. Accent modeling based on pronunciation dictionary adaptation for large vocabulary Mandarin speech recognition [C]. Proceedings of International Conference on Spoken Language Processing, 2000, 3: 818-821.

[14]李楠. Problematic English Phones for Chinese EFL Learners [D]. 中国优秀硕士学位论文全文数据库,2009, 8(8).

[15]Sangwan, A, Hansen, J H L. Automatic analysis of Mandarin accented English using phonological features. Speech Communication, 2012, 54: 40-54.

[16]Lawrence, R. Fundamentals of Speech Recognition [M]. New Jersey: Pearson Education, 2008: 1-540.

[17]Goronzy, S. Robust Adaptation to Non-Native Accents in Automatic Speech Recognition [M]. Verlag, Berlin & Heidelberg: Springer, 2002, 1-144.

[18]Flanagan, J L, et al. Automatic speech recognition in severe environments - A Report Prepared by National Research Council (U.S.), Committee on Computerized Speech Recognition Technologies, National Research Council (U.S.) [C]. Washington, D.C.: National Academy Press, 1984, 1-81.

[19]韩纪庆,张磊,郑铁然. 语音信号处理 [M]. 北京:清华大学出版社,2004,1-328.

[责任编辑:K]