APP下载

新疆少数民族学生英语语音语料库设计研究

2013-02-24毛怀周梁

昌吉学院学报 2013年5期
关键词:录音语料语料库

毛怀周梁 鸣

(1.昌吉学院外语系 新疆 昌吉 831100;2.新疆农业职业技术学院 新疆 昌吉 831100)

新疆少数民族学生英语语音语料库设计研究

毛怀周1梁 鸣2

(1.昌吉学院外语系 新疆 昌吉 831100;2.新疆农业职业技术学院 新疆 昌吉 831100)

新疆少数民族学生英语语音语料库的设计研究是建立在数据驱动学习理论的构建上进行的。我们首先通过对研究的基本框架、思路、工具和步骤的论证,阐明了建立新疆少数民族学生英语语音语料库设计方案,并通过实验语音学语音录音、语音分析软件的操作程序和分析层面和Delphi7.0语音语料库管理系统,提出构建新疆少数民族学生英语语音语料库的可行性,以便能更好的把新疆少数民族学生语音语料库运用到外语教学和研究中去。

新疆少数民族学生;英语语音语料库;设计

一、研究背景及意义

新疆属于边远少数民族地区,主要有维、哈和蒙等少数民族,因此能掌握和基本掌握本族语、汉语和英语的少数民族学生较多。这为我们开展新疆少数民族学生英语语音语料库(Corpora)研究提供了良好的基础。对少数民族地区英语语音的规律和存在的问题进行系统而深入的研究,不仅有助于改进英语语音教学的方法,还有利于保护这些少数民族地区濒危民族语言。

要对新疆少数民族英语语音语料库进行研究,就必须涉及到语料库的问题。语料库是依设定标准,为某一具体语料库(如语音语料库)而建立的语言资料集合群(Granger,1998;李文中, 1999)。[1]电子计算机贮存的丰富、真实的语言语料库,再加上它强有力的分析和语料库研究软件(如praat语音录音和分析软件、云龙国际音标输入法、汉语方言计算机处理系统和Word Smith3.0)相得益彰,使我们原本无法实现的研究变得唾手可得。我们主要依据电子计算机语料库的原理技术,讨论并设计新疆少数民族学生英语语音语料库建设的具体设想,并依据数据驱动学习理论(DDL)(Tim Johns,1991;2009)[2]基础模型,为新疆少数民族学生的英语学习提供基础的保障,拓展教师教育科学和研究的新领域。

创建新疆少数民族学生英语语音语料库能为少数民族学生的英语语音研究搭建科研平台,让更多的研究者和学习者了解学习者英语语音的特点,并使之与本族语者语音语料库的对比研究和学习成为可能。借助实验语音学科研方法能够对学习者的英语语音特征和语音发展进行全面而系统的对比分析,从中揭示新疆少数民族学生英语语音教学中的薄弱环节和问题,有助于师生认识和克服英语语音的学习难点,对提高新疆乃至我国英语语音教学的质量具有指导作用。所以,新疆少数民族学生英语语音语料库的建成为第二语言习得研究提供了有力的平台,为研究者提供了大规模英语语音研究的持续性发展的空间。

二、国内外研究综述

目前国际上最有代表性的英语本族语国家语料库(BNC)存储了近1亿多词汇的英语语料。最大的是Bank of English语料库(5亿词汇),还有

在二十世纪七十年代建成的第一个计算机化的英语和兰德英语口语语料库约有43.5万词汇。这些语料库使研究者对语言形式的变化及特点有了前所未有的认识。伦敦的兰德语料库在口语文本上进行了语调单位、调核、(nucleus)重音和停顿等的韵律标注。(Prosodic annotation)由于其严密的设计成为英语口语计算机语音语料库的基础标准。自从2004年起,该语料库利用计算机标注分析软件对语音的声音文件进行文本的语音标注工作取得了重大的突破。

同时,国际外语学界意识到建立学习者语料库对分析学习者中介语(Interlanguage)的语言特点和语误现象的迫切性。于是就出现了20世纪80年代末建立的朗文学习者语料库、剑桥学习者语料库(1,500万词)和国际公认的二十世纪九十年代建设的国内外英语学习者语料库。但这些语料库的语料基本都来自学习者的笔语,这为我们研究新疆少数民族学生英语语音语料库的设计和建设提供了必要性。

在我国,多数学习者口语语料库目前还在设计和建设之中。新疆少数民族的语音语料库主要有“维吾尔语综合语音数据库系统”(王昆仑,1998)和“新疆大学维吾尔语语音合成系统”(2004),[3]但都基于维吾尔族语言语音语料库。国内最典型的学习者语料库主要有上海交大与广外联合开发的以CET-4和CET-6考试语料为主要来源的CLEC和南京大学创建的英语专业学生TEM-4口试语料库(SWECCL)。(王立非,孙晓坤,2005)[4]这些语料库虽然主要以汉族学生为主,其作用促成了大量的有关研究成果的出现,从而使人们对学习者英语语音的口语特征有了深刻的了解。自2001年以来,虽然基于上述学习者语料库关于学习者语料库文本语言特征、词汇、句法和语用等方面的研究成果有10篇之多,但基于语音语料的研究只有2例,主要的原因是噪音较大。(陈桦,李爱军,2008)[5]

三、英语语音语料库设计结构

面对计算机网络技术如此迅猛的今天,语料库语言学已经成为语言学及应用语言学研究不可或缺的领域。针对传统英语语音教学中学生语料摄入匮乏,利用网络技术建立的英语语音语料库能最大限度地弥补传统语音教学的不足,使语音教学多样化、语境化和个性化,促进学生的自主学习能力,从而提高学生的英语语音习得能力。新疆少数民族学生英语语音语料库建设中最重要的部分是英语语音语料库的基础建设,如图所示。

语音训练的基础知识和内容建设是保证语料库质量的关键,是语音语料库建库的基础形式。根据英语语音教学大纲的目标和要求,应遵循以学习者练习为主体、从听辨音调能力着手,把听力、发音与口语表达三方面的训练密切地结合起来的原则。既要强调基本功的训练,又要注意活用练习。英语语音语料库的基础知识和内容包括英语音素、词及句重音、英语语流的节奏规律等应用型听练。

我们拟借助新疆师范大学建立的“维吾尔语综合语音语料库”(王昆仑,1998)和新疆大学的“维吾尔语语音合成系统”,建立新疆少数民族学

生英语语音语料库和管理系统(2004),[6]新疆少数民族学生英语语音语料库首次在新疆地区分层次建立新疆少数民族学生英语语音语料库系统。在全疆范围内建立南北疆少数民族语音语料库、乌鲁木齐地区少数民族学生英语语音语料库子系统和少数民族不同年级英语语音语料库系统,为今后的持续性横向研究做好前期准备。

四、语音语料库的一般规范

朗读言语、流畅言语和自发式言语这三类是目前国际上连续语音数据库兰德言语类型的分类。流畅言语和自发式言语的区别在于言语内容是否有准备,都包括了音段和韵律等语音学要解决的问题。下面是我们建设新疆少数民族学生英语语音语料库的一般规范。对现有国内外有代表性的口语语料库进行回顾之后,结合我国的特点,再借助陈桦等人的设计,提出如下建设新疆少数民族学生英语语音语料库的一般规范。

表1 制作语音语料库的一般规范

总体而言,就是确定发音人、确定语料收集地点、确定发音素材、控制实地录音条件、语音标注和实施数据库管理。语音语料库是语音的物理性质和文本描述参数,在语言学上的意义仍需用户去做进一步的分析和研究。这种英语语音语料库既是一个描述性的非评价性的数据库,也是一个可进行后续的补充和修正的开放数据库。(戴炜栋,张爱玲,1999)[8]

具体来说,(1)选择发音人时两个最重要的参考因素是本族语语言特点和少数民族的目的语第二外语和第三外语水平(汉语和英语)。(王韫佳,李吉梅,2001)[9]新疆地区地域较大,考虑母语特点时需兼顾新疆各个地区方言的区域。因为新疆少数民族学生英语语音语料库旨在研究学生的英语语音学习的甄别性特点,目的语水平应以正规在校学习者为对象,如新疆高校民考民、民考汉、特培生、免费师范生和双语教育学生等为主。

(2)确定语料收集地点应以新疆地理位置为主、以方言区为点,创建有一定覆盖面和代表性的新疆少数民族学生英语语音语料库。地理区域以天山为界限可划分为南疆、北疆和东疆等地。英语语音语料库兼顾新疆方言区的优点在于,可以为后续进行少数民族本族语方言在学习者英语语音中的迁移比对研究提供原始基础材料。

(3)英语语音的发音材料类型应尽量多样化,才能客观地反映少数民族学生英语语音特点并从中进行系统的分析和概括。英语语音语料库中应包含朗读和自发式言语在内的所有语料。朗读语音语料可以为科研工作者提供少数民族学生英语语音特征的基础研究;自发式言语不仅可研究在自然状态下学习者的英语语音特点,也可以研究英语口语的副语言的现象。

(4)语料收集时要对实地录音条件下的噪音进行严格控制。麦克风录入信号的振幅一般适宜控制在46dB以下;在消声室内录音时,非语声的振幅值调整到20dB采样值以下,这些录音值在语音学界较为普遍地采用。(祖漪清,1998)[10]。

(5)录音结束后对声音文件进行基本标注时,要依据目前国际上通用标注系统ToBI进行标注,标注层级至少要涵盖正则、边界指数、语调、杂类等层级。

(6)录音结束后要对英语语音语料库实施数据库管理。首先要对收集到被录音人的所有背景信息和实际语音语料库录音的信息源加以赋值和标识,如说话人的ID码和录音采样率等;其次要对英语语音语料库进行分类建库。如按照语料的任务类型建立词汇、句子、故事和对话朗读等英语语音语料库子库;按学生生源地的地区方言类型建立英语语音语料库方言子库;还有就是按照收集到的英语语音语料库的时间年代建立英语语音纵向语料库子库等。(李爱军,2001)[11]

五、现行研究设计

(一)语音标注层

研究设计主要包括对新疆少数民族学生进行英语语音标注、语音音段标注(第1、2层为语音库的音段标注层,对应于ToBI中的正则层,第一层和第二层是描述学习者的实际发音和发音的标准层)、英语语音超音段标注(标注的第3层等同于ToBI系统的间断指数层;第4层主要标识句中的重读音节;第5、6两层对应于ToBI系统中的语调层;第6层为美式的ToBI层)、英语语音频谱分析(利用Praat软件制作语图和频谱图,从窄带语图的片段分析对象中提取基频的方法等)、英语语音基频分析、英语语音强度分析和英语语音共振峰分析(基于LPC对象分析共振峰数据、语图分析、声学元音图和共振峰图等)。

(二)研究工具及语音处理

(1)Cool Edit Pro录音软件主要包括采样、采样率、精度、声道、信噪比等几个关键的执行程序。录音操作步骤主要有打开软件、按“文件”菜单下的“新建…”按钮,会弹出下面对话框、连接并设置好您的麦克风及录音音量等、开始录音和保存录音。

(2)Praat语音软件进行语音的声学收集和分析。Praat([pra:t])(荷兰,保罗·博尔斯马和戴维·威宁克)的主要功能是对自然语言的语音信号进行采集、分析和标注等多种处理任务,多用于实验语音学的研究和分析。对语音信号的分析和标注是Praat的基本功能。根据录入的语音生成的文字和语图,能够输出精确的有关语音向量图,供语言学声学研究者使用。还广泛用于语音或声音合成、统计分析语言学的有关数据以及辅助语音教学测试等各个教育领域。

语音信号处理程序是Praat语音软件的核心。根据语音信号处理程序和用户的要求,在录音或读取音频文件后,可以显示三维语图、频谱切片、音高(基频)曲线、共振峰曲线和音强曲线等多种语音语图。以Praat录音具体步骤生成波形图为例:点击Praatpicture界面,拖曳粉红色框框决定你希望生成图的大小。回编辑界面,按File-Draw visible sound把vertical range两个空都调成5.5按OK。波形图出来了,选左上角Filewrite to windows metafile再选择保存位置,波形图的文件就生成了如下图。

图2 PRAAT录音分析工具波形图

生成宽带图的方法是回初始界面sound record,点spectrum-to spectrogram,按ok。多了一个宽带图文件再选择它,按draw-paint出现一个框frequency range。dynamic range一栏是决定生成图深浅的,初始为50,越大越深,反之越浅。最后按OK宽带图就出现了,再次点选左上角file-write to windows metafile保存位置进行保存。图例(略)

新疆少数民族英语语音语料库的建设和规划主要数据来源和分析借助于上述两个语音录制和分析软件,特别是Praat语音制作和分析软件能够处理许多新疆少数民族英语语音语料库的语音基础成分。

(3)Delphi7.0英语语音语料库管理系统

Delphi7.0语音语料库管理系统是将语音的文字描述与语音数据有机地结合起来综合管理语音数据库。(热依曼·吐尔逊,2011:234-237)[12]选择了ADO(activeX Databases Objects)空间作为主要的访问控件。ADO就是指ActiveX数据对象,是Microsoft提出的应用程序接口(APD)用以实现访问关系或非关系数据库中的数据。像Microsoft的其他系统接口一样,ADO是面向对象的,它是Microsoft全局数据访问(UDA)的一部分。

Delphi7.0中的ADO控件有连接、命令和数据集等对象。利用ADO数据对象进行数据存取的好处是可以简单地连接远程和本地的各种不同的数据库,同时利用统一的OLEDB的数据库引擎,所以不用携带庞大的BDF数据库引擎的支持。

(三)被试及任务

来自新疆几所学校的各个年级受教育层次的少数民族学生应邀朗读若干组对话并录音,另外还须完成2分钟左右的自发式对话任务。学习者从20多个题目中随机抽取一个,准备15分钟,两人一组展开对话并且录音。

朗读语料内容浅显易懂,是录音人十分熟悉的日常会话,难度符合少数民族学生的基础英语

水平;对话包含各种基本句型和丰富的韵律等基本知识点。自发式言语主要对少数民族学生限时进行语音表达,以期提取他们最真实的英语语音数据。录音前登记录音人的姓名、性别、籍贯和信息代码等。录音在密闭的语音实验室进行,采用录音软件Cool Edit Pro2.1进行英语语音录音,录音采样率为16kHz)(祖漪清,1998)[13]实例主要有简单陈述句、宾语从句、定语从句、选择问句和一般疑问句等各个层面。

对录制好的语音声音文件,根据新疆少数民族学生的地域分布、受教育层次和任务类型等进行分类。利用软件Praat语音分析软件对朗读语料和自发式言语的语音数据进行多层语音标注。英语语音语料库朗读部分的标注结合英国(调冠等)和美国(ToBI)两大标注系统进行标注。

当然,要设计好新疆少数民族学生英语语音语料库,还需对少数民族学生的英语能力进行潜能检测,还涉及到时间、场地和软件操作人员的专业性知识的问题,特别是语音语料库录音前的原材料的选取都直接制约着新疆少数名族学生英语语音语料库建设的质量。

六、结语

我们主要基于“数据驱动”(DDL)理论尝试构建前期新疆少数民族学生英语语音语料库的设计。特别是通过实验语音学语音软件声学的操作程序和分析层面和Delphi7.0少数民族英语语音语料库管理系统,提出构建新疆少数民族学生英语语音语料库建库的具体方法,但在实施中还有很多困难和困惑,在以后的研究中是一项具有挑战性的研究。

[1]Chafe,W.The Importance of Corpus Linguistics to Understanding the Nature of Language[C].MJ.Svartvik.1992.Directions in Corpus Linguistics.Berlin/NewYork:Moutonde Gruyter.

[2]Granger,S.Learner Englishon Computer[M].London/NewYork:Longman,1998.

[3]Johansson,S.Computer Corpora in English Language Research[M].Bergen:Norwegian Computer Center for the Humanities,1982.

[4]Johns,Tim.“Microconcord:a language learner’sresearch tool”[J].System,1986/14(2).151-162.

[5]Johns,Tim.Data-driven learning:Perpetual challenge[A].Kettemann,B.&Marko(Eds.).Teaching and learning by doing corpus analysis[C].北京:北京图书出版公司.2009:111.

[6]陈桦,李爱军.创建中国英语学习者英语语音库的必要性及构想[J].外语研究,2008,(5):50-54.

[7]陈桦,文秋芳,李爱军.语音研究的新平台:中国英语学习者语音数据库[J].外语学刊,2010,(1):95-100.

[8]戴炜栋,张爱玲.语料库、计算机、语言学[J].外国语,1999,(6).

[9]李爱军.口语对话语音语料库CADCC和其语音研究[C].第五届全国语音学会论文集.2001.

[10]李凯.语音识别在新疆“双语”教学软件中的应用[D].中国科学院新疆理化技术研究所,2009.

[11]李文中.语料库、学习者语料库与外语教学[J].外语界,1999,(1).

[12]热依曼·吐尔逊,依皮提哈尔·买买提.维吾尔语语音语料库管理软件的研究与实现[J].新疆大学学报,2011,(5): 243-247.

[13]王立非,孙晓坤.国内外英语学习者语料库的发展:现状与方法[J].外语电化教学,2005,(5).

[14]王昆仑.维吾尔语综合语音数据库系统[C].第五届全国人机语音通讯学术会议论文集.1998.

[15]祖漪清.实现语音数据库科学性的重要环节[J].语言文字应用,1998,(1).

G642.6

:A

:1671-6469(2013)05-0056-05

2013-05-28

昌吉学院2012年“新疆少数民族大学生英语语音语料库建设研究”科学研究基金阶段性成果(2012YJYB010)。

毛怀周(1966-),男,甘肃天水市人,昌吉学院外语系,副教授,研究方向:英语课程与教学论,二语习得,英语写作测试。

猜你喜欢

录音语料语料库
Funny Phonics
funny phonics
Listen and Choose
《语料库翻译文体学》评介
Listen and Color
基于语料调查的“连……都(也)……”出现的语义背景分析
基于COCA语料库的近义词辨析 ——以choose和select为例
华语电影作为真实语料在翻译教学中的应用
基于JAVAEE的维吾尔中介语语料库开发与实现
《苗防备览》中的湘西语料