APP下载

中国英语课堂小组互动口语语料库的建设*

2016-03-04徐锦芬范玉梅

现代教育技术 2016年11期
关键词:语料语料库英语课堂

徐锦芬 范玉梅



中国英语课堂小组互动口语语料库的建设*

徐锦芬 范玉梅[通讯作者]

(华中科技大学外国语学院,湖北武汉 430074)

文章论述了建设中国英语课堂小组互动口语语料库的必要性,从该语料库的设计原则、建设步骤与方法两个角度提出了该语料库的建设方案,并具体介绍了该语料库的应用研究功能。该语料库的建成,将为中国英语课堂研究提供大量真实可靠的数据,推动中国外语课堂教学与研究的进一步发展。

英语课堂;小组互动;口语语料库

引言

小组互动是以学习者为中心的外/二语课堂的一个普遍特征,得到了心理语言学理论、社会文化理论以及教育学理论的支持。大量实证研究也证明,小组互动有利于促进学习者的语言发展。但是,我们对“学习者在小组互动中产出的中介语质量如何”、“小组互动在课堂语言学习中如何促进学习者的语言发展”、“小组互动的作用机制是什么”等问题的解答却知之甚少。导致这一状况的主要原因在于缺乏基于大样本的系统研究,而学习者语料库的发展为基于大样本的数据分析提供了重要支持。因此,迫切需要构建一个基于英语课堂的小组互动口语语料库,并基于该语料库对中国英语课堂小组互动进行系统的描写、分析和研究,从而推动中国英语课堂教学与研究的进一步发展。

一建设中国英语课堂小组互动口语语料库的必要性

1 小组互动研究的现状

从20世纪80年代至今,随着外/二语教学理论逐渐由传统的以教师为中心转向以学习者为中心,互动一直是国外语言学界关注的热点。国内对课堂互动的研究经历了20世纪80年代初的理论引进热潮后,在随后的近20年里一直趋于沉寂。直到21世纪初,随着国内外语界越来越强调外语课堂必须以培养学生的交际能力为目标,课堂互动研究才重新开始得到广大外语教师和研究者的重视[1],而小组互动作为一种典型的课堂互动形式得到了广泛提倡。

近年来,国内外学者主要从以下三个方面开展课堂小组互动研究:①小组互动的作用,如为学习者提供更多使用目标语的机会,促进学习自主性和自我导向学习[2];②小组互动的影响因素,如学习者语言水平[3]、任务类型[4]、任务难度[5]等;③小组互动中的语码转换,如Cook[6]认为语码转换是语言教学和学习的一种至关重要的交际手段。这三方面的研究,为本研究了解小组互动对外/二语发展的作用提供了重要依据。

2 英语语料库建设的发展趋势

自1961年建成最早的机读语料库Brown Corpus以来,国内外相继建成了不同类型、用途、规模的语料库。近年来,随着计算机科学的飞速发展及其在语言研究领域的应用,英语语料库的建设与研究呈现出一些新的发展趋势。

(1)语料库与二语习得研究相结合而出现的学习者语料库成为一个重要的发展方向

目前,国外已建成的有影响力的学习者语料库主要有剑桥学习者语料库(Cambridge Learner Corpus,CLC)、国际英语学习者语料库(International Corpus of Learner English,ICLE)、日本英语学习者语料库(Japanese EFL Learner,JEFLL)等[7],而国内学习者语料库主要有中国学习者英语语料库(Chinese Learner English Corpus,CLEC)、中国英语学生口笔语语料库(Spoken and Written English Corpus of Chinese Learners,SWECCL)等。国内外的这些学习者语料库均以书面语为主,但“就第二语言习得与外语教学研究而言,学习者口语语料库的建设不仅必要,而且迫切:仅凭书面语或有限的口语证据构建的习得理论极可能失之偏颇,而基于大量口语语料进行的习得研究则会更具效度和准确性”[8]。随着研究者对口语语料重要性认识的深化以及数据采集手段的改进,学习者口语语料库的建设与研究成为语料库中的一股新生力量,国外一批重要的学习者口语语料库也应运而生,出现了国际英语口语中介语语料库(Louvain International Database of Spoken English Interlanguage,LINDSEI)、日本标准化英语口试语料库(Standard Speaking Test Corpus of Japanese EFL Learners,SSTC)等。中国的学习者英语口语语料库建设方兴未艾,建成了中国学习者英语口语语料库(College Learners’ Spoken English Corpus,COLSEC)、SWECCL的口语部分和华南师范大学的LINDSEI-China,并统一了转写方案和标注规则[9]。值得一提的是,国内建成的口语语料库主要以大型考试的脚本为语料来源。

(2)专门的话语语料库建设逐渐受到重视

密歇根大学学术口语语料库(Michigan Corpus of Academic Spoken English,MICASE)收集了来自密歇根大学教师、工作人员以及各层次的学生约170万词的学术口语,录制的话语事件包括课堂讲座、讨论、学位答辩等[10];英语本族语课堂话语语料库(ClassBank English Corpus)是美国TalkBank项目的子项目,通过采集真实课堂中教师与学生的教学对话语料而建成[11];香港英语会话语料库(Hong Kong Corpus of Conversational English,HKCCE)约有50万词,包含日常会话、学术话语、商业话语以及公共话语等四个子库[12];由芬兰赫尔辛基大学Mauranen教授主导建成的英语作为学术通用语语料库(English as a Lingua Franca in Academic Settings,ELFA)收集了大学课堂、学术会议等学术场景下的英语语料,共计100万词[13]——这些专门的口语语料库为研究学术话语、课堂话语以及自然会话提供了大量真实的语料。

(3)中国大陆课堂话语语料库的建设发展迅速

在中国大陆,华南师范大学何安平教授带领创建了“课堂教学实况语料库”,包括中外大、中、小学英语课的教学话语语料库[14];东北师范大学外国语学院课堂话语语料库课题组建设完成了“基础英语课堂话语语料库”[15]。此外,由南京师范大学刘学惠教授[16]主导的“英语师范生课堂话语语料库”项目,主要用来评价师范生的语言水平和教师的语言教学能力。虽然课堂话语语料库的建设逐渐受到研究者的重视,但不难发现,这些语料库主要从教师视角收集语料,其应用也主要集中在教师话语[17][18]研究,而从学习者视角收集语料的语料库还未受到重视。

(4)历时英语语料库建设提上日程

Granger[19]在分析学习者语料库的未来研究方向时指出,今后要有更多的纵向研究,而且以过程为导向的定性研究要对以结果为导向的定量研究进行补充。当前,国内外的书面语和口语历时英语语料库的开发利用都极其有限,这与跟踪收集大量语料的难度紧密相关。尽管如此,研究者还是克服重重困难,建成了一些发展性语料库。如Housen[20]筹建的“青年学习者中介语语料库”,收集了不同一语背景的欧洲小学生在不同发展阶段的英语学习数据;新加坡南洋理工大学国立教育学院开发的“教育研究语料库”[21],包含1000节课堂教学的录音录像、教学资料、课堂观察以及学生作业,有助于研究学习者的学习过程;中国学者李文中构建了“学习者电子档案语料库”,其设计中也突显了关注学习过程的理念[22]。

3 当前小组互动研究与语料库建设的不足

纵观国内外,尽管当前小组互动研究和语料库建设都取得了丰硕成果,但同时也存在一些不足:①学习者语料库发展不平衡,基于真实语言课堂的小组互动口语语料库还未引起重视;②当前的学习者语料库多采取横向设计,只收集共时性语料,以结果为导向,忽视了学习者语言发展的动态过程;③国内已有的学习者口语语料库大多基于考试语料,而考试语料与自然课堂语料有很大区别;④已有的课堂小组互动研究结果一般是基于单次实验、较短的课堂录音转写语料或个案研究而得出,涉及的样本少,研究的时间短,语料的代表性和结论的推广性都受到很大限制;⑤主要的实证研究大都是在二语课堂或者实验室环境下开展,鲜见基于外语课堂环境下的研究。

因此,如何借鉴国内外已有的研究成果,构建一个科学抽样的、动态的、有代表性的基于自然英语课堂的小组互动口语语料库并进行相关研究,以弥补上述不足,已成为当前中国外语界迫切需要完成的重要课题之一。

二中国英语课堂小组互动口语语料库的建设方案

语料库的建设方案与建库目的紧密相关。中国英语课堂小组互动口语语料库(下文简称“本语料库”)的建设以反映中国各级英语课堂小组互动的实际情况为目标,旨在通过系统地收集中国初中、高中以及大学英语课堂小组互动中产出的中介语语料,以便客观、准确地反映中国各级英语学习者通过课堂小组互动进行英语学习并由此产生的语言发展状况。

1 语料库的设计原则

为了确保所建语料库与研究目的一致,本语料库的建设必须遵循以下四项设计原则:

(1)代表性原则

代表性原则是建设语料库应遵循的首要原则。Leech[23]指出,语料的代表性是指使用该语料库语料获得的分析结果可以概括成为这种语言整体或指定部分的特征,因此语料库是否具有代表性直接关系到在语料库基础上所做出的研究及其结论的可靠性和普遍性[24]。一般来说,“对于一个无限的总体来说,在其它条件相同的情况下,样本越大则代表性越好”[25]。英语课堂小组互动口语语料库定位为专门的口语语料库,语料库的总库容初步设计为60万词,涉及三个层次的英语课堂,即每层次包含20万词左右,后续研究可以在此基础上不断扩充库容量。虽然与通用语料库相比这一规模并不算大,但对于课堂口语语料库来说是非常可观的,能基本满足英语教学研究的需求。此外,本语料库所收集的语料应涵盖中国不同区域、不同层次、不同类型学校的英语教学课堂,并能代表中国英语学习者的中介语发展状况。

(2)真实性原则

语料库中的所有语料都要有真实性,即语料收集的是基于人们真实的交流而非实验条件或者其它人工条件下的交流信息[26]。因此,对于外/二语教学来说,采用诱导、内省方法获得的实验数据并不是合格的学习者语料库的语料。本语料库中语料的真实性体现在所有语料不是研究者为了研究目的去诱导学习者产出的,而是在自然课堂情形下学习者完成教师安排的各种教学活动时所产出的——这种即兴、较自由的话语,真实地反映学习者的语言运用特征和互动特征。并且,每一次小组互动事件都会被完整地录制下来,而不是只抽取其中的一部分细节予以录入,故能够反映整个互动过程,有助于今后的应用研究。由于小组互动会话通常会限定学习者的互动话题和时间,故小组互动会话不如日常交流中的自然会话那样“真实”,而是一种半自然的[27]会话。但是,只要小组互动是一项真实的课堂活动,那么,在这项真实的活动中产出的口语语料就是真实的语料,由此而建成的语料库就是具有真实性的语料库。对于以学习为目的的外语课堂来说,这样的语料能基本满足教学研究的需求。

(3)动态性原则

坚持语料收集的动态性原则是本语料库的一大特色,也是最具挑战性的部分。为此,本研究坚持每个星期录制一次学习者课堂互动会话,并跟踪收集初中、高中以及大学英语学习者一年中在英语课堂小组互动中产出的中介语语料。这样一来,本研究不仅能记录下学习者一年中语言的发展状况,便于研究学习者中介语的动态发展模式和规律,而且还能对学习者学习过程中的“微变化”进行细致描述,故对后期研究具有重要意义。

(4)平衡性原则

平衡性原则是指语料库中各部分语料的均衡性问题。本语料库中的语料来自初中、高中以及大学英语课堂,代表着不同的英语学习阶段,要保证各级英语课堂语料数量基本相同。从学校类型来看,综合性大学、理工类大学、师范类大学等不同类型大学的语料数量也应相当。另外考虑到互动任务对语言产出的影响,在收录语料时也应尽可能地使不同任务的语料样本相当。

2 语料库建设的步骤与方法

(1)语料库结构设计

为客观、真实、全面地反映当前中国各级英语课堂小组互动的实况,本语料库语料采集对象为初中、高中和大学三个层次的学习者,他们产出的小组互动语料分别构成三个子库:初中英语课堂子库、高中英语课堂子库以及大学英语课堂子库。每个子库都由学习者变量信息、任务变量信息、标注语料和未标注语料等四部分组成,做到生、熟语料分开存放。其中,标注语料主要进行头文件信息、词性和话语信息标注;未标注语料包含文本语料和录制的音频语料,便于今后研究时进行核对。考虑到外语学习过程会受多种变量的影响,因此在设计本语料库时,本研究特别强调将学习者变量和任务变量分别独立做好文检记录(Documentation),供研究者根据自己的研究目的,提取相关语料构建自己的研究语料库。具体来说,本研究主要考虑了五个学习者变量和三个任务变量——五个学习者变量分别为英语水平、性别、专业、学校、小组人数,三个任务变量则分别为讨论话题、任务类型、互动时间。

(2)语料采集

语料的采集工作分三步进行:①对参与教师进行培训,说明研究者的语料收集要求和录音工具的使用,特别针对小组互动的任务类型、互动话题、互动时间、小组人数安排等重要变量进行培训。该培训的目的是将这些变量控制在较大的范围内,以便今后研究工作的开展。如为了控制话题范围,可以指导教师选择生活、学习、社会热点等问题设计小组互动话题。②开展先导研究,在各层次学校选取一个自然班收集1小时的语料,按照转写方案和标注方案分别进行转写、标注,检验所制定方案的可行性,并进行相应的修正。③在此基础上,进行大规模的语料采集工作。语料采集工作每星期一次,持续一年时间,语料采集与转写、标注同步进行。

(3)语料库的转写与标注

上海交通大学在建设COLSEC语料库期间,探索了一套实用的学习者口语语料库转写和标注方案,可供建设本语料库借鉴。COLSEC语料库包含学生与学生之间的自由讨论话语类型,与本语料库的课堂小组互动话语较为相似,因此借鉴COLSEC语料库的转写与标注方案,也有利于今后的比较研究。具体来说,转写录音语料要坚持“如实转写”原则,即如实地转写互动小组每位成员的原始语句,不回避错误,对其所用词汇、短语、句式等都不做任何修改,以最大限度地保持语料原貌;对于单词拼写体系,本研究则规定统一采用美式单词拼写规则,而且对于学习者有发音错误的单词,在能识别的情形下都采用正确拼写。

对于标注,本研究拟采用XML格式对语料库的头文件信息、话语信息及词性等进行标注:①头文件信息包括小组互动活动的基本信息,如小组互动参与者的性别、年级、专业、学校、英语水平、语料收集时间、地点、互动话题、互动任务类型等。准确的头文件信息标注,有助于研究者提取某一类参与者或者某一类话题的话语进行研究[28]。②话语信息标注主要涉及话轮、打断、重叠、重复、停顿以及一些非言语声音标注,这些标注为研究话语结构、交际策略、语用能力等提供了重要的数据[29]。话语信息标注主要依靠人工完成,虽然是最耗时、耗力的工作,但对本语料库的后续应用研究意义重大。③相比前两类标注,词性赋码相对容易,因为随着赋码软件的开发及发展,词性标注基本实现了自动化。如CLAWS、AGTS等都是广泛使用的英语语料库赋码器,但由于这些赋码器乃依据本族语语料而开发,故被应用于学习者语料时仍会存在一些问题,还需人工校对。随着研究的深入,研究者还可以根据自己的需要进行更多标注。

三中国英语课堂小组互动口语语料库的应用研究功能

本语料库建成后,将解决当前英语课堂小组互动研究缺乏大样本的资源瓶颈问题,并为学界基于课堂的二语习得研究提供大量真实可靠的数据,是对现有学习者口语语料库的重要补充。本语料库的应用研究功能主要包括:

①研究学习者的词汇、语法、句法、口语语篇等中介语的特点及规律。一方面,纵向或者横向研究中国英语学习者课堂环境下中介语的发展规律,如可以基于本语料库验证二语习得中的语言发展假设;另一方面,运用中介语对比分析方法,将本语料库中的语料与本族语语料或者其他英语学习者语料进行对比研究,总结中国英语学习者中介语的发展特征与变化趋势,从而更好地解释二语习得中的迁移、僵化等重要问题。

②研究中国英语学习者在课堂环境下产出话语的互动特征,并利用动态性语料的特点跟踪研究互动特征对学习者二语发展的影响。首先,研究学习者的互动模式特征及其如何运用语言手段来展现互动特征(如互动模式、协商策略、反馈语、纠正性反馈等)。其次,基于社会文化理论、认知互动理论等理论框架,研究这些互动特征对中国各层次英语学习者语言发展的影响,并进一步考察各变量(如任务、性别、英语水平等)对互动过程、互动产出的影响。

③研究基于语料库的学习者课堂互动能力发展。越来越多的研究者将非本族语学习者视为“互动会话的参与者”,而不再是“能力欠缺的交际者”[30]。从这一视角出发,语言学习被看作是发展互动能力而不是语法能力[31]。在中国外语学习环境下,课堂小组互动是学习者学习、展示其互动能力的重要方式。因此,可以运用会话分析研究中国英语学习者如何配置互动资源(包括如何进行话轮转换、如何配置语言或非语言资源等)、如何跟踪研究英语课堂话语实践、如何促进学习者互动能力发展等问题。

四结束语

语料库建设是一项费时费力的巨大工程,建设基于课堂互动的动态学习者口语语料库更是如此。但这也是一项有意义、有价值的工作,因为借助学习者语料库中“先进的语料处理手段、真实的语言数据、严格的设计标准和独特的分析模式”更有利于对英语课堂小组互动进行全面、系统的研究[32]。近年来,随着“翻转课堂”等新的教学模式被引入英语课堂,小组互动教学得到了更广泛的运用。因此,只有对中国各级英语课堂小组互动进行基于大样本的研究,才能更好地反拨英语课堂互动教学。而且,学习者的英语口语能力和互动能力是一个动态发展的过程,只有融合纵向研究与横向研究,才能更好地揭示中国课堂英语学习者中介语的发展特征与变化规律。期待国内外有更多课堂互动及语料库研究的爱好者积极加入本语料库建设的行列!

[1]徐锦芬,寇金南.大学英语课堂小组互动策略培训实验研究[J].外语教学与研究,2011,(1):84-95.

[2]Philp J, Adams R, Iwashita N. Peer interaction and second language learning[M]. New York, NY: Routledge, 2014:3.

[3]Watanabe Y, Swain M. Effects of proficiency differences and patterns of pair interaction on second language learning: Collaborative dialogue between adult ESL learners[J]. Language Teaching Research, 2007,(2):121-142.

[4]庞继贤,吴薇薇.英语课堂小组活动实证研究[J].外语教学与研究, 2000,(6):424-430.

[5]Kim Y J. The effects of task complexity on learner-learner interaction[J]. System, 2009,(2):254-268.

[6]Cook V. Using the first language in the classroom[J]. Canadian Modern Language Review, 2001,(3):402-423.

[7]王立非,孙晓坤.国内外英语学习者语料库的发展:现状与方法[J].外语电化教学, 2005,(5):19-24.

[8][28][29]卫乃兴,李文中,濮建忠.COLSEC语料库的设计原则与标注方法[J].当代语言学, 2007,(3):235-246.

[9]甄凤超,张霞.语料库语言学发展趋势瞻望——2003语料库语言学国际会议综述[J].外语界, 2004,(4):74-77.

[10]Swales J M. Corpus linguistics and English for academic purposes[J]. Information Technology in Languages for Specific Purposes Educational Linguistics, 2006,(7):19-33.

[11][14]刘慧,马慧颖.英语课堂话语语料库研究述评[J].天津师范大学学报(基础教育版),2013,(3):46-48.

[12]Cheng W, Warren M. Facilitating a description of intercultural conversations: The Hong Kong Corpus of Conversational English[J]. ICAME Journal, 1999,(23):5-20.

[13]Mauranen A, Hynninen N, Ranta E. English as an academic lingua franca: The ELFA project[J]. English for Specific Purposes, 2010,(3):183-190.

[15]刘永兵,林正军,王冰.基础英语课堂话语语料库的建构与研究功能[J].当代外语研究,2010,(8):17-21.

[16]刘学惠.英语师范生课堂话语的建库、分析和应用[J].外语电化教学,2006,(5):41-45.

[17]何安平.基于语料库的英语教师话语分析[J].现代外语,2003,(2):161-170.

[18]刘永兵,张会平.基于语料库的中学英语课堂规约话语研究[J].外语与外语教学,2010,(4):14-18.

[19]Granger S. A bird’s-eye view of learner corpus research[A]. Granger S, Hung J, Petch-Tyson S. Computer learner corpora, second language acquisition and foreign language teaching[C]. Amsterdam: John Benjamins Publishing Company, 2002:11-14.

[20]Housen A. A corpus-based study of the L2-acquisition of the English verb system[A]. Granger S, Hung J, Petch-Tyson S. Computer learner corpora, second language acquisition and foreign language teaching[C]. Amsterdam: John Benjamins Publishing Company, 2002:77-116.

[21]Hong H. SCoRE: A multimodal corpus database of education discourse in Singapore schools[A]. Proceedings from the corpus linguistics conference series[C]. Birmingham: University of Birmingham, 2005:14-17.

[22]陈功,梁茂成.首届全国学习者语料库专题研讨会综述[J].外语电化教学,2010,(4):77-80.

[23]Leech G. The state of the art in corpus linguistics[A]. Altenberg B, Aijmer K. English corpus linguistics[C]. London: Longman, 1991:8-29.

[24][25]杨惠中.语料库语言学导论[M].上海:上海外语教育出版社,2002:133.

[26]Sinclair J. EAGLES preliminary recommendations on corpus typology[OL].

[27]Granger S. Learner corpora[A]. Chapelle C A. The encyclopedia of applied linguistics[C]. Oxford, UK: Wiley-Blackwell, 2012:3235-3242.

[30] Firth A, Wagner J. On discourse, communication and (some) fundamental concepts in SLA research[J]. Modern Language Journal, 1997,(3):285-300.

[31]Young R. Sociolinguistic approaches to SLA[J]. Annual Review of Applied Linguistics1999,(19):105-132.

[32]邓耀臣.学习者语料库与第二语言习得研究述评[J].外语界,2007,(1):16-21.

编辑:小米

The Construction of Spoken English Corpus of Group Interaction in Chinese English Classrooms

XU Jin-fen FAN Yu-mei[Corresponding Author]

()

The paper discussed the necessity of constructing the Spoken English Corpus of Group Interaction in Chinese English Classrooms and put forward its construction scheme from the aspects of construction principles, construction procedures and methods. The paper also concretely introduced the research functions of this corpus. The completion of this corpus will provide a large number of real and reliable data for Chinese English classroom research and promote the development of domestic foreign language teaching and research.

English classroom; group interaction; spoken corpus

G40-057

A

1009—8097(2016)11—0107—07

10.3969/j.issn.1009-8097.2016.11.016

本文为2015年度国家社会科学基金项目“中国英语课堂小组互动口语语料库建设与应用研究”(项目编号:15BYY0757)的阶段性研究成果。

徐锦芬,教授,博士,研究方向为二语习得、教师发展、应用语言学,邮箱为xujinfen@hust.edu.cn。

2016年2月1日

猜你喜欢

语料语料库英语课堂
基于归一化点向互信息的低资源平行语料过滤方法*
用爱浇灌英语课堂
让学生感受英语课堂之美
《语料库翻译文体学》评介
基于JAVAEE的维吾尔中介语语料库开发与实现
《苗防备览》中的湘西语料
高效英语课堂的打造
让初中英语课堂充满活力
国内外语用学实证研究比较:语料类型与收集方法
语篇元功能的语料库支撑范式介入