语料库与英语教材编写
2010-08-15梁汉平
梁汉平
(贺州学院 外语系,广西 贺州 542800)
语料库与英语教材编写
梁汉平
(贺州学院 外语系,广西 贺州 542800)
语料库是存储在计算机中的大量口语、书面语或两者兼顾的一种语言或该语言某范围内一部分有代表性样本的集合。它的发展经历了不同的阶段,后一个阶段语料库的规模和容量都比前一阶段大。其功能有统计词汇频率和词汇意义使用频率;提供词汇使用语境信息;提供语法在语言实际运用中的信息等。而语料库既可作为教材的语料源泉,又可作为教材的检验手段。因此,在教材编写过程中要充分利用语料库。
语料库;功能;教材编写
1.语料库
1.1 语料库的概念和原理
语料库就是为了一定的目的,根据一定的原则搜集或取样并按照一定的方法分类集合起来的一批语言材料。由于语料库具有语言样本大、语域广等特征,其收集的语言材料具有很强的代表性,利用语料库研究语言的特征,已成为语料库最重要的应用之一[1]。如,语料库可用来研究特定语域的词频、语言结构、意义表达以及语用等特征。计算机语料库则是把大量原始语言材料输入计算机后形成的一个文本集合。语料库的文字既可以是来源于各种报刊书籍的书面文字,也可以是由广播电视节目等口语材料转写而成的文字材料。语料库的大小和语言材料的类别,取决于建立语料库的目的[2]。如,一个教师需要了解学生在写作中常出现的语法错误,那么他/她需要的语言材料就应该是学生自己写的作文。把学生的作文输入到计算机就构成了一个小的语料库。再如,一个教材编写组计划为旅游服务专业的职业高中学生编写一套英语教材,那么教材编写组就可以建立一个涉及旅游服务方面的语料库,并在编写教材的过程中从语料库中提取材料。总之,计算机语料库可大可小,其语言材料既可以是书面语言,也可以是口头语言。语料库可以是综合的,也可以根据行业、专业、媒介形式等进行分门别类。
1.2 语料库的发展
语料库的发展可以归纳为三个阶段。第一阶段以六十年代的Brown Corpus(美国Brown大学)和LOB Corpus(英国Lancaster一Oslo一Bergen)为代表。语料库在发展的初期,规模都比较小,Brown Corpus和LOB分别只有100万词左右。这种小规模的语料库只能用来考察常用语言现象的频率,无法展示语言的全貌;第二阶段以八十年代的BirminghamCollectionofEnglishText和the Longman/Lancaster English Language Corpus为代表。80年代发展起来的语料库在规模上大大超过了第一阶段的Brown Corpus和LOB Corpus,同时在标注方面,增加了词的语法属性标注(如,词性等)。到了90年代,语料库进入了第三阶段的商业化时代,这类语料库的特点首先在规模上一般都超过几亿甚至数十亿词,在建设过程中使用了先进的计算机文字处理等技术。而且,人们越来越重视对语料库作不同层次的标注,如:语音、构词、句法、语义以及语用等层次[3]。
2.语料库的功能
2.1 语料库具有统计词汇频率和词汇意义使用频率的功能
学习者不可能也不必要学习某种语言的全部词汇。问题是如何决定学习哪些词汇、不学习哪些词汇?另外,英语词汇的特点是一词多义,有些单词有几种甚至几十种意义,那么学习者应该学习哪些意义、忽略哪些意义呢?很显然,学习者应该学习那些使用频率较高的词汇和词汇意义。一般来说,大型语料库能够对基本词汇及意义进行准确、可靠的频率统计,这对教材编写有重要的意义。
频率统计还有利于解决语言使用中一些有争议或模糊不清的问题。如英语中的begin、start和commence都有“开始”的意思,但它们之间有什么区别?很多词典尽力解释这三个词的意义和用法区别,而大多数英语学习者还是不清楚这三个词究竟有什么区别。根据COBUILD的语料库The Bank of English的统计,这三个词使用的语境和用法没有根本的区别,但它们使用的频率不同,其中start的使用频率大约是commence的125倍。begin和start在意义和用法方面几乎没什么区别,但start的使用频率比begin高百分之十左右。
词汇意义的频率也是语言教学中值得关注的一个问题。词义的变化是过去使用频率高的意义而现在使用频率降低了,过去使用频率低的意义现在可能经常使用。如,英语中的trade一词过去多指“行业”,而现在多指“贸易”,以至于很多学习者把trade union(行会,工会)望文生义地理解为“贸易联合会”。英文中的diary一词过去多指“日记”、“日记簿”,很多英文词典把“日记”、“日记簿”作为该词的第一条释义。如:词典名称diary的第一条释义牛津高阶英汉双解词典(book used for a)daily record of events;thoughts;appointments;etc日记;日志;日记簿英华大词典日记;日志;日记簿英汉详注词典(上海交大出版社)日记;日记本Chambers 20th Century DictionaryA daily record但是根据多种语料库的统计,diary一词现在多数意思是“日程安排”、“记事本”,不是“日记”、“日记本”。当别人问我们能否参加某项活动时,我们经常会说“I’ve to look at(check) my diary first.”这个句子中的diary就是指“记事本”。我国《高中英语新课程标准》(实验稿2001年版)中的词汇表对diary的释义也是“日记”、“日记簿”。
值得注意的是,近些年来,以语料库为基础编撰的英语词典已经注意到词义使用频率变化的问题,并根据这些变化调整了单词释义的顺序[4]。如,牛津大学出版社2001出版的Oxford Advanced Learner’s Dictionary就调整了diary的释义顺序:1. a book with spaces for each day of the year in which you can write down things you have to do in the future.2.a book in which you can write down the experiences you have each day,your private thoughts .etc.从释义顺序可以看出该词典把“记事本”这个释义放在了首位。同样,剑桥大学出版社1995年出版的Cambridge International Dictionary of English也把“记事本”这个释义放在了首位。还有些单词,词义没有多大变化,但实际使用的意义和词典释义并不十分吻合。如thing一词。多数词典对thing进行解释的第一个意思是“东西,物品”,但根据The Bank of English的统计,thing作为“东西,物品”的意义的用法远远低于表示抽象意义的用法。
一个词有多种拼写形式的现象在英语中很常见,那么在教学中我们应该教授哪种拼写形式呢?教材中应该选择哪种拼写形式?尽管这些不同的拼写形式没有正确和错误之分,但我们还是应该向学生介绍使用频率高的拼写形式。judgement和judgment都是正确的拼写形式,但根据The Bank of English的统计,judgment的使用频率是judgement的两倍。
2.2 语料库具有提供词汇使用的语境信息的功能
英语词汇的使用有其规律性,其中,语境是一个重要因素,即某些词只能在某些语境中或与某些词一起使用。如,break out这个短语的意思是appear or start suddenly。但这个词通常与“战争、火灾、暴乱、疾病”等不好的事情一起使用。因此,教材编写中选编语言素材时,我们要考虑所选语言现象是否符合语境。特别是教材编写者自己编写语言材料或补充例子时,更要注意语境的真实性。
我们可以凭借经验和印象来判断词汇使用的语境,也可以查阅词典等参考书,但是经验和词典都不能保证语境的正确性。由于具备大容量的语言材料,语料库能够快速、方便地帮助我们了解词汇的使用语境。例如:根据《牛津高阶英汉双解词典》的释义,短语set in的常用意思是begin and seem likely to continue,如The rainy season has set in(雨季开始了)。但是词典没有说明这个短语的使用语境。那么这个短语可以用于任何语境吗?答案是否定的。以下是从The Bank of English中挑选的有关set in的部分实例:
But afterwards depression would set in.Then the day came when he told her he……
…of shame,humiliation and depression set in. After every session of bingeing and vomiting…
…things fell apart.By the time the recession set in.in 1991,no one had any money,and what…
…not been amputated,gangrene would have set in and he would have lost it anyway.
However,after the rainy season has set in,the farmers have little work to do.
You hit rock bottom and depression will set in. Then a month later you can be rolling in it…
从上面的实例可以看出,set in只用于描述那些不太令人愉快的事情,如经济萧条、情绪低落、病症、社会问题、糟糕的天气等。
2.3 语料库具有提供语法的实际语言运用信息的功能
虽然语法在语言教学中的作用一直是一个有争议的问题,但从现在的情况来看,语法教学仍然是外语教学中的重要组成部分。一般语法书中的语法是否是实际语言运用中的语法呢?从语料库的统计结果来看,答案是否定的。很多语法书都是根据以前的语法书编写的,而以前的语法书是根据更早的语法书编写的。这些语法书中的语法很可能已经是过时的条条框框。而基于语料库编写的语法书情况则完全不同。如,朗文出版社1999年出版的Longman Grammar of Spoken and Written English(朗文英语口语和笔语语法)就是一部完全建立在语料库基础上的语法书,它系统地揭示了英语口语和笔语的语法特点。这本语法书依据的语料库由37244个文本,共计4000多万词的文本语料组成。语料主要选自四个语域:会话、小说、新闻和学术文章。有了这样一个规模宏大、语域相对齐全的语料库,编者就可以做到:(1)所有例句都取自语料库,真实可信;(2)对各种语法现象的分布和频率进行全面而可靠的统计,让使用者清楚地知道哪些是常见的语法现象、哪些是一般现象、哪些属于特殊情况[5]。
50年代后,语言学研究分成两大学派:注重理论研究的理性学派(rationalistic)与注重实际语料的经验学派(empirical)。这两大学派似乎相互排斥,事实上已经有人开始用客观的自然语料库来检测“理性的语法理论”,而不只是纯粹地描述客观语言现象(McEnery,1996)。韩礼德用“概率理论”来解释语言变化和差异。如书面语中“which”,作为关系代词使用的频率要比that高,可以借助语料库来量化这个概率,即which出现的概率为39%,that为12%。然而that在口语中的出现频率比在书面语中稍高些,其概率达到18%(which为29%)。他相信使语法保持简明性和计算机化是可能的,计算机是语言学研究的重要工具。并且语料库会使它的理论得到检验和进一步的发展,因为语料库能提供“硬数据”(hard data),从中可得出不同语域系统的使用频率,丰富他关于不同语境对语言系统的约束理论,如科技论文中被动语态的出现频率明显高于其他场合。
其实,关于语法的讨论不是该不该教的问题,而是教什么、怎么教的问题。虽然语料库不能解决怎么教的问题,但它确实有利于我们解决教什么的问题。我们教的语法应该是实际使用中的语法,通过语料库是了解实际使用中的语法的最佳途径。原因有二:第一,语料库可以把语言中有代表性的语法现象加以量化;第二,检测根据语法理论所做出的假设也是通过量化具备代表性的语法现象来完成的。教材编写者在规划语法知识时如果能以语料库的统计结果为依据,则能大大提高语法教学的目的性和实用性。
3.语料库在教材编写中的应用
3.1 语料库:教材的语料源泉
外语教学界长期都在讨论两个重要问题:一是教什么,二是怎么教。在解决“教什么”这个问题时,大型电脑语料库能够为选择和组织教材提供科学的依据。正如一块矿石的开采价值通常不在于它含有多少种不同的金属元素而在于其中哪种元素含量最高。人们学习外语通常不是因为目的语里有什么就学什么,而是首先学习那些为目的语本族语者最常用,也就是说最有使用价值的词汇和表达方式[6]。例如,不少英语教科书往往一开始就强调some和any的差异就在于any一般用于否定句和疑问句而some用于肯定句。然而Tesch通过对大量真实语料的调查则发现有50%的any竟是用于肯定式陈述句,如I thought any fool would know(预设某种已存在的事物);另有30%一40%的any用于否定式陈述句,如I shan’t get any scripts from the assistants before then(并非预设某种已存在的事物);最后仅有约10%的any用于疑问句,如But is there any truth in it(并非预设某种已存在的事物)。因此,她重新设计了以下的教学内容安排:
(1)首先介绍作为不定冠词复数形式的some(如house,some houses)
(2)然后扩展使用some来修饰不可数的单数名词(如some milk,some butter)
(3)接着介绍any最常用的功能,并与every形成对照(如Situation:a basket full of apples,all of them polished then:You can take any apple.Every apple has been polished.)
(4)然后介绍any的第二种常用句式(如I haven’t got anything for you.There isn’t anybody here.)
(5)最后才介绍any的第三种用法,并与some形成对照(如Are there any problems?Would you likesome tea?)
这种基于语料库调查之后获得的语言输入,可能会使学生学到更贴近真实,更有价值的语言用法。
再看下面案例:一位初中英语教师在课堂上向学生讲授She need clean the floor这样的句子。而在百万词次的英国书面英语语料库LOB检索出来的422例need中,仅有18%是用作情态动词,而且其中又有78%呈现为情态动词的否定式need not do sth,其肯定式need do sth出现率极低。再检索我国中学九年制义务教育的英语教材发现,全部初中课文中的41例need几乎全是实意动词,而且其中近80%是need sth的形式;全部高中课文中的120例need也几乎全是实意动词,但其中却有56%是need to do sth。倘若教师掌握了这些信息便可以确定教学重点和难点,选择哪些先讲,哪些后讲;哪些用法在哪一阶段要多讲多练,哪些用法则少讲甚至不讲[7]。以往的教科书,字典和语法书通常能显示某种语言有哪些形式存在,却无法显示哪一种形式被本族语者使用得最多或者最少,在什么语体或交际场合出现频率最高等等。而基于语料库信息的教学则能让学生学到英语本族语者最常用的语言形式。把师生有限的时间和精力用在学习最有价值的知识上,这正是语料库对外语教学的启示[8]。
语料库研究通过对真实语料进行实际观察和分析,为词语在实际交际中的意义和用法提供了统计学的依据,使之更加准确、更为科学,可以在很大程度上减少外语教学的盲目性,对外语教学极具重要性[9]。基于语料库撰写的大型语法书和词典,对词语的语法意义和语法功能都可以进行更加充分和全面的描写,可以成为教材编写的参考依据。
通过对真实语料的分析和统计,可以发现目标语使用者在真实生活中经常使用的词语和表达方式。以真实语料作为例子和描述,可以给学习者展示在真实场景下进行交流所需使用的语言,让学习者学到自然、地道、在交际中正在使用的语言。从语料库中能轻松获得大量的真实语料,对教材编撰者来说尤其重要。在没有语料库的情况下,他们只能自编例子来解释语言结构。在语料库的帮助下,他们可以轻松找到地道的常用词组搭配和句子来解释语言点[10]。教学中选择地道的语料对外语教学具有重要意义。众所周知,学习者接触的真实语言越多,他掌握语言的能力越强。在英语并非本族语的情况下,学习者很少有机会在真实的交际环境下听、说英语,因此这些地道的语料就能使学习者最大限度地接触目标语。教材编写中需要任何例句,都可以通过定位索引软件迅速方便地从数百万词次或数千万词次的语料库中把某个词、短语、语法结构或其他语言形式在这个语料库中出现的全部实例检索出来,并对该语言形式及其全部语境进行全面的观察和分析,然后根据例句的难易程度和上下文从中挑选最典型最合适的例句。获得例句后,还可以根据需要将这些例句设计成针对某种语言形式的练习。
3.2 语料库:检验教材的手段
选择合适的语篇对于教材编写来说也是非常重要的。现在许多教材的选材以编写者的经验或语感为依据,由于没有客观的量化标准,往往不能保证所选语篇真正符合教学需要[11]。利用定位检索软件的词频统计功能,通过对某些词在一个语篇中分布的情况和出现频率的统计,可以较为客观地判断出该语篇的题材和难度,使取舍有了量化的标准。根据语料库的统计结果,高频词的分布和排列顺序都较为稳定,如the,of and,to,a,in,that,I等词总是出现在词频表的最前面,如果对一个语篇的词频统计与该表不符,则说明该语篇比较特殊,是否选入教材要慎重考虑。
4.结语
现在,语料库语言学研究方法日渐成为一种权威的语言研究方法,已经“进入语言学与应用语言学研究的主流”。语料库的功能决非仅仅上述介绍的几种,语料库在研究词汇的搭配、词汇的语用等方面都具有重要作用。教材编写者为教材选编的语言素材要真实、地道,要有时代剐,要符合学习者周围的现实生活,要符合学习者的实际需要。要满足这些要求,计算机语料库能为其提供一个有效的解决方案[12]。由此,我们认为英语教材的编写水平和质量,在很大程度上取决于教材编选的语言材料,而语料库是语言材料最可靠的来源。
[1]托马斯.用语料库研究语言[M].北京:外语教学与研究出版社,2001.
[2]肯尼迪.语料库语言学入门[M].北京:外语教学与研究出版社,2000.
[3]拜伯.语料库语言学[M].北京:外语教学与研究出版社,2000.
[4]程晓堂.英语教材分析与设计[M].北京:外语教学与研究出版社,2002.
[5]潘王番.语料库研究与外语教材编写[J].武警学院学报,2005(5).
[6]何安平.语料库与外语教学[J].国外外语教学,2001(3).
[7]何安平.谈语料库研究[J].外国语,1997(5).
[8]何安平.语料库辅助的基础英语教材分析[J].课程·教材·教法,2007(3).
[9]曾用强.语料库在外语教学与研究中的应用[J].福建外语,2002(2).
[10]崔淑珍.语料库在英语语言研究领域中的运用[J].天中学刊,2000(4)
[11]谢家成.基于语料库的英语教材词汇评估[J].基础英语教育,2008(3)
[12]文渤燕.语料库及其作用[J].国外外语教学,2001(2).
Corpus and English Materials Designing
Liang Hanping
(Department of Foreign Langunge Hezhou University,Guangxi Hezhou 542800)
A corpus is a collection of texts,including oral and written language,stored in a computer.There are three developing stages for corpus,and the scale and capacity expand in the phases.It can provide frequency,context,grammar,etc information about language.Therefore,materials developers should employ the language corpus,which is the material source and examining approach of the teaching materials.
corpus;function;materials designing
G64
A
1673-8861(2010)01-0093-04
2009-12-24
梁汉平(1966-),男,湖北嘉鱼人,贺州学院副教授,硕士。主要研究方向:语言学,教学论。