APP下载

基于语料库方法的“Friends”脚本词块研究

2010-09-20

河北职业教育 2010年7期

王 颖

(深圳信息职业技术学院,广东 深圳 518029)

“语料库是按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库”。[1]语料库现已成为语言学实证研究的一个重要手段。语料库的研究方法有:生成单词表、多项检索、设置语境词检索、正则检索、词项重组、提取关键词表、通过搭配(Collocation)选项观察词语的搭配情况、近义词辨析等。

词块称作“语块”、“程式化语言”、“词汇短语”、它是指一个具有一定结构,表达一定意义的预制的多词单位,它以整体形式被记忆储存,并在即时交际时被整体提取,而不需要使用语法规则来加工分析。我们可以认为词块为“在语料库中频繁出现的不同长度的连续词语片段。”[2]根据文献[3]的结论“语块个数、语块运用频度与二语口语流利性之间存在着相关性,也就是说,语块个数越多、语块使用频度越高,口语表达越流利。”所以要培养学生以词块为基本单位记忆和使用词汇的习惯。语言尤其是口语不应该只学习单词,而是学习预制结构,这样会加快学习过程并且增强口语的流利性。[1]

一、研究目的、方法

为了提高学生习得的词块个数和口语流利程度,本文尝试运用AntConc免费绿色软件和COCA美国当代英语语料库作为研究工具,结合风靡美国多年的长篇情景喜剧《老友记》(“Friends”)脚本语料库中的词块从以下三个方面进行研究:高频词块的提取、提取语境共现(Concordance)发现单词的普遍用法、提取搭配词表发现词块的搭配信息。

AntConc是日本早稻田大学Laurence Anthony博士实验室研发的多平台的语料库分析工具。AntConc可以免费下载使用并具有良好的语言教学辅助功能:生成单词表、索引呈现(Concordance)、检索词或词组在上下文中高亮显示、设定关键词左右语境、检索结果的打印和存储等。

COCA(corpus of contemporary American English)—美国当代英语语料库(http://www.americancorpus.org/)由美国杨伯翰大学Mark Davies 教授开发,该语料库库容量目前为4亿多词汇,涵盖美国1990~2009年的口语、小说、流行杂志、报纸和学术期刊五大类型的语料,该语料库免费在线供研究者和学习者使用。

二、词块研究

1.提取高频词块(n-gram)

词块的频数高低反映词块在真实语言材料中的使用情况,词块的频数信息也可以使学生初步掌握词块,并了解词块的难易程度,AntConc软件中的ngram功能可以提取高频词块。n-gram是由n个连续单词组成的序列,一个、两个、三个词组成的元组分别叫uni-gram,bi-gram,tri-gram等。需要强调的是,由于计算机只是机械地切分统计词块的频数,所以对于计算机生成的词块表,一定要进行后期的意义分析,把生成词块表中没有意义的词块或者与研究主题不相关的词块去除。本文以二元词块和四元词块为例。“Friends”脚本语料库的二元词块经过处理后的检索结果如下:

表1 “Friends”脚本语料库的二元词块

本文以“kind of”为例:“kind of”在“Friends”脚本语料库中总共出现292次,在292个索引行中去除表示类别(type)的意思后,剩下的153个索引行经过观察分析是模糊用语(hedge),部分索引行如下:

表2 “kind of”作为模糊用语的索引行

我们发现模糊用语的发言者通常都语气含糊,对所说的话不肯定或者负责任的程度较低。模糊标签语的功能主要是语用的,它给听话者提供了解读话语的方向和框架范围。由于实时话语的压力和对客观世界知识的局限,许多信息不可能准确地表达,而为了保险起见或出于礼貌的考虑,说话者会故意不准确地表达信息。这些动因导致了模糊标签语在本族语话语中的大量使用。表面上话语似乎显得空洞无物,但极为自然和适切,体现合作与礼貌原则等。[2]模糊语言的使用在英语教学过程中并未引起重视,所以可以将关于“kind of”的索引行向学生展示并截取相应的视频供学生欣赏并反复操练,改正学生的话语具有书面用语的特征并且缺乏口语交际的语用品质,使得学生的话语能够做到交互性、合作性、礼貌性、适切性等品质。“Friends”脚本语料库的四元词块的检索结果如下:

表3 “Friends”脚本语料库的四元词块

本文以“I can’t believe”为例:“I can’t believe”总共出现了335次,以下是部分索引行的展示:

表4 “I can’t believe”部分索引行

根据对索引行的分析,“I can’t believe”通常后面都跟人称代词,表达对问题的看法,通常是一些愤怒、惊讶和质疑的态度。(I can’t believe(epistemic)+(you,it,they)personal involvement,emphatically,indignation,emotional and emphatic)。它可以被认为是一个组织性词块,是一种完全预制或部分预制单位。预制词块就像单词一样作为不可分的组块储存在大脑词库中,很容易自动检索。所以,这样的一些预制词块给学生提供在缺乏丰富的语言资源时自我表达的可能性,学生无需知道其内部结构就可以流利地表达,在交际时可以整体快速提取使用,大大减轻大脑的语言编码压力,极大地提高语言的流利性。同时,词块大都是按照一定的语法规则生成的语言单位,可以保证语言使用的正确性。

2.提取语境共现(Concordance)发现单词的普遍用法

本文运用AntConc软件的语境共现(Concordance)中的KWIC显示格式(关键词居中对齐显示)查看检索结果,检索结果可以保存为text文件。

本文以attracted为例观察到“attracted”20个例子中有18个是“be attracted to”的用法。互信息MI值(Mutual Information)是对随机的两个词相关性的度量,也就是要查询的词和可能性搭配词在所有语料库中的共现搭配比重(百分比),根据互信息MI值衡量的是词语搭配的力度,观察MI值很容易发现语料库中的专有名词、科技术语、特殊词组和固定搭配,并且语料库的整体容量对MI值的影响并不是很大。一般认为当MI>=3.0时,搭配呈现出显著性。“attracted”在“Friends”脚本语料库中搭配词的MI值如下:

表5 “attracted”在“Friends”脚本语料库中搭配词的MI值

综合分析频数和MI值,我们发现“be attracted to”是“attracted”的普遍用法,那么该数据是否只是在“Friends”脚本中的个案体现呢?我们在COCA口语语料库中同样输入“attracted”并且把结果按照相关度排列(Relevance),它能过滤掉高频搭配的噪音词(empty words),并给出与所查询的词关系最为紧密的搭配词,查询结果按所查询的词的互信息(MI)值的高低排列。本文仅展示部分数据:

表6 “attracted”在COCA口语语料库中搭配词的MI值

表头的英文说明如下:“CONTEXT”是上下文限定,也就是“attracted”的搭配词;“TOT”表示词块出现的总数;“ALL”表示所查到的与attracted搭配的词在整个语料库中出现的总数。检索出现的495个“attracted to”的组成部分又是那些呢?首先我们输入“[be]attracted to ”

表7 “[be]attracted to”在COCA口语语料库中的频数

然后我们再输入“[be]* attracted to”

表8 “[be]* attracted to”在COCA口语语料库中的频数

总结表7和表8中的数据:“be attracted to”出现的总次数超过400次,所以综合运用AntConc软件和COCA语料库,我们证实“be attracted to”是“attracted”的普遍用法。

3.提取搭配词表发现词块的搭配信息

本文运用AntConc的搭配(Collocation)功能,观察要进行搭配研究的节点词(nod),将跨度(span)定义为节点两侧与其相关的词语数量,在跨度范围内的词项为搭配词(collocate)。辛克莱教授一直在寻找搭配跨度的最佳设置,他提出:“搭配是两个词同时出现,而中间间隔不超过四个单词。这是横组合方向最简单、最明显的关系。”他经过十三年的研究实践的检验,认为4:4的词汇跨度是最合理的设置。故此,本文把搭配跨度设置为4:4,以下是”odds”在“Friends”脚本语料库中的搭配信息:

表9 “odds”在“Friends”脚本语料库中搭配词的MI值

所以发现最常见的搭配词是:the,are,what等,这些搭配词构成了“what are the odds”词块,那么 “what are the odds”是不是odds的惟一搭配呢?参考美国COCA口语语料库的odds的搭配词及其MI值数据如下:

表10 “odds”在COCA口语语料库中搭配词的MI值

表10显示against是与odds最常见的搭配,相关的搭配词块行如下:

表11 “against*odds”在COCA口语语料库中出现次数

通过分析以上数据,我们对“odds”的词语搭配情况有了全面的了解。词语搭配分析对研究词语行为具有重要的意义,因为,“词语像人类一样喜欢聚集”,一个词的出现往往预示或决定其他词的出现。所以,研究词语与词语搭配在句法学、语义学以及语用学研究中具有重要价值。在外语学习中,学习者并不是孤立地学习单个的词汇,而是成组成块地学习和运用。[4]

三、结束语

本文综合利用AntConc软件和COCA口语语料库对“Friends”脚本语料库进行某些词块的定量分析,以期在口语教学中引入自然真实的语料并找到一些普遍用法促进英语词汇教学。目前,在校生包括很多英语教师都没有在英语国家口语交际的实战经验,口语语料库的词块学习可以弥补这个缺憾。词块的熟练掌握使学生节省编码时间、缓解交际的实时压力、增加语言范例、提高口语流利性等。所以,我们应重视词块的研究和教学,培养学生理解和运用词块的能力,掌握词块学习这一提高英语口语交际的重要学习策略。

[1]杨惠中.语料库语言学导论[M].上海:上海外语教育出版社,2002:33.

[2]卫乃兴.中国学生英语口语的短语学特征研究—COLSEC语料库的词块证据分析[J].现代外语,2007,(8):289,281.

[3]原萍.语块与二语口语流利性的相关性研究[J].外语界,2010,(1):61.

[4]李文中.语料库索引在外语教学中的应用[J].解放军外国语学院学报,2001,(3):22.