APP下载

GloWbE语料库在英语方言变体研究中的应用

2014-06-26李华勇

关键词:变体语料语料库

李华勇

(四川文理学院外国语学院,四川达州 635000)

一、GloWbE语料库

GloWbE语料库 (the Corpus of Global Web-Based English)是一个由来自20个国家的180万个网页收集到的19亿词组成的英语语料库,由美国杨百翰大学的Mark Davies教授创建,并于2013年4月在国际互联网上发布供语言研究者免费使用。GloWbE语料库的库容是COCA的4倍、BNC的20倍。大库容GloWbE语料库的好处在于能够检索到更多数量的低频字符串的形符(Token)数,理论上而言,一个字符串的形符数量在BNC如果只有10~12次的话,在COCA有50~60次,那么在19亿词的GloWbE中就有250~300次,这些更多数量的低频字符串的形符数能更全面地反映出它们的详细变化规律和过程。GloWbE最主要的功能是能观察到任何一个词、短语或语法结构在20个不同英语方言区国家的频率分布情况,同时也可以比较任何两组方言变体在不同国家的变化情况,还可以将检索范围限定在20个英语方言国家所在的一个或几个国家范围之内。

GloWbE语料库里的语料根据建设要求按不同比例选自不同的网站和博客页面,同时采用不同的技术手段进行详细处理以尽量减少重复文本(duplicate texts),因此其收集到的语料基本能真实反映出所在国的英语方言实际使用状况。

二、英语方言变体

方言是语言的一种变体,一个国家的某个地区使用或特定阶级的人使用,在有些单词、语法及发音上不同于同一形式的其他语言[1]。英语方言(English dialects)是英语语言的一种变体,它在发音、词汇、语法方面与标准英语(Standard English)有所不同;语言学家将世界范围内使用的英语划分成6大英语方言区:欧洲方言区(英国),北美方言区(美国、加拿大),大洋洲方言区(澳大利亚、新西兰),拉丁美洲方言区(圭亚那、伯利兹城),亚洲方言区(新加坡、菲律宾)和非洲方言区(南非)。①http://en.wikipedia.org/wiki/List_of_dialects_of_the_English_language这六大方言区使用的英语在发音、词汇、语法上各有区别,有自己的特点和存在相应的变体,对这些特点和变体的研究,能进一步了解英语在这些地区的变化特征和使用规律。以前对英语方言变体的比较研究主要限于美国和英国两个主要方言区进行,这些研究既有内省式的理论探讨也有基于语料库的实证研究,但是,要想同时对世界上几十个说英语的国家的英语方言进行基于各自真实语料的详细比较和研究,在GloWbE发布以前几乎是不可能完成的任务。下面就以具体的例子来详细说明GloWbE对这20个国家英语方言中的词汇、短语、语法、语义和文化比较研究的作用。

三、GloWbE对英语方言变体各层面的研究

(一)GloWbE对英语方言中词汇的研究

由于GloWbE语料库所收集的语料是来自20个主要说英语的方言区国家,并且这些语料是按比例均衡分布在语料库中的,因此,从检索GloWbE得到的特定词汇可以看出其在这20个国家的频率分布情况,从而为观察该特定词汇在这20个方言区的使用情况提供详细语料支持,避免内省式研究所得出的不适合的结论。我们以词fortnight为例,它在《牛津高阶英汉双解词典(第七版)》中被解释成:“(BrE)two weeks 两星期”[2]803。从其中的说明“(BrE)”可以看出该词典认为fortnight是一个主要在英国英语中使用的词汇,而较少使用在美国英语(AmE)中。我们在GloWbE检索界面的入口WORD(S)处输入被检索词“fortnight”,显示方式(DISPLAY)选图标(CHART),检索范围选忽略(Igore)即默认这20个国家。然后运行检索引擎,检索结果如图1所示。

图1 fortnight在GloWbE中20个英语方言国中的使用频率分布情况

图1中的第一行,是这个20个国家名字的缩写,第二行是该词在语料库所在国子库中出现的总频数,第三行是该词经过标准化处理的对应的每百万词的频率(/MIL),第四行是第三行数据的图标化显示,后面类似表格含义与此相同。由图1可见,fortnight一词在澳大利亚(AU)使用的频率最高达9.73/MIL,排在第二和第三的分别是爱尔兰(Ireland)7.76/MIL 和英国(GB)7.48/MIL,使用频率最低的两个方言区国家分别是美国(US)0.85/MIL和加拿大(CA)0.63/MIL。这一检索结果与《牛津高阶英汉双解词典(第七版)》把fortnight标注成主要是在英国英语中使用有一定出入:如果主要在英国英语中使用的结论是与美国英语相对而言,是对的;但如果是与20多个主要英语方言使用国而言则是错的。因而,词典对该词条使用的范围最好表述为“主要使用在澳大利亚英语和英国英语中,很少使用在美国英语中”,才符合fortnight的实际使用情况。

(二)GloWbE对英语方言中短语的研究

GloWbE可以对短语进行检索对比研究。例如,我们在GloWbE的检索入口WORD(S)处输入“on holiday”这一短语,显示方式选图标,检索范围选忽略即默认这20个国家。然后运用检索引擎,检索结果如图2所示。

图2 on holiday在GloWbE中20个英语方言国中的使用频率分布情况

从图2可以看出,on holiday这一短语在英国英语和南非(ZA)英语中的使用频率最高,分别为为 12.21/MIL 和 7.12/MIL,使用频率最低的两个国家是美国和加拿大,分别为0.99/MIL和1.32/MIL。《牛津高阶英汉双解词典(第七版)》指出“holiday一词是英式英语,很少使用在美国英语中”[2]796,从这一说明可以推理出 on holiday 这一短语也主要使用在英式英语中,很少使用在美式英语中。但是,经过对GloWbE检索后发现,on holiday不仅在英式英语中使用频率最高,在南非(ZA)和爱尔兰(IE)中的频率也相当高,分别达7.12/MIL和6.89/MIL。可见,《牛津高阶英汉双解词典(第七版)》对on holiday使用范围的表述是不准确的:on holiday在美式英语中使用得极少这是事实,但是其不仅在英式英语中使用得相当多,在南非英语和爱尔兰英语中的使用也相当频繁。

同理,我们对on holiday的对应短语on vacation在GloWbe里也进行了类似的检索,结果如图3所示。

图3 on vacation在GloWbE中20个英语方言区中的使用频率分布情况

由图3可见,on vacation使用频率最高的应该是拉丁美洲的牙买加(JM),其次是加拿大(CA),再次才是美国(US)。在英国使用得比较少,仅1.26/MIL。因此,我们不能认可《牛津高阶英汉双解词典(第七版)》“on vacation,是美式英语,很少在英国英语中使用”的表述。

(三)GloWbE对英语方言中句法/语法的研究

GloWbE可以对英语相关句法/语法结构进行检索对比和研究。比如我们想要观察英语stop+someone+V-ing这一句法结构在20个英语方言区国家的使用频率的分布情况,只要在GloWbE中的检索入口 WORD(S)处输入[stop][p*][v?g*],显示方式选图标,检索范围选忽略即默认这20个国家。然后运行检索引擎,检索结果如图4所示。

图4:stop+someone+V-ing在GloWbE中的使用频率分布情况

由图4可以看出,stop+someone+V-ing这一句法结构在英国(GB)英语中使用频率最高,达11.45/MIL,其次主要使用在爱尔兰(IE)、澳大利亚(AU)和新西兰(NZ)这3个英语方言国,在美国和加拿大英语中使用的频率很低,分别为1.16/MIL和0.65/MIL。实际上 stop+someone+V-ing这一句法结构是由stop+someone+from+V-ing结构省略了其中的介词from得到。对这一句法结构中的from能不能省略,相关语法书明确指出from可以省略,并且语义和用法没有什么差别,比如在《英语常见问题解答大词典》中就说“现代语言学家们认为stop sb.doing与stop sb.from doing两个结构意思是相同的,其中的from是可有可无的”[3]。事实果真如此吗?我们用同样的方法在GloWbE中检索输入WORD(S)输入[stop][p*]from[v?g*]这一检索语法,得到stop+someone+from+V-ing这一句法结构在GloWbE中的使用频率分布情况,如图5。

图5 stop+someone+from+V-ing在GloWbE中的使用频率分布情况

由图5可见,stop+someone+from+V-ing这一句法结构在英国(GB)、爱尔兰(IE)、澳大利亚(AU)和新西兰(NZ)的使用频率差异不大,波动范围在5.67/MIL~8.56/MIL。这与图4反映的stop+someone+V-ing主要使用在英国(GB)英语方言中形成了鲜明的对比。因此,从在20个英语方言区使用频率来讲,这两个结构中的from省略与否是有所区别的:省略from的使用情况主要是在英国英语方言中,频率达到11.45/MIL,在爱尔兰、澳大利亚和新西兰英语方言国中使用频率约在6/MIL左右,在其他的方言国中使用频率很低;而不省略from的情况,在英国(GB)、爱尔兰(IE)、澳大利亚(AU)和新西兰(NZ)使用频率相差不大。我们认为相关英语语法书在对这两个结构进行比较和解释时,最好能将其在不同方言区使用频率情况的差异告诉学习者,以利于学习者认识这两个句法结构在不同方言中的使用差异。

(四)GloWbE对英语方言中语义的研究

GloWbE可以对英语方言中语义进行相关对比和研究。通过语料库观察词的语义差异的传统方法是通过检索该词的所有形符(token)或随机抽样(randomized)形符,然后研究其用法模式以考察其语意差异,耗时费力[4]。但是如果使用架构合理的语料库,就能简明和快速实现对词语语义差异的考察。语料库语言学中的一个核心观念是“我们可以通过一个词的伴随词知其语义”[5]。如果我们检索找到一个词的所有搭配(collocates)的历史变化情况,这些搭配就能表明其语义的历史变化情况。我们在GloWbE中的检索入口WORD(S)处输入[trunk].[nn* ],同时双击打开搭配选框 (COLLOCATES),在里面输入[nn*]和限定范围为前后4个词,显示方式选列表(LIST),检索范围选United States和Great Britain,这样就能检索到美式英语和英式英语方言中所有与trunk搭配并与结点词相距4个词之内的相关名词,检索结果如表1所示。

由表1可见,在美国英语中,与trunk搭配最多的名词是club、release和cars等8个词,进一步观察这8个词所在的语境(KWIC),可以得出trunk在这8个搭配中的语义是“汽车”或“汽车后备箱”;而在英国英语中,与trunk搭配最多的是roads、rotation和strength等8个词,进一步观察这8个词所在的语境,可以得出trunk在这8个搭配中的语义是“(公路)主干道”。由此可见,同一个词trunk在英国英语和美国英语这两个方言区中的语义是有很大差异的。

表1 在美国英语方言和英国英语方言中,与trunk搭配的名词对比

(五)GloWbE对英语文化方面的研究

GloWbE还可以对这20个英语方言国家中的英语方言进行文化方面的比较研究。一个国家的语言是该国文化的反映,因此,通过观察一个国家的语言中的词汇、搭配和表达方式就可以考察该国的特定文化现象、宗教信仰和国民的文化观念等。GloWbE提供的这20个英语方言区国家,虽然英语是它们最主要的交流语言,但是它们使用的英语方言是有差异的,通过对它们使用的英语方言进行相关检索,可以发现这些国家在文化现象、宗教信仰和文化观念方面的差异。可见,GloWbE实现了由单独对英语词汇、短语、句法和语义的研究拓展到语篇和文化方面的研究,还实现了同时对这20个英语方言区国家的文化现象、文化观念的对比,这是BNC、ANC、COCA和COHA等语料库不能现实的,因为这些语料库只以英式英语或美式英语为语料来源。在GloWbE中的检索入口 WORD(S)处输入[sex].[nn* ],同时双击打开搭配选框,在里面输入[j*]和限定范围为前后4个词,显示方式选列表,检索范围Section A选 the United States、Great Britain 和 Canadian,检索范围Section B选 India、Pakistan和 Malaysia,分类方式(Sorting)选然“频率”(Frequency),后运行搜索引擎后得到结果如表2。

表2 与sex搭配的形容词在核心英语方言区与非核心方言区的差异① 运行搜索引擎得到的结果,在GloWbE中真实的显示方式是以列表的形式分左右两大栏,每栏表格中包括与sex搭配最紧密、最常见的形容词按Ration顺序大小排列,共计各100个;表中还分别显示了这些形容词在“美国/英国/加拿大”和“印度/巴基斯坦/马来西亚”的形符频数Token 1和Token2,以及它们对应的标准化频率PM1和PM2。限于篇幅,在表2中只列举了两类方言区中与sex搭配最频繁的前8个词。

由表2可见,在美国、英国和加拿大这些西方发达国家(即本文所说的英语核心方言区),国民对性(sex)的态度与非核心方言区的国民对性的态度差异很大,如同性性交(gay sex)和随意性关系(casual sexual)等,这些搭配方式反映出西方核心英语方言区国民对性的开放程度和对非正常性交的接受程度。核心方言区这种独特的性观念和文化与20世纪60年代“性解放思潮”在美国风行并扩散到西方其他发达国家有密切的关系。性解放思潮是一种要求性行为绝对自由的资产阶级思潮,②http://baike.baidu.com/view/1977647.htm否认两性关系的社会性,把肉体感官特别是性感官的快乐视为人生最大的快乐和幸福,视为自我解放和谋求幸福的唯一途径。从伦理学上看,性解放思潮是极端利己主义和自由化在两性关系方面的非道德化的表现,其核心是享乐主义。而在印度、巴基斯坦和马来西亚(即英语非核心方言区),从非法性交(illicit sex)、双方同意条件下的性交(consensual sex)和美好的性(good sex)等的搭配可以看出他们对性的态度和观念仍然比较传统,把性看成是一种男女双方神圣的、私密的事。尽管在非核心方言区也出现了诸如“anal sex”之类的搭配,但是这样的搭配使用频率是排在后面的,是居次要位置的,这可能是受西方性解放观念和现在网络媒体宣传的影响,西方的一些开放的性观念逐渐向这些非核心英语方言区渗透的结果。尽管在核心方言区和非核心方言区人们对性的观念存在着很大的差异,但是也有共同的东西:美好的性(great sex),这是人类共享的认知——性是美好的、令人愉悦的和给人带来享受的。可见,通过在GloWbE中对与sex搭配的形容词的检索,可以帮助人们从语言层面来观察和认识不同方言区的国民对性等相关文化观念的差异,从而为从语料库角度来研究文化现象打开了一个新的窗口。

四、结束语

GloWbE语料库的建立为英语方言变体的全面比较研究提供了新的工具和视角,实现了基于真实语料对英语变体从词汇、短语、句法、语义到语言文化的各层面的跨国和跨区域比较研究。由于GloWbE语料库中的语料基本真实地反映了这20个英语方言国家的语言实际使用情况,因此,基于GlowWbE的实证研究得出的结论能够反映这20个国家的英语方言使用的实际情况和变化规律,比内省式研究得出的结论更可靠,更符合语言变体使用的实际情况。

[1] [英]理查兹.语言教学及应用语言学辞典[M].北京:外语教学与研究出版社,2002:133.

[2] Hornby A S.牛津高阶英汉双解词典[M].7版.北京:商务印书馆,2009:803.

[3] 赵振才.英语常见问题解答大词典[M].哈尔滨:黑龙江人民出版社,1999:1098.

[4] Davies,M.Expanding horizons in historical linguistics with the 400-million word Corpus of Historical American English[J].Corpora,2012(2):121 -157.

[5] Firth J R.Papers in Linguistics 1934-1951[M].Oxford:Oxford University Press,1957:179.

猜你喜欢

变体语料语料库
基于DDPG算法的变体飞行器自主变形决策
《语料库翻译文体学》评介
非仿射参数依赖LPV模型的变体飞行器H∞控制
基于语料调查的“连……都(也)……”出现的语义背景分析
基于COCA语料库的近义词辨析 ——以choose和select为例
《庄子》成语的隐喻转喻特点及其变体的认知构式研究
耀变体喷流高能电子谱的形成机制
基于JAVAEE的维吾尔中介语语料库开发与实现
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法