BYU语料库系统及其语言研究应用*
2017-05-16刘喜琴MarkDavies
刘喜琴,Mark Davies
(1.华南理工大学外国语学院,广东广州510641;2.DepartmentofLinguisticsand English Language,Brigham Young University,Provo,U tah,USA 84602)
BYU语料库系统及其语言研究应用*
刘喜琴1,Mark Davies2
(1.华南理工大学外国语学院,广东广州510641;2.DepartmentofLinguisticsand English Language,Brigham Young University,Provo,U tah,USA 84602)
美国杨百翰大学(BYU)的语料库系统现含10多个免费语料库,在规模、速度、检索方式、语料范围等方面均为同类之最。文章在简要介绍该系统的最新进展后,从语言资源和技术手段评价其优势与局限性。然后收集国内外基于该系统的重要前沿研究文献,建成小型文本,用AntConc软件输出其高频主题词,从而分析相关研究的热点和趋势。发现相关研究集中在如下互为交叉的领域——变异语言学、认知语言学、词汇语义学和语言习得或教学。最后从语言研究、外语教学与词典编纂三方面分析了该系统的应用前景,强调它在语言变异和认知语言学研究等方面的特殊意义,并阐述了相关研究的跨学科整合趋势。
BYU语料库系统;美国当代英语语料库;语言变异;认知语言学
一、BYU语料库系统简介
1.总体介绍
美国杨百翰大学(Brigham Young University)的语料库系统(www.corpus.byu.edu)由Mark Davies教授创建,目前主要包括11个英语语料库、西班牙语和葡萄牙语语料库各一个。这些语料库之间实现了无缝对接,相互补充,检索一致,自成体系,故称为“系统”。它们应用非常广泛,中国用户数量排世界前列。各库规模、语种(方言)、语料年份及发布年份如表1所示(Davies 2013c)。
最具代表性的是美国当代英语语料库COCA(Davies 2008-),是目前世界上最大的英语通用语料库,分口语、小说、报纸、流行杂志和学术期刊五个均匀的子库。此外还有四个谷歌图书语块库(Google Books)的高级检索平台,以及早期的几个语料库——Register Variation in Spanish、Polyglot Bible、Polyglot Book of Mormon、Medieval Spanish bibles和Latin/OSp/ModSp bibles。
表1 BYU主要语料库
2.最新进展
BYU语料库系统的新成员NOW Corpus、GloWbE和TheWikipedia Corpus规模巨大,但检索速度很快,是Sketch Engine或CQPWeb的五六倍。The WikipediaCorpus是维基百科的高级检索平台,其检索功能远远超过维基百科原有系统,用户还可以挑选其语料来创建临时的个人专题语料库(刘喜琴、Davies,2017)。Hansard Corpus和CORE Corpus分别是英国议会演讲和网络英语语体语料,特别适于历时的语体研究。
Google Books的语料年份从16到21世纪,但其原有检索系统比较简单,用户能查到的信息仅是“冰山一角”。为挖掘该库潜能,Davies(2011a)设计了更为高级的检索平台(www.googlebooks.byu.edu),分美国英语、英国英语、百万图书、西班牙语四个子库。除词和词组外,可以检索子字符串(如*ake代表所有以ake结尾的词)、词目(如start的所有屈折变化形式)、词类(如“形容词+ woman”)、同义词和搭配(相邻词)等。当然也可在此基础上组合查询,如“形容词+silliness的同义词”,以及一些特别的句法结构。改进后的检索系统使基于Google Books的英语词汇、短语学、句法、语义变化方面的研究成为可能(Davies 2014c)。
此外,BYU语料库系统发布了几类基于COCA等的英语词频表——常用词词频表、多词单位(n-gram)频率表、搭配词(collocate)表和学术词表,大部分含文体分布信息。第一,常用词频表(www.wordfrequency.info)包括常用5,000词表、5,000-60,000词表和100,000词表。据该网站介绍,前面两个词表按词目(lemma)排序统计,可能更适合教学用,而最后一个词表按词形(word form)排序统计,含词汇屈折变化形式的频率信息,可能更适于研究用。第二,多词单位频率表(www.ngrams.info)含2至5词单位,其中百万高频多词单位表可免费获取。第三,搭配词表(www.collocates.info)中含节点词(node)与搭配词组合达430万对,是迄今世界最大、最精确的搭配词表。最后,学术词表(www.academicvocabulary.info)有三个:学术词族表(word families)、核心词表和总词表。该学术词族表接近Coxhead(2000)的英语学术词表,但提供的信息更丰富。学术核心词表含三千词,学术总词表含两万词。
二、BYU语料库系统评价
1.语言资源
从语言资源层面来看,BYU语料库系统的特点主要体现在规模、语料范围与分类以及词频表。
首先,其最大特色是语料库规模大、语料丰富,因此用户能检索到其他语料库无法查到的低频语言现象。加之COCA和GloWbE的部分语料原文和词库可下载,可进一步挖掘其语言资源。
其次,它语料来源范围广,且按地域、时间和文体三个维度进行分类,是观察语言变异(variation)的良好窗口。就地域而言,GloWbE和TheWikipedia Corpus的英语变体最多,COCA、BNC和Strathy语料库分别是是美国、英国和加拿大英语语料库。就时间而言,COHA的语料跨1810-2009这两百年,TIME跨1923-2006年,它们和COCA都可以分时段检索,每十年为一段。就文体而言,COCA语料分五大类37小类,加拿大Strathy分七类。NOW Corpus、Hansard Corpus、TIME和SOAP等分别代表不同文体。
最后,它提供的四类英语词频表在精确度、信息丰富程度为同类之最,这显然是因为有最强大的语料库支撑,且包含了词类、文体、时间段等各种信息,故利用价值特别大。
2.技术手段
BYU语料库检索系统基于关系数据库,这种基于浏览器—服务器、语料库与分析工具合二为一的软件系统,是在互联网语料库(web as corpus)和云计算(cloud computing)的影响下应运而生的(许家金、吴良平,2014)。其语料按特定格式存储于服务器,用户只要联网即可操作分析。从技术上来看,BYU主要有如下优势。
首先,它界面友好,查询方便,检索方式多样,检索功能强大。若对比BNC和Google Books的原有系统与BYU平台,就能凸显其优越性。仅就其句法检索而言,像[start]to VERB(CHART|TABLE)、[end]up VERB-ing(CHART|TABLE)以及who/whom+did+PRON(如who/whom did you(VERB))这类检索,在Google Books原有系统中只能逐个输入确切词组,耗时可能达到数天甚至数月,但BYU系统只用输入一次,仅需数秒时间(Davies 2011a)。至于搭配检索,在Google Books原有系统中仅能查询确切的语块,如[wear]+a NOUN或VERB +his laughter,但在BYU系统中可以查询名词附近的wore,或者laughter附近的动词(Davies 2011a)。在数据结果呈现上,Google Books原有系统提供的仅是数据“曲线图”,BYU系统则可将原文数据拷贝到其他应用软件来进行比较分析,二者不可同日而语(Davies 2011a)。
其次,该系统“跨时空检索”的特征是同类语料库系统很少具备的。系统内部各库实现了无缝对接,用户可自由跳转,如对比某语言现象在COCA与BNC中的分布异同。还有,因为其语料是按地域、时间和文体进行分类,使各种精确分类检索成为可能。以其Google Books为例,可比较一个语料库内部的两个不同时间段,如对比1960-2000年和1870-1910年这两个时间段中描述女性、艺术或音乐的形容词(Davies 2011a)。
再次,系统响应速度快,包括执行复杂检索任务时。它充分发挥了微软关系数据库技术的优势,这是第三代语料库分析工具——本地检索软件AntConc(http://www. laurenceanthony.net/software/antconc/)和Wordsmith Tools(http://www.lexically.net/wordsmith/)等无法比拟的。
最后,标注比较完善,词类标注准确率高。词频表可按词类检索,这也是少见的。其多词单位频率表因含有词类信息,可进行特别的查询,例如所有的“名词+名词”组合,或者“第一单词以某个字母开头、第二个单词以另一字母开头”的二词单位(Davies 2011b)。
当然,该系统除了以上优势特点外,有些方面仍有待完善。第一,因版权等原因,该系统未能开放其应用程序编程接口(API),专业人员无法以编程方式从某个端口获取数据查询结果,做成个性化软件,进行第二次开发。第二,限于世界范围内自然语言处理的瓶颈,语义标注的道路还很漫长,未来美好的梦想是能将WordNet那样的词汇数据库集成到这类在线语料网站。最后,一些复杂检索功能有待实现,如Google Books检索界面可查某词左边或右边的搭配情况,但两个条件不能同时限定。
三、语言研究应用的现状与前景
1.应用现状
基于该语料库系统的相关研究每年有数百项,因无法穷尽收集,我们通过如下两个途径来综合分析目前研究的热点与趋势:第一,收集具有代表性的论文共100篇(大多来源于SSCI期刊),做成小型文本库,用BNC高频词表(含6318词)做参照,用AntConc软件析出其主题词表;第二,收集852篇相关文献标题和关键词做成文本,用AntConc析出词频表。这两个词表中的非英语单词一律译为英语。
综合这两个词表的高频实义词,分类如下:①“语料库”类有COCA、BNC、COHA、TIME、corpus、corpus-based、corpus-driven;②“研究人员”类有Davies和Gries;③“词汇”类有word、vocabulary、lexical、verb、noun、adjective、preposition、modal;④“语块”类有collocation、phrase、idiom (atic)、pattern、formulaic;⑤“语言变异”类有variation、diachronic、comparison;⑥“认知语言学”类有cognitive、construction(al)、metaphor、grammaticalization;⑦“词义”类有semantic(s)、synonym;⑧“语言学习”类有EFL、learner、acquisition、teaching、effect;⑨“频数与使用”类有frequency、use、usage、pragmatic(s);⑩“话语与小句”类有discourse、clause。其他还有English、American、Spanish、linguistic(s)、dictionary、translation、morphology、grammar等表示研究对象或领域的词。
根据以上两个词表查看索引行与原文献,得知相关研究集中于英语词汇和语块,特别是动词、名词、形容词和介词,主要涉及如下互为交叉的领域——变异语言学(variational linguistics)、认知语言学、词汇语义学和语言习得或教学,现仅举数例说明。
在变异语言学方面,主要涉及词汇的历时和共时变异,也有从词汇和语块入手研究语体(文体)差异的研究。Liu(2011)对比了英、美英语最高频短语动词,以及书面学术文体中的高频语块_ENREF_28。Leech(2011)认为情态动词的使用有降低趋势,Lindquist(2009)观察了but、global warming等的变化,Smith(2014)研究了英语口语和书面语新出现的主从连词,Andersen(2014)以英语和挪威语为例研究了语用借用。Brown&Jie(2014)考察了新加坡英语变体。
在认知语言学方面,集中于构式(construction)、概念隐喻(conceptualmetaphor)和语法化(grammaticalization)等。Goldberg(2011)从构式语法的角度研究了与格结构与双宾结构,Brinton(2014)考察了“as if”从语用化到构式化的过程。Oster(2010)从隐喻和转喻角度研究了表示“fear”意义的英语词,Simó(2011)对比了英语和匈牙利语中的blood隐喻,Zetterström(2013)_ENREF_31基于不同文体分析了battle和fight的隐喻。Nykiel(2014)考察了英语目的连词的语法化过程。
在词汇语义学方面,集中于同义词辨析与词汇多义性研究,如Liu&Espino(2012)采用了Gries(2010)的Behavioral Profile(BP)分析法和Collostructural Analysis等语料库统计分析工具。另外,Ajsic(2014)考察了波斯尼亚语的政治性英语外来词,Lindstromberg(2010)研究了一批表示时间和空间的介词。
在语言习得或教学方面,也有多项对比研究。Liu& Zhong(2014)对比了一语和二语的同义词习得,对比了高、低学习水平组学术写作的立场标记,Chen(2013)对比了中、英、美三国学生英语短语动词的多用和少用情况。Davies&Gardner(2015)探索了大学生基于语料库的词汇学习途径,Chang(2014)研究了英语学术写作,Szudarski&Conklin(2014)探讨了背诵对二语搭配习得的效果_ENREF_16。
国内相关研究也逐步增加。王仁强、陈和敏(2014)以sneeze及物动词用法的规约化为例研究了动词与构式关系。方子纯、陈坚林(2014)采用BP分析法辨析了immense等几个表示“巨大”的同义词,揭示了其内部语义结构。于昌利(2014)对“a(n)...of...”类延展数量型结构进行了功能语法分析。外语教学的相关实证研究也多基于COCA,如方玲、汪兴富(2010)引导学生将其应用于自主学习,张金福(2012)用于大学生写作的词汇应用能力研究。
总体上,相关研究的特点是语言内部的共时与历时对比研究、跨语言对比研究日益增加,语种从英语辐射到西班牙语等。
2.应用前景
下面从三个方面分析BYU语料库系统在该领域的应用前景——语言变异和跨语言对比研究的拓展、认知语言学研究内容的深化、跨学科整合式研究的趋势。
首先,语言变异和跨语言对比研究牵涉语言学内部多个分支,如方言学、社会语言学、文化语言学、历史语言学、语言类型学等,其实证转向(empirical turn)和定量范式(quantitative paradigm)使之日益依赖于大型语料库来考察语言这个“有序异质体”系统。相关文献指出它在研究语言变异与对比的独特优势(Davies 2013b),如怎样利用BYU的Google Books进行英语历时变异研究(Davies 2014c),研究全世界英语地域变体的差异(Davies&Fuchs 2015)以及英语句法变异(Davies 2014a)、Google Scholar和COCA在进行学术英语文体研究时有何差异(Davies 2013a)以及网络语体分类方法(Davies et al.2015)。
其次,认知语言学同语料库语言学一样,支持以意义为中心、基于使用的(usage-based)语言理论,都认为“词汇和语法是不可分的”,前面的几组高频主题词就充分体现了这点。它在认知语言学领域的应用,不仅是提供例证和频率统计,而且发展到了数据计算、与其它实证手段日益结合的阶段。有BYU如此强大的语言仓库,认知语言学的研究内容可大大深化,特别是从搭配型式(pattern)出发、针对语言使用变异的构式语法(Construction Grammar)和认知词汇语义学研究,如Claes(2014)从认知构式语法的角度研究了西班牙语中存在构式(相当于“there is/are”)的复数化趋势。这当然是得益于该系统灵活而强大的句法及搭配检索,它能帮助研究者瞬间实现构式(或型式)检索,如VERB someone into VERB-ing(CHART|TABLE)、VERB one'sway PREP(如“force hisway into”)等,这是一般语料库无法做到的。
最后,跨学科整合式研究趋势势不可挡,主要体现在以下三点。第一,心理学、认知神经科学的语言认知实验结果往往要与语料库相互验证,二者合成汇流证据(converging evidence)。如Tanner et al.(2014)用事件相关电位(ERPs)研究了主谓一致的理解,Leshinskaya& Caramazza(2014)用功能性核磁共振成像(fMRI)研究了动作动词的理解,均用COCA提供语料佐证。但是,语料库显示的高频语言现象并不一定具有心理显著性,因此学科交叉中也面临一些挑战。第二,语言学研究者需要和计算机技术人员加强合作。前者需要后者的技术指导,如BYU语料库系统提供的COCA和GloWbE语料原文和词库,含有SQL数据库格式,需要数据库专业知识才可实现如下复杂检索:COCA学术—科技子库中最高频1000个名词、中间位置为point的最高频500个三词单位(3-gram)、动词break后第4个位置搭配词中的最高频200个名词(Davies 2014b)。反过来,自然语言处理要在语料库的语义标注上取得实质性进展,必须依赖语言学研究成果,才能最终打破制约语料库资源利用的这个瓶颈。第三,语料库数据庞大,统计学方法显得尤为重要,像Gries等用R语言开发的语料库统计软件,优势十分明显。
总之,BYU语料库系统在规模、速度、检索方式、语料范围等多个方面上都堪称世界第一,在语料库历史上留下了浓墨重彩的一笔。它虽有些不完美之处,但瑕不掩瑜,蕴藏了巨大潜能。它从共时和历时双重角度大大拓宽了语言研究的视野,特别是从认知语言学的角度进行语言变异的实证研究。
[1]Ajsic,A.Political loanwords:Postwar constitutional arrangement and the co-occurrence tendencies of anglicisms in contemporary Bosnian[J].Journalof Language and Politics,2014.13(1),21-50.
[2]Andersen,G.Pragmatic borrow ing[J].Journal of Pragmatics.2014(67):17-33.
[3]Brinton,L.J.The extremesof insubordination exclamatory as if[J].Journal of English Linguistics,2014,42(2): 93-113.
[4]Brown,D.W.&T.S.Jie.Singapore English and styling the Ah Beng[J].W orld Englishes,2014,33(1):60-84.
[5]Chang,J.-Y.The use of general and specialized corpora as reference sources for academ ic English w riting: A casestudy[J].ReCALL,2014,26(Special Issue02):243-259.
[6]Chen,M.Overuse or underuse:A corpus study of English phrasal verb use by Chinese,British and American university students[J].International Journal of Corpus Linguistics,2013,18(3):418-442.
[7]Claes,J.A Cognitive Construction Grammar approach to the pluralization of presentationalhaber in Puerto R ican Spanish[J].Language Variation and Change,2014,26 (2):219-246.
[8]Coxhead,A.A new academ ic word list[J].TESOL Quarterly,2000,34(2):213-238.
[9]Davies,M.Theadvantageofusing relationaldatabases for large corpora:Speed,advanced queries,and unlim ited annotation[J].International Journal of Corpus Linguistics, 2005,10(3):301-328.
[10]Davies,M.TheCorpusofContemporary American English:450 m illion words,1990-present[DB/OL].http:// corpus.byu.edu/coca/(accessed 11/01/2015).
[11]Davies,M.Google Books(American)[DB/OL]. http://googlebooks.byu.edu/x.asp(accessed 11/01/2015).
[12]Davies,M.N-grams data from the Corpus of Contemporary American English(COCA)[DB/OL].http: //www.ngrams.info(accessed 11/01/2015).
[13]Davies,M.Google Scholar vs.COCA:Two very different approaches to exam ining academ ic English[J]. JournalofEnglish for Academ ic Purposes,2013(12):155-165.
[14]Davies,M.Insight into variation[DB/OL].http: //corpus.byu.edu/variation.asp(accessed 11/01/2015).
[15]Davies,M.Introduction to the BYU corpora [DB/OL].http://corpus.byu.edu(accessed 11/01/2015).
[16]Davies,M.Exam ining syntactic variation in English:The importance of corpus design and corpus size[J]. English Language and Linguistics,2014,19(3):1-35.
[17]Davies,M.Full-text corpusdata[DB/OL].http:// corpus.byu.edu/full-text/database.asp(accessed 01/01/2015).
[18]Davies,M.Making Google Booksn-gramsuseful for aw ide range of research on language change[J].International Journalof Corpus Linguistics,2014,19(3):401-416.
[19]Davies,M.,D.Biber,&J.Egbert.Exploring the composition of the Web:A corpus-based taxonomy of W eb registers[J].Corpora,2015(10):11-45.
[20]Davies,M.&R.Fuchs.Expanding horizons in the study of world Englishes w ith the 1.9 billion W ord Global Web-Based English Corpus(GloWbE)[J].English W orld-W ide,2015,36(1).
[21]Davies,M.&D.Gardner.A corpuslinguisticapproach to vocabulary learning for university students[A].In Evans, N.,N.Anderson,&W.Eggington(Eds.),ESL Readers and W riters in Higher Education:Understanding Challenges,Providing Support[C].London:Routledge,2015.
[22]Goldberg,A.E.Corpus evidence of the viability of statisticalpreemption[J].Cognitive Linguistics,2011,22(1): 131-153.
[23]Gries,S.T.Behavioral Profiles:A fine-grained and quantitative approach in corpus-based lexical semantics [J].The M ental Lexicon,2010,5(3):323-346.
[24]Leshinskaya,A.&A.Caramazza.Nonmotoraspects of action concepts[J].Journal of Cognitive Neuroscience, 2014,26(12):2863-2879.
[25]Lindquist,H.CorpusLinguisticsand theDescription of English[M].Edinburgh University Press,2009.
[26]Lindstromberg,S.English Prepositions Explained [M].John Benjam insPublishing,2010.
[27]Liu,D.Is it a chief,main,major,primary,or principal concern?A corpus-based behavioral profile study of the near-synonyms[J].International Journal of Corpus Linguistics,2010,15(1):56-87.
[28]Liu,D.&M.Espino.Actually,Genuinely,Really, and Truly:A corpus-based Behavioral Profile study of near-synonymousadverbs[J].International JournalofCorpus Linguistics,2012,17(2):198-228.
[29]Liu,D.&S.Zhong.L2 vs.L1 use of synonymy: An empirical study of synonym use/acquisition[J].Applied Linguistics,2014,37(2):239-261.
[30]Nykiel,J.Grammaticalization reconciled:functionalist and minimalist insights into the development of purpose subordinators in English[J].Language Sciences,2014 (42):1-14.
[31]Oster,U.Using corpusmethodology for semantic and pragmatic analyses:What can corpora tell usabout the linguistic expression of emotions?[J].Cognitive Linguistics, 2010,21(4):727-763.
[32]Simó,J.Metaphors of blood in American English and Hungarian:A cross-linguistic corpus investigation[J]. Journalof Pragmatics,2011,43(12):2897-2910.
[33]Sm ith,A.New lyemergingsubordinatorsin spoken/ w ritten English[J].Australian Journal of Linguistics,2014,34 (1):118-138.
[34]Szudarski,P.&K.Conklin.Short-and longterm effectsof rote rehearsalon ESL learners'processing of L2 collocations[J].TESOLQuarterly,2014,48(4):833-842.
[35]Tanner,D.,J.N icol,&L.Brehm.The time-course of featureinterferenceinagreementcomprehension:Multiple mechanismsand asymmetricalattraction[J].JournalofMemory and Language,2014(76):195-215.
[36]Zetterström,M.The Battlefield of the Human Body Revisited-M etaphors and Cancer:A Comparison between Genres[D].Stockholm University,Stockholm,2013.
[37]方玲,汪兴富.美国当代英语语料库(COCA)的自主学习应用[J].中国外语,2010(6):79-84.
[38]方子纯,陈坚林.基于语料库的同义形容词行为特征研究[J].外语教学与研究,2014(6):842-852.
[39]刘喜琴.语料库辅助EFL自主学习的多维探索[M].广州:华南理工大学出版社,2013.
[40]刘喜琴,M.Davies.个性化虚拟语料库及其应用[J].中国信息技术教育,2017.
[41]王仁强,陈和敏.基于语料库的动词与构式关系研究——以sneeze及物动词用法的规约化为例[J].外语教学与研究,2014(1):19-31.
[42]许家金,吴良平.基于网络的第四代语料库分析工具CQPweb及应用实例[J].外语电化教学,2014(5):10-15.
[43]于昌利.A(n)...of...类延展数量型结构的功能语法分析[J].外语教学与研究,2014(3):375-388.
[44]张金福.基于美国当代英语语料库对中国学生英语作文中词汇应用能力研究[D].上海:上海外国语大学,2012.
(编辑:王天鹏)
H 319.3
A
1673-8454(2017)09-0038-06
广东省哲学社会科学“十二五”规划项目(GD15XWW 23);2016年度广州市哲学社会科学发展“十三五”规划课题(2016GZGJ68)。