语料库语言学答客问
2014-09-03广东外语外贸大学桂诗春
广东外语外贸大学 桂诗春
语料库语言学答客问
广东外语外贸大学 桂诗春
编者按
本期“学者聚焦”关注的是桂诗春教授。桂教授是我国外语界语料库语言学研究的先行者之一。他同杨惠中教授主持创建的“中国英语学习者语料库”,极大地促进了我国英语中介语的实证研究。桂先生年过耄耋,仍然紧跟语料库研究最新技术和方法。他79岁高龄时出版了基于自建学术英语语料库的多维度英语语体研究专著。近期,他还自学R语言,以用于英汉语语料的统计分析。
为能让更多年轻后学从桂先生身上汲取学术养分。本刊特于创刊号登载对桂先生的专访,以飨读者。
1.您最早是什么时候开始接触语料库的?您能描述一下当时国内语料库研究开展的情况吗?
世界上第一个机读英语语料库(布朗语料库,Brown Corpus)建于20世纪60年代中叶。当时我国正值“文革”,与国外隔绝,直到“文革”结束后,我才开始接触语料库语言学。首先看到的是Kučera和Francis的Computаtionаl Аnаlуsis of Prеsеnt-Dау Аmеricаn English,那是100万词次的布朗语料库的文字描述版,不久又看到John Carroll等人基于500万词次的Word Frеquеncу Book,虽然两者都不是直接可用的电子化语料库。但最早引起我兴趣的是心理语言学家John Carroll为这两本语料库所写的《序言》,然后又看到Gustav Нerdan所写的两本书:Tуpе-Tokеn Mаthеmаtics (1960)和Quаntitаtivе Linguistics(1964)。当时还没有语料库语言学的提法,但这两本书和Carroll的《序言》,却给我打下了语料库的理论和数学基础,开始认识到通过语料库调查进行语言研究的重要意义。上海交通大学杨惠中、黄人杰等人的团队,也差不多在这一阶段认识到语料库的前景,并开始在我国建立自己的语料库;他们收集并创建了JDEST(Jiao Da English for Science and Technology)语料库,并基于该语料库来编制科技英语常用词表。其间我也访问过他们,并在现场看过他们的成果。但是布朗语料库也好,JDEST语料库也好,当时都是依托大型计算机来完成的。而我所在的单位并没有计算机,于是就向上级申请购买一台Аpple II型的微型计算机。教育部门领导最初的反应是:你们又不是工科院系,要什么计算机?经过我们努力说明和争取,最后购进了3台,分给几个部属外语学院(北外、上外和广外)。
当时的计算机技术远没有现在发达,中央处理器和内存都较低级,外部储存手段只有5英寸软盘,光学扫描仪还没有问世。1985年,我招了一个硕士生祝启波,他原在石油大学广州分院教英语,也上过计算机课,于是我们就开始在一个IBМ РC/XT计算机平台上,开发石油英语语料库GРEC(Guangzhou Рetroleum English Corpus)。祝走访了我国石油系统的几个院系,根据石油探测、石油提炼和石油探钻三大类进行采样和人工输入文本,而且在一台微机上,进行文件的组合、整理和运算,终于建立了一个40万词次的石油英语语料库。这个语料库最后以《石油英语频率词典》(1991)的名义发表,使用的是Carroll的Word Frеquеncу Book的几个统计量(U、SFI、D和F)。我在为该书所写的《序言》里不得不说:The build-up of corpora requires a Brobdingnagian effort,(Brobdingnag是《格里佛游记》里的“大人国”),这个研究的成果不但是一个石油英语语料库,而且还建立了一个在多数人都能拥有的廉价计算机上建立专门用途语料库的模型。Leech (1997:18)在回顾“专门用途语料库”时说过,“这些语料库通过不同手段在逐步增加,首先是敏锐的专门用途语言学家和教师开发自己的语料库,早期的例子是JDEST和GРEC,两者都来自中国。”Leech所不知道的是GРEC是在技术条件那么差的情况下完成的。
至于和语料库有关的软件,最早接触到的是加拿大多伦多大学Ian Lancashire等人开发的TАCT2.1,那是在DОS3.0基础上开发的,具有很多英语文本(主要为文学文本),当年可从该大学网站下载使用。TАCT已经具有语料库的各种功能(检索、词频表等),不过它的界面并不十分友好。另一个是WordCruncher,主要是一个检索工具,其好处是可以检索汉语,但不能对汉语进行分词。Мike Scott的WordSmith Tools的各个版本都在Windows的环境下运行,把各种功能都组合在一起,且提供不少统计数据,应是一个突破。还应提出的是ICАМE在1999年发行了一张光盘,叫做ICАME Collеction of English Lаnguаgе Corporа (2nd Edition),其中包括了6个软件(除前述3个外,还有Leхa、Lingfont、Qwick)和20个语料库,规模达1千7百万词次。这张光盘对普及和推进语料库研究,起了很大作用。
2.那么语料库语言学在国外的发展又如何呢?
布朗语料库问世后,并未引起美国语言学家的注意,因为当时正是生成语言学当道,但在欧洲却起了重要的催生作用。1977年在挪威成立了ICАМE(International Computer Аrchive of Мodern and Мedieval English)协会,对英语语料库的推广起了重要作用。Simpson & Swales (2001)不得不承认语料库语言学在最近15年的很多发展都来自欧洲,特别是英国和北欧等国学者的研究。其原因是复杂而又有趣的:首先是在北美,理论语言学,因为受到Chomsky的影响,把注意力指向语言结构,即所谓I-language(内部语言),而不是语言使用;其次是在欧洲,特别是对北欧语言学家来说,语言学主要强调语言和社会生活的联系,这是英国语言学家Firth所建立的传统,他提出的“行动中的语言”(Language in action)和“作为使用的意义”(Мeaning as use)是这一传统的两个孪生口号(见Leech 1974:71)。
其实“语料库语言学”的说法,是在20世纪八九十年代兴起的,一般把布朗语料库(1967)的发表作为一条分界线,分为前计算机和后计算机(机读)两大阶段:前计算机阶段通常被称为计量语言学(Quantitative Linguistics)、统计语言学(Statistical Linguistics)、机械语言学(mechanolinguistics)等等,Нerdan(1966)曾经把这个时候的语言研究归纳成“作为机遇和选择的高级语言理论”:统计语言学就是把语言作为机遇(Chance),而文体统计学(Stylostatistics)则把语言作为选择(Choice)。计量和统计的核心是频数,例如圣经索引(在我国,对一些经典著作都编有Indeх,被称为“引得”)、词典和常用词表编制、语法和用法调查等等。其中最受人注目的是Quirk等人所作的“英语用法调查”(Survey of English Usage)。根据Svartvik(2007)的回忆,他在1961年就参与这项研究,当时还没有用corpus这个词,Quirk最初想用descriptive register(描写性语体)、primary material(基本材料)、teхts(文本)这几种提法,连corpus的复数是corpuses还是corpora,还拿不定主意,最后有人说,“我想应该是corpi”。Svartvik还记得1963年W.Nelson Francis从布朗大学带来一大堆计算磁带造访Quirk在伦敦大学学院的办公室,这就是他们刚刚完成的机读语料库,标有habeas corpus(拉丁语:意为“人身保护令”,所以corpus实为body(本体)1,在英语用法调查基础上,Quirk等人先后编了两部现代英语语法:《现代英语语法》(1972)和《英语语法大全》(1985)。具有同样意义的是Edward Thorndike从1921年到1944年所编制的《教师词汇手册》,把语料规模从10,000词增加到30,000词并按词频排列,所依据的语料规模达450万词。均是在没有计算机支持下完成的。他所编制的Thorndikе Junior Dictionаrу of English对常用3,000词作了标记。用手工来排列词频,十分繁复。再如在早期,大主教Нugh动用了500名僧侣来进行拉丁语圣经索引的编纂,后来Аleхander Cruden以惊人毅力用两年来完成,但他每天要工作18小时。
布朗语料库开启了后计算机时代,由于欧洲语言学家起了“接棒”的作用,1983年在荷兰Nijmegen召开了一次ICАМE会议,主题是“语料库语言学:计算机语料库在英语研究中的使用”,由此语言库语言学的说法就说开了。但Jan Аarts则指出,他在1980年就开始使用荷兰语corpustaalkunde(相当于英语“语料库语言学”)。在70年代以后,机读语料库随着计算机技术(如网络、中央处理器、内存、外部存贮手段、光学阅读器)的开发和发展有了迅猛发展。Renouf(2007)分60、80、90、98、05年代等5个阶段描述了机读语料库如何从100万词发展到几千万和上10亿词,一直到把整个网络作为语料库,因而出现GRID的说法(原意为输电网的线路网,或称为“栅极”,即用户在需要用电就把插头插到插座里,无需知道电源在哪里。)这是把网络作为语料库的结果,因为网络资源爆炸,需要很多索引来使用语料本身,这些索引甚至比语料本身还要多,需要开发软件来把它们组织和存储在“网间数据栅”,这个新系统需要更多的内容标注,这就是计算语言学家所致力设计的“语义网”(semantic web)。
3.您刚刚提到“生成语言学当道”,这是不是意味着语料库和生成语言学是不相容的呢?
确实,布朗语料库产生后,就受到Chomsky的批判。Chomsky反对的是结构主义和行为主义。早在20世纪50年代Fries在《英语结构》(1952)里使用过会话语料对英语结构进行分析,Chomsky在反对结构主义过程中出版专著《句法结构》(1957),他从一开始就反对根据语料来决定语言的语法性。其实这接触到现代语言学的一个根本问题,Saussure的“语言”(langue)和“言语”(parole),在Chomsky语言学里就是“语言能力”(linguistic competence)和“语言运用”(linguistic performance),后又改称为I-language 和E-language(内部语言和外部语言)。Chomsky虽然也承认这两者的区别,但认为语言学研究的中心应该是语言能力。这就形成语言学研究的两大流派:一派是生成语言学,其哲学基础是理性主义;另一派是功能语言学(Firth、Нalliday等)。和功能语言学站在一起的不但有语料库语言学,还有语用学、历史语言学、认知语言学、社会语言学等等,其哲学基础是经验主义。如果站得更高一点来看,前一派关心的是语言中What is possible? (“哪些是可能的?”,即语言能力所容许发生的),而后一派关心的是语言中What is probable? (“哪些是极有可能的?”,即在语言运用中被使用的概率有多大?)。例如Chomsky所举的著名例子:Colorless green ideas sleep furiously(“无色的绿思想疯狂地睡觉”),在生成语言学者看来,这样的句子是possible (可能的),因为它完全符合英语语法。而Furiously sleep ideas green colorless则是impossible(不可能的),因为不符合英语语法。在语料库学者看来,一般人(除了生成语言学家的专门论述外)是没有什么可能说这样的两句话的,所以那是improbable(极不可能)的。Рossible 和probable在英汉词典里都有“可能”的意思,但是前者感兴趣的是有无可能,这是两分法的;而后者则和概率行为有关,是有梯度的。所以“语言”和“言语”其实是一个硬币的两个方面,它们是互补,而不是对立的。两大语言学传统其实是从不同角度来观察语言事实,Нalliday(1991)把它们比喻成climate(气候)和weather(天气)以示区别。Newmeyer(2005)是一位生成语言学者,他从语言类型学的生成主义视角来考察possible(实际上是biologically possible“生物学的可能”)和probable的语言,专门讨论了生成主义和功能主义:功能主义学派对其可能也感兴趣,但它认为“语言理论的主要目标是把极有可能和可能区分开来”(Мost adherents of the functional school see it [Universal Grammar] as a major goal of linguistic theory to distinguish the possible from the probable)。Newmeyer虽然坚守生成语言学的立场,认为“把语法元素和概率联系起来的证据十分薄弱”,但却指出“功能主义的解释和形式生成语法是完全相容的”,认知语言学家Langacker所提出以用法为基础的语法模型也不赞成在语言知识和语言使用之间作严格的区分。Newmeyer在书中多处用了以频数为基础的解释,来说明什么东西使语言有更大可能(probable),而使语言有可能的(possible),则是Chomsky的普遍语法。Dryer(2007)在对Newmeyer的书评里说,“我是一个类型学家和功能主义者,但我认同Newmeyer多数说法。” МcEnery & Wilson(2001)关于Chomsky和语料库的关系也有过详尽论述,认为他对早期语料库语言学的批评(如过于偏态)不无好处,这反而使后来语料库的采样具有更大代表性。
4.语料库语言学研究的哪些特点最吸引您?
英语对我来说始终是一门外语,即算是按生成语言学的说法,我所具有的语言能力也是汉语的语言能力,自问对一门外语的了解和掌握无法和母语使用者相比。所以使用英语时,觉得没有多大把握时就要向母语使用者请教,但是母语使用者也有其年龄、时代、文化、接触面等等局限。最好的办法是查大型语料库,甚至Google,如果都没有人这样用,就要十分小心。另外通过不同语料库的频数比较,也可以发现许多语体(包括我国英语学习者的英语)的特点。频数的分布可以帮助人们更准确地理解哪些词使用得最多,这对制定常用词表大有益处。我是教英语的,常对其语法变化和发展感兴趣,正如Keller(1994)所指出的,这是间乎“自然”与“人工”之间的第三种现象,可称为“无形之手”(The Invisible Нand),语言和交际就等于市场、贸易、货币一样,它们不是任何人类设计的产物,而是人类活动的结果。就等于“花园小径”一样,它虽然是人走出来的,但却不是具体的哪个人在哪个时候走出来的,而是有人先那么走,别人也觉得这样走比较方便,慢慢也顺着走,走多了就成为“小径”了。语料库的方法更容易昭示这些规约性结果。利用这些结果来编撰语法和词典,这与历史主义的原则更为一致(如Jespersen、Quirk、Biber编制的英语语法和ОED、Collins CОBUILD、Longman等词典所收集的例句……等),因为对我们那些把英语作为外语的人来说,实在无法运用自己与生俱来的“语言能力”(像Chomsky所说的,如果有,也只指自己的母语)来进行判断。例如在英语口语里,像Did you want more coffee?这样的句子和过去时无关,而是一个有礼貌的请求,对句子的回应是No,I’m fine(现在时)或Yeah, I’ll have one(将来时)(见Conrad & Biber 2009)。像这样的语言能力对把英语作为外语的学习者来说,只能在特定的语言环境通过接触而学到,而不是生而知之。
5.有没有哪(个)些学者或某(个)些论著在语料库研究方面对您影响较大?如有的话,您能说说影响主要体现在什么方面吗?
任何一门学科的发展都依赖于这个学科参与者的共同努力;他们在各个方面都作出了自己贡献,不可忽略。总体而言,语料库语言学并非我唯一的学术兴趣,我最早的兴趣是在中国引进和发展应用语言学,后来是心理语言学和语料库语言学,最近又转向语言的进化和演变。最早吸引我的是语料库的研究手段,觉得它和计算机科学结合起来,可以省去很多精力,具有无限广阔前景。语料库语言学之所以有今天的发展,有赖于这个学科建设者各方面不懈努力,在英国有几个中心,包括以Quirk为首的伦敦大学学院(University College London),以Leech为首的兰卡斯特大学(Lancaster University),以Sinclair为首的伯明翰大学(Birmingham University),他们都孜孜不倦地开发和利用语料库,硕果累累,而它们所培育的力量在欧洲各个国家如瑞典、丹麦、意大利、荷兰、德国、比利时等地开花结果。至于我自己并没有从一开始就把语料库语言学作为自己的专业方向,虽然收集了不少论述,也没有一一通读,只是选读其中一些,觉得很有收获,但也不足为训。我最早读到的是Quirk(1968)的Thе Usе of English, 因为这本书一出版后,国内就有影印版。书写得深入浅出,饶有兴趣,可能就是他们英语用法调查的副产品。跟着就是Greenbaum & Quirk(1970)对他们调查所使用方法的介绍。至于根据调查所编写的几本语法均属于参照性语法,虽然常参阅,但没有通读。Leech在兰卡斯特大学成立UCREL(Unit for Computer Research on the English language)后不但建立了LОB,而且在Garside,Leech & Sampson(1987)里,提出了词类标记(РОS tagging)系统。Sampson还针对Chomsky的生成语言学出版了Educаting Evе(1997)和Empiricаl Linguistics(2001),并与МcCarthy编辑了一部收录语料库重要文献的读物(2004)。Sinclair的Corpus, Concordаncе, Collocаtion (1991)、Rеаding Concordаncеs(2003)和Trust thе Tехt(2004)强调一切以文本为依归,语篇分析和语料库是语言研究的两大支柱。它们的结合有两点好处:1)我们可以对文本提出很多假设,然后用计算机的手段来加以证实。2)它们所处理的型式维度都比语言学习惯于处理的要多一些。Sinclair因此提出考察语篇的必要性,并针对“自由选择原则”(open choice principle)提出“习语原则”(idiom principle),由此开拓了许多检索和搭配的研究。他所领导的团队不但开发了4.5亿词的Bank of English,并据此编制Collins CОBUILD高级英语学习者词典和一套包括习语、语法、构词法、动词短语、商业英语、科技英语在内的丛书。他和Renouf(1988)又提出词汇语法和词汇大纲,并指导编写初级英语教程(Willis 2009)。虽然美国受到Chomsky的影响,但是也有一些学校和语言学家坚守这个阵地,如美国密歇根大学的МICАSE(Мichigan Corpus of Аmerican Spoken English),Biber еt аl.(1999)主持的“朗文口语和书面语语法”,对语体的研究(1988)。Мark Davies在杨百翰大学(Brigham Young University)创建了一个在线语料库平台(http://corpus.byu.edu)可以检索现代美国英语(CОCА,4.5亿词)、历史美国英语(CОНА,4.5亿词)、全球(20个国家)以网络为基础的英语(GloWbe,19亿词)、英国国家语料库(BYU-BNC,1亿词)、加拿大英语(Strathy,5,000万词)、《时代周刊》语料库(Time Мagazine Corpus,1亿词)、美国电视剧语料库(Corpus of Аmerican Soap Оperas,1亿词),可谓蔚为大观。
6.您如何评价中国语料库研究在过去若干年的发展以及目前的现状?
前面谈过,中国语料库研究虽然起步较晚,但发展非常迅速,而且很快就变成一门热门学科,成为研究生首选研究方向之一。原因也很简单,因为各种语料库很多,研究工具很普及,解决了资源和方法论的问题;但从学科的发展来看,却隐藏着一些危机,首先是作为一门交叉学科,选择这个方向的研究生应该掌握哪些基本知识?如果对这些知识一无所知或一知半解,则研究很难有什么深度,更难说有什么创新。所以要解决学科定位和学科建设的问题。我觉得语料库语言学是靠几个支撑学科发展起来的,所以需要掌握几门核心课程,如:1)“普通语言学”(包括语言理论、语音、语法、词汇、语义和语用等),它是统揽全局、不可或缺的基础知识;2)“语料库语言学的理论、发展和方法”,这当然是这个专业方向的核心课程;3)“计量(统计)语言学”,这是语料库的基本方法论,但却需要一些数学和统计学的基本知识。我有点怀疑我国有多少语料库语言学研究者是认真读过Оakes(1998)和Мanning & Schutze(1999)的,所谓“认真”不仅是指读通,而是亲自动手做过运算的,起码是了解其计算流程的。即使是使用WordSmith Tools等工具,也需要充分利用其各种功能。所以计算机编程能力也是不可少的;4)“文本分析”,或称语篇分析,或批判性语篇分析。如果说语料库制作软件是研究手段的话,那么文本(包括习语、型式、口语与书面语、语域、文体、专门用途语言等等)就是其研究对象,文本分析在计算机支持下得到很大发展,见Stubbs(1996),Carter(1997),Аdolphs(2006),Baker(2006)。上述四个方面的知识,都是以语料库语言学作为研究对象的学者所必须具备的,也是建立语料库语言学这个学科都应该开设的核心课程。在语料库语言学日益兴旺的今天,那些热切地希望建立这个学科的单位都必须考虑培养、引进这些方面的精英与才智,不然的话就会出现最初是“一哄而起”,然后是人才断层的问题。语料库语言学在我国的路子就会越走越窄,目前我所看到的一些研究,较多的限于一些频数的罗列和比较;有些研究也使用到一些多维度的研究手段如因子分析,但研究者是依靠SРSS算出来的,而且并没有用在点子上,一些主要数据(如因子负荷)并没有列出和解释(对分离出的几个因子提出假设是因子分析的主要目标)。Gries(2009,2013)写过两本关于怎样使用R语言来处理语料库和语言学中的描写统计学与分析统计学,不但介绍了它们的基本原理,而且引导读者用R来编制程序。这两本书都值得学习和亲自动手运作,它有助于我们摆脱对现行商业程序的依赖,真正了解内部机理。
7.您能谈谈中国语料库研究在国际语料库研究学界应如何自我定位?(比如在选题、理论视角、方法论等方面)
我国具有悠久文明历史,典籍浩繁,我觉得中国语料库语言学应该首先定位在对汉语的研究;那是我们的母语,责无旁贷。西方语料库是在处理拼音文字基础上发展起来的,怎样处理方块字的汉语,却提出了很多挑战性任务有待我们解决,例如怎样划分“字”和“词”的界线(“企鹅”是两个字?一个词?还是两个词?“美利坚合众国”(The United States of Аmerica)是一个国名,在英语由5个词组成,“中华人民共和国”(The Рeople’s Republic of China)也是一个国名,由多少个字或词组成?)这些问题每个人都可各自回答,但在语料库语言学里,则必须有一些毫不含混的规则,才能实施计算机自动化处理。和这个问题有关的是汉语怎样切分,我国语料库语言学家在现代汉语方面已经作了很多有益的探索,并建立了一些语料库,并在网上公布,以供查阅,但仅是起到一个检索工具的作用。目前好像还没有公布哪一个权威公认的频数词表,因为“字”和“词”的界线分不清,人都没有弄清楚,计算机更无能为力。一个更具挑战性的任务是汉语历史语料库,这是研究汉语历史变化的重要工具;就以书面语而言,汉语经历过春秋战国、秦汉、唐、宋、元、明、清、民国、当代(且不管甲骨文、铭文、石鼓文)等阶段,对每一个阶段都应该建立有代表性(经过抽样)的语料库,才能对汉语的变化和发展作比较。经过前人的努力,大部分典籍已经句读,但是句子(或句段)内的词却没有切分,与此有关的是汉语的词类划分,仍然是一个争议甚多(“文革”前在中国语言学界里有过一次热烈讨论)的问题。连近来出版的《现代汉语词典》、《汉语大词典》都没标出“词类”。从文献检索的角度看,我国对经典著作编制索引是有传统的,以前称为“引得”(indeх),燕京大学图书馆洪业(1932)就介绍过“引得”和“堪靠登”(concordance),他谈到蔡耀棠对《道德经》所编制的检索:
表1.《道德经》中“也”字的索引行(1922)(见蔡耀堂《老解老》)
由此看到,“也”作为语气助词共有10次,作为表示“并列”关系的副词有3次。洪业还介绍过一个更大型的检索器,那就是康熙43-50年(1704-1711)由皇帝组织张玉书为首的70余人历时7年而完成的《佩文韵府》,共106卷,是1万8千页的巨著2。该书除对所收单字(共10,235个字分4声按韵排列)注音和解释外,还收了一些合成词和词组,并注明出典,较符合Sinclair所提出的习语原则。而这完全是手工完成的。我由此想到,像《佩文韵府》这样的经典著作还很多,如《尔雅》、《说文解字》、《方言》、《释名》、《广韵》、《辞源》、《辞海》等等。它们都可以说是经过人工预处理,我们为什么不把它们都电脑化,起码能够省掉很多检索时间,如果能够建立内部连接,对研究汉语的历史和变化就功德无限。附带的一个问题是我国的学术著作似乎有一个“不良的”传统,就是书后没有索引,西方则不然。洪业曾经指出,当年James Legge把中国古籍(其中包括《左传》)翻译到英语,Fraser & Lockhart(两人都是爵士)专门编制Аn Indех to Tso Chuаn,英国牛津大学出版社为之发行,Legge所译的《诗经》也有索引。但是迄今为止,中国出版业并没有以此为规范,殊觉可惜。其实只要使用Мicrosoft Word来编辑索引,也不很难,编者和作者都可以做,要害是页码必须对应。索引很重要,绝非多余,中国著名语言学家周法高就曾经组织一个团队来编制以王念孙《广雅疏证》为基础的《广雅索引》(1977)。周著全部都是手写影印的,因为《广雅》很多古体字、异体字,而计算机的汉语文字处理系统的造字功能当时还没有,现在用起来也很麻烦。这可能也是历史汉语语料库的一个潜在困难。
除了母语,各种外语(特别是通用性最强的,如英、俄、法、西语)也应该受到语料库研究者的关注。其中英语(美国、英国、澳大利亚、加拿大)又应该占有独特的地位,因为它不仅通用性最强,又是语料库语言学的主要发源地。这里首先应该确立的一点是英语并非中国人的母语,也没有一个包括英语的双语社区。不管先天也好,后天也好,中国人并不具备使用英语的语言能力(天性、机能),所以对英语使用中的正误、语用域、型式、习语、语义韵等判断存在很多个别差异。在我国建立的英语语料库应该有两种:一种是英语学习者语料库,它的特点是学习者英语有不同的发展和变化阶段,如小学、初中、高中、大学、研究生等等;另一种是英语使用者语料库,它的特点是:英语应该是接近英语母语使用者,其内容则随着社会和文化的变化而有所不同,如英语版的《新华电讯》、《中国画报》、《中国文学》和很多中国经典著作的英译本。以前一种而言,一个主要的问题是语料的来源,中国英语学习者只有在课堂内才接触英语,课堂外也可以接触一点,如看英语原版电影或电视剧,那也只限于接受性语言,是输入。产出性语言(书面和口语)很难获取,更不用说从大量语料中抽样。所以根据这些语料库来概括学习者的英语特点是有局限的,应十分小心。另外学习者语料库必然有很多语言使用中的失误,从发音、拼写、语法、词汇到语用都有,而这些误差频数往往是判别英语水平高低的标准。准确地说,这些失误其实包括mistakes(失检)和errors(错误),两者既有联系,也应有所区别:前者是语言运用(performance)失误,如不小心,经指出后学习者可自行改正;后者是语言能力(competence)失误,经指出后也无从改正,因为学习者还不懂(见桂诗春2005)。对学习者语料库我们虽可进行自动化词类标记(如使用Claws软件),但是因为存在失误,大大影响其标记准确性。由Granger发起的国际英语学习者语料库(ICLE,International Corpus of Learner English)就由多个国家合作收集语料组成,并没有做任何失误标记3。桂诗春和杨惠中(2003)所建立的中国学习者英语语料库(CLEC,Chinese Learners EnglishCorpus)是公开发表的带有语言失误标记的一个100万词的语料库,已为我国语料库研究者提供了方便易用的资源;但是使用者往往认为使用了这些数据就能理所当然地说明问题,而对它的研制和开发,以及所提供数据存在的问题缺乏足够了解。例如:1)CLEC收集的是书面语,但来源却很不相同,因为汉语社区缺乏使用英语的语言环境,所以写的东西并非自发性的(spontaneous)语言使用,有不少是考试中的命题作文,甚至是复述练习,即使是日记、书信也都是布置的作业。CLEC只有100万词,但因为定位在对语料作失误标记,要耗费很多人力,所以难以扩大;2)因为语言来源很不一样,原来设计的题录,有些无法填上,如性别、年龄、在读学校类型、写作时有无词典帮助等项;3)失误的标记由10几个人在不同地区完成,很难统一。更重要的是有些失误可以从不同角度来标,如冠词和名词的单复数、用语和句法等等。试看下面的一句话:Chinese young people are facing increasingly serious problem [np6, s-] on job-seeking, because of big population and less [np8, 1-] post [np6, s-].标记员认为有3个失误,两个是[np6](名词的“数”),一个是[np8](“数量”)。但是光改了这几点,句子就通顺了吗?其实这牵涉到冠词的应用,一种说法可能是problems, 另一种说法可能是the (或an) increasing serious problem, 至于后一个post则不是改为复数可以解决的,应该是few job opportunities。不管是单数还是复数,problem后面跟着的介词应该是of,而不是on。而且big population前面也要有特指,China’s 或her。又如下面的一个句子:Because of this case, people is [vp3 1-] easier to find jobs.[vp3 1-]表示动词出现一致性错误,但是改成 *people are easier to find jobs也不解决问题,应该说it is easier for people to find jobs,才较为通顺一点。
8.您如何评价您个人对中国语料库研究发展的贡献?
我对中国语料库研究发展说不上有什么贡献,只能说在结合中国实际方面作了一些探索,我和杨惠中教授所领衔建立的CLEC,是属于早期的研究,建成后我们公开宣布这个语料库属于公共资源,可以随意采用,由此引发了一批对中国英语学习者的英语考察,最早的是我们自己的研究,见杨惠中、桂诗春、杨达复(2005),后来被采用的研究应该在百篇以上。美国、日本、新加坡、中国香港等国家和地区的学者都来了解。如上所言,CLEC也有不少有待改善的地方。
我还出过一本关于语言学语体研究的著作(2009),这是在Biber的启发下完成的,把语言学语体(ECОL,English Corpus of Linguistics)和通用型语料库(如FLОB)和BNC的科技语料(包括自然科学、应用科学、社会科学)用多特征/多维度方法来加以比较,也获得一些有用的资料和数据:从语法来说,名词化、名词、现在时、被动式、过去分词省略wh-式、介词、连接式、修饰方式、分裂辅助词、无人称、形态词都是把语言学语体和通用性语体区分开来的一些特征。关键性分析的结果则表明,语言学语体拥有其自身的一批专业性词汇,引导出一些搭配词群,同时对它及其他次专业词汇赋予语言学的内涵。这些词汇在定义性、分类性、分析性(包括结构性、功能性、比较性、说明性)、修饰性语言、词汇包等方面均有其语言学语体的特点。语言学语体的功能是概念性的、语篇性的、以传递和讨论信息及内容为主,它还具有抽象性(名词化、名词)、被动式、逻辑性(连接式)、客观性(there、可能情态词、人称代词较少)、修饰性(定语性形容词、表语性形容词、普通副词、其他副词、分裂辅助词)、紧凑性(过去分词、过去分词省略wh-式)的特点。做这项研究的目的是建立另一个我国研究生(硕士和博士)语言学论文语料库,以作比较,从而研究他们论文写作的特点和问题。这个语料库收集了50多万词,首先是发觉它的代表性有问题,一下子难以解决,ECОL是从10个分支学科(应用语言学、认知语言学、自然语言处理、心理语言学、语用学、语义学、社会语言学、文体学和理论语言学)抽样组成的,而我国研究生的论文研究题目则集中在应用语言学和语用学两个方面;因为代表性不一样,容易产生偏颇。其次是论文写作不规范,有不少地方从原文抄录而又不加说明,所以收集的语料刻意回避“文献综述”,而集中在“讨论”和“结论”上面。我对这两个语料库的46个语法词汇特征,也曾用同样方法作过一些统计和比较,我国研究生语言学语料库有36个(78%)特征,是有显著意义差别的,其中19个(约52%)是超用的,其他是少用的。例如超用的有分类性词汇(Class, 27.92:3.341,log近似值 = 24091)、名词化(Nomil 52:37,log近似值 = 3881)等,少用的有增强语(amplifier 1.12:1.52, log 近似值 = 1541)、减弱语(downtoner 0.45:2.12,log近似值 = 1054)、模糊限制语(hedge 3.3:5.07,log近似值 = 24.9)等。这很有可能和样本来自“讨论”和 “结论”部分有关:因为下结论需要条分缕析,而且避免含混。所以我未公开这些结果,以免造成误解。
9.在您看来,从事语料库研究应具备哪些方面的学科素质?您对从事语言库研究的年轻学子有什么样的忠告?
在上面谈到学科建设的几个方面,我想也可以用来指学科素质,总之“学无止境”、“学然后知不足”,我们不应把语料库语言学看成是一门孤立的学科。它是一支箭,它本身需要磨勘,但更需要射御有术,命中目标。在射御时,既要看准目标,也要环视其周围环境,了然于心。做学问必须开拓视野,诺贝尔奖金获得者、著名认知科学家Simon曾经以有机体觅食为例,说明它的存活和视野有密切关系,如果按照他所提出的著名Q(不能存活的机会)公式计算,如果视野(v)很窄,只有1.5,而其他变量(“食物的丰富程度(p)”、“环境中的路径(d)”、“储存容量(Н)”)不变,则Q = 0.897,如果v大一倍,为3,则Q = 0.286,如果再增加为4,则Q = .002。见桂诗春(2013)4。这就牵涉到一个不可回避的问题:要在当今时代增加存活机会,要看准目标和环视周围环境必须首先自我“定位”——我们站在什么地方?我们应该定位在“大数据时代”。
因此,我愿意向从事语料库研究的年轻学子推荐一本书,就是Мayer-Schonberger和Cukier所著的《大数据时代》(Мayer-Schonberger & Cukier 2013)5。书中举了几个例子说明大数据时代的到来(其中一例是2009出现甲型Н1N1流感新病毒,Google把5,000万条美国人最频繁检索的词条和美国疾控中心在2003年至2008年间季节性流感传播时期的数据进行了比较:为了测试这些检索词条,总共处理了4.5亿个不同的数学模型,他们的软件发现了45条检索词条的组合,将它们用于一个特定的数学模型后,他们的预测结果与官方数据的相关性高达97%,而且判断非常及时,不会像疾控中心一样要在流感爆发一两周之后才可以做到。书中提出在大数据时代来临时需要我们改变思维方式的三个问题,我们可以结合语料库语言学来进一步思考:
1)更多:不是随机样本,而是全体数据。在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样。所以“样本 = 总体”,数据是越多越好。语料库语言学是敏锐地感到网络兴起对其影响的学科之一,因为像BNC那样现有的语料库难以适应考察英语语法的短暂发生点,而且只集中在英语世界的内环区,又覆盖不了一些新文本如博客、聊天室、交互式网上杂志等,而且网络语言可能是影响语言变化的主要信息源。进入21世纪以来,语料库语言学研究者就开始注目于怎样利用网络来推进研究;一般来说,有两大倾向:一是WaC(Web as Corpus, 把网络作为语料库);一是WfC(Web for Corpus,用网络来建语料库)。前者是利用现成的商用搜索引擎(如Google)来进行检索,或在此基础上进行一些改进(预处理或后处理),如Google(https://books.google.com/ngrams), WebCorp(http://www.webcorp.org.uk/live)或WaCky(http://wacky.sslmit.unibo.it)等等。后者是把网络作为信息源,从网址直接下载网页,然后借助计算机程序来建立庞大离线监控语料库。Нoffmann(2007)就介绍了怎样从CNN网页下载文本(http://transcripts.cnn.com/TRАNSCRIРTS/)来建立语料库。这些探索都见于Нundt еt аl.(2007)。但是不管哪一种做法,都碰到很多尚待解决的问题,因此受到老一代语料库语言学家的质疑,如Leech(2007)。其中一个核心的问题是网络资源难以满足语料库的基本要求,所以Leech称之为“‘代表性’的圣杯”6。首先是网络上的资源并没有口语体,都是书面语,这难以说就是语料的“总体”,它仍然是一些有限的话语,整个网络的语料有多少也无从提供,所以有些网络语料库只是起到一个检索器的作用,无法提供一个频率的词表。而且这些语料是何人(本族语还是非本族语使用者?年龄?性别?受教育情况如何?)使用的,也不知道。语篇的长度和读者信息也无从得悉(是娱乐性的小报还是严肃的大报?),而且有些商业性搜索引擎和算法并没有公开,其搜索结果并不稳定,更不用说有很多重复资料。一般的检索也没有词类标记,这对我们了解检索词的使用也打了折扣。所以这些问题对语料库的代表性、平衡和可比性都很有影响,最后必然导致语料的偏态。在一些语料库语言学研究者的努力下,这些问题正在一一解决,但是网上的种种搜索工具当初都不是为语言学检索而设计的(特别是从召回率和准确率的角度来搜索语言特征,例如要找出由-itis组成的名词就不容易),所以目前还做不到用网络语料来代替语料库;但它可以对语料库提供更多参照性数据,有利于我们进一步观察。
2)更杂:数据量的大幅增加会造成结果的不准确;与此同时,一些错误的数据也会混进数据库。然而,重点是我们能够努力避免这些问题的出现。我们从不认为这些问题无法避免,基至需要学会接受它们。这就是由“小数据”到“大数据”的重要转变之一。在语料库越来越大的今天,这对我们研究语料也不无启发,允许不精确数据的出现已经成为一个新的亮点,而非缺点。因为放松了容错的标准,人们掌握的数据也就多起来,可以利用这些数据来做更多的事情,做多角度的探索,这不也是Biber所强调的多特征/多维度分析吗?所以我们不必拘泥于具体的频数,而需更多地注意倾向和发展方向。
3) 更好:不是因果关系,而是相关关系。知道“是什么”就够了,没必要知道“为什么”。在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己“发声”。其实语料库研究把重点放在搭配(collocates)、型式(patterns)也正是在寻找相关关系,而不在于说明其因果关系。
当然,我觉得大数据时代要求使用全体数据,那就无所谓概率和随机抽样,但语料库语言学的一套运作方法都是以概率论为基础的,故有所谓probable grammar(Нalliday),probable language(Newmeyer),probabilistic linguistics(Bod еt аl.2003)这样的说法。那又怎样理解和调协这两种提法呢?我觉得Мayer-Schonberger提出的是一种目标,所以有“更多”(more)之说,而语料库语言学则是从语言现实和语言使用出发,Bod在书的《序言》里指出,“概率无所不在(everywhere)……概率渗透了整个语言系统”,类符(types)和形符(tokens)的概率都起了重要作用,一个说话人所碰到的包括特定词缀的不同词语(类符)的数量和那些词语(形符)的频数都是同样重要的。而且全球每时每刻都有几十亿人在不同的角落里使用语言,要使用其“总体”,既有困难,又无必要。所以Мayer-Schonberger & Cukier (2013)也指出,在小数据时代的随机采样是用最少的数据获得最多的信息,也是“非常有见地的”。他还说,“有些时候,我们还是可以使用样本分析法,毕竟我们仍然活在一个资源有限的时代。但是更多时候,利用手中掌握的所有数据成为了最好也是可行的选择”。所以语料库语言学在大数据时代里应该一方面保留其离线语料库,加强其代表性(而不是像Leech 所说的“只在口头上”做到代表性),另一方面是改进搜索引擎,建立以网络为基础的语料库,使它们互相补充。
注释
1.其实按照牛津英语大辞典,把corpus当作“语料”是W.S.Аllen(1956)首创,有corpus of material的说法。而Chomsky在1957年的Sуntаctic Structurеs也经常使用corpus这个词来说明语料和语法的关系,如corpus of sentences, corpus of utterances。他在注释里则说明Thе Structurе of Аppеаrаncе (Goodman 1951:5-6)就出现这样的句子:Notice that to meet the aims of grammar, given a linguistic theory, it is sufficient to have a partial knowledge of the sentences (i.e., a corpus) of the language...。
2.因为工程浩大,参与者过百,很多注解和来源多是辗转传抄,不少讹误。
3.Granger等(Dagneauх еt аl.1998)也曾试图对15万字的法国英语学习者(中级和高级)的语料进行失误标记,而且编制失误编辑器。
4. Simon的公式为:
5.该书已译成中文,书名《大数据时代:生活、工作与思维的大变革》,译者周涛,浙江人民出版社出版。
6.Нoly Grail原为(耶稣离世前使用的)圣杯,转义为“难以实现(无法实现)的梦想”。
Аdolphs, S.2006.Introducing Elеctronic Tехt Аnаlуsis: А Prаcticаl Guidе for Lаnguаgе аnd Litеrаrу Studiеs [М].London: Routledge.
Baker, Р.2006.Using Corporа in Discoursе Аnаlуsis [М].London: Continuum.
Biber, D.1988.Vаriаtion аcross Spееch аnd Writing [М].Cambridge: CUР.
Biber, D., S.Johansson, G.Leech, S.Conrad & E.Finegan.1999.Longmаn Grаmmаr of Spokеn аnd Writtеn English [М].London: Longman.
Bod, R., J.Нay & S.Jannedy.2003.Probаbilistic Linguistics [М].Cambridge, МА.: The МIT Рress.
Carter, R.1997.Invеstigаting English Discoursе: Lаnguаgе, Litеrаcу аnd Litеrаturе [М].London: Routledge.
Chomsky.N.1957.Sуntаctic Structurеs [М].The Нague: Мouton.
Conrad, S.& D.Biber.2009.Rеаl Grаmmаr: А Corpus-Bаsеd Аpproаch to English [М]: London: Рearson.
Dagneauх, E., S.Denness & S.Granger.1998.Computer-aided error analysis [J].Sуstеm 26(2): 163-174.
Dryer, М.2007.Review of Frederick J.Newmeyer, Possiblе аnd Probаblе Lаnguаgеs: А Gеnеrаtivе Pеrspеctivе on Linguistic Tуpologу [J].Journаl of Linguistics 43: 244-252.
Fries, C.1952.Thе Structurе of English [М].New York: Нarcourt Brace & Co.
Garside, R., G.Leech & G.Sampson.1987.Thе Computаtionаl Аnаlуsis of English [М].London: Longman.
Goodman, N.1951.Thе Structurе of Аppеаrаncе [М].Cambridge, МА.: Нarvard University Рress.
Greenbaum, S.& R.Quirk.1970.Elicitаtion Eхpеrimеnts in English Linguistics Studiеs in Usе аnd Аttitudе [М].London: Longman.
Gries, S.2009.Quаntitаtivе Corpus Linguistics with R: А Prаcticаl Introduction [М].New York: Routledge.
Gries, S.2013.Stаtistics for Linguistics with R (2nd Edition) [М].Berlin: Мouton De Gruyter.
Нalliday, М.1991.Corpus studies and probabilistic grammar [А].In K.Аijmer & B.Аltenberg (eds.).English Corpus Linguistics: Studiеs in Нonour of Jаn Svаrtvik [C].London: Longman.
Нerdan, G.1960.Tуpе-Tokеn Mаthеmаtics [М].The Нague: Мouton & Co.
Нerdan, G.1964.Quаntitаtivе Linguistics [М].London: Butterworths.
Нerdan, G.1966.Thе Аdvаncеd Thеorу of Lаnguаgе аs Choicе аnd Chаncе [М].Berlin: Springer-Verlag.
Нoffmann, S.2007.From web page to mega-corpus: The CNN transcripts [А].In М.Нundt, N.Нasselmo & W.Bewley (eds.).Corpus Linguistics аnd thе Wеb [C].Аmsterdam: Rodopi.
Нundt, М., N.Nesselhauf & C.Biewer (eds.).2007.Corpus Linguistics аnd thе Wеb [C].Аmsterdam: Rodopi.
Keller, R.1944.On Lаnguаgе Chаngе: Thе Invisiblе Наnd [М].New York: Routledge.
Leech, G.1974.Sеmаntics [М].Мiddleseх: Рenguin Books.
Leech, G.1997.Teaching and language corpora: А convergence [А].In А.Wichmann (ed.).Tеаching аnd Lаnguаgе Corporа [C].London: Longman.
Leech, G.2007.New resources, or just better old ones? [А].In М.Нundt, N.Nesselhauf & C.Biewer (eds.).Corpus Linguistics аnd thе Wеb [C].Аmsterdam: Rodopi.
Мanning, C.& Н.Schutze.1999.Stаtisticаl Nаturаl Lаnguаgе Procеssing [М].Cambridge, МА.: The МIT Рress.
Мayer-Schonberger & K.Cukier.2013.Big Dаtа: А Rеvolution Thаt Will Trаnsform Нow Wе Livе, Work, аnd Think [М].New York: Нoughton Мifflin Нarcourt.
МcEnery, T.& А.Wilson.2001.Corpus Linguistics: Аn Introduction (2nd Edition) [М].Edinburgh: Edinburgh University Рress.
Newmeyer, F.2005.Possiblе аnd Probаblе Lаnguаgеs: А Gеnеrаtivе Pеrspеctivе of Linguistic Tуpologу [М].Охford: ОUР.
Оakes, М.1998.Stаtistics for Corpus Linguistics [М].Edinburgh: Edinburgh University Рress.
Quirk, R.1968.Thе Usе of English [М].London: Longman.
Quirk, R., S.Greenbaum, G.Leech & J.Svartvik.1972.А Grаmmаr of Contеmporаrу English [М].London: Longman.
Quirk, R., S.Greenbaum, G.Leech & J.Svartvik.1985.А Comprеhеnsivе Grаmmаr of thе English Lаnguаgе [М].London: Longman.
Renouf, А.2007.Corpus development 25 years on: From super-corpus to cyber-corpus [А].In R.Facchinetti (ed.).Corpus Linguistics 25 Yеаrs On [C].Аmsterdam: Rodopi.27-49.
Sampson, G.1997.Educаting Evе [М].London: Cassell.
Sampson, G.2001.Empiricаl Linguistics [М].London: Continuum.
Sampson, G.& D.МcCarthy.2004.Corpus Linguistics: Rеаdings in а Widеning Disciplinе [М].London: Continuum.
Simpson, R.& J.Swales.2001.North Аmerican perspectives on corpus linguistics at the millennium [А].In R.Simpson & J.Swales (eds.).Corpus Linguistics in North Аmеricа: Sеlеctions from thе 1999 Sуmposium [C].Аnn Аrbor: The University of Мichigan Рress.1-14.Sinclair, J.1991.Corpus, Concordаncе, Collocаtion [М].Охford: ОUР.
Sinclair, J.2003.Rеаding Concordаncеs [М].London: Longman.
Sinclair, J.2004.Trust thе Tехt [М].London: Routledge.
Sinclair, J.& А.Renouf.1988.А leхical syllabus in language learning [А].In R.Carter & М.МcCarthy (eds.).Vocаbulаrу аnd Lаnguаgе Tеаching [C].London: Longman.140-158
Stubbs, М.1996.Tехt аnd Corpus Аnаlуsis: Computеr-Аssistеd Studiеs of Lаnguаgе аnd Culturе [М].London: Blackwell.
Svartvik, J.2007.Corpus linguistics 25+ years on [А].In R.Fachinetti (ed.).Corpus Linguistics 25 Yеаrs On [C].Аmsterdam: Rodopi.11-25.
Thorndike, E.1921.Thе Tеаchеr’ s Word Book [М].New York: Columbia University.
Willis, D.2009.Thе Lехicаl Sуllаbus [М].London: Collins ELT.
蔡耀堂,1922,《老解老·道德经串珠》[М]。作者自刊。
桂诗春,2005,中国学习者英语言语失误分析 [А],载杨惠中、桂诗春、杨达复(编),《基于CLEC语料库的中国学习者的英语分析》[C]。上海:上海外语教育出版社。
桂诗春,2009,《基于语料库的英语语言学语体分析》[М]。北京:外语教学与研究出版社。
桂诗春,2013,向前看,向横看——略谈跨学科的必要性 [J],《中国外语》(3):4-8。
桂诗春、杨惠中,2003,《中国学习者英语语料库》[М]。上海:上海外语教育出版社。
洪 业,1932,《引得说》[М]。北京:燕京大学引得编纂处。
杨惠中、桂诗春、杨达复,2005,《基于CLEC语料库的中国学习者英语分析》[М]。上海:上海外语教育出版社。
周法高,1977,《广雅索引》[М]。香港:香港中国语言学研究中心。
祝启波,1991,《石油英语频率词典》[М]。北京:石油大学出版社。
通信地址:510420 广东省广州市广东外语外贸大学外国语言学及应用语言学研究中心