APP下载

《剑桥英语语料库语言学手册》述介*

2019-12-21西南交通大学外国语学院吕长竑

外语教学理论与实践 2019年4期
关键词:手册语言学语料库

西南交通大学外国语学院 吕长竑

西南交通大学外国语学院/北京第二外国语学院成都附属中学 马嘉欣

提 要:Douglas Biber和Randi Reppen主编的《剑桥英语语料库语言学手册》是对英语语料库语言学不同领域当前研究现状的全面评述,具有重要的参考价值和指导意义。本文对该书的主要内容及其概括性、示范性、引领性、导向性、批判性和反思性等特色予以了评介。基于《手册》,有理由相信,基于语料库的渐进性研究或将成为语料库语言学在语言研究方面的又一理论创新,且随着语料库语言学理论创新的不断深入,语料库语言学的学科辨识度将会越来越显著。

1.引言

自第一个计算机语料库Brown语料库问世以来,语料库语言学已走过50多年的历程。在这50年里,由于在语料编辑与加工、研究工具和分析技术上的长足进步,语料库语言学的版图不断扩大,几乎触及到了语言研究的各个分支领域,并呈现出蓬勃发展之态。在此情形之下,有必要对语料库语言学的研究现状和最新发展予以总结,并对语料库语言学当前研究中所存在的问题进行反思和检讨,以便为语料库语言学的未来发展指明方向。《剑桥英语语料库语言学手册》(TheCambridgeHandbookofEnglishCorpusLinguistics)(以下简称《手册》)的出版恰逢其时,为语料库语言学的健康发展做出了重要贡献。

《手册》于2015年在剑桥大学出版社出版,由语料库语言学研究领域的著名学者Douglas Biber和Randi Reppen主编。《手册》由四大部分组成,这四大部分既体现了语料库语言学的两大研究方向:对语言特征(第二部分)和语言变体(第三部分)的语料库分析,又突出了语料库语言学对方法论(第一部分)的强调以及在其它领域的发展应用(第四部分),充分反映了语料库语言学的研究特色。《手册》共28章,除讨论语料库语言学研究方法的前3章外,其余25章分别涉及语料库语言学的不同研究领域,是对英语语料库语言研究的全面评述,具有极大的参考价值。

2.内容简介

第一部分“研究方法”包括三章。

在第1章“语料库介绍”中,Davies主要对不同规模的代表性语料库及其优势进行了评价。在第2章“语料编辑和分析的计算工具和方法”中,Rayson简要回顾了文本整理、标注和检索工具的发展历程和已取得的进步,同时对目前尚存在的一些问题进行了分析。在第3章“量化设计和统计技术”中,Gries将语料库语言学研究方法分为两组,并重点评述了当前语料库语言学研究在相关定量研究方法方面所存在的问题。第一组研究方法是不涉及语境因素的研究。这类研究涉及的是语料库语言学的核心方法,如出现频率(包括频率表、关键词)、共现频率、离散度(dispersion)等,其中Gries特别讨论了离散度、类符(type)频率/信息熵(entropy)以及向度(directionality)等对计算关联性强度(association measure)的影响。第二组是涉及语境因素的研究,如对双宾构式V NP接受者NP受事和带to与格结构V NP受事PPto-接受者的研究。这类研究所采用的方法可以分为两类。一类是探索统计(exploratory statistics)或假设生成统计(hypothesis-generating statistics)。Gries指出,语料库语言学研究者对这类方法的使用尚不全面,许多探索性统计工具,如对应分析(correspondence analysis)或多维尺度分析(multidimensional scaling)甚少使用。另一些方法,如聚类分析(cluster analysis)等,尽管使用得较多,但是其后续方法(follow-up methods)并未得到广泛地采用。第二类是验证统计(confirmatory statistics)或假设检验统计,包括单因素统计(monofactorial statistics)和多因素统计(multifactorial statistics)。Gries强调,任何单因素的检验均是一种(危险的)捷径。其原因是,在进行验证统计时需要考虑以下三点:选择语言表达形式时的理据、研究变量之间的相互影响以及研究变量和数据类型之间的相互影响。但是即使是采用多因素分析的研究,将上述三点都考虑在内的并不多。多数研究要么不做任何统计分析,只报导观察频率,要么不管数据是单因素还是多因素的,都只进行单因素统计。采用多因素统计是语料库语言学未来发展的一个重要方向。

第二部分“语言特征的语料库分析”共11章(第4—14章)。该部分从韵律特征开始,顺次讨论词汇特征、语法特征到语篇特征和语用学。

第4章“语篇语调(discourse intonation)”涉及语料库驱动的韵律研究,这是语料库语言学研究较少涉及的一个领域。在该章中,Cheng对现有为数不多的韵律转录语料库做了简介,对语料库驱动的韵律研究予以了评述。第5—7章论及的是词汇的语料库研究,包括“关键词”、“搭配”和“短语学”(Phraseology)。Culpeper和Demmen在第5章中指出,应将关键词项(key lexical item)作为选取质化分析对象的依据,而不应将其视为终端产品;要避免关键词阐释中存在的一些陷阱,警惕过度概括或过度夸大关键词含义的危险。Xiao在第6章对搭配研究方法的评述以及对不同关联性强度计算公式及其优势的详细描述,对相关研究具有重要的参考价值。Gray和Biber在第7章指出,未来的短语学研究应进一步探索更复杂的识别词汇短语的量化方法,进一步加强对不同方法所识别出的短语类型的理解,应进一步探索语料库设计和组成对重要词汇短语识别的影响,探讨短语学的语料库研究的可复制性程度,开发新的研究方法以提高研究发现的信度,探索不同类型语言中的短语格式,探索在何种程度上语篇可被视为跨语域和跨语言的程式化(formulaic)表达。第8章“描写语法”(Descriptive grammar)由已故国际著名语言学家Geoffrey Leech撰写。该章是语料库语言学对语法描写研究的总览,是全书唯一无案例分析的一章。在该章中,Leech重点就语料库语法对语法描写范围和语法研究能力的拓展进行了评述。他指出,在语法描写范围方面,语料库语言学的“全部解释”(total accountability)原则为描写语法带来了一些意外发现,开辟了语法研究的一些边缘领域,发现了一些被理论语法学家视为“无趣”的规律。此外,对英语口语的调查亦是基于语料库的语法研究的一个重要突破。在口/笔语语料库的基础上涌现出了大批口语和书面语的区别研究,亦导致了学者们关于口语和书面语的描写体系是否应采用同一体系的争议。对此问题,Leech的态度是,口语和书面语是一个连续体而不是绝对的二元对立。关于语料库语言学对语法研究能力的拓展,Leech认为主要体现在:一是语料库语言学的统计手段为描写语法提供了新的证据,二是渐进性(gradience)和多因素分析的使用。该章结尾部分对语法变异(Grammatical variation)(第9章)、语法变化(Grammatical change)(第10章)和词汇语法(Lexical grammar)(第11章)研究的概述,可视为随后三章的导论。这三章遵循《手册》的总体撰写原则,对各相关领域的发展进行了综述,并对其研究现状和研究走向予以了评述。第二部分最后三章“在语篇分析中使用语料库”(第12章)、“语用学”(第13章)和“历史语用学”(第14章)涉及的是传统上以质性(qualitative)而非量化研究方法见长的领域(Smith,2016:144)。这三章分别向读者展示了语料库研究方法在这些领域里的研究价值,如语料库辅助语篇研究将传统的细读法与统计的“概况”分析相结合,可为研究者提供更为全面的图画,帮助研究者定位潜在的、具有研究价值的语言特征;其次,通过对相对频率和不同语言特征可能承担的不同作用进行分析,可对不同语篇类型进行比较研究。随着语用标注体系(annotation schemes)和语用标注语料库的发展成熟,语料库语言学与语用学的结合成为了可能。其中历史语用学是近二十年来语料库语言学和语用学的最新结合领域,亦是语料库语言学与语用学结合最为成功的一个领域。历史语用学的一个未来发展方向是对多模态历史数据资源的开发和应用,如对早期印刷图书中印刷字体和插图所反映的意义的研究。

第三部分“变体的语料库分析”(Corpus analysis of varieties)共19章(第15—23章),是全书章节最多的一部分,这与大多数语料库均可提供不同语域的典型样本,因此基于语料库的研究特别适合语域变异研究有关。同时,亦与语料库研究的量化分析特征有助于不同语域的语言特征分布之间的对比,有助于对特定语域中常见或罕见语言特征的识别有关。

第15章“口语语篇”和第16章“语料库与书面学术英语”是语料库语言学在特定语域研究中应用较广的一个领域,其作者Staples(第15章)和Hyland(第16章)分别针对各自领域的特色进行了评述。Staples重点评述了语料库语言学视角下话语研究的特点,Hyland则对那些在学术写作研究领域具有重要影响,同时又能反映语料库研究方法与学术语篇研究相结合之历程的研究进行了重点评述。Hyland指出,在学术写作研究领域有待解决的主要不足是:需要对学生在写作和阅读中可能涉及的各类特定学科体裁进行描写;需要对具体语境下特定体裁的使用做更为深入的了解,通过访谈、观察等研究手段,在研究中增加对“行动”的关注以平衡单纯关注语言而带来的不足;学术写作常常涉及到绘图、视觉符号(visual semiotic forms)等表达形式,因此需要将语料库研究扩大到多模态学术体裁;需要更多的研究来帮助了解学科身份(即作者身份与学科实践之间的关系)的特点,了解不同领域所需要的专业知识的内涵。第17章“语域变异”(Register variation)和第18章“历时语域”(Diachronic registers)分别从共时和历时的角度来探讨语域变异,并对相关领域的重要研究进行了评述,概括总结了语料库语言学在语域变异研究领域所取得的成就和面临的挑战。第19章“文体和文学文本”所论及的语料库文体学(corpus stylistics)是语料库语言学近十年来的新发展。随着文学文体学的认知转向,认知文体方法(cognitive-stylistic)和语料库语言学方法从读者对意义的创造角度有了更多的融合点,这可能为语料库文体学带来更多、更好的发展机遇。第20章“方言变异”(Dialect variation)、第21章“世界各体英语”(World Englishes)和第22章“作为通用语的英语”(English as a lingua franca(ELF))涉及的是区域变异(regional variation)研究(cf.Smith,2016)。基于语料库的研究表明,方言变异在语言的不同变体中广泛存在,甚至在一些以往通常认为不存在方言变异或从未从方言变异角度进行过探寻的领域(如书面语和标准语)中亦存在。基于语料库的方言变异研究所涉及到的语言变量比方言学(dialectology)和社会语言学研究通常所分析的变量要多得多,特别是对于语法变异分析来说,语料库研究方法更具优势。第21—22章讨论了两个既有联系又有区别的概念:世界各体英语和作为通用语的英语。从语料库语言学的角度来看,有关世界各体英语的语料库建设更为成熟,包括ICE语料库以及GloWbE语料库等,而基于语料库的ELF研究起步于本世纪初,是一个相对较新的领域。首个一百万词的ELF口语语料库ELFA在2008年完成。2015年完成的一百五十万词的WrELFA是第一个书面文本ELF语料库。该语料库由学术和通俗科学文本组成,对研究不同L1的学术英语写作具有参照价值。在第23章“学习者语言”中,Gilquin和Granger对基于学习者语料库的代表性研究、研究方法以及所取得的成就和面临的挑战进行了概述,并对学习者语料库研究(LCR即learner corpus research)和第二语言习得研究(SLA)之间的联系和区别做了说明。Gilquin和Granger认为LCR和SLA的研究对象相同,即都对学习者语言进行研究,二者的区别主要体现在研究目的和分析方法上。SLA研究关注的是语言知识(competence),而LCR关注的是语言能力(performance)。在研究方法上,LCR采用语料库语言学的工具和技术,而传统的SLA研究则多采用人工分析方法。此外,二者的数据类型亦不同。SLA数据是学习者在实验环境下被迫产出的某一特定的语言形式,而学习者语料库是真实语料,但是对那些目标语不是所在国家的母语或官方语言的学习者来说,他们几乎没有在日常活动中使用目标语的可能性。对于这种情况,学习者语料库的真实性标准可以放宽到几乎没有施加任何控制的诱发性数据,如自由写作或非正式访谈等。但是由于控制的标准是比较含糊的,因此某些学习者语料库研究者采用了更为边缘化类型的(peripheral types)学习者语料库,如来自图片描写或翻译等的学习者语料。

第四部分“语料库分析的其它应用”共5章(第24—28章)。

在第24章“词汇”(Vocabulary)中,Martinez和Schmitt指出Brezina和Gablasova(2013)的New General Service List和Gardner和Davies(2013)的Academic Vocabulary List尽管分别对West(1953)和Coxhead(2000)的老词表进行了改进,但是依然存在完全以词目(lemma)为单位构成词表等问题。Martinez和Schmitt认为,完全以词目组成的词表不仅不能反映词汇在语料库中的实际应用情况,且与教学实际相距甚远。因此,既包含单个词项(single lexical item)又包含多词词项(multi-word lexical item)的词表能够更为准确地反映词汇的性质。但是,现有的多词词表,如Simpson-Vlach和Ellis(2010)的Academic Formulas List等,又存在过分依赖统计标准的问题。故该章重点对一份语料库驱动的多词词汇表(the PHRASE list)的制定进行了描述。其编制过程结合了量化和质性分析、频率数据和语义等因素。Martinez和Schmitt认为只有在定量数据与定性判断结合的基础上,方能制定出实用的、用户友好型词表。第25章“词典学和短语学”主要评价了语料库资源在不同类型的在线英语词典中对短语描写的影响。Paquot指出,尽管基于语料库的研究表明,不同体裁的文本所具有的典型短语是不同的,但是多数词典对短语的所属领域、体裁或语域通常不做任何标注。为调查学习者词典所提供的短语标注信息在学术语境下的使用有效性,Paquot以五本著名学习者词典:Cambridge、Oxford、Collins-Cobuild、Macmillan和Longman为对象,以10个高频动词的学术写作搭配为例,从查全率(recall rate)和查准率(precision rate)角度,对不同词典所选搭配的有效性进行了检验。结果显示查全率和查准率这两个指标可以有效地反映词典对用户需求的满足度。查准率还可作为 “信息压力”(information stress)或“信息过载”(information overload)程度的量化手段。Paquot指出,为帮助EFL学习者有效地用英语进行写作,未来的词典必须具有更强的不同写作类型、体裁和风格意识。本部分最后3章分别评述了语料库研究方法在课堂(第26章)、教材编写(第27章)和翻译(第28章)方面的应用。其案例分析分别是,语料库对L2学习者影响研究的元分析(meta-analysis)、语料库和非语料库导向的教材在语法项目(以被动态为例)描写方面的对比分析,翻译文本与非翻译的类比文本在搭配使用方面的对比分析。

3.简评

《手册》是对英语语料库语言学不同领域当前研究现状的全面评述和检讨,对语料库语言学研究者具有重要的参考价值和指导意义。其主要特色如下:

第一,具有概括性和示范性。《手册》各章均包含两大部分:概述和案例分析。不同于一般的教材、指南或手册,该书各章的概述不是对语料库语言学的一般性介绍,而是重在对各领域当前研究的批评性概述。其概述的重点是,相关领域中最重要的研究、最常使用的研究方法、相关语料库或最新发展等。这也是《手册》与Biber和Reppen(2012)Sage版《语料库语言学》的主要不同之处。其次,《手册》各章有关研究方法的讨论以及相关案例的分析,对语料库语言学各相关领域研究具有示例作用。以语料库文体学为例,《手册》向读者展示了语料库语言学在文体学研究中的应用,如为文学文本分析提供数据支持,对定性分析进行补充、指导或佐证等等。事实上,本文认为语料库与文学研究的合作空间并不仅仅在于此,如在诗歌研究中,通过建立朗读者的语音语料库,可为声音诗学研究提供新的角度。这或许是未来语料库与文学研究的另一个结合点。

第二,具有引领性和导向性。《手册》各章均对相关领域的当前研究所存在的问题和面临的挑战进行了审视,并就未来发展方向提出了建议,具有很强的引领性和导向性。以渐进性研究为例。渐进性是语言使用中的普遍现象,尽管Wittgenstein(1953)的家族相似性原理、Rosch(1975,1976)的原型范畴理论(cf.王寅,2007),以及Halliday(1961)的渐变群(cline)、Quirk(1965)的连续关系(serial relationship)等从不同角度对渐进性进行了解释和描写,但是由于“语言范畴内的渐进是量变”(李基安,2012:40)性质的,上述不同解释均不能很好地从量变的角度对范畴内的渐进性予以描写。Lakoff(1973)曾从Zadeh(1965)的模糊集理论出发,对模糊限制语的边界模糊性进行了描写,但是其数理推导过程较为抽象,较难推广。《手册》第8章关于利用频率数据来表征范畴成员或亚类型(subtype)的不同典型性程度或认知突显性是语料库语法的优势这一陈述,进一步明确了语料库语言学在语言渐进性现象描写方面的应用前景。可以说,这是频率和概率应用于语法研究必然带来的一种优势,即语料库语法不仅能够描述“非此即彼”的现象,而且还能反映那些一直受到理论语言学家排斥、被理论语言学家视为只能使其理论模型复杂化的“或多或少”的现象,即渐进性现象(p.155)。本文认为基于语料库的渐进性研究或许将成为语料库语言学继词汇语法(lexical grammar)、模式语法(pattern grammar)和词汇启动(lexical priming)等后(cf.何安平,2012),在语言研究方面的又一理论创新。

第三,具有批判性和反思性。《手册》对语料库语言学当前研究现状的评述重在批判与反思,如第3章通过对具体实例的分析,对语料库语言学界在统计方法应用方面的相对滞后予以了批评和检讨。这无疑将有利于语料库语言学的进一步健康发展,因为从本质上来说语料库语言学是涉及分布数据的学科,因此统计方法理应是语料库语言学研究方法的中心内容。《手册》的反思还表现在它对语料库语言学的学科定位问题上。关于语料库语言学究竟是一个独立的学科,还是仅仅为一种研究方法,学界一直存在争议(cf.梁茂成,2012;卫乃兴等,2014)。对于此问题,《手册》没有如Sage版《语料库语言学》那样采取回避的策略(cf.邵斌、何莲珍,2015),而是在导言中明确指出,不同于其它与调查(inquiry)相关的语言学领域(如社会语言学或心理语言学),语料库语言学不是语言学的一个理论分支。社会语言学或心理语言学中的前缀(socio-或psycho-)标明的是其调查所涉及的理论领域,但是在语料库语言学中不存在这样的联系。尽管如此,由于语料库语言学在分析方法上的革新,使得研究者可以提出完全不同的研究问题,采用与以往研究完全不同的方法来对语言变化和使用进行研究,因此语料库语言学并不仅仅是一种方法路径(pp.1-2)。本文认为,上述观点比较符合语料库语言学目前的发展现状,但是随着语料库语言学在理论创新方面的不断深入,随着其发现的不断丰富,语料库语言学的学科辨识度将会越来越显著(cf.李文中,2016)。在将来的某一天,或许语料库语言学终将确立其作为一门独立学科的地位。

猜你喜欢

手册语言学语料库
基于语料库的清末民初日源外来词汉化研究
体认社会语言学刍议
《复制性研究在应用语言学中的实践》评介
《语料库翻译文体学》评介
美国现代语言学会版《〈红楼梦〉教学法》:要览与反思
书讯《百年中国语言学思想史》出版
语篇元功能的语料库支撑范式介入
School Admission择校
兔兔自杀手册
School Admission择校