语料库语言学研究的新进展
——《语料库语言学研究中的三角验证方法》评介
2017-02-07张懂
张 懂
(北京外国语大学,北京)
语料库语言学研究的新进展
——《语料库语言学研究中的三角验证方法》评介
张 懂
(北京外国语大学,北京)
语料库语言学研究方法众多,且各有所长。综合运用多种研究方法,对研究结果进行相互验证,是语料库语言学研究发展的新方向。Paul Baker和Jesse Egbert共同编著的《语料库语言学研究中的三角验证方法》就是采用多角度互证法的佳作,也是在语料库语言学研究中采用多角度互证法的首次尝试。本文旨在对该书作介绍和评价,指出其贡献和不足。
三角验证方法;网络问答语料库;语料库驱动法;搭配网络分析法;主题词分析法
1.引言
基于语料库的语言学研究日益成为语言学研究的活跃领域。语料库语言学研究方法众多,且各有所长。采用多种研究方法互证,可以将因研究者的个人知识背景导致的研究缺陷最小化,使采用多种方法所得到的研究结果相互补充。《语料库语言学研究中的三角验证方法》就是采用多角度互证法的典型佳作,也是在语料库语言学研究中采用多角度互证法的首次尝试。该书由语料库研究著名学者Paul Baker和Jesse Egbert共同编著,Routledge出版社出版。该书基于同一个语料库,综合运用多种研究方法(包括基于语料库的话语分析、多维度分析、主题词分析等),解决相同的研究问题,旨在对比语料库语言学研究中的不同方法。
2. 内容概述
该书共十二章,可分为五个部分。第一部分为第一章,介绍了该论文集的背景信息和结构;第二部分为第二章到第五章,采取了语料库驱动的研究方法;第三部分为第六章到第九章,采取了基于语料库的方法;第四部分为第十章到第十一章,采取了对小型抽样语料的定性和定量研究;第五部分为最后一章,对比了各个研究所取得的发现和结论,并对相互矛盾的结论作出了可能的解释。
第一部分即第一章。Paul Baker和Jesse Egbert介绍了该论文集的目的和组织架构。该论文集包含十项研究,研究所用的语料是“网络问答语料库”。该语料库库容为40万词,收集自英国、美国、印度和菲律宾等四个国家的“雅虎”网络论坛问答专区,涵盖社会与文化、家庭与社会关系、政治与政府等三个领域。这十项研究涉及的研究问题均为关于四个英语变体和三个领域间的语言使用差异。
第二部分包括第二章到第五章。Tony McEnery采取了主题词分析法,以研究四个英语变体的相似和差异。他分别将其中一个子语料库与其他三个进行比较,并用对数似然率检验,从而得出每一个子语料库的主题词表。研究发现,印度英语子语料库中共有83个主题词,菲律宾英语子语料库中共有48个主题词,英国英语子语料库中共有46个主题词,美国英语子语料库中共有57个主题词。通过对主题词的语义归类,作者发现印度英语子语料库主要讨论话题和宗教相关;美国英语子语料库内容多和权力相关;菲律宾英语子语料库的主要讨论话题和宗教、权利都相关;且除了英国英语子语料库,其余三个语料库都和政治系统话题高度相关。通过对主题词的词类标注分析,作者发现英国和美国英语都较少使用强义务性情态动词(如can, must, should等);而印度和菲律宾英语则较多使用强义务性情态动词。
Bethany Gray研究了语料库中高频出现的四词短语、结构类型和语篇功能在四个不同语言变体和三个领域之间的差异。作者采取语料库驱动法,鉴别出82个四词短语,发现55%的短语具有表达立场的语篇功能。这表明“网络问答语料库”的语体接近口语语体,其目的在于给予建议和表达个人看法。通过统计四词短语在四个不同语言变体中的使用频率,作者发现菲律宾英语子语料库中四词短语的使用频率高于其他三个英语子语料库。通过统计四词短语在三个不同领域中的使用频率,作者发现四词短语在家庭和社会关系领域中的使用频率最高。因此,作者认为,菲律宾英语子语料库及家庭和社会关系领域最能体现“网络问答语料库”口语语体特征,且该语料库的本质是就人际关系给予建议和陈述个人观点。
Amanda Potts采用UCREL语义标注系统(USAS)和Wmatrix,对比不同的英语变体。通过分别将其中一个子语料库和其余三个子语料库对比,统计出主题词和关键语义标注(key semantic tags)。关键语义标注能够反映各个英语变体中关注的主要话题和讨论内容。研究发现,印度英语子语料库的话题和心理、灵性、宗教等高度相关,这一发现和第二章Tony McEnery的发现相一致。菲律宾英语子语料库的讨论话题主要涉及政府、政策及教育方面。英国英语子语料库的谈论话题主要和地理名字、食物等相关,反映了人们对社会间差异及对饮食和健康的关注。美国英语子语料库凸显的谈论话题为社会问题,譬如社会上无家可归者人口的增加及其引发的相关社会问题和与种族相关的社会问题。
Eric Friginal和Douglas Biber通过采用多维度分析法(Biber,1988,1995, 2003),比较和对比了四个英语变体和三个领域语言特征之间的相似和差异。多维度分析模型包括交互性与信息性表达(involved vs. informational production)、叙述性与非叙述性关切(narrative vs. non-narrative concerns)、指称明晰性与情景依赖型指称(explicit vs. situation-dependent reference)、显性劝说型表述(overt expression of persuasion)等(Biber,1988;江进林 许家金,2015)。作者聚焦于交互性与信息性表达维度,发现“网络问答语料库”总体上具有交互性和非正式性特征。此发现与第三章中Bethany Gray的发现具有一致性。具体地说,英国英语子语料库和美国英语子语料库更倾向于使用第一人称代词,因而呈现出高交互性和非正式性特点。与此相反,菲律宾英语子语料库和印度英语子语料库更倾向于使用名词性短语和介词等成分,因而呈现出正式性和学术性特点。在话题方面,家庭和社会关系语篇更具非正式性和交互性特征,而政治和政府语篇更具信息性特征。
第三部分包括第六章到第九章。Brezina采用搭配网络分析法(Phillips,1983,1985),分析了四个不同语言变体中典型的搭配类型。作者将四个不同子语料库中的问题和答案部分分别进行主题词分析。通过统计和对比两个主题词词表,概括出两部分中最常使用的词项。“问题”子语料库中的最常用主题词是wh-词(如what, why, how, when, who),“答案”子语料库中的最常用主题词是god,love和president等实词。通过观察“问题”子语料库中常用词项的搭配网络,作者发现wh-疑问句的功能主要为社会功能,而非一般的询问信息功能。另一方面,作者通过观察“回答”子语料库中常用词项的搭配网络,发现其反映了不同国家人们的信仰、社会系统和政治体系的相似和差异。
Stefan Gries采取多因素方法研究了语言使用中的词汇—句法转换现象(lexicosyntactic alternations)。与以往研究中采取的多因素方法不同的是,本文作者提出了影响语言选择和使用的另外两个因素——随机效应(random effects)和自动相关(autocorrelation)因素。他以对将来时标记(will, shall, going to)的使用为例,解释了影响语言词汇—句法选择的随机效应和自动相关因素。随机效应包括两种,一种是说话者主体因素,即说话者个人在选择将来时标记时有很大的差异;另一种是词汇搭配因素,指的是语法构式对词汇的选择具有倾向性。自动相关因素也叫滞留或结构启动,指的是前一个说话者所用的词汇和句法结构对后一个说话者的语言选择会产生影响。作者详细论证了随机效应和自动相关因素对将来时标记选择和使用的重大影响,认为在词汇—句法转换的研究中不可忽视这两个因素。
Jonathan Culpeper和Claire Hardaker对“网络问答语料库”的语用特征作了分析。通过用Wmatrix 和USAS语义分析系统对语料库进行语义标注,发现“责备言语行为”是语料库表达的主要行为,特别是在印度英语子语料库中的政治和政府领域中尤其如此。通过对语用噪音(pragmatic noise)的统计和分析,作者认为语用噪音的大量出现导致了语料库具有明显的口语体特征。作者还探讨了语料库中疑问句的词汇—句法形式和功能的映射模式,发现语料库中疑问句的突出语用功能是表达批判性评价,这一语用功能在除了菲律宾英语子语料库之外的其他三个子语料库中都有体现。
Paul Baker采取定性方法,基于对扩展索引行的分析,鉴别四个不同子语料库的性别语篇并比较其相似和差异。作者通过统计四个子语料库中与性别相关的词的出现频率,发现除了美国英语子语料库外,其他三个子语料库都显示出男性相关词汇具有更高频率。作者随后以七个性别相关词汇(men, women, girls, boys, guys, gentlemen, and ladies)作为检索词,分别在四个子语料库检索,对索引行进行分析后,概括出四组性别语篇,分别是:火星和金星、骑士精神、性别标准和女权主义。作者对四组语篇详细分析后,发现“火星和金星”语篇是主导性别语篇。
第四部分包括第十章到第十一章。Erez Levon先利用ProtAnt软件,从“网络问答语料库”按话题从四个英语变体子语料库中分别抽取一个最具代表性的文本,组成一个包含12个文本的小型语料库,然后对这个小型语料库定性分析,旨在研究问语和答语的结构一致性和答语用于表达立场和态度的可能性。研究发现,不同国家的英语变体对同一领域的问题,倾向于采取不同的回答方式。譬如,社会和文化领域的问题以询问信息性问题为主导,美国英语子语料库和菲律宾英语子语料库的答语倾向于提供信息,而印度英语子语料库和英国英语子语料库更倾向于表达立场;家庭和社会关系领域中的问题兼有询问信息性和评价性,英国英语子语料库中的回答倾向于明确表明自己立场,而菲律宾英语子语料库和印度英语子语料库中的回答倾向于仅提供信息,隐藏自己的立场,美国英语子语料库中的回答则兼有提供信息和明确表达自己立场。作者最后给出了解释,认为产生这一差异的原因在于不同的文化倾向于选择不同的表达立场和态度的交际策略。
Jesse Egbert从“网络问答语料库”中随机抽取了60个问题和300个答案,采取定性和定量相结合的研究方法,研究了读者对问题答案的感知差异。作者列出了读者对问题答案的五个感知差异变量,分别是可读性、偏见性、有效性、相关性和信息性等。本研究中有5个受事对这300个答案的五个感知变量分别作了测试。作者分别对五个感知变量进行了相关性分析,对最佳答案和其他答案在五个感知变量上的差异进行独立样本t检验,最后通过方差分析来测试美国读者对不同英语变体子语料库中答案的感知变量差异。结果显示,五个感知变量具有高度相关性。读者对答案的感知差异受不同英语变体子语料库的影响很大,例如印度英语子语料库的答案被读者认为可读性较差,菲律宾英语子语料库的答案被读者认为更具偏见,英国英语子语料库的答案被读者认为相关性更强。通过对不同答案间的对比,作者还发现读者对答案的感知和语言标准化程度紧密相关。
第五部分为第十二章。Jesse Egbert 和Paul Baker综合并比较了前面所有的研究。详细对比之后,作者发现,不同研究中的大部分发现是兼容和互补的。当然,也存在一些互相矛盾的研究结论,作者给出了一些可能的解释。其次,作者对前面研究中用到各种方法的优点和缺点进行了剖析,认为语料库驱动法由于不存在理论预设,经常可以带来大量意想不到的发现;基于语料库的研究方法带来的发现一般很有限;定性方法一般只对抽样的小型语料库进行研究,使得其研究发现很难反映语料库的整体特征。最后,作者阐述了语料库语言学中三角验证方法的优点和缺点,探讨了对未来研究的启示。
3. 简要评述
3.1 特色与不足
该书通过运用多种语料库研究方法,对由英国、美国、印度和菲律宾等四个国家“雅虎”网络论坛问答专区的语料组成的“网络问答语料库”进行研究,探讨了不同语言变体之间的语言使用差异。该书至少有三点特色:
第一,对语篇特征的描写更加全面。每一种语料库研究方法只能提供关于所研究语篇的部分特征。因此,要更加全面、系统地描写和揭示要研究语篇的特征,必须综合运用各种研究方法。该书每个研究都运用不同的研究方法,全面展示了“网络问答语料库”的整体语篇特征,避免语料库研究得出的结论“只见树木,不见森林”。
第二,研究发现和结论更加可靠。三角验证方法提供了一个验证不同研究方法所得到的发现的新思路,能对研究结果进行交叉检验,从而使得研究发现更加可靠。该书通过综合运用多种研究方法,比较和对比了不同研究方法所得出的研究结论,发现大部分结论具有互补性和兼容性,这从一定程度上增加了研究结论的有效性和可靠性。
第三,使读者对各种语料库研究方法的认识更加深刻。该书详细展示了多种语料库研究方法,例如多维度分析法、搭配网络分析法、多因素分析法等,使我们清楚地了解到语料库语言学研究中不同研究方法的利弊,使我们认识到不同的语料库类型和研究问题需要使用不同的研究方法和工具。
当然,该书也存在一些不足。该书显著的缺点之一是语料库规模过小,且语料涵盖范围有限。该书用于分析的语料库库容仅40万词,收集自英国、美国、印度和菲律宾等四个国家的“雅虎”网络论坛问答专区,涵盖社会与文化、家庭与社会关系、政治与政府等三个话题。由于语料库库容偏小,涵盖领域范围有限,很多语言模式和搭配出现的频率太少,导致得出的结论具有偶然性,说服力不强。譬如第10章中作者基于对仅包含12个文本的抽样语料库进行研究,发现不同文化决定着不同国家的人回答问题时采取不同策略:英国和印度文化在表达个人立场和态度时,倾向于“求异”,而美国和菲律宾文化在表达个人立场和态度时,倾向于“求同”。本文认为,该研究所用语料的局限性,导致这一结论未免有以偏概全之嫌。
3.2 启示
纵览全书,至少可以带给我们两点启示:
第一,方法上可以用多种方法进行三角验证。目前,语言学研究领域的新技术、新方法层出不穷。利用不同的研究方法对同一语言现象进行研究,可以深化我们对语言现象的认识,挖掘潜在的语言规律。
第二,语料库语言学研究应加强合作。没有一种研究方法能解决所有研究问题,不同的研究方法往往具有互补性。语料库语言学研究中使用三角验证,可以带来不同的研究发现,从而使我们对语篇特征的认识和把握更加全面。不同的学者可以相互合作,运用自己最擅长的研究方法和工具,共同解决面临的研究问题。语料库语言学研究中只聚焦于一种研究方法,无疑会使得研究结论具有很大的片面性。因此,语料库语言学研究中应加强学者之间深入、密切的合作和交流。
总之,该书促进了多种语料库语言学方法的综合运用,展现了语料库语言学中三角验证方法的独特魅力,对语料库语言学研究作出了巨大的理论贡献和方法论贡献,必将一定程度上推动语料库语言学的发展。
[1] Biber, D. 1988. Variation Across Speech and Writing [M]. Cambridge: Cambridge University Press.
[2] Biber, D. 1995. Dimensions of Register Variation: A Cross-Linguistic Perspective [M]. Cambridge: Cambridge University Press.
[3] Biber, D. 2003. Variation among university spoken and written registers: A new multi-dimensional analysis [A]. In P. Leistyna & C. Meyer (eds.). Corpus Analysis: Language Structure and Language Use [C]. Amsterdam: Rodopi.
[4] Phillips, K. 1983. Lexical Macrostructure in Science Text [D]. Birmingham: University of Birmingham.
[5] Phillips, K. 1985. Aspects of Text Structure: An Investigation of the Lexical Organization of Text [M]. Amsterdam: North-Holland.
[6] 江进林 许家金.2015.基于语料库的商务英语语域特征多维分析[J].外语教学与研究,(2):225-236.
The New Development of Corpus Linguistics:Review of Triangulating Methodological Approaches in Corpus Linguistic Research
There are many methods in corpus linguistic studies and different methods have different advantages and disadvantages. It is a new direction in corpus linguistic studies to take triangulating methodological approaches in order to verify the research findings. Co-authored by Paul Baker and Jesse Egbert, Triangulating Methodological Approaches in Corpus Linguistic Research is a masterpiece and the first attempt adopting that approach in this field. The purpose of this paper is to introduce and evaluate the book, and point out both its contribution and deficiency.
Triangulating Methodological Approaches; Q+A Corpus; corpus-driven method; collocation network; keyword analyses
H0
A
2095-4891(2017)03-0093-04
本文系中央高校基本科研业务费专项资金资助“基于语料库的英汉双及物构式与动词语义互动对比研究”(项目编号:2017JX012)的阶段性研究成果。
张懂,博士生;研究方向:认知语言学、语料库语言学
通讯地址:100089 北京市海淀区西三环北路2号 北京外国语大学中国外语与教育研究中心