重读OSTI搭配研究报告*
2020-02-22安徽工程大学刘运锋
安徽工程大学 刘运锋
提要:OSTI报告记录了Sinclair团队在20世纪60年代进行的语料库搭配基础研究,是语料库语言学研究的宝贵文献,但1970年完成后只是小范围流传,直到2004年才公开出版。该版增加了Teubert对Sinclair的访谈,访谈内容以今天的技术和理论发展视角审视40年前的搭配研究,对于理解意义单位等相关概念发展有重要作用,但国内文献没有对该报告进行过系统论述。本文借助该访谈内容重读OSTI报告,梳理该报告的研究背景、主要内容,并评述其创新性和局限性,目的是进一步了解OSTI项目在语料库语言学实践和理论发展中的地位与价值,认识语料库驱动语言学理论萌发、产生、发展的脉络。
1.引言
搭配作为词语组合是语言学研究的重要内容之一。结构主义语言学从语法结构上研究搭配,语义学从语义特征上研究搭配,语料库语言学通过词语共现研究搭配,认知语言学通过认知构式研究搭配。不同学派采用不同路径解释词语组合现象,丰富了我们对搭配的认识。关于搭配,有两本“不易得到的”(simply not available)重要研究报告(Williams 2005:257):一个是“搭配研究第二次中期报告”(Palmer 1933),另一个是“OSTI研究报告”(Sinclairet al.1970)。前者是20世纪30年代Palmer在日本利用搭配进行英语教学的研究报告,是外语教学中搭配研究的重要成果,对牛津学习者英语词典编写有很大影响。Palmer的搭配研究主要集中在外语教学,没有采用语料库研究搭配,也没有将搭配作为技术性术语;搭配不仅是英语学习中的一个重要概念,还是语料库研究的基本分析单位(李文中 2019:7)。后者是Sinclair团队在20世纪60年代进行的语料库搭配基础研究报告,该研究继承和发展了Firth语言学思想,对COBUILD词典编写和语料库语言学理论产生与发展奠定了实践基础。该报告完成35年后才公开出版,并在前言部分增加了Wolfgang Teubert对Sinclair的访谈,是我们理解语料库语言学搭配基础研究的重要文献。国内鲜有对OSTI项目研究的系统介绍,本文从语料库语言学角度介绍和评述Sinclair团队的搭配研究报告,以便进一步了解和认识OSTI搭配研究在语料库语言学发展中的地位和价值。
2.OSTI项目研究背景
OSTI报告的全称为The Report for UK Government Office for Scientific and Technical Information,是Sinclair团队在1970年为英国政府科技信息办公室提交的搭配研究报告。OSTI项目的目的是利用语料库方法通过搭配研究词语意义。项目设计得到McIntosh、Halliday和Wexler的指导,Sinclair任项目首席调查员。项目研究始于1963年,得到福特基金会的短期资助,1964年由爱丁堡大学科学和工业研究部(The Department of Scientific and Industrial Research,DSIR)资助。语料的收集、转写等前期准备工作主要在爱丁堡大学和伦敦大学学院完成。1965年,Sinclair离开爱丁堡大学到伯明翰大学任教,该项目于1965年9月到1967年1月暂时搁置。1967到1969年,在英国科技信息办公室的资助下继续进行,最后于1969年9月结束。整个项目用时六年(1963、1964、1965、1967、1968、1969),研究报告English Lexical Studies:The Final Report of the Project C/LP/08于1970年1月完成并提交。
报告中的搭配研究方法与实践对语料库语言学的产生和发展具有至关重要的作用,但该报告只作为印刷本在伯明翰大学英语系内部流传,没有正式出版。1987年,Sinclair(1987)在Looking Up一书中提及该报告。该报告犹如一只“神秘的怪兽”(a mythical beast),大家只闻其声,不见其形(Williams 2005:257)。2000年,在伯明翰大学为Sinclair举办的退休宴会上,Krishnamurthy提议正式出版该报告,得到Sinclair的同意和Teubert的支持,最终于2004年公开出版(Sinclairet al.2004)。该书由Krishnamurthy作序,增加了Teubert与Sinclair的访谈,其余内容与1970年的印刷本一样。
长达13页的访谈内容是本书的重要部分。通过回答Teubert的问题,Sinclair采用回顾性视角审视和反思40年前的语料库搭配研究。从中我们可以了解到OSTI项目研究更多的理论和技术背景。20世纪60年代初,生成语法利用语言直觉和内省数据进行语言研究成为重要的研究范式,而收集真实数据,建立电子语料库进行词语研究才刚刚起步。语言研究传统中,语法一直占主导地位,词语只是例示或说明语法规则的附属物,词语研究没有现成理论可借鉴。虽然Firth的多层级意义分析模式和搭配择义理论(Firth 1957)为词语研究带来启示,但意义分析模式只停留在概念层面,不具有可操作性,而且搭配产生意义还只是一种“猜测”(speculative)(Sinclairet al.2004:xvii),需要真实数据验证。此外,Firth研究搭配对单个词意义的影响,不关注搭配组合的整体意义。词语研究的问题是不知道从哪里入手(同上:3),Sinclair从头开始,利用语料库探索性地通过搭配观察词语意义。受技术条件限制,OSTI项目利用13.5万词次的口语语料研究词语搭配不足以揭示词语使用型式,但这已达到当时伯明翰大学KDF9电脑的最大储存和处理能力(Sinclairet al.1970:24)。在这样的背景下,Sinclair团队设计统计软件,界定相关概念和术语,提出研究方法,进行了开创性的探索工作,对今天的语料库语言学研究依然具有指导意义。
3.OSTI报告主要内容
OSTI正文内容分为7个部分。
第一部分包括专业术语的界定、爱丁堡大学与伯明翰大学的项目执行情况,以及将来研究期望。研究一开始就断言,词语单位在大部分情况下都不可能是单词,于是提出一系列术语。词项(lexical item)是表述特定意义的语言单位,它不总是通过正字法单词来识别,它还可以采取如下形式:(1)语素,如going分为两个语素go/ing;(2)同形异义词,如ball表示球或舞会;(3)一组聚合联系的词语,如kick、kicks、kicking、kicked;(4)一组组合联系的词语,如run to seed。与词项相对的一个概念是语法项(grammatical item),指在文本中体现语法功能而非意义的语言单位,如the、a、and和语素-ing、-ed、-s等。搭配指两个项目在文本内一定环境内的共现。OSTI项目对词语的研究还不完整,对以后的研究提出很多基本问题,其中最大的问题是文本的选择和处理。
第二部分介绍OSTI研究使用的语料,主要包括13.5万词次的即时会话、100万词次的布朗语料库、1.2万词次的科技文本、1.3万词次的实验模拟数据。
第三部分论述显著性搭配,包括样本与取样、跨距设定、显著性水平测试等。Sinclair采用Herdan(1960)的type、token术语,并提出和界定node、span、span position等术语。实际操作中,将最佳跨距限定为±4。在某一跨距位置上检验搭配显著性,目的是找出位置固定和位置灵活的搭配词。
第四部分讨论语法词、半语法词(semi-grammatical item)。大多语言描写区分语法性(grammaticality)和词语性(lexicality),前者称为语法词,后者为词语词。Sinclair分别称其为语法项和词项。实际上,很难对两者进行清晰的划分。Halliday认为,两者的区分与频数有关,从最语法的到最词语的之间存在一个连续统,任何一个项目在连续统上的位置与它的总体频数排序相对应。语法词的搭配是中性的,很难预测它的使用环境(Halliday 1966:155)。Sinclair语料库研究则证实,语法词不是搭配中性,每一个语法词在设定跨距内均有显著搭配,而且随着频数增加,语法词会吸引更多的显著搭配词。Sinclair将口语中高频使用的know、think、mean等词语词称为半语法词,它们高频出现并不是完全基于词语词的力量,也受语法词的影响。这说明它们作为行为异常的词语词,在口语文本中有特定的功能。OSTI语料相对较少,但高频出现的语法词和半语法词足以揭示它们的使用型式。Sinclair认为,语法词和半语法词是词语研究的一个问题,解决这个问题的关键是清楚地定义语法搭配的特点,这是真正揭示词语行为的重要一步。
第五部分论述词语词的搭配型式,包括数据收集、搭配信息分析、搭配位置及搭配统计分析。词语词之间的搭配可以发生在任何语法结构中,搭配词语位置较为灵活。词语词与语法词的搭配则受语法词和节点词词类管制,词语位置相对固定。词语词的搭配型式可以通过统计的和语言学的两个不同的方法获得。显著性检验可以区分规律搭配和任意搭配,语言学方法可以辨别语法和词语对搭配型式的影响。所有的显著性搭配都要考虑统计和语义的因素,因为搭配是基于文本、主题和环境的。考察词语词的目的是希望获得词语词的搭配信息,以便更好地理解词语作为语言组织原则的知识。
第六部分论述如何识别词项,包括习语。在第一部分Sinclair提出并界定词项,它可以是一个语素、同形异义词、聚合联系词、习语。英语中很多单个词是多义的,词项识别的标准是搭配型式,因为每一个词语都有显著的搭配型式。Sinclair对词项的识别是探索性的、客观的、量化的,但意义始终是重要的识别要素。
第七部分论述搭配强度。Sinclair使用显著性统计手段,对比各种定理和检验方法的优缺点。从统计上,如果两个或多个词语共现是显著的,这只说明偶然共现的概率很小,但从语言学上不能说明词语共现的语义相关性。如of the、in a在统计上是显著搭配,但没有语言学意义。语言使用不是随机的、偶然的,而是受目的驱动的,人们经常发现,文本中词语共现的实际频数是基于统计的期望频数的很多倍,Sinclair也质疑这些统计检验,并失去对统计程序的最初信心(Sinclairet al.2004:xxii)。这说明,词语意义研究需要结合统计检验和语义相关性进行搭配分析。
4.OSTI研究报告评述
OSTI项目利用电子语料库对搭配进行实证研究,提出相关概念或术语,设定搭配研究相关参数,区分语法型式和词语型式,探索节点词和搭配词的位置关系以及搭配统计分析方法,在当时的技术和理论背景下具有开拓性和创新性,具体体现在以下方面。
(1)将Firth的搭配定义从概念层面实现为语料库搭配研究的实际操作,并利用统计方法进行搭配显著性检验,相对于直觉例子,真实数据和统计分析更具有说服力;
(2)通过语料库驱动方法质疑了Firth的搭配意义“选择说”(selective)(Sinclairet al.2004:xxi),并修改了Halliday的语法词搭配“中性说”(Halliday 1966:155),可以说,“搭配作为一种研究范式,真正改变了我们看待语言的方式”(Williams 2005:257);
(3)通过建立方法论,关注词语而非语法,或通过词语关注语法,奠定了语料库驱动研究的基础,标志着“语言学研究从语法结构分析到词语搭配分析的重大转变”(李文中 2017:84),推动了语料库语言学理论的产生和发展。
OSTI项目13.5万词次的口语语料对于词语搭配研究来说,具有一定的局限性,但重要的是,建立了搭配研究的重要方法与原则(Jone &Sinclair 1974:18)。很多人认为语料库语言学源于Firth的学术思想,但是OSTI报告将Firth的研究范式改变成我们今天语料库语言学使用的范式,这是OSTI搭配研究的重要价值。
同样,由于技术和理论发展阶段的限制,OSTI研究报告也存在如下时代局限性:
(1)OSTI项目的最初目的之一是根据词语的搭配型式建立词项集合或词语集,但使用的口语语料库相对较小,语法词和半语法词很多,不足以发现足够的词语型式,因此没有完成词语集建设(Sinclairet al.1970:21)。
(2)报告中认为,词项可以实现为语素、同形异义词、聚合联系词语、习语。可见,当时Sinclair还没有完全放弃单个词作为意义单位的想法,或者说他对意义单位是一个短语而非单个词的认识还不是很清晰。
(3)搭配强度分析中,统计模式是必要的,但统计只是达到目的的一种手段,语料库搭配研究中既要有统计上的显著性分析,也要有语言学上的语义相关性分析。
(4)OSTI项目形成了语料库语言学研究的基本操作方法与原则,但没有提出系统的理论,也没有形成语料库语言学思想(Stubbs 2011:6)。
在OSTI研究中,Sinclair发现了词语单位与意义单位之间存在关系,这是共选理论的萌发阶段。遗憾的是,由于技术条件限制,Sinclair在OSTI项目完成后的整个70年代都没有从事语料库研究,语言学理论探讨被搁置了。在80年代的COBUILD项目中,Sinclair才开始正式思考意义单位;在90年代提出语言使用的“习语原则”和“开放选择原则”(Sinclair 1991)、“扩展意义单位模型”(Sinclair 1996)和“词语语法”(lexical grammar)(Sinclair 2000);2000年后,提出“语境共选连续统”(Sinclair 2004)、“短语理论框架”(Sinclair 2008)和“局部语法”(Sinclair 2010)。Sinclair从OSTI项目以搭配入手研究词语意义,然后进行以搭配为核的扩展意义单位分析,直到在局部语法中结构化描写以搭配为核的意义单位,随着技术的发展,搭配研究思想逐渐深入,同时对意义单位、词项等术语的认识也有了发展变化,形成了语料库语言学系统的学科理论基础。
最后回到Teubert与Sinclair的访谈,用现在的技术和理论发展回顾40年前的语料库搭配初始研究,可以清晰地认识到OSTI报告的创新性及其局限性。今天,我们重温该报告的内容,目的是了解早期语料库搭配研究的基础性工作,更重要的是理解语料库语言学理论萌发、产生和发展的脉络,以便将来沿着理论主线推动语料库语言学研究向纵深发展。有些术语或概念会随着理论发展进行调整,但调整并不意味着理论的冲突或修改,调整的目的是逐步系统地建构语料库语言学理论,如“搭配”“词项”概念及对“意义单位”的认识在OSTI报告中和今天的语料库语言学中就有很大的发展变化。