APP下载

搭配、搭配提取与运用

2010-08-15谢家成

关键词:词串词类语料

谢家成

(长江大学外国语学院,湖北荆州434023)

搭配、搭配提取与运用

谢家成

(长江大学外国语学院,湖北荆州434023)

搭配是语言中习惯性的结伴使用,在统计上具有显著性;搭配具有语言学特征,在词类、位置和句法结构上相对固定。搭配提取正是基于上述特征,有针对性地选择自建语料,利用语料库工具提取诸如词类间搭配、词串、两个词之间的搭配等多种形式的搭配,能更有针对性地揭示特定语域的语言表达规律及其蕴含的文化信息。

搭配;搭配提取;词串提取

一、搭配简介

搭配是语言中常见的现象,但学界迄今对其没有统一的界定。视角不同,人们对搭配的认识也就不同。[1]

从语言的横组合看,搭配即“词项的习惯性结伴使用”[2](P14),词项间的搭配选择具有有限性和可预见性。搭配组合一般在句内,但也可以超越句子,属于更大的语篇,如“Ben serves…That’s his fifth ace of the match”中“serve”与“ace”的搭配。虽然韩礼德(Halliday)[3](P75)将搭配扩展到常出现于共同语境、语义相关、具有篇章衔接作用的词语,如“doc2 tor”和“nurse”,但这种定义太过宽泛。搭配可以是连续的,也可以是非连续的;可以是两个词,也可以是多个词乃至整个句子。

从语言的纵聚合看,搭配也指词与语法范畴的共现,即“词语在语法上的结伴关系”,如“con2 scious”的一个典型语法结构便是“be+否定词+ conscious+of+名词”。另外,从纵聚合看,词类间的搭配很有规律,词语的词类往往决定了其搭配模式。如常见的名词类搭配模式有:“名词+动词”(dog bark),“动词+名词”(fly a kite),“形容词+名词”(warm greetings),“名词+名词”(crop fail2 ure)等。综上所述,搭配可以理解为词与词或词与语法结构的经常性共现。

语料库的兴起则为搭配研究开创了新的局面。从语料库视角,人们对搭配关注的重点是搭配的自动提取。笔者通过运用多种有针对性的自建语料,实证地展示语料库检索软件的搭配提取功能在语言教学与研究中的运用。

二、搭配提取

虽然语料库检索行功能结合使用者直觉有助于获得搭配资源,但是,从语料库视角,人们更关注的是如何从大规模语料库中自动提取词语搭配。搭配自动提取(collocation extraction)在理论上有三种途径:基于统计、基于规则和基于统计与规则相结合。不过,在实践中纯粹基于规则的方法很少见。现有的搭配自动提取方法多是以统计为主,辅之以词性、句法等语言学规则。

较早对搭配自动提取进行尝试的Choueka等人认为,搭配是重复出现的相邻的词汇序列。[4]基于这一理念,Choueka等人提出的搭配自动提取方法主要是基于对相邻词语序列实际出现频率的统计。这一方法也称为“N2gram”(指二字词“bigram”、三字词“trigram”等多字词串,相关文献中也称之为词丛)。虽然理论上“N2gram”可指任意长度的词语序列,但一般指二字词到六字词。这种早期的单纯基于出现频数的方法比较简单,但存在不少缺陷。一是只能提取相邻的词汇所构成的搭配,无法提取非连续性的搭配。二是由于搭配提取主要取决于实际出现频数,因而受语料库规模的影响太大。后来,人们也提出了一些基于概率统计的词串提取方法,但依然不能提取非连续性的搭配。

对搭配自动提取的重大改进来自Church和Hanks。[5]他们秉承弗斯的理念,认为搭配就是经常性共现的词语,但在技术层面上提出了利用统计学中的互信息值(mutual information)这一基于相关性测量的方法来计算两个词之间(pairs)的可预见程度(association ratio)。该方法主要通过对比共现的两个词语的期望频率和实际频率(compare the probability with what actually happens),测量两个共现词汇的搭配强度。该方法实现了非连续性搭配的自动提取。在此基础上人们还提出了一些类似的提取搭配的统计测量方法,如 T值、Z值等。这些方法所基于的理念大致相同,即测量两个词在文本中共现的概率是否显著,是否非偶然性共现。但在统计时侧重点有所不同,因此在实践中可尝试用多种方法进行搭配提取。

基于概率统计提取搭配的最大优点是能够提取非连续性的词语搭配。不过,这种方法只能测量两个词语间的搭配强度,无法提取由多个词语构成的搭配。另外,基于概率提取的搭配也容易出现所提取的搭配从统计上相关性很高,如“doctor、nurse”,但并非真正意义上的词语搭配。为克服这些缺点,人们在自动提取搭配时开始巧妙地运用语言学知识进行筛选,因为词语搭配具有结构性,在组合关系上,词与词之间位置相对固定,且搭配词之间在词类和句法关系上也很有规律。

在结合统计测量和语言学知识提取搭配方面做得最成功的要数Smadja的“Xtract”系统和 Kilgarriff的“Word Sketch”引擎。Smadja[6](P151)的“Xtract”系统基于对搭配的两个基本假设:搭配词必须是非偶然性地经常共现,受句法约束,搭配词之间的位置相对固定。该系统首先通过统计测量方法(Z值)提取关键词在一定范围内的符合非偶然性共现的所有搭配候选词,然后运用语言学特征,通过位置分布信息和句法结构信息等过滤其中不符合相应语言学特征的搭配候选词。如利用位置信息过滤那些在位置上平均分布的搭配候选词,仅保留那些至少在一个位置上出现较高频率(即峰值)的搭配词。另外,也利用词类信息过滤那些不符合典型的词类间搭配特征的搭配候选词。这些过滤提高了搭配提取的准确率。不仅如此,在过滤不符合语言学特征的搭配候选词的同时,该工具还对符合条件的两个搭配词进行扩展,以提取更有用的多字词搭配,如“blue、stocks”被扩展替换为“blue chip stocks”,这样大大提高了搭配提取的适用性和召回率。Kilgarriff的“Word Sketch”引擎也充分利用了语料的词类标记信息和搭配的句法特征,能提供基于句法关系的分类搭配词。以“heavy”为例,其提供的主要搭配有:该词做系表结构时的名词主语搭配(adj.subject),如“traf2 fic、air、eyes、heart、legs”;做限定词时的名词搭配(modifies),如“smoker、drinker”等。这种基于典型句法特征分类的搭配更为实用,对词典编纂和语言教学等具有极大的促进作用,是目前最适用的搭配提取系统。

三、搭配提取的运用

搭配自动提取极大地提高了搭配研究的效率,提供了大量丰富而客观的信息,也提升了搭配研究的深度,使人们获得了一些凭借直觉或传统方法无法获得的认识,有助于弥补主观直觉之不足。虽然搭配提取技术还有待进一步完善,所提取的搭配还需适当辅之以直觉判断,但搭配自动提取所获得的丰富信息已被广泛运用于词典编纂、语言研究和教学等多个方面。

目前大型通用语料库提供了丰富的搭配资源,如学习者词典、专门搭配词典、网上语料库(如Word Sketch Engine)等。虽然目前能免费获得的语料库工具的搭配提取功能还远不够完善,但利用更有针对性的特定语料,如教材语料、口语语料和期刊论文语料等,通过语料库工具提取搭配,对于外语教学和研究依然十分有用,也是上述现有的搭配资源所无法替代的。下文将通过实证运用来探讨和展示如何利用免费语料库工具(此处指AntConc)和更有针对性的自建语料来提取搭配,辅助语言教学与研究。

通过语料库技术提取搭配主要有两种方法:一是通过软件的检索行功能,人工提取搭配;二是通过软件的统计功能,自动提取搭配,不过也需要辅之以直觉选择。在搭配提取的对象上,又可分为基于特定关键词/结构和无特定关键词/结构两种情况。

(一)基于检索行人工提取搭配

直接观察检索行获得搭配是最为直接的方法,一般针对特定的关键词或结构,通过排序观察与其共现的词语及出现频数,再结合直觉判断。检索行方法比较适合较小的语料,如教材语料。以人教版的新课标初中和高中英语教材为例,通过检索关键词“heavy”,可以展示该套教材中所呈现的该词的所有典型搭配,如作为限定词所搭配的典型名词有“box/clothes/coat/traffic/fog/food”,作为系表结构所搭配的典型主语有“he/she/legs”,这些典型搭配也是典型的语境,往往体现了不同的语义。这种调查将有助于教师对教材的全面掌握,在课堂上的直接呈现则无疑会有助于学生对教材的全面复习和掌握,而结合大型通用语料库所提供的搭配资源则能使教师更有针对性地进行讲解和补充。

如果语料进行了词性标注(网上可免费下载词性标注软件,如Brill Tagger),则可以检索不同词类间的搭配,大大扩展语料库对搭配的提取能力。如“名词+名词”类搭配非常有助于语言表达的精炼和地道,但常常被学习者忽视。因此,有针对性地选择特定语料,以上述人教版的初中英语教材为例,对经过词性标注后的教材语料提取所有的“名词+名词”搭配,这种采用语料库手段集中呈现的方式,可以通过突显大量的相关搭配和语境以引起学习者的关注,从而提升学习者对这类搭配的敏感度。鉴于搭配对语言学习的重要性(搭配是语言表达流利和地道的基础)和艰巨性(易受忽视且数量众多),利用语料库方法在课堂上进行显性的讲授无疑是值得的。

(二)基于统计自动提取搭配

基于统计的搭配自动提取包括两类,一是通过简单的词频统计(也可通过概率)提取连续的词串,二是通过概率统计提取非连续的两个词的搭配。

1.提取连续的词串

词串的提取分为无具体关键词和有具体关键词两种情况。

对于无具体关键词的词串提取,不少人认为意义不大。这种说法有一定道理,因为语料库工具提取的这类组合中不少似乎没有明显的意义,以二字词串为例,所提取的高频词串中包含大量的类似于“I am,on the”这样的组合。仔细探究,提取词串还是具有一定的意义的,但应注意以下两点:一是选取的语料应高度同质,如均为口语化很强的电影剧本语料。以流行美剧《老友记》为例,提取所有的二字词串,虽然其中不少表达缺乏明显的意义,但从中还是可以获得地道的口语表达词块,如“I mean,I know,You know,My God,You guys”等。二是一些表面上似乎价值不大的组合,如“are you”,观察语境则发现它能构成许多有用的更大词串,如“are you ready(for),are you okay/all right,are you se2 rious,are you crazy,are you sure,are you kidding (me)/joking,are you scared/upset,are you gonna be ok(call her)”等。可见,较小的词串通常是更大词串的一部分,小词串的语言生成能力不容忽视。

而基于具体关键词所提取的词串则往往更有价值。如为了调查英文期刊论文写作的表达规律,建设了小型期刊论文语料库。语料来自应用语言学类的国外顶级期刊,规模约为20万词。以论文中的常用词汇“study”为例,提取其二字词串就获得了许多有用的搭配,如表示研究类别和性质的常见搭配“case/descriptive/explorative/comparative/empirical/ experimental/laboratory/pilot/longitudinal study”;表示过去、现在和将来研究的常见搭配,如“previ2 ous/recent studies,the present/current study,fur2 ther studies”;典型的动词搭配则有“investigate/ex2 amines/compare/show/suggest/demonstrate/indicate”等,进一步观察这些动词的时态还能有更多发现。另外,对提取的搭配进一步观察也发现,一些表面上意义不大的搭配从更大的语境看表达力很强,如“no study”和“few studies”常被用来指出现有研究之不足,如“no(published)study/few studies has/ have directly/systematically tested/looked at…”;而“our study”的大量出现(词串提取没有得到my study这样的搭配)则反映了论文作者的表达视角倾向于用第一人称的复数形式,以避免体现个人的主观性。

2.提取非连续的两个词的搭配

和检索行相比,提取非连续的两个词的搭配主要是基于概率统计,这更适用于大规模语料。大规模语料来源广,代表性强,不仅能较好地体现语言表达方面的规律,也能在一定程度上体现使用该语言的人群对某事物的集体看法,因为语言不仅建构社会,而且体现社会。因此,通过对语言的调查能够揭示文化信息,而从搭配角度揭示人们对事物的集体认识则是一种较为高效的手段。

以自建的英美文学作品语料库为例(约1500万词),通过检索“dog”的常用搭配,可以探究英美民族对于狗的一些集体认识。由于搭配提取的参数可以灵活选择,此处选择关键词左边跨度为2,右边为3,最低频率为3,按互信息值排列。通过观察发现,语料库自动提取的一些搭配体现了英美民族对于狗这一动物的多维度且较为复杂的认识,如:狗的典型行为动作为“yelp、bark、wag、bay、howl、bite、lick、bound、chase、sniff、guard、save”;狗可以分为“hun2 ting、prairie、farm、puppy、pet、wild、stray”;常常与狗一同出现的事物有“sledges、cats、master、goats、sheep、fox、horse”;对狗的常见修饰语,又可分为褒义类“faithful、friendly、clever、obedient、little、great”,贬义类“fierce、mad、cunning、hungry”和中性类“black、big、old、sleeping”等。其中有些表面上显得意义不大的搭配词,如“old、eat、living”等,实际上可能体现了较为固定的习俗表达,如“can’t learn an old dog new tricks;it’s dog eat dog;a living dog is better than a dead lion”。最能体现英美民族对狗的认识的搭配词则是介词“like”。通过比喻,人们充分地展示了对狗的不同特性的不同看法,因此通过观察该搭配的具体语境能有许多发现。如英美民族对“dog”的表达中许多含有消极语义,如“slay/ hang/kill/beat you like a dog;be treated like a dog;die like a dog;lived like dogs in a kennel;quar2 rel like dogs and cats;like a cornered/angry/hun2 gry/mad dog;like the dog in the manger”等。表达积极语义的则大多与忠实、温顺有关,如“like a faithful/pet dog;(he cringed along at my compan2 ion’s side)like a dog with its master”。另外也有一些中性的比喻表达,非常形象生动,如“ran round, like a dog who is picking up a scent;follow you a2 bout like a dog;pant/bark like a dog”等。这些发现可能与语料来源有关,该语料大多为19世纪和20世纪上半叶的文学作品。

四、结语

综上所述,搭配对于语言学习与研究均非常重要。搭配提取充分利用了搭配的特性,即搭配是语言中习惯性的结伴使用,因此在统计上具有显著性。搭配具有语言学特征,在词类、位置和句法结构上相对固定。搭配提取提高了搭配研究的效率和深度,而基于大规模通用语料库的搭配提取则为语言学习与研究提供了丰富的资源。但这并不排除更有针对性地选择自建语料,使用语料库检索工具提取诸如词类间搭配、词串、两个词之间的搭配等多种形式的搭配。上述大量的实证运用则充分证明了其对于语言教学与研究的应用价值,能更有针对性地揭示语言表达规律及其蕴含的文化信息。

[1]谢家成.搭配的多视角透视[J].解放军外国语学院学报,2008 (2).

[2]Firth,J.R.Papers in Linguistics[M].London:Oxford University Press,1957.

[3]Halliday,M.A.K.,Hasan,R.Cohesion in English[M].London: Longman,1976.

[4]Choueka Y.,Klein T.Neuwitz E.Automatic Retrieval of Fre2 quent Idiomatic and Collocational Expressions in a Large Corpus [J].Literary and Linguistic Computing,1983(1).

[5]Church,K.W.,P.W.Hanks.Word Association Norms,Mutual Information,and Lexicography[J].Computational Linguistics, 1990(1).

[6]Smadja,F.Retrieving Collocations from Text:Xtract[J].Compu2 tational Linguistics,1993(1).

责任编辑 强 琛 E2mail:qiangchen42@163.com

book=860,ebook=860

H314

A

1673-1395(2010)03-0065-04

20100312

谢家成(1969—),男,湖北荆州人,副教授,主要从事语料库语言学研究。

猜你喜欢

词串词类语料
用词类活用法扩充词汇量
灵动的词串,写话的纽带
基于语料库“隐秘”的词类标注初步探究
从成语中学习词类活用
报纸新闻标题中的“热词群”和“热词串”
基于语料调查的“连……都(也)……”出现的语义背景分析
基于“字本位”理论再谈汉语词类问题
美语口语词串You Know What探析
华语电影作为真实语料在翻译教学中的应用
《苗防备览》中的湘西语料