APP下载

词法能产性的计量研究述评

2016-07-15陈练军闽南师范大学文学院福建漳州363000

关键词:计量频率

陈练军(闽南师范大学 文学院,福建 漳州 363000)



□语言学研究

词法能产性的计量研究述评

陈练军
(闽南师范大学 文学院,福建 漳州 363000)

摘要:词法能产性可基于类型(或个例)频率、新词、单频词等方法来计量,还包括狭义能产性、基于相对频率的能产性计量方法、能产性的历时变化等问题。每种计量方法强调的是能产性的不同方面,存在数据采集和数据分析等方法论问题。要想对特定词法成分的能产性做精确陈述,就应当考虑各种计量方法。最后简要评述了汉语词法能产性计量研究的现状。

关键词:词法能产性;计量;频率;单频词

1 什么是能产性?

1.1能产性的定义

如何给能产性(productivity)下定义,争议很大。从广义上来说,能产性是基于规则的创造性,可用于构造新句子或新词,构造新词被看作是词法能产性。目前多数学者关注的是词法能产性,如 Schultink(1961:113)把能产性看作是一种词法现象,是语言使用者下意识地构造新词的可能性,而这些新词从理论上来说是不计其数的,是通过与现存词汇形式、意义相对应的词法程序来造新词。Bauer(2001:97)认为能产性是词法创新的特点,词法过程的能产性指反复构造新词的潜力,且这种构词方法不是新创造出来的。Bauer (2001:205-211)将能产性区分为定性的“可用性(availability)”和定量的“收益性(profitability)”。可用性是指特定的词法过程在某种语言的当前阶段仍可用于构成新词,如英语中-ise可用于构成新词,所以是可用的,而 en-不再构成新词,所以是不可用的。所以说词法过程要么可用,要么不可用。收益性是指词法过程用于创造新的合法词形的程度。Bauer(2002: 22)把截缩词、混合词和首字母词排除在能产性之外,更概括地说,就是把所有有意造的词都排除在能产性之外,只要是由规则支配就看作是能产性。构词过程是有意识的(intentional)还是受规则支配的,这是个有争议的问题(Plag1999:14)。

1.2能产性、创造性与预示性

能产性和创造性(creativity)存在区别:复合词显示不出能产性,但具有创造性。创造性没有预示性,但能产性有可预示性。是否形成复合词,这可以预测,但复合词成分间的确切的语义关系却是不可预测的(复合词的这一特点也称之为含糊性(vagueness),这就是复合过程与词缀化的派生过程所不相同的地方。Botha (1968:135) 区别了改变规则的创造性和受规则支配的能产性。Bauer (2001: 71)举德语词为例来说明创造性与能产性的区分问题。如 zweisam是以 einsam(“lonely”)为基础(部分)类推而来的,这一过程没有造成能产性系列,基于同一模式或规则只构成了两个词,是基于einsam形成了zweisam,这不能看作是能产性的表现。能产性要求产生许多新造词(coinages),如德语中基于cuddlesome形成了至少20个新造词,这是能产性的表现。Bauer (2001: 71)认为,zweisam开创了一个新的趋势,即产生了新规则。如果没法证明规则变了,就没法证明存在能产性。因此,要证明能产性,应必备三种形式:原有的词根,经重新分析产生新规则的形式和运用新规则的新用法。改变规则、利用规则,是能产性规则的指标。只要是模仿已有词项来构词,那么就是基于已有词模的类推构词,没有发生规则变化。复合词就是用这种方式形成的。但一旦出现包括意义变化在内的新规则,并运用了这一规则,这就是能产性问题了,可以据此讨论派生过程(Trips 2009:29)。

复合词有无能产性?这是个需要讨论的问题。Trips(2009:28)认为复合词无能产性,能产性从不讨论复合词,复合词被看作是有意构词但不受规则支配的构词过程。不过,从其所举例来看,是认同复合词具备能产性的。Traugott&Trousdale (2013)未直言复合词有无能产性,只是认为词法构式都具有能产性特征。词法构式既包括复合词,也包括派生词,是否可照此推理认为复合词有能产性?我们认为不能这么看。可能比较合理的说法是,复合词所例示的某种词法构式具有能产性,单个的复合词本身是不具有能产性的。

1.3能产性与频率

Bauer (2002:20) 列出了能产性的三个前提条件:频率、语义连贯性(semantic coherence)以及构造新词形的能力。有关频率的不同概念包括:1)类(型)频率(type frequency),指与所讨论的词法范畴同现的不同词的数量;2)(个)例频率(token frequency)是指与所讨论的词法范畴同现的实际出现频次。

2 词法能产性的计量方法

词 法能产性有质 ( qualitative)和量(quantitative)两个方面,可采取不同方法来计量能产性的不同方面(Plag 2006a:123;Plag 2006b:544),但方法上并未真正达成一致意见,有关能产性的各种计量方法都存在不足之处(Bauer 2001:207)。目前大多研究者已放弃了对能产性做定性研究的思路,转向了能产性的定量研究,即对能产性的收益性进行计量。我们综合多家观点,从七个方面来讨论词法能产性的计量问题(1)。

2.1基于类型(或个例)频率的能产性计量

利用文献语料库或大型辞典,通过计算含有特定词缀的各个已见词的数目(即类频率 V)来计量能产性,类频率越高,该词缀的能产性越强。这种计量方法的问题是,许多词可能包含有某词缀,但人们却不怎么用它来构造新词,所以这种计量法表示的是该词缀在过去某一时期具有能产性,而非当前的能产性,人们无法从中得知该词法过程至今是否依然有效。

Baayen(2008:6)通过统计语料库中词例的类型数来估算词法范畴的“实际能产性(realised productivity)”。语料库中能产的词法范畴是以大量低频形式为特征的;另一方面,不能产的词法范畴是以大量高频形式为特征的,原因是“高例频率阻止不规则形式的规则化,也可用以解释不规则形式为何得以继续存在” ( Baayen 2008:12)。

Bauer(2001:144)认为将类型数等同于能产性是存在问题的。类型数大概能让人了解词法过程的概括程度,但无从知晓词法过程的可用性。可能存在的情况是,用该词法构造的最后一个词已经被语言社团所接受,在这一意义上来说,该词法过程不再具有能产性。能产性概念的关键一点就在于构词潜能,但类型数不能显示潜在词的任何信息,所以直接计算类型数只能得知过去的能产性。

Aronoff (1983)认为,能产的词法过程所构成的派生词,平均例频率常比非能产方式所构派生词的例频率要低。例频率被认为可用作计量语义复杂度的间接手段,通过不能产方式构成的词其语义复杂度最高,所以会发现相当多使用频率不高的词是通过能产的词法方式构成的。

2.2基于新词的能产性计量

利用大型历史辞典,通过计算特定时期新词的数量来计量能产性。新词数越多,该词法成分在这一时期的能产性就越高。不过,不能高估这种方法的有效性,因为许多新词可能被辞典编撰者所忽略未收录进辞典,从而影响对能产性高低的判定。

2.3基于单频词的能产性计量

可通过计算大型语料库中含有特定词缀的单频词数量(hapax legomena 或hapaxe)(n1)来计量能产性,单频词数量越多,能产性越高(2)。

判定某一词法过程是否具有能产性,单频词是个关键因素。因为在大型语料库中,单频词多是听说者不熟悉的词,但在这种情况下,合成的陌生词依然可以被理解,因为有效的词法规则允许将遇到的新词分解为构词语素,再以构成成分的意义来理解词的意义。心理词库中的词法规则保证了低频的合成词能够被理解,所以能产的词法过程的特征是大量低频词和少量高频词。大量低频词保持了词法规则的生命力,迫使说话者去切分派生词,从而增强了词缀的存在性。不能产的词法范畴的特征是以大量高频词为主,低频词很少(Plag 2006a:123)。

并非所有的单频词都是新词,但在单频词中新词所占的比重最大(Baayen & Renouf1996; Plag 2003)。如果说单频词数与新词数有关联,那么单频词数就可做为能产性的指标,但这不等于说单频词就是新词。例如,我们从语料库中发现-hood有10个单频词,然后调查大型辞书是否收录这些词。这样做的理由是,如果辞书未收录,那就意味着这些单频词是新词。我们期望的结果是,在10个单频词中发现的新词数比在词频高于1次的词中发现的新词数要多。这在Plag (2003b)关于-able构词的研究中得到了证实,即单频词中以该词缀构成的未收录(non-listed)词的数量高,所以单频词可用于能产性的计量。

语料库的大小决定了单频词的性质,语料库越大,单频词中新词的比重就越大,所以单频词数是估算词法能产性的重要方法。这种研究方法的不足在于,语料库的大小对计量结果的影响很大,对于相关词形的判定也存在问题,如英语中entity, quantity, celebrity应不应该看作是-ity的派生词。

2.4狭义能产性的计量

以含特定词法成分的单频词数除以包含该词法成分的所有个例数,可得到P值,P值表示在包含特定词法范畴的所有个例中找到新词的概率(probability)。这是 Baayen & Lieber(1991:817)有关“狭义能产性”的计量方法,旨在计量词法过程的“收益性”。可用下面公式(1)来表示:

P表示特定词法范畴潜在的能产性,n1表示含特定词法成分的单频词数量,N表示含特定词法成分的所有个例数。可这样来理解P值,单频词数越多,P值就越高,那么这一词法过程就越能产。这是因为,潜在词(possible word)类型数越多,全部同时出现在特定语料库中的可能性就越小,潜在词在语料库中只出现1次的情况会更多。反过来,高频词越多,N值越高,P值就会下降,这代表着低能产性。这里存在这么一个假设,词汇化了的类型(lexicalised type)比未词汇化的类型(unlexicalised type)例频率更高,平均例频率高就表示能产性程度更低(Bauer,2001:152)。高例频率与高度词汇化、低能产性相关,这在Plag (2003b)关于-able构词的研究中得到了证实。P值是计量能产性的间接方法,计量的结果与语料库的大小相关,所以不同大小的语料库之间不能比较词法成分的能产性(Bauer2001:153)。狭义的能产性计量的是能产性的共时特征,而非历时受益性。“狭义的能产性”试图对偶遇(encounter)新词的概率进行统计,但它却忽略了类频率,为此Baayen (1992:122–125) 等引入了“全面能产性”概念,本文不赘述。

2.5基于相对频率的能产性计量

用频率来计算能产性的根本原因是,合成词的频率严重影响人们加工和存储词汇的方式。当前大多数词法加工(morphological processing)模式下,心理词库中合成词的词法存取(access)以两种方式进行:一是存取整词表征(所谓的“整词路径”);二是存取分解成分(所谓的“分解路径”)。这意味着每个新出现的合成词同时以两种方式加工,其中一种路径最终胜出。分解路径的话,合成词被分解为组件,组件被逐个搜索;整词路径的话,整个词在心理词库中作为整体来搜索。这两种路径可图式为(2):

据Hay(2000,2001)的研究,词的分解程度关键在于派生词与词基(base)的相对频率。相对频率是指派生词的频率与词基频率的比率,用来计量与词基相关的派生词的使用频度。

对多数合成词来说,词基比派生词的出现频次要高,所以相对频率小于整体(unity)。用心理学术语来说,在心理词库中,词基比派生词有更强的表征,或更高的静息激活(resting activation)。由于高静息激活,这导致分解路径占优势,派生词每次进入系统,词基均被存取。相反,当派生词比词基出现频次多的时候,语法分析时偏向整词路径,这是因为词基的静息激活低于派生词的静息激活。如business的频率高于busy,整词路径胜出,business的语义、语义也不透明,该派生词呈现更强(词汇化了)的整词表征。分解路径如blueness。总的说来,派生词比词基的频率高,就更不可能分解;换句话说,派生词比词基的频次低,则更有可能分解。低相对频率与高能产性相关,低相对频率也与高语义透明度相关。能产的词法过程以大量低频词(如果据语料库来说,就是有许多单频词)为特征,派生词的频率越低,相对频率也越低,所以能产的词法过程以低相对频率的词占多数,而不太能产的词法范畴则是以更高相对频率的词居多。Hay&Baayen (2002)的研究证实,词库中包含特定词法成分的词形如果词法分解性越高,该词法成分的能产性就越高。

2.6词法能产性的历时变化

对于词法能产性的历时研究相对要少得多。词法的历时研究中需要调查的是不同时期的新词,也就是新词法范畴产生、消亡或长期处于边缘地位的发展程度。

Dalton-Puffer (1996)第一次尝试将统计的方法运用于历时语料来测试中古英语的能产性变化,通过Helsinki的子语料库,利用实际能产性(类频率)和例频率来比较中古英语的词缀,注意到类频率常用来标示能产性。Baayen & Renouf (1996)研究了英国Times中能产的词汇创新,研究集中在类频率、(单频词条件下的)能产性扩展和潜在能产性,从历时的角度比较了1989年至1992年间5个去形容词性派生词缀的能产性。Cowie (1999) 基于语料库考察了近代英语中的名词化,她采用了Baayen & Renouf (1996)的能产性计量方法,也用起始词库(starting lexicon)去核查文本中每一个新时段的情况。Baayen & Renouf (1996)和Cowie (1999)都通过比较不同时段(的语料库)中的类频率、例频率等情况来进行历时的研究。Scherer (2003)对德语词缀-er进行了历时研究,她在Mainzer Zeitungskorpus语料库中计量了这些派生词在所限定的时段内的能产性,注意到测算能产性时,要将语料库的大小考虑进去,因为这会影响词的类型、个例、单频词的数量,相应地也会影响到对类频率(实际能产性)和扩展能产性的计量。由于能产性由一系列因素决定(见 Plag1999; Baayen 2008),Scherer (2003)将类频率(实际能产性)、狭义能产性(潜在能产性)、扩展能产性、词的个例及单频词的数量纳入能产性研究的范围,构词法的变化显示出能产性的变化。

2.7词法能产性的计量研究中存在的问题

每种计量方法强调的是能产性的不同方面,要对能产性进行全面考察,可同时运用多种计量方法进行多方位的研究(Plag 2006a:123;Plag 2006b:544-545)。

表1:词缀能产性的计量结果(转引自Plag 2006b: 545)(3)

根据OED(古英语辞典)的排序,-wise虽易于派生新词,但不太常用。根据透明度、单频词数、新词数,-ion、-ity、-ist 被认为较能产,而-less 能产性更低;但要是根据p值,情况正好相反,即-less 能产性更高,-ion、-ity、-ist能产性更低。这前后矛盾的结果如何来解释呢?词缀-less不出现在很多的词中,且这些词的使用不太频繁,所以-less的类型数(V)和个例总数(N)的值不高,单频词数和OED的新词数也相对要低。但如果只考虑该词法范畴的词,会发现在所有个例中单频词的比例非常高,这就意味着在所有含有-less的词中找到新词的概率是很高的。这种高概率用高P值来计量。这种明显的前后矛盾可以这样来解释,即人们显然使用-less不多,但-less极易用于构造新词。相反的例子是含有-ion、-ity和-ist的词,每个词缀都有许多词,但这些词的平均频率相对较高,那么从个例中发现新词的概率就低了。换句话说,这些词缀常用于既有词,但与我们所使用的许多词相比,这些词缀不太用于构造新词。-ness的类频率和新词数都高,但由于个例数多,p值就低了。综合各方面情况,-ness是所有词缀中能产性最高的,它的狭义能产性相对较高,同时用于大量的派生词,相对较低的OED新词数可能是语料的收集存在问题。

每种计量方法强调的是能产性的不同方面,同时也带来了数据采集和数据分析时出现的方法论问题。要想对特定词法成分的能产性做精确陈述,就应当考虑各种计量方法,并根据统计时方法上存在的问题对研究结果进行细致地解释(Plag 2006b:546)。

3 汉语词法能产性的计量研究现状

汉语构造新词方式主要包括复合构词和派生构词,尤以复合构词为主。汉语学界传统的计量词法能产性的方法主要有二:一是计量词的个例频率(如陈宝勤2011、马楠2013)或类型频率(如李仕春 2007、程湘清 2008),或二者同时计量(如陈练军2009、曾小兵等2011);二是计量新词数,有的以词典所收录词为数据来源(如邱冰 2012),有的通过统计某一时期特定语料中出现的新词数来计算(如胡敕瑞2002、俞理明、顾满林2013)。这些方法的不足上文已述。2000年以来,研究汉语词法的国内外学者开始基于单频词或P值计量汉语词法的能产性。这类方法主要集中在派生词缀构词力的计量,如Chen(1999:39)、Lin(2001:82)、Nishimoto (2003) 、张未然(2015)等;仅有极少数研究用P值统计法应用于汉语词根复合词的能产性,如Sproat & Shih (1996)。相关研究还有Arcodia & Basciano(2012)用P值计量法从历时角度讨论近代汉语词缀“儿”“化”“头”的能产性,顾介鑫、杨亦鸣(2013)则从神经语言学的角度讨论汉语复合构词法的能产性。

总体说来,汉语词法能产性的研究以共时研究为主,历时研究较少,尤其是以狭义能产性、相对频率等计量方法来做历时考察的研究非常少,这是今后汉语史研究中需要加强的方面。

注释:

(1)由于当前的相关研究主要是讨论词缀的能产性问题,所以下文主要论及词缀能产性的计量方法。

(2)hapax legomena指在特定的语言文献中只出现1次的字或词,本文译作“单频词”。

(3)V指词的类型数,N指词的个例总数,n1 指单频词数,p指狭义能产性,即表示在包含特定词法范畴的所有个例中找到新词的概率,新词指据古英语词典统计出的新词数。

参考文献:

陈宝勤,2011.汉语词汇的生成与演化[M].北京:商务印书馆.

陈练军,2009. 论“衣”的语素化[C]//中国语学研究·开篇: 第28辑.东京:好文出版.

程湘清,2008.汉语史专书复音词研究;增订本[M].北京:商务印书馆.

顾介鑫,杨亦鸣,2010.复合构词法能产性及其神经电生理学研究[J].语言文字应用 (3).

胡敕瑞,2002.《论衡》与东汉佛典词语比较研究[M].成都:巴蜀书社.

李仕春,2007. 从复音词数据看中古汉语构词法的发展[J].宁夏大学学报(3).

马楠,2013. 金元时期的词缀“儿”[J].河南理工大学学报 (1).

邱冰,2012. 中古汉语词汇复音化的多视角研究[M].南京:南京大学出版社.

俞理明,顾满林,2013.东汉佛道文献词汇新质研究[M].北京:商务印书馆.

曾小兵,邱丽娜,张普,张志平,杨尔弘,2011.语言监测中词语构造能力的分析及其应用[J].长江学术 (3).

张未然,2015. 基于语料库的汉语词法能产性量化研究——以“儿、子、性、化、家”的派生为例[J].云南师范大学学报 (4).

Arcodia, Giorgio F. & Bianca Basciano,2012.On the Productivity of the Chinese Suffixes –儿-r, -化-huà and –头-tóu. Taiwan Journal of Linguistics, Vol.10(2): 89-118.

Aronoff, Mark,1983. Potential words, actual words, productivity and frequency. In: Kazuko Inoue Shiro Hattori, (ed.): Proceedings of the XIII International Congress of Linguists, August 29- September 4,1982, Tokyo,163–171, Tokyo: Permanent International Committee on Linguistics.

Baayen, H. & Lieber, R,1991. Productivity and English wordfor formation: a corpus-based study.Linguistics 29, 801–43.

Baayen, R. Harald, 1992. Quantitative Aspects of Morphological Productivity. Yearbook of Morphology1991, ed. by Geert Booij and Jaap van Marle,109-149.Dordrecht/London: Kluwer.

Baayen, H,1993. On frequency, transparency and productivity.In G. Booij and J. van Marle (eds.), Yearbook of morphology1992. Dordrecht, Boston, and London: Kluwer,181–208.

Baayen, H. and Renouf, A,1996. Chronicling The Times: productivelexical innovations in an English newspaper. Language, 72, 69–96.

Baayen, H,2008. Corpus linguistics in morphology: morphological productivity. In: Anke Lüdeling, M. Kyto, & T. McEnery, (ed.): Handbook of Corpus Linguistics. Berlin: de Gruyter,1–52.

Bauer, L,2001. Morphological productivity. Cambridge: Cambridge University Press.

Bauer, Laurie, 2002. English Word-Formation. Cambridge: Cambridge University Press.

Botha, R,1968. The Function of the Lexicon in Transformational Generative Grammar. The Hague and Paris: Mouton.

Chen, Ping,1999. Modern Chinese: History and Sociolinguistics. Cambridge: Cambridge University Press.

Cowie, C. S,1999. Diachronic word formation: a corpus-based study of derived nominalizations in the history of English. Ph.D. thesis, Cambridge University.

Dalton-Puffer, Christiane,1996. The French Influence on Middle English Morphology: A Corpusbased Study of Derivation. Berlin/New York: Mouton de Gruyter.

Dominguez J. F,2009. Productivity in English Word-formation: an Approach to n+n Compounding. Bern, New York: Peter Lang .

Frauenfelder, U. & Schreuder, R,1992. Constraining psycholinguistic models of morphological processing and representation: the role of productivity. In G. Booij and J. van Marle (eds.), Yearbook of morphology1991. Dordrecht, Boston, and London: Kluwer,165–83.

Hay, J,2001. Lexical frequency in morphology: Is everything relative? Linguistics 39 (4),1041–70.

Hay, J. & Baayen, H. (2002) Parsing and productivity. In G. Booij and J. van Marle (eds.), Yearbook of morphology 2001. Dordrecht, Boston, and London: Kluwer, 203–35.

Hay, J. & Baayen, H,2003. Phonotactics, parsing and productivity. Rivista di Linguistica.

Lin, Hua, 2001. A Grammar of Mandarin Chinese. München: Lincom Europa.

Nishimoto, Eiji,2003. Measuring and Comparing the Productivity of Mandarin Chinese Suffixes. Computational Linguistics and Chinese Language Processing Vol. 8, No.1, February 2003, pp. 49-76

Plag, I,1999. Morphological productivity:structural constraints in English derivation. Berlin, New York: Mouton de Gruyter.

Plag, Ingo,2003. Word-Formation in English. Cambridge: Cambridge University Press.

Plag, Ingo,2006a. Productivity. Encyclopedia of Language and Linguistics, Second Edition, Vol.10, ed. by Keith Brown,121-128. Oxford: Elsevier.

Plag, Ingo,2006b. Productivity. The Handbook of English Linguistics, ed. by Bas Aarts and April McMahon, 537-556. Oxford: Blackwell Publishing.

Scherer, Carmen,2003. Wortbildungswandel und Produktivität. Eine empirische Studie zur nominalen -er-Derivation im Deutschen. Doctoral Dissertation: University of Mainz.

Schultink, Hans,1961. Produktiviteit als morfologisch fenomeen. Forum der Letteren, (2),110–125.

Sproat, R., & Shih, C,1996. A Corpus-Based Analysis of Mandarin Nominal Root Compound. Journal of East Asian Linguistics, 5,1996, 49–71.

Traugott, E. C. & Trousdale, G,2013. Constructrionalization and Constructional Changes. Oxford:Oxford university press.

Trips, Carola,2009. Lexical Semantics and Diachronic Morphology. Tuebingen:Max Niemeyer Verlag.

中图分类号:H041

文献标志码:A

文章编号:1004-4310(2016)03-0050-05

DOI:10.14096/j.cnki.cn34-1044/c.2016.03.11

*收稿日期:2016-02-26

基金项目:教育部人文社会科学研究青年基金项目“上位化:概念域的历时演变与强势上位词的产生”(13YJC740033);第54批中国博士后科学基金项目“基于语言使用的汉语单音词历时研究”(2013M541133)。

作者简介:陈练军(1975- ),男,江西宜春人,副教授,文学博士,研究方向为汉语词汇史。

猜你喜欢

计量频率
航空工业计量所60年发展史的回望与传承
振动与频率
《化学分析计量》2020年第6期目次
关注日常 计量幸福
计量自动化在线损异常中的应用
无线电频率的特点
计量与测试
极限频率
基于部分频率复用的可调部分频率复用研究
基于因子分析的人力资本计量研究