汉语关系从句挂靠偏向的语料库研究
2014-12-02蔡莉敖锋
蔡莉 敖锋
(国防科技大学,湖南 长沙 410073)
1.引言
关系从句作为一种普遍的语言现象,长期以来一直受到语言研究者们的关注。在不同的语言之间,研究者们发现了不同的关系从句挂靠偏向。一些欧洲语言如西班牙语在关系从句挂靠上表现出非就近挂靠偏向,这与语言中普遍存在的就近现象相矛盾。因此,许多研究者着力于发现不同语言之间在关系从句挂靠上的差异并寻找合适的理论来解释这些差异。目前,国内对关系从句挂靠偏向的研究还很少(牛萌萌、吴一安,2007),并且在方法上还主要限于离线调查。因此,通过语料库分析方法从关系从句挂靠偏向的角度探讨汉语关系从句挂靠偏向必将为国内的关系从句研究提供新的思路。
2.理论背景
关系从句挂靠偏向是指句子处理者在处理关系从句挂靠歧义现象时所做出的消歧策略。这种歧义现象包含一个复杂的名词短语作为关系从句的先行词,该名词短语包括两个或三个挂靠点,关系从句只能挂靠到其中一个。比如,
(1)The guests laughed at the husband of the lady who complimented himself too many times.
(2)The guests laughed at the husband of the lady who complimented herself too many times.
(3)一匹狼从猎人的家里叼走了外出打猎的猎人的孩子。
(4)一匹狼从猎人的家里叼走了还未断奶的猎人的孩子。
上面四个句子都有一个关系从句,关系从句的先行词是一个属格结构的名词短语(NP),其中的每一个名词短语(NP1和NP2)都是关系从句的挂靠点。从(1)和(2)的对比可以看出,关系从句分别挂靠在属格结构的NP1和NP2上,这样的挂靠方式被分别称为高位挂靠(high attachment)和低位挂靠(low attachment)。汉语和英语在关系从句的结构上有所不同,英语的关系从句是“NP1-of-NP2-关系从句”结构,而汉语的关系从句是“关系从句-NP1-的-NP2”的先行词后置结构。因此,当汉语关系从句挂靠到NP1时,我们称之为低位挂靠;当关系从句挂靠到 NP2时我们称之为高位挂靠。
有研究(Carreiras& Clifton,1999)表明,当关系从句先行词为属格结构时,母语为英语的句子处理者倾向于低位挂靠。而以其他语言为母语的语言处理者却可能倾向于高位挂靠(西班牙语Mitchell& Cuetos,1991;荷兰语 Brysbaert& Mitchell,1996;南非荷兰语 Mitchell,Brysbaert,Grondelaers&Swanepoel,2000)。引发语言间不同挂靠偏向的原因是什么?国外学者提出了诸多理论对此进行解释,其中两个影响最大。
2.1 调整假设(Tuning Hypothesis)
Mitchell和Cuetos(1991)提出的调整假设是基于经验的句子处理策略。句子处理者平时接受的语言刺激会影响他们在首轮句子分析中的选择,出现频率最高的处理选择会成为他们的首选。在每次成功处理了该类型句子以后,当时所用的处理选择就会逐渐增加其在整个句子处理机制当中的权重。在以后遇见同类型的句子时,句子处理者也就倾向于这个处理选择。
验证调整假设正确性最好的方法就是语料库分析。以英语为例,如果调整假设是正确的,那么在英语语料库中具有关系从句挂靠歧义的句子就会更多表现出低位(NP2)挂靠偏向。实际上,学者们已经发现了一些支持调整假设的证据。Mitchell,Cuetos和Corley(1992)在分析了 LOB语料库后发现:62%具有关系从句挂靠歧义的句子表现出低位挂靠。同样,Gibson和 Pearlmutter(1994)通过对Brown语料库的分析也发现:当关系从句具有三个挂靠选择时,低位挂靠(在这里是 NP3)是首选对象。
然而,同样利用语料库分析的方法,一些研究也发现了与调整假设不相符的数据。比如,Gibson等人(1999)在对西班牙语中的关系从句挂靠偏向进行研究时发现:当关系从句有两个挂靠点可供选择时,句子处理者偏向于高位挂靠,这与调整假设的预测一致;但是当关系从句有三个挂靠点时,句子处理者却倾向于低位(此时是NP3)挂靠,这与调整假设相矛盾。无独有偶,Mitchell和 Brysbaert(1998)在对荷兰语的关系从句挂靠偏向研究中发现,语料库数据中出现更多的是低位挂靠偏向的结构,而在线实验数据中出现更多的却是高位挂靠偏向,这也使调整假设的解释力打了折扣。
2.2 解释假设(Construal Hypothesis)
解释假设由Frazier和Clifton(1996)提出,可以说是花园小径理论的一个变体。解释假设的中心议题之一是区分主要关系和非主要关系。主要关系指的是(谓语)动词与其核心题元之间的关系。非主要关系指的是主要关系以外的附属成分关系,比如关系从句的挂靠。之所以要区分这两种关系,是因为在处理它们的过程中涉及不同的处理机制。处理主要关系时要使用的是普遍的句法分析原则,如迟关闭策略;而处理非主要关系时需要使用与当前题元域有关的语义或语用原则,比如指示原则(referentiality principle)或格赖斯方式准则等。
Frazier和Clifton(1996)证实解释假设可以解释英语的关系从句挂靠偏向。但也有不少研究表明解释假设缺乏跨语言的普遍性,比如Brysbaert和Mitchell(1996)对荷兰语关系从句挂靠偏向的研究和Mitchell等人(2000)关于南非荷兰语关系从句挂靠的研究。
就汉语而言,汉语中只有一种属格形式,即“NP1-的-NP2”。根据解释假设,由于方式准则无法发挥作用,只有指示原则发挥作用,因此关系从句应该表现出高位挂靠偏向。那么,汉语中的关系从句挂靠偏向究竟如何,本文将采用语料库分析的方法予以研究。
3.语料库分析
语料库分析的目的在于发现汉语语料中的关系从句是否有挂靠偏向,并以此推断汉语母语者在这方面接受的语言刺激。
3.1 语料及检索
本研究采用的语料包括报刊和小说两种文体。选用两种文体的目的在于防止文体的特征影响分析的结果。报刊文体相对正式,并经过专业的编辑整理。小说文体相对报刊文体而言比较随意,更接近人们的日常用语,且本研究中选用的小说语料均为北京方言小说,因此语言风格比较口语化。
报刊文体的语料取自《人民日报》1995年1月的所有文章,字数逾210万。小说语料取自30部北京方言小说,共约140万字。
在收集语料的工作结束以后,首先使用EmEditor软件检索其中所有含有“的”的语料,然后利用CIPP—中文信息处理平台对语料进行检索,查找其中含有“……的……的……”结构的语料,最后对这些语料进行人工分析,判断其中的“……的……的……”结构是否为“关系从句—NP1—的—NP2”,并确定其中的关系从句挂靠偏向。检索结果中,单纯使用语义或句法信息无法区分关系从句挂靠偏向的语料被剔除。人工分析由两位研究人员分别完成。对于分析结果具有分歧的语料,由两位研究人员商议决定最终结果。
3.2 分析结果
汉语语料中的关系从句挂靠情况表现出明显的低位挂靠偏向,表1中列举了语料分析的具体结果。通过卡方检验发现:不同文体语料之间在挂靠偏向上不存在显著差异(p>0.05)。因此,以下的分析不区分文体。通过同样的检验方法发现,汉语关系从句中低位挂靠的句子显著多于高位挂靠的句子(p<0.05),即汉语关系从句具有低位挂靠偏向。
Desmet等(2002)将语料作为挂靠点语义特征的函数来进行分析时发现,语料库数据分析结果与未区分挂靠点语义特征时不同。Desmet等人将挂靠点按照生命性特征分为了四类:有生命NP1+有生命NP2;无生命NP1+有生命NP2;有生命NP1+无生命NP2;无生命NP1+无生命NP2。结果发现:在不区分挂靠点语义特征时语料库分析结果表明:荷兰语关系从句呈现低位挂靠偏向,这主要是由无生命NP1造成的。
鉴于此,本研究也根据挂靠点的生命性特征进行语料库分析。从数量上看,语料中挂靠点具有生命性的例子占总数的35%。表2是对挂靠偏向与挂靠点生命性之间关系的描述统计。从表2中可以清楚地发现:高位挂靠偏向的句子中很大一部分的低位挂靠点具有无生命性特征。
表1 汉语语料中的关系从句挂靠情况
表2 挂靠偏向与挂靠点生命性之间的关系
进一步进行卡方检验发现,在低位挂靠点的生命性上,高位挂靠与低位挂靠偏向之间具有显著差异(p<0.05)。具体来说,当低位挂靠点有生命时,低位挂靠偏向的句子显著多于高位挂靠的句子。而当低位挂靠点无生命时,高、低位挂靠偏向的句子在数量上不存在显著差异。比如:
(5)这一举动遭到包括台湾同胞在内的全中国人民的谴责。(《人民日报》1995年1月1日《在全国政协新年茶话会上的讲话》)——低位挂靠点有生命,低位挂靠。
(6)他看着一片片闪过的工友们的枯黄头盔。(王朔所著小说《永失我爱》)——低位挂靠点有生命,高位挂靠。
(7)车主是我小时候就很熟悉的邻寨的潘大叔。(《人民日报》1995年 1月 2日《山寨“马的”》)——低位挂靠点无生命,高位挂靠。
(8)它是经台湾海峡或南海南北航行的船只的转向点。(《人民日报》1995年 1月 3日《南海行》)——低位挂靠点无生命,低位挂靠。
语料库中类似于(5)的句子显著多于类似于(6)的句子(p<0.05)。而类似于句(7)和(8)的句子数量之间不存在具有统计学意义的显著差异。在高位挂靠点的生命性上,高位挂靠与低位挂靠之间不存在显著差异。
总体而言,研究通过对总字数达350万字的语料进行分析发现:1)汉语表现出关系从句低位挂靠偏向;2)低位挂靠点的生命性特征会影响关系从句挂靠偏向。
要解释这个现象,首先需要找到决定汉语关系从句低位挂靠偏向的机制。按照解释假设的预测,汉语关系从句挂靠应该遵循指示原则,关系从句应该挂靠到先行词的中心词上,即高位挂靠。然而,研究结果发现的是低位挂靠偏向,这说明解释假设不适用于汉语关系从句挂靠。
再看挂靠点的生命性特征对挂靠偏向的影响。经过统计分析发现:在低位挂靠点的生命性上,高位挂靠与低位挂靠之间存在显著差异;而在高位挂靠点的生命性上情况却并非如此。这说明影响关系从句挂靠偏向的因素除了挂靠点的生命性特征以外,还有挂靠点的位置,即先行词在句中的结构信息。这个结构信息很可能取决于决定汉语关系从句低位挂靠偏向的机制。
4.讨论
表面看,低位挂靠偏向与迟关闭策略相符。但是根据Frazier等人(1996)的理论,迟关闭策略等句法分析策略是用于分析句子主要关系的,而关系从句属于非主要关系,应该由语义语用原则来解释。因此,迟关闭策略不能解释汉语中的低位挂靠偏向。既然本研究已经发现关系从句挂靠受先行词结构和挂靠点的生命性特征双方面的影响,因此,要找到决定汉语关系从句挂靠偏向的机制就应该从这两个方面分别进行探讨。
4.1 先行词结构对挂靠偏向的影响
本研究通过语料库分析发现:挂靠点的生命性会影响挂靠偏向。而Frazier和Clifton(1996:73)认为,并非是挂靠点的生命性特征影响挂靠偏向,而是先行词的结构起决定性作用。这里的结构主要指附属(adjunct)结构和题元(argument)结构。根据解释假设的理论,挂靠点的生命性特征之所以会影响挂靠偏向是因为挂靠点的生命性特征会影响先行词的结构。有生命的挂靠点之间通常是题元结构,而无生命名词与有生命名词之间通常是附属结构。如果先行词是附属结构,那么,关系从句就挂靠在整个先行词上;而如果先行词是题元结构,由于题元结构中的题元介词引出了一个新的题元域,那么,关系从句就挂靠在新题元域上。
为了判定究竟是挂靠点的生命性特征还是先行词的结构影响着挂靠偏向,本研究又重新分析了语料库中的数据,将NP1有生命的语料分为附属结构和题元结构两种类型。结果发现:附属结构和题元结构所占比例几乎相等。这说明挂靠点生命性特征不是通过决定先行词的结构来影响关系从句挂靠偏向的。
4.2 生命性特征对挂靠偏向的影响
Bock等人(Bock & Loebell,1990;Bock,Loebell&Morey,1992)发现:概念上越熟悉的词条占有越重要的语法低位,其中包括有生命的词语。人们倾向于将有生命的词语作为动作的发出者和句子的主语,因此关系从句倾向于挂靠在有生命的挂靠点上。这个理论在Desmet等(2002)在荷兰语的研究中得到了支持。此外,MacDonald等(1993)也发现在语篇表征中,有生命的词语比无生命的词语更容易激活,而越容易激活的词语就越容易被关系从句挂靠。这些研究都支持挂靠点生命性作为影响挂靠偏向的因素。不过,本研究与 Desmet等(2002)的研究结果有所不同。在Desmet等(2002)的研究中,高位挂靠点的生命性影响挂靠偏向;而在本研究中,低位挂靠点的生命性影响挂靠偏向。造成这个区别的原因可能是语言间的差异,也可能是生命性特征还不能完全解释关系从句挂靠偏向。我们来逐一分析。
4.2.1 语言间差异
从语言间的差异来看,Desmet等(2002)研究的是荷兰语中的关系从句挂靠偏向。荷兰语关系从句的结构和英语类似,是“NP1-van-NP2-关系从句”。而汉语中是“关系从句-NP1-的-NP2”的结构。可见,荷兰语中的高位挂靠是NP1挂靠,汉语中的低位挂靠也是NP1挂靠。表面上的语言间差异实际上很可能源自于同一种机制的作用,而这个机制与挂靠点在句子当中的位置有关。这让我们想到Gibson等人(1996)提出的双因素理论。
双因素理论包含两个原则,一个是就近原则(Recency Principle),另一个是谓词接近原则(Predicate Proximity Principle)。就近原则是挂靠点与挂靠范畴之间新的语篇谓语和所指数量的函数。这种基于语篇的函数不仅可以解释关系从句挂靠偏向,还可以解释其他一些语言现象(比如,如果增加主语与动词之间的距离,动词的阅读时间就会增加)。
谓词接近原则认为挂靠点应该距离谓词越近越好。该原则在各语言中的作用强度不同,受各语言中的相应结构发生频率影响。在英语中,关系从句挂靠具有低位挂靠偏向,因为英语中就近原则的作用要强于谓词接近原则的作用。在荷兰语中,关系从句挂靠具有高位挂靠偏向,因为荷兰语中谓词接近原则的作用要强于就近原则的作用。在汉语中,本研究发现了关系从句的低位挂靠偏向。但是与英语不同的是,汉语的低位挂靠偏向既可能是就近原则的作用,也可能是谓词接近原则的作用,当然也可能是二者的综合。这里我们可以用排除法来判断。
假设就近原则在汉语中发挥决定性作用。那么,中国英语学习者在母语和目标语中都应该采用就近原则来进行关系从句挂靠消歧,即使在英语关系从句挂靠消歧中即使受到了母语的影响也会仍然表现出低位挂靠偏向。但是,牛萌萌和吴一安(2007)的研究发现:中国英语学习者在英语关系从句挂靠消歧中没有表现出显著偏向,这就否定了就近原则的作用。由此可以推断,汉语中的低位挂靠偏向似乎更适合于用双因素理论中的谓词接近原则来解释。
再来验证一下。如果汉语中的低位挂靠偏向确实是谓词接近原则作用的结果,那么,当关系从句先行词是句子主语时,关系从句应该表现出高位挂靠;先行词是句子宾语时应该表现出低位挂靠。本研究对语料库中的数据再一次进行了统计后发现,当关系从句先行词是句子主语时,关系从句高位挂靠的比例为61%,低位挂靠比例为39%;当关系从句先行词是句子宾语时,关系从句高位挂靠的比例为17%,低位挂靠比例为83%。这些数据表明,谓词接近原则的确在汉语关系从句挂靠中发挥了作用。
4.2.2 生命性特征的作用机制
在比较了两种语言之间的差异以后,再来观察生命性特征对关系从句挂靠偏向的作用机制。4.1节中已经提到过,关系从句挂靠点的生命性特征并不是通过影响关系从句先行词的结构来影响挂靠偏向的。也就是说,挂靠点的词汇信息可能直接作用于关系从句挂靠偏向。但是本研究的语料库分析发现,在高位挂靠点的生命性上,高位挂靠与低位挂靠之间不存在显著差异;只有在低位挂靠点的生命性上高位挂靠与低位挂靠之间才存在显著差异。这说明挂靠点的词汇信息并非直接作用于关系从句挂靠偏向,它还必须和先行词在句中的结构信息同时发挥作用。而通过4.2.1节的分析可以判断,该结构信息来自谓词接近原则。
因此,总的来说,挂靠点的词汇信息和谓词接近原则同时影响着汉语中的关系从句挂靠。
5.结论
通过语料库分析发现,汉语中存在关系从句低位挂靠偏向。该结果与解释假设的预测不符。通过对语料中关系从句挂靠点生命性特征的分析发现,低位挂靠点的生命性特征会影响关系从句挂靠偏向,高位挂靠点则不然。挂靠点的词汇信息和结构信息同时发挥作用,其中结构信息取决于双因素理论中的谓词接近原则。遗憾的是,该研究的语料库分析中语料还比较少,所得出的结果还有进一步确认的必要。此外,要验证调整假设是否可以解释汉语中的关系从句挂靠偏向还需要进行心理语言学的在线实验研究,这是进一步深入该研究的方向之一。
[1]Bock,J.K.& H.Loebell.Framing Sentences[J].Cognition,1990(35):1-39.
[2]Bock,J.K.,Loebell,H.& R.Morey,From Conceptual Roles to Structural Relations:Bridging the Syntactic Cleft[J].Psychological Review,1992(99):150-171.
[3]Brysbaert,M.& D.C.Mitchell.Modifier Attachment in Sentence Processing:Evidence from Dutch[J].The Quarterly Journal of Experimental Psychology,1996(49):664-695.
[4]Carreiras,M.& C.Clifton.Another Word on Parsing Relative Clauses:Eyetracking Evidence from Spanish and English[J].Memory and Cognition,1999(27):826-833.
[5]Desmet,T.,Brysbaert,M.& C.De Baecke,The Correspondence Between Sentence Production and Corpus Frequencies in Modifier Attachment[J].Quarterly Journal of xperimental Psychology,2002(55):879-896.
[6] Frazier,L.& Clifton,C.Jr.Construal[M].Cambridge,MA:MIT Press,1996.
[7]Gibson,E.& N.J.Pearlmutter.A Corpus-based Analysis of Psycholinguistic Constraints on PP Attachment[M]//Clifton,L.Frazier& K.Rayner.Perspectives on Sentence Processing,Hillsdale,NJ:Lawrence Erlbaum,1994:181-198.
[8]Gibson,E.,Pearlmutter,N.J.,Canseco-Gonzalez,E.& G.Hickok.Recency Preference in the Human Sentence Processing Mechanism [J].Cognition,1996(59):23-59.
[9]Gibson,E.,Pearlmutter,N.J.& V.Torrens.Recency and Lexical Preferences in Spanish[J].Memory and Cognition,1999(27):603-611.
[10]MacDonald,J.L.,Bock,J.K.& M.H.Kelly.Word and World Order:Semantic,Phonological,and Metrical Determinants of Serial Position[J].Cognitive Psychology,1993(25):188-230.
[11]Mitchell,D.C.& M.Brysbaert,Challenges to Recent Theories of Cross-Linguistic Variation in Parsing:Evidence from Dutch[M]//D.Hillert.Sentence Processing:A Cross-Linguistic Perspective.New York:Academic Press,1998:313-355.
[12]Mitchell,D.C.,Brysbaert,M.,Grondelaers,S.& P.Swanepoel.Modifier Attachment in Dutch:Testing aspects of the Construal theory[M]//A.Kennedy,R.Radach,D.Heller& J.Pynte.Reading as a Perceptual Process.Oxford:Elsevier,2000:493-516.
[13]Mitchell,D.,& F.Cuetos.The Origins of Parsing Strategies[M]//C.Smith.Current Issues in Natural Language Processing.Center for Cognitive Science,University of Austin,TX,1991:1-2.
[14]Mitchell,D.C.,Cuetos,F.& M.M.B.Corley.Statistical Versus Linguistic Determinants of Parsing Bias:Crosslinguistic evidence[P].Paper Presented at the 5th Annual CUNY Conference on Human Sentence Processing,New York,March,1992:19-21.
[15]牛萌萌,吴一安.关系从句挂靠偏向研究[J].现代外语,2007(4):271-279.