基于语料库的中文构式“P的N”中“的”的隐现规律量化研究
2024-06-20罗洁滢梁鑫洁
罗洁滢 梁鑫洁
基金项目:广西研究生教育创新计划项目(Innovation Project of Guangxi Graduate Education)“基于语料库的中文构式‘P的N中‘的的隐现规律量化研究”(项目编号:YCSW2023262)资助。
作者简介:罗洁滢(1997-),女,广东清远人,硕士研究生,研究方向:语料库语言学。
摘要:“P(的)N”构式中“的”是否出现(P为代词,N为名词),是汉语语法研究的核心课题之一。为了探究更深层及更科学直观的构式中“的”的隐现规律,该研究采用量化语料库语言学方法行为特征分析方法标注和分析“P(的)N”,发现:一是P和N的数、N的语义类型、N的音节数以及该构式所处的句法位置对“的”的隐现均有影响;二是除了该构式作同位语外,P与N的句法关系对“的”的隐现基本没有影响;三是“的”的隐现是多因素作用的结果;四是该构式作“宾语”时,“的”的使用不仅凸显“P+的”,根据语境的不同,N或整体的信息焦点也有不同程度的显化。
关键词:汉语构式;“P的N”;“的”的隐现;距离象似性原则;语料库语言学;行为特征分析法
中图分类号:H195 文献标识码:A 文章编号:2096-4110(2024)04(b)-0015-07
A Quantitative Corpus-Based Analysis of Presence/Absence of "de" in Chinese Construction "P De N"
LUO Jieying, LIANG Xinjie
(School of Foreign Languages, Guangxi Minzu University, Nanning Guangxi, 530006, China)
Abstract: The presence or absence of "de" in the Chinese construction "P de N" (P stands for pronoun and N for noun) has occupied one of the core issues in Chinese grammar analyses. This paper applies the quantitative approach behavioral profiles to tag and discuss the Chinese construction "P de N". This paper confirms that the following factors—the respective number of P and N, semantic types of N, the number of Chinese syllables of N and syntactic position of the whole construction reveal their influence on the regulations of presence/absence of "de" within the construction. Besides, this paper also unveils that the syntactic positions between P and N make no difference to the presence/absence of "de". That is to say the presence/absence of "de" is not a singularly governed result. When the whole construction functions as the object of a sentence, "de" not only highlights the combination of "P+ de" but also reveals salience on the information focus of "N" or the whole construction in accord with the context present.
Key words: Chinese construction; "P de N"; The presence/absence of "de"; Distance iconicity; Corpus linguistics; Behavioral profiles
现代汉语中“领属结构代词P+名词N”属于高频搭配,它们之间是否使用虚词“的”是一个著名的语言学问题,一般依靠语感决定。“的”作为现代汉语中最常用的虚词,向来是汉语语法研究的核心课题之一,相关的学术探讨浩如烟海,但涉及代词性领属关系下“的”的隐现问题讨论较少,因此本研究试图验证距离象似性原则对领属构式“P(的)N”的隐现问题的解释力,尝试提供领属构式中“的”的隐现规律小结。
1 前人研究现状
1.1 距离象似性原则
在汉语言中,虚词“的”的使用呈现出控制语言概念距离和结构距离的规律。Haiman曾提出象似性是“表达式之间的语言距离对应它们之间的概念距离”,随后又称其是指“紧密相连的观念倾向安置在一起”[1]。张敏认为,当某一语言表达在外形、长度、复杂性以及构成成分之间的各种相互关系上平行于这一表达式所编码的概念、经验或交际策略时,这一语言表达式具有象似的性质。“距离象似性”是语言单位“组块”的根本基础[2]。日常生活中的语言使用皆离不开语言的“解码”“编码”过程,在这些过程中就涉及如何把句子分块的问题,不同概念的概念距离、结构距离会影响编码者、解码者表达出来的语言距离。张敏认为距离象似性在汉语中的应用体现在“各类成分充当修饰语的名词短语里”,“的”的有无与否,取决于定语是“表属性的表征概念”还是“表领属者的确定指称”。
1.2 “P(的)N”构式
从整体来看以往研究,定中短语构式成分间的语义关系[3-5]、构式在句子中所作成分[6-7]以及音节韵律[8]对“的”的隐现均有影响,有学者分别从音节、定语的语法类型、语用和话语角度对“的”的隐现条件进行精细分析[9-12],但某些现象仍有待说明。
在包含“的”的构式中,学者对“P(的)N”中“的”的隐现现象进行论述,主要有以下几种。朱德熙认为,人称代词作领属性定语时,“的”的隐现与中心语有关,中心语是亲属称谓名词时,通常不用“的”,如“我爸爸”;中心语是其他一般名词时,单独出现要加“的”,如“我的狗”。但问题在于,“老板”不属于亲属称谓,但我们可以说“我的老板”或“我老板”。崔希亮提出不同观点,认为代词与名词之间的语义关系是决定“的”是否隐现的主要因素。P与N之间是领属关系,当关系不可变时,“的”可隐可现,如可以说“我的爸爸”或“我爸爸”;当关系可变时,“的”必现,如只能说“我的狗”,而不能说“我狗”。但崔希亮的观点并不能解释全部的情况,正如张敏指出,“我”和“手”之间的关系不可变,但单独使用时却不能说“我手”。基于此,张敏用距离象似性原则解释上述问题,认为“的”的隐现取决于偏正之间概念距离的远近:概念距离近,“的”字可隐可现;概念距离远,“的”字必现。判断概念距离近的标准有两个:一是能否对应某个专有名词,例如,“我爸爸”和“我们学校”都能对应某个具体的专名,如可以分别对应“张三”和“北大”,可以成立;二是偏项和正项之间的关系为双向领属,如“我”和“爸爸”双向领有,因此“我爸爸”说法成立。问题在于,一是满足以上两项条件的PN组合并不一定可以隐去“的”,例如“他们学生”;二是并未满足以上两项条件的PN组合却能隐去“的”,例如:“她前面”“你们左边”。针对这些用距离象似性无法解释的现象,徐阳春进一步提出关系组配和结构的动态使用相结合的分析方法。P和N是否为关系组配看以下三个条件。一是两个角色(甲乙)相对并举。二是甲乙互为依存。三是甲项在数量上要符合乙项的规约,即从关系组配看,关系组配的结构中人称代词作定语时,“的”可隐可现,如可说“我叔叔”或“我的叔叔”;指人专名作定语,“的”要出现,如只能说“李平的儿子”,不能说“李平儿子”。然而从动态使用看,无论是否为关系组配,如果作为一个整体看待,原来的“的”都可以隐去。如果需要凸显偏项,那么无论是否为关系组配“的”都不隐去,徐的主张也未能尽善。随后刘正光等人提出,在领属关系中,领有者与领属物之间的关系侧面展示出“的”的隐现与生命度有紧密联系,但强调构式的句法位置也会影响“的”的隐现[13],当其处于更大的句法环境或者受语用原则影响时,“的”的隐现会服从于更大的句法环境或者受更高语用原则的制约。
鉴于前人对“的”的隐现现象的研究基本上停留在定性阶段,仅限于简单计算语料的原始频数,并不足以概括和揭示深层语言规律,本研究通过结合语料库和量化统计方法探讨汉语虚词“的”在领属构式中的隐现问题,在距离象似性原则基础上进行分析,进一步总结隐现规律。
2 研究设计
2.1 研究问题
根据前人研究成果,我们可以发现个中的研究价值,尝试对“的”的隐现规律进行深入探究,本文拟解决的问题如下:
第一,“P(的)N”构式的中P和N呈现出什么样的共现关系?
第二,距离象似性原则对领属构式“P(的)N”有什么样的解释力?该构式中“的”有着怎样的隐现规律?
2.2 语料来源
本研究所使用的语料库为现代汉语平衡语料库(The Lancaster Corpus of Mandarin Chinese/LCMC),该语料库中的语料来源较广,共100万词次,涉及领域全面,体裁分布均匀,并且经过标注和编码。笔者通过在英国Lancaster大学的CQPweb平台下属的LCMC语料库输入正则表达式“_r _ n”和“_ r 的 _ n”获取“PN”构式和“P的N”构式搭配,进行穷尽性搜集,并下载进行筛选、整理,共得出“PN”构式总数7 998条,其中符合的条目为946条。而“P的N”构式总频数为2 583条,其中符合的条目为1 539条。
经过初步筛选,笔者保留了P为人称代词“我”“我们”“你”“你们”“TA”和“TA们”的实例。再进行细致筛选,筛选的基本原则是P和N能够构成偏正短语,排除主谓短语、动宾短语、补充短语等,针对“PN”构式和“P的N”构式有以下的筛选标准。
一是“PN”筛选标准:“PN”作主语、宾语、同位语(P和N之间是同位语关系)、定语,“PN”中间可以加“的”,保留;“PN”是动词的双宾语,“PN”是动词的宾语和宾补,P和N无明显联系,容易产生歧义,筛除。
二是“P的N”筛选标准:作主语、宾语、多项定语,保留,不过N的字数≤4,如筛除“它们的国民经济年均增长率”;“P的N”为动宾结构作为定语,如“录取我的重点大学”,容易产生歧义,如“当着他的面”,筛除。
按照以上标准对语料进行筛选得到“PN”构式合格语料906条,“P的N”构式合格语料1 506条。本研究对筛选出来的合格语料做进一步的行为特征分析标注。
2.3 研究方法
本文主要依靠行为特征分析(Behavioral Profiles)[14]进行定性标注,依靠层级聚类分析(Hierarchical Cluster Analysis)量化分析结果。
BP用于挖掘音系、句法、语义及其他语言特征中呈现出的相似性[15-16]。这个方法有4个步骤:一是从语料库撷取某词的所有例子;二是人工标注ID tags,按照该词在语料库中呈现的语言特征进行标注、分类;三是形成共现表;四是通过其他数据处理工具进行测算。
HCA是研究“物以类聚”问题的统计学方法。它以树状图(Dendrogram)形式呈现不同个体的聚类效果,可以用来衡量个体间的亲疏程度。本文拟使用欧式距离(Euclidean distance)计算构式间的距离。
根据研究目的,我们标注ID tags及对应ID tags的水平(见表1),在名词类型中,笔者参照朱德熙[17]对体词语义的分类进行了梳理,并且加入了例子中出现的语义类型。
3研究结果与讨论
表2是BP结果的相对频数表,不同构式中每个ID tags的不同水平的相对频数相加=1,因篇幅有限,仅展现每个ID tags水平的最大值且保留到小数点后3位。
3.1 行为特征分析结果
3.1.1 PN聚类结果
根据BP结果,AU值(1—100)越大,说明聚类距离越接近。如图1所示,“PN”构式共有8次聚类,下辖两大类:类7和类8。
类7为第三人称表示事物的“它”的单复数聚类。此类只包含了两个“PN”构式“它N”和“它们N”,它们与其他构式关系疏远、自成一派,很大原因在于:“它N”和“它们N”这两个构式出现频率很低,分别只有6次和1次;观察其相对频数可知,这两个构式的数据并不会影响到整体构式的相对频数,因此下文不纳入讨论。
类8包括第一、第二、第三人称的代词单复数聚类。下辖两类:类4和类6。类4全是单数构式,下辖类1、类2、“她N”。类1中“你N”和“我N”首先聚类,其AU值达100,说明两个构式高度相似,其中N大部分为“可数”名词,“双音节”,表示“亲属关系”,在句子中多作为“主语”,为“定中短语”。类1随后与“他N”聚为类2,只不过AU值仅为63,两者的相似度不高。类4由类2与“她N”构成,AU值为98,说明两类的情况基本相同。类6则全部为复数构式,下辖两类:类3和类5。类3中“他们N”和“她们N”先聚类,AU值为85,可见有相似之处:构式中的N多为“集合”名词,“他们N”中N的语义多以“集体”为主,“她们N”则以“亲属关系”为主,不过两者均没有表示“具象”“同位称谓”“职业”“专有名词”等语义类型。此外,两个构式的音节数高度相似,主要为“双音节”,且均主要作“主语”和“定语”,PN关系多为“定中短语”。类5下辖“你们N”和“我们N”,其AU值为88,比类3的更高,这也说明“你们N”和“我们N”之间的搭配相似度比“他们N”和“她们N”更高。然而在名词的数方面,“你们N”和“我们N”表现各异:前者多为“集合”名词,后者多为“可数”名词。受名词的数的影响,两者的语义类型均大部分表示“集体”,“你们N”比“我们N”较狭隘,缺失了其中5种,分别为“具象”“器官”“亲属关系”“社会关系”“身体部位”。就音节而言,两个构式中“双音节”占大部分且为句子的“主语”。涉及代词和名词之间的句法关系时,情况略有不同,“你们N”多为“同位短语”,“我们N”中“定中短语”却占了0.7/1左右。
3.1.2 “P的N”聚类结果
图2为“P的N”聚类结果。如图2所示,“P的N”构式共有8次聚类,下辖两类:类5和类8。类5主要是单数“P的N”的构式聚类,有“她的N”“他的N”“我的N”“你的N”“你们的N”。当中进行了类1、类2、类3、类5四次聚类,类1的AU值高达88,说明“他的N”和“我的N”在数、语义类型、音节、构式在小句的位置、短语类型等方面有高度相似之处,表现在两者集中N主要是“可数”名词,且集中在“抽象”名词类型,同时皆是“双音节”占大多数,其小句位置主要是“宾语”,P和N互为“定中短语”。而两者的差异在于,“我的N”的语义类型和构式所在的小句位置皆覆盖了所有ID tags水平,而“他的N”没有出现“专有名词”的语义类型,同时其所在的小句位置较单一,仅出现在“主语”“宾语”和“状语”位置。而类2、类3、类5的AU值分别为68、65、64,说明“她的N”与类1、“你的N”与“你们的N”以及类2与类3聚类之间的相似度较低。类8中,主要是复数“P的N”构式的聚类,下辖类4、类6、类7,包括“她们的N”“我们的N”“它们的N”“他们的N”“它的N”。仅类6的AU值为83,其他均在较低水平,分别是59、63、74,聚类的相似度较低,说明类6的“她们的N”和“我们的N”有高度的相似之处,主要在于前者的N主要是“不可数”名词,而后者的N主要是“可数”名词,且皆集中为“抽象”,“双音节”占大多数,所处的小句位置皆是“主语”,P和N互为“定中短语”,说明该两个构式的搭配相似度较高。而两者差异在于,“她们的N”构式语义类型仅涵盖“抽象”“具象”“亲属关系”,“我们的N”构式没有出现“身体部位”“同位称谓”“专有名词”等语义类型;同时前者只有“双音节”,后者出现“双音节”“三音节”“四音节”的搭配;此外,前者所处的小句位置为“宾语”和“主语”,而后者除“插入语”以外皆有覆盖。
上述现象表明,在“P的N”中,它们的ID tags的水平集中在名词的数为“可数”和“不可数”,语义类型和音节数以“抽象”和“双音节”为主,整个构式在小句的位置主要为“主语”和“宾语”,P和N皆是“定中短语”。聚类结果显示单数人称和复数人称的构式有显著差异,且相较于其他构式而言,第一人称和第三人称之间的关系更为紧密,可以说明两者的相似度更大。
3.2 聚类结果原因探讨
从认知角度去理解,人都是客观独立的个体,有自主的认知意识,同一个“P”可以指代不同的人,“P”和“N”通过相互定位来确认关系,如“她父亲”中的“她”确定指称对象所属,通过“父亲”来定位指称对象,从而使“她父亲”说法成立。张敏认为“PN”和“P的N”“是构造和语义上迥然有别的两类形式”,“中间并没有一个省略‘的的过程”,二者的根本指称区别是前者只能表单称专指;而后者可表单称专指、复数的指称、泛指,甚至只表关系而无所指。构成“PN”的前提是专有名词和偏正双向领属。根据张敏的观点,笔者对上述聚类结果进行探讨。
第一,P的单复数和名词类型对“的”的隐现均有影响。“P的N”和“PN”中的“双音节”名词占大部分,两个构式并无太大差别,但N的数对“的”的隐现产生了影响。“PN”构式中名词的数多为“可数”,和“集合”,少数为“不可数”。而“P的N”构式中N主要是“可数”或“不可数”的“双音节”名词。首先,“PN”构式中P的单复数与N呈现出规律性。一是当P为单数如“我”“你”“他”“她”等,N为表示“亲属关系”的名词居多,占比分别为0.38/1、0.41/1、0.29/1、0.39/1,表明人称代词与其之间的关系较紧密,概念距离较近,能够对应某个专有名词且偏正双向领属。但是这并没有呈现出可让渡与不可让渡关系中“的”的使用对立,如“我爹”“他妈”等此类单音节表示亲属关系的名词,“的”必隐;“我弟弟”“她丈夫”等此类双音节及以上表示亲属关系的名词,“的”可隐可现,如可为“我的弟弟”。二是当P为复数如“我们”等,N主要为“集合”或“可数”名词,且多为表示“集体”意义的名词,分别为0.54/1,0.78/1,0.36/1,如“我们老百姓”“你们国家”等。这表明P和N的数量相对应,P为复数时,N为对应数量关系。其次,“P的N”构式中,P的单复数情况无较大差异,N主要是“抽象”名词,占“P的N”所有语义类型的5.67/10,如“我的志向”“我们的军事力量”等,搭配的N呈现出较大程度的复杂性,并非特有的,“P”和“N”仅表现出单向领属。语言形式的复杂性反映了概念上的复杂性[18],“的”的使用有一定的必然性,当“的”出现时,P和N之间的空间距离表明了两者之间的概念距离,体现距离象似动因的作用,强调区分带或不带“的”字的定中短语与认知上的语义结合紧密度差异,即P和N之间的定语和认知主体间须具有规约性的密切概念关系。
第二,至于构式所处的句法位置,沈家煊认为主宾语不对称的实质之一在于话题和焦点的不对称[19]。一是观察相对频数表,“PN”主要位于主语位置,为5.00/8(排除“它N”和“它们N”构式),如“我眼睛也看不清楚”“你相貌这么普通”等。根据语言的经济性原则,“在表意明晰的前提下,为了提高语言的交际效率,尽可能采用经济简洁的语言符号形式”[20],当“PN”位于主语时,语音上“的”的省略提高了交际表达的效率,但同时并没有减少信息的传递。二是“P的N”主要出现在宾语位置,为5.16/10,其作宾语出现在句子动词、小句动词和介词后面,呈现出句法位置的相似性,这是因为在句法结构上,句中的“PN”和“P的N”“在是否凸显信息焦点、描写/指别性强弱上具有明显的不同,这也使得‘的更倾向于宾语位置,或者说更易于后置”[21-23]。并且如同崔希亮指出“P的N”的语义重心在“P+的”部分[24],笔者亦认为“的”的出现体现P和N的概念距离的同时,能够进一步突出“P”所指称的对象,但是这一点受语境及N的语义类型的限制,当“P的N”属于句子新信息,那凸显的对象为整体;当“N”属于易于突出的名词类型如“抽象”等,凸显的对象则主要是“N”。显然,除去P的单复数和名词类型中距离象似性原则的主导解释,语言的经济性、信息焦点凸显的选择也表现出对“的”的隐现有重要的影响力。
第三,P与N之间的句法关系对“的”的隐现基本没有影响,两个构式基本都为定中短语。但也有例外,“PN”中出现同位语,如“他老人家”“我们党”,P和N之间带“的”就说不通,“的”的出现会破坏原义,产生歧义。
4 结束语
本研究通过使用语料库和BP对“P(的)N”的语言现象进行语料统计计算,不仅为以往的“的”的隐现规律定性研究提供了语料库量化依据,而且更为直观地呈现“P(的)N”构式中“的”的隐现情况,证明了P和N的数、N的语义类型、N的音节数以及构式所处的句法位置对“的”的隐现均有影响,同时使人发现一些不易察觉的规律。本研究有利于促进汉语研究和统计学之间的学科交叉;帮助汉语学习者了解其隐现的特点,更准确地把握“P(的)N”构式中“的”的隐现规律,提高汉语书面语的准确性。
参考文献
[1] JOHN H. Iconicity in Syntax [M]. Amsterdam:John Benjamins,1985.
[2] 陆丙甫,陈平.距离象似性:句法结构最基本的性质[J].中国语文,2020(6):643-661,766.
[3] 朱德熙.现代汉语形容词研究[J].语言研究,1956(1).
[4] 朱德熙.说“的”[J].中国语文,1961(1).
[5] 吕叔湘.现代汉语八百词[M].北京:商务印书馆,1980/1999/2005.
[6] 刘永生.从句子层面看领属性“N_1/P+的+N_2”结构中“的”字的隐现[J].修辞学习,2004(6):51-52.
[7] 干薇,陈蔚.再谈人称代词作定语时“的”字的隐现[J].汉语学习,2020(2):53-63.
[8] 胡冠英.韵律学分析“代词+(的)+名词”结构中“的”字的隐现[J].现代语文(语言研究版),2011(3):27-28.
[9] 吕叔湘.现代汉语单双音节问题初探[J].中国语文,1963(1).
[10]刘月华,潘文娱,故铧.实用现代汉语语法[M].北京:外语教学与研究出版社,1983.
[11]CHAPPELL H M, THOMPSON S A. The semantics and pragmatics of associative de in Mandarin discourse [J].CLAO Vol. XXL,1992 (2):199-229.
[12]徐阳春.“的”字隐现的制约因素[J].修辞学习,2003(2):33-34.
[13]刘正光,任远,钟丹凤.领属关系的生命度制约[J].外国语(上海外国语大学学报),2018(4):30-43.
[14]GRIES S. Th. Behavioral Profiles 1.01. A program for R 2.7.1 and higher. 2010.
[15]GRIES S.Th. & OTANI N. Behavioral profiles:A corpus-based perspective on synonymy and antinymy[J].ICAME Journal,2010(34):121-150.
[16]GRIES S.Th. Behavioral profiles:A fine-grained and quantitative approach in corpus-based lexical semantics[J].The Mental Lexicon,2010 5(3):323-346.
[17]朱德熙.语法讲义[M].北京:商务印书馆,2007/1982.
[18]张敏.认知语言学与汉语名词短语[M].北京:中国社会科学出版社,1998.
[19]沈家煊.不对称和标记论[M].南昌:江西教育出版社,1999.
[20]徐正考,史维国.语言的经济原则在汉语语法历时发展中的表现[J].语文研究,2008(1):9-12.
[21]潘婷婷.“的”字隐现与主宾语不对称[J].语言教学与研究,2021(6):75-87.
[22]徐阳春.也谈人称代词做定语时“的”字的隐现[J].中国语文,2008(1):21-27,95.
[23]徐阳春.板块、凸显与“的”字的隐现[J].语言教学与研究,2011(6):76-82.
[24]崔希亮.人称代词修饰名词时“的”字隐现问题[J].世界汉语教学,1992(3):179-184.