APP下载

跨语言基本核心词词义分析
——以24种语言基本核心词词义为例

2022-12-13许可李坤怡冉启斌黄玮

语文学刊 2022年5期
关键词:引申义均数义项

○ 许可 李坤怡 冉启斌 黄玮

(1.南开大学 文学院,天津 300071;2.南开大学 汉语言文化学院,天津 300350)

一、引 言

词是重要的语言单位,词的核心是词义。词义研究经过训诂学、传统语义学及词源、理据、演化、词典编纂等研究,进入以“语义场”产生为标志的现代语义学时期。词义研究的视野也逐渐转向观察同一概念在不同语言里语义演变模式的异同[1-2]。许多学者在亲属称谓、身体部位名称、“打击”类词语等词义类型研究上做出了探索[3-7]。

作为语言类型学的分支之一,词义类型学的发展较晚。词汇系统内部组织相对复杂、语义成分缺乏形式标记等因素阻碍了大规模跨语言语料收集。相比语音、语法类型学,词义类型学的研究成果还比较匮乏。近年来大规模语料库的建立,为词义类型学研究扫除了一定障碍,但这些语料库并不能完全解决词汇系统组织复杂的问题。

较著名的有俄罗斯科学院语言学院的词义转移类型数据库、WordNet数据库、CLICS数据库等。这些数据库分别关注两个义项之间的认知共性(表现为共时的一词多义、语法化等)、同义词集及词集之间的网络关系、词汇涵盖(colexification,指两个及以上意义被编码为同一词)现象,以不同方式对词汇材料进行了整理[8-11],为词义类型学的研究做出了卓越贡献。然而,这些数据库大多关注不同语言中的相近、相关概念的区别和联系,关注不同语言中同一概念意义引申的研究仍然较少。

而这方面的研究,无疑是词义类型探究不可或缺的。如就引申数量而言,“走”这一概念在汉语、英语中均有10个左右义项,而“我”等概念,在汉语、英语中只有1个义项。“石头”在汉语中仅有2个义项,在英语中却有5个义项;相反,在汉语中有8个义项的数词“一”,在英语中仅有5个义项。就引申义而言,“你”在汉语、英语中都可以指“任何人”;英语中仅有基本义的“谁”在汉语中还可以指“没人”“任何人”。不同语言、词类、词项的引申能力既存在共性也存在个性,它们体现词义演化模式的一些本质特点。研究不同语言中同一概念的意义引申,对于词义发展变化的基本理论、跨语言词义引申演化类型与共性、基本认知概念的发展演化模式、以词义多样性为基础的语言分类等研究具有重要意义。

为此,我们首先需要建立起一个组织方式更进一步、专门为探索跨语言词义研究提供语言资源的数据库,这是词义类型学研究深入发展必要的材料准备。本文基于一个跨语言基本核心词的词义数据库,以其收录的24种语言为例,对跨语言基本核心词的词义,尤其是基本核心词的引申能力等问题进行了探索和分析。

二、词义数据库建设

基于对既有各类语言数据库选择和组织方式、各词义数据库在词义研究方面不足的了解,我们对词义数据库进行了以下设想:(1)包含适量的基本词,保证可行性的同时能体现词义的核心特征;(2)适度、统一的义项划分、收录标准;(3)收集足够多语言,能体现跨语言词义的共性和个性。基于以上3条标准,我们建立了基本核心词词义数据库(Sense Database of Basic Kernel Words Across the World’s Languages)。

(一)基本核心词

尽管数据库中的资料越多越好,但由于词义整理工作量巨大,我们借鉴了其他语言类数据库以有限的“基本核心词”组成词表进行材料收集的方法。有研究显示,分析功效在核心词数量达到40个时出现“边际效应”,核心词数量由40个增加到100个时研究效果没有实质性改善[12]。本数据库确定了60个基本核心词,即使有的语言中无法找到词表中部分对应词,也有足够的词义项目能够满足研究需要。

我们以Swadesh100核心词表[13]为基础,以“基本性”和“普遍性”为主要标准,遴选出更为基本、核心的60个词。最终确定60个基本核心词涉及天文、地理、人体部位等名词,基本动作动词和感觉、性质、外观有关的形容词、数词、多种代词、副词等(见表1)。

表1 调查词表——60个基本核心词

(二)词项查阅收集

由于小型辞书释义通常过于简单,仅收录基本义,大型辞书往往求全,收录生僻或已不通用的义项,加之世界上一些语言尚未建立大型辞书,我们在收集词项时首要选择义项数量把握更为恰当的中型、权威辞书。一种语言如有多种中型辞书,将选择编辑者、出版方以及各方面资质最具权威性的辞书。

当前以英语为释义语言的词典最为常见,在双语词典中,首先选择释义语言为英语的词典。在找不到英文词典而又有汉语词典的情况下,选择释义语言为汉语的词典,但所有义项仍用英语表现。

词典中多义词的本义、基本义和引申义均以义项形式存在。由于不同语言个性复杂,需要依据一定规则对不同义项进行取舍、“转码”,以免因用词等细节不同影响分析结果。义项取舍的规则如下:

(1)同一概念古今用词不同的,选择与基本义关系较多的义项。

(2)同一概念分化出不同词的,同时收录两个词项。

(3)同音同形词,无论是否在词典中被归为两个词,均不予收录。

(4)过于生僻或民族性太强的词,不予收录。

(5)结构中的意义、语法意义不予收录。

义项处理的转码规则如下:

(1)义项均用英语以最简明的方式表述。

(2)仅对有实质性差异的义项进行分立,无实质性差异、差异过于细微的合并为同一义项。否定副词“not”除外。大多数语言中“not”仅表示否定,但有些语言中可能分化出涉及语用的义项,因此并不合并。

(3)进行适当的模糊处理。世界上没有真正意义上的同义词,跨语言之间的同义词几乎不可能存在[14],过于凸显细微的差别会影响语言间共性的挖掘。因此,我们在转写时对义项进行了适当的模糊处理。

(4)义项收集规则中的第(2)点,同一概念分化出不同词的,如see/look, hear/listen, soil/earth等3组词,在计数时取同一概念不同词的义项数量平均值。

(三)收集、整理的语言

为了平衡可行性与调研结果的可信度,我们在实验材料达到24种时进行了阶段性描写。一方面是由于能获取的资料有限,24种语言基本已经穷尽了方便搜集整理的所有语言辞书。另一方面,有学者曾提出,为保证项目可行性,词汇类型学的研究样本往往被控制在30~50种之间[15]。同时,也有语法类型学家认为考察12种亲属关系疏远的语言就可以得出较为稳定的语义地图,更多语言样本不会对其产生巨大影响[16]。清华大学的莫斯科词汇类型学小组则明确提出,词汇类型学对语言样本之间有无亲属关系没有特殊要求[14]。

目前收集的24种语言涵盖印欧、汉藏、乌拉尔、南岛、南亚5个语系及两种系属不明的语言(语种见表2,详细信息见表8)。尽管由于语言间研究程度不同,24种语言在系属上不太平衡,但基本上回避了语言材料亲属关系过于紧密的问题。

表2 已收集的语言语系、语族、语支、语言名首字拼音顺序

三、词义数据库基本情况

依据以上原则进行查阅、收集、整理后,目前数据库中24种语言的60个基本核心词义项共5140.5个。各词类义项总数和均数见表3。可以看到,依据义项均数,动词、形容词的引申数量最多,名词、副词随后,数词和代词的引申数量较少,所有词类的义项数量均值在3.57左右。

表3 各词类义项总数和均数

表4显示了各语言总义项数和平均数。尽管某些语言的词表并未收集完全,但各语言义项总数与均数排序基本一致。汉语的义项均数为5.57,是24种语言中最多的。其次是意大利语、法语等,义项均数在3.5和4.5之间。再次是泰语、俄语等,均数在3至3.5之间。印地语、爱尔兰语等语言义项均数是最小的,在2和3之间。这24种语言的基本核心词的义项均值大多在4上下浮动,可能是人类认知的某种反映:如短时记忆信息单位是5~8个这样的常数一样,为避免增加认知负担,单个词的引申义不会过多。

表4 各语言总义项数和平均数

不同语言中各词类的义项数量表现也不同。表5是不同语言内6类词的义项均数表。汉语中形容词的义项均数最大,形容词的引申义项均数将近8;其次是动词、名词,分别为6和5,与24种语言的总体情况(即动词最多,形容词、名词随后)不同。印尼语、印地语等语言内词类的排序状况类似。韩语中,动词的义项均数为6.6,最大。其次是形容词、名词。日语、希腊语等9种语言与之一致。夏威夷语、拉丁语则是动词义项均数最大,然后是名词、形容词。而泰语、缅甸语、爱尔兰语、泰米尔语中各类词的平均义项数差异不大,比较均匀。

表5 不同语言内6类词的义项均值

代词、数词、副词等义项均数较小的词类中,除汉语、日语、越南语、西班牙语等少数语言数词义项均数超过代词外,其余语言代词的义项均值都更多。副词仅含“not”一个,日语、夏威夷语、越南语中,“not”不仅有否定义,还可能引申出“without”“never”“avoid”“empty”“gratis”等意思,我们均予以保留。

具体词项的义项均数中,good、give、go、head、bad、eat、big、small、say、see/look、old、come、stand、black、die、new、earth/soil、eye、hot等19个词项的义项均数超过4,数量较多,分别为动词(8个)、形容词(3个)、名词(3个)。义项均数排在最后10位的词是moon、this、rain、bird、blood、night、two、I、you、three。主要是名词(5个)、代词(3个)、数词(2个)。

我们依次对60个基本核心词在24种语言中的义项进行了分析、整理,并对其义项引申路径进行了推理和模拟。限于篇幅,在此不逐一描写。我们认为,基本义方面,24种语言基本核心词表现出了重要的共性——模糊性。多数名词、形容词的基本义义界不清,如water可以指代各种液体,义域扩大可指代大片的水域、江河。义位模糊性主要来源于客体的模糊和主体认识的模糊。客体模糊即事物具有连续性,界限不清,范围具有过渡性等,比如night基本义是“夜晚”,它还可以指“黄昏、傍晚”或整个夜间。人的认识水平有限、人的思维具有概括性[17],使得主体认识具有模糊性,比如颜色上,纯白是white,浅色的如银白、灰白也可以说是white。

同时,基本义表现出了极大的民族性。各语言的语义场划分不尽相同,如water,泰语、韩语等语言中将其概括为所有液体;而一些语言中却有具体所指,如雨水(葡萄牙语等)、小便(意大利语等),法语中则概括为人的体液。各语言的义域大小不同。如hand在很多语言中也指胳膊(缅甸语等),在法语中还可以指手掌,夏威夷语中可以指手指,印尼语可以指手腕。义值大小也不尽相同。如“hot”除了表示一般意义的“热”外,英语等语言中可以指“烫”,在瑞典语等语言中,反而可指温度不是那么热的“温暖”。

引申义则具有普遍、渐进、经济、不均衡等主要共性。词义引申的现象普遍存在于各语言中,是语言漫长历史演变的结果。经济性是指随人类社会的发展,词的数量却并非完全同步增长。人们可以用隐喻、转喻等认知方式,用旧词指代新事物,事物之间相互指代。不均衡则存在于语言之间和语言内部。同一个词在不同语言中引申不同,同一语言中不同词类的引申程度不同。但受到历史宗教、社会传统、地理环境、知识体系等文化影响,基本核心词汇的引申义繁荣纷杂,表现出了极大的民族性。

四、基本核心词词义的引申特点分析

“词义引申的方式、类型、规律问题一直处于一种分歧、模糊所致的、不同程度的混乱状态”[18],尽管许多学者对这方面的术语进行了界定,但这一问题仍旧未得到解决。但认知语言学中,将隐喻和转喻视为实现多义词多个义项的手段这一观点已经得到了普遍认同。因此,我们不做引申义方式、类型的归类,仅以认知语言学理论为基础,对基本核心词的引申义作一定的分析。

认知语言学认为,隐喻建立在相似性(resemblance)原则基础上,是从源域(source domain)到目标域(target domain)的跨域投射;转喻建立在邻近性(contiguity)原则基础上,体现同一认知域中两个概念或元素的相关性。由于数词、代词、副词引申义较少,引申时隐喻、转喻可能同时发生,我们只以相似性(隐喻)、相关性(转喻)大框架来讨论名词、动词、形容词三类词相互引申时的引申特点。

(一)名词的引申特点

60个基本核心词中有25个名词。名词引申为名词是最为常见的情况,可以从相关性、相似性两方面进行细分。就相关性而言,可以分为以下几种情况:

(1)原因代替结果。如rain在希腊语中可以指大雨引发的洪水。

(2)材料代替实体。如stone在许多语言中代指石头制品,如棋子、墓碑等。

(3)部分代替整体。如德语等语言中head可以指人。

(4)实体代替性质。如person可以代指性格,汉语中就有“他人很老实”。

(5)其他简单关联代替。这类关联较为简单,且不具有以上关联关系。如water可以代指屋顶斜坡(用于引导雨水)。

名词的相似性引申也有以下几种:

(1)形似性代替。如head在许多语言中都可以指圆形物体。

(2)性质相似代替。如dog可以由狗的凶猛引申到人的残暴。

(3)功能相似代替。如head可以指代团体、组织中的领导者。

(4)位置相似(包括方位和地位)代替。如将sky引申到位于顶端的屋顶。

(5)复杂关联代替。这类关联较为复杂,需要一定推导。如fire关联到火的猛烈及其引发的灾害,进一步关联至危机、困难乃至一切不好的事情。

名词引申为动词时,主要表示与其相关的动作及心理动作。前者如eye可以表示眼睛发出的动作,如看、注意等。后者如fire可以指生气、发火等。名词引申为形容词时,往往以其凸显的特点关联至某种属性、特征、感受。如human可指人的仁慈,stone可指冷漠。图1概括了名词的词义引申特点。

图1 名词的词义引申特点

(二)动词的引申特点

动词引申为动词的情况最常见。其引申至动词的相关性分类有以下几种:

(1)引申至目的。如汉语中eat被引申为“靠……生存”。

(2)引申至特征。如say引申出“发音”。

(3)引申至结果。如eat引申至“消耗”。

(4)引申至相关动作关系。如因自然界大吃小、强吃弱,eat引申出赢得、夺取等意义。

(5)引申至心理动作。如say引申出意思上指、认为、假设等意义。

动词因相似性引申为动词的情况也有以下几种:

(1)动作相似,主体改变。主要是动作主体由人到物。如sleep也可以指计算机休眠。

(2)动作相似,客体改变。动作的客体范围变大、变为抽象事物等。如eat引申为盗用。

(3)动作相似,主客体均改变。如eat在多数语言中还指腐蚀、侵蚀。

动词引申为名词时,一般以动作表示动作关系的主体或客体。如drink可以指喝的内容,即饮料。也可以指与动作相关的其他物体,如sleep在波兰语中可以指梦。动词引申为形容词时,一般代指其凸显的性质状态、性格特征及心理感受。如stand由车船等抵达而引申至凸显的“成功”的状态。图2为我们归纳的动词引申特点。

图2 动词的词义引申特点

(三)形容词的引申特点

形容词一般都是基于相似性的引申。其中,形容词到形容词的意义引申可以通过以下途径:

(1)修饰特点相似的一般事物。比如long表示时间上的长,能够引申至事物长期、持续等特点。

(2)修饰特点相似的社会事物。比如big,由作用上的大,引申至主要的、重要的。

(3)修饰物理特征引起的心理感知。如black引起人心理上的阴郁、苦恼、绝望等。

(4)修饰特点相似的人的性格特征。如big指人的高贵、慷慨,small指人心胸狭窄。

形容词引申至名词时,往往代指具有该词表示的性质状态的事物或者其他与之相关的事物。前者如long在汉语里可以指人的优点、长处。后者如square从角度义引申出方向义,进而引申出方面义,方向义再引申至方法等。

形容词引申至动词时可以表自动,凸显该性质状态的动态特征。如汉语中long可以指擅长;韩语、印尼语中big还可以指长大。也可以表示使动,使某人或物具有其性质状态,如new作动词革新。图3概括了形容词的引申特点。

图3 形容词的词义引申特点

从引申较多的名词、动词、形容词3类词语的词义引申特点中可以看到,词义引申不仅涉及义项变化,也涉及词类等语法特征变化。词义引申不仅有由人到物的(如eye到“key”),也有由物到人的(如big到“older”);既有由实到虚的(如fire到“bad thing”),也有由虚到实的(如black到“night”)。

有研究认为义位演变的原因有客体世界、主体世界、语言世界等三个视角[17]。我们认为,这三个动因的交互作用,共同推动了词义演变。相似的客观世界、人类认知基础、词义演变特性,使得基本核心词产生相似的引申义,引申方式和引申规律大同小异;不同的具体客观世界、民族文化、语言体系,使得引申义又各具民族特色。

五、基本核心词词义引申能力探索

除义项数量外,引申义与基本义的远近同样是引申能力的表现。如eat的引申义“drink”(喝)和“win”(赢),后者与eat的引申关系明显更远。为此,我们使用“义项赋值”的方法,对引申能力进行了量化计算。赋分方法如下:基本义为0分;其余义项根据该义项与基本义的远近分别赋予1~5的分值。赋值后,通过“词”“语言”两个角度对以“引申值”为代表的词义引申能力进行统计。按“词”计算,每个词的引申值为该词每个引申义项分值除以引申项语言数得到的均值之和;按“语言”算,一种语言的引申值为所有基本核心词义项分值之和除以该语言收集到的基本核心词数量。

赋分均以详细描写后对引申路径的模拟为基础,由人工进行评分。表6以eat依次为例说明了义项赋值情况。其基本义“eat”记0分,后续义项以引申远近进行排列。

表6 义项赋值——以eat一词为例

(一)不同词项的词义引申能力

60个核心词的平均引申值为6.5,引申能力较强(义项赋分范围为1~5)。表7根据引申能力顺序列出了60个词语的引申值情况。从eat一词开始的37个词引申值在5分以上,约占62%,均来自名、动、形三种词类,其中名词15个(占名词总数的60%),动词9个(占动词总数的82%),形容词13个(占形容词总数的93%)。引申值在10分以上的有go、good、see/look等11个词,其中6个动词,3个形容词,2个名词;动词的引申能力相对来说更强。

表7 60个基本核心词引申值

之所以说相对来说,是因为引申值受项数、引申程度两方面的影响。因此会出现有的词因义项项数多,在词义引申程度并不高的情况下引申值较高;或义项项数少,但引申程度较高而得分高的情况。我们认为,义项数量和引申程度都是词义引申能力的体现。

动词、形容词、名词、数词、副词、代词的引申值均值为8.03、7.75、4.23、1.41、1.04、0.80。由于单独义项赋值分数为1~5,我们将4分以上的分值划分为强引申。动词、形容词、名词整体上引申能力更强,为强引申;数词、代词和副词引申能力为较弱,为弱引申。对各词类中24种语言的数据结果进行排序,动词、形容词在大多数语言中在5分以上,名词中只有少数语言在5分以上,而代词、数词、副词所有语言均在3分以下。

从表8中可以看到,名词中泰语、汉语等15种语言引申值在4分以上,占63%左右;动词中只有波兰语、爱尔兰语等4种语言在3分以下,其余都在5分以上。绝大多数语言中基本核心动词都是强引申,意大利语等6种语言的动词引申值大于10分;形容词中夏威夷语等5种语言在3分以下,其余都在5分以上。绝大多数语言中基本核心形容词也是强引申的,汉语等5种语言的形容词引申值在10分以上。

通过表8可以看到,同一系属的语言引申值可以同时处于高、中、低不同区域。在词义引申能力方面,各语系之间不存在明显差异,同一系属的语言中,既有词义引申能力较强的,也有引申能力较弱的。

表8 各词类24种语言引申赋值得分(名词、动词、形容词、代词义项赋值分数排序)

多义引申的发达程度并不代表语言的发达程度,因为“语言作为一种符号体系,其组成部分以及内部结构的关系是相辅相成的。不同的语言会有不同的‘强项’与‘弱项’。在同一种语言体系内部,强项与弱项之间会自动地相互补足”[19]。

六、结 语

本文依据确定原则,以包含名词、动词、形容词、副词、代词、数词等6种词性共60个基本核心词为词表,收集了7个语系的24种语言的词义信息。通过对词义的整理,不但对词义引申数量进行了数据分析,还尝试对词义引申能力进行定量描写,对引申特点进行了质性分析。

总体上基本核心词的义项数量均值约为3.57个,动词的引申数量最多,其次是形容词和名词,副词、代词、数词的引申数量较少。各语言中不同词类的义项数量大小并不一致,动词、形容词、名词均可能为义项数量最多的词类。义项赋分并计算代表引申能力的引申值后,60个核心词的引申值均值为6.5;动词、形容词的引申能力最强,名词随后,数词、副词、代词的引申能力较弱。各语系之间在词义引申能力方面不存在明显差异。通过隐喻、转喻框架,本文对名词、动词、形容词相互引申的特点进行了归纳总结,词义引申极大地受到语言文化的影响。

本文建立的基本核心词词义数据库从内容结构上弥补了目前跨语言大规模词义数据库在词义引申方面的缺口,为词义引申的类型学研究清理了部分障碍。数据库涵盖基本义、引申义、引申分值等信息,为词义引申的量化分析提供了数据支持。同时,引申义以简单、统一的方式呈现,为分析引申方向、原因、频次,绘制引申图谱等都提供了结构和内容参考。通过对数据库的分析,不仅可以对语言、词类、概念间词义引申的共性与差异,引申义的数量、能力极限等做出探索,还可以观察词义引申的数量、广度二者之间的关系,影响词义引申能力的因素等,甚至可以通过词义引申对基本核心词进行聚类。未来,我们将进一步扩大语言样本,对引申义项进行更加精细的处理,更加深入地挖掘词义引申特点,为词义类型学的研究做出更多贡献。

猜你喜欢

引申义均数义项
“耐”字原是剃胡须
画说汉字——摆(bai)
浅析静物在安格尔绘画中的作用
关于均数与偏差
两用成语中的冷义项
关于均数与偏差
Enhanced Precision