词汇语义微观结构研究综述
2022-03-18李远天
李远天
(安阳工学院 外国语学院,河南 安阳 455000)
学界对于词汇语义的研究可以从宏观层面和微观层面入手。宏观层面主要关注词义的内容、性质、分类,以及词义的聚类、词义的搭配与组合等问题。20纪中后期,随着结构主义语言学的兴起与发展,词义的微观层面研究逐渐受到重视,主要针对词义的构成成分与结构方式进行研究。近年来,基于语言理论和应用研究的对词汇语义知识描写的颗粒度日益精细,无论是理论语言学界还是自然语言处理学界,都面临着词义研究从宏观层面向微观层面的转向。
词是语言的基本表达单位。依据布龙菲尔德的观点,词是语言中最小的自由形式,这是从语言运用的角度来说的,即在语言交际中,词是可以单独自由存在的、可以独立运用的语言意义表达的最小语言单位。但是就词本身的结构而言,无论是形式还是意义,词都不应该是最小的语言单位。从词形上看,一个词可以由一个或多个语素构成,这些语素分别带有一定的词汇意义或语法意义。从意义的角度看,词的语义结构要复杂得多。一个词的意义,往往由一个或多个更小的语义颗粒构成。这些语义颗粒,有的具有表现形式,如由其构成语素来表达。而在多数情况下,语义颗粒根本不通过词本身的形式来表达。这些无形的语义颗粒是语言作为约定俗成的意义表达符号的一种体现,只存在于人的认知系统中,通过语言习得代代相传。当然,在词典编纂和语言教科书中,为了解释词的意义,这些语义颗粒往往以显性的语言单位被形象地描述。文章梳理国内外词汇语义微观结构研究的发展历程,综述国内外词义微观结构研究,为语言本体研究、语言教学、词典编纂和自然语言处理等提供一定的参考。
一、国外词汇语义微观结构研究概述
国外对词汇语义微观结构的研究由来已久。17世纪20年代,法国数学家、哲学家笛卡尔(Descartes)沿着人类不但可以用数学方法进行哲学思考,而且能进行几何学研究的思路,创立了解析几何,通过通用的符号将数学与几何学成功地联系起来,并以此为基础提出“通用语言”的构想[1](P149)。在此之后,德国数学家、哲学家莱布尼茨(Leibniz)提出数理逻辑的想法,试图构建一种理想化的“通用语言”,作为逻辑分析的工具,消除现有语言的局限性。他认为,根据事物的数字和逻辑特征,可用简明而严密的数字、符号代表少数原初概念,与组合规则一起构建“通用语言”,通过这些“通用语言”来表述逻辑系统中语言难以表达的概念[1](150)。在莱布尼茨看来,每一种语言都是一个系统,语言和各种符号构成了人类思维的工具,人类通过这些工具来表达复杂的概念。语言或各种符号是构成人类思维方式的基本分子,是思想的高级形态[2](P20)。这些语言哲学思想对之后的词义微观结构研究,如义素分析法、自然语义元语言理论和语义元语言理论产生了深远的影响。
(一)义素分析法
20世纪40年代,结构主义语言学哥本哈根学派创始人、丹麦语言学家叶尔斯列夫(L. Hjelmslev)提出了义素分析的构想,其主要内容为一个词是由一组微观的语义成分构成。在继承和发展索绪尔语言学理论的基础上,他提出了语言成分分为“内容”和“表达”两个平面,这两个平面又各自包含“形式”和“实质”两层。他认同索绪尔关于“语言是形式而不是实质”的观点,认为语言学只研究形式即结构关系。“形式”涵盖内容形式和表达形式,这两种形式都有自己的最小要素,内容形式的最小要素是语义特征,表达形式的最小要素是音位或音位特征。叶尔姆斯列夫提出把对比替换的结构分析法引入语义学研究,这一设想被认为是义素分析理论的最早萌芽。遗憾的是叶尔斯列夫并没有进一步开展这项研究[3](P121)。
20世纪50年代后期,受到结构主义语言学家、布拉格学派代表人物雅可布逊(R.Jakobson)提出的音位学区别性特征理论的启发,美国人类学家朗斯伯里(F.G. Lounsbury)和古德内夫(W.H. Goodenough)正式提出了义素分析法,并用义素分析法分析了不同语言中表示亲属关系的词语,把它们分解为一系列语义成分,并加以比较和描写[4](P66)。1963年,语言学家卡茨(J.Katz)和福德(I.Fodor)利用这种方法为转换生成语法提供语义特征分析,对当时的语法学和语义学界都产生了一定影响[5](P90)。义素分析法起初是作为转换生成语法的语义解释手段,之后又被应用到一般的语义研究中,成为现代欧美研究语义学的一个基本方法[6](P96)。
义素分析法自提出以来受到语言学界的普遍重视,并逐步被各国语言学家运用于各自语种的词汇语义学研究中。通过实践的验证,义素分析不仅能揭示个体词的语义构成,提供更为精细的词义解释,还能显示语言中词与词之间的语义关系,给研究者对词义聚合关系的认识和解释提高参考[6](P97)。当然,义素分析法本身也存在不少问题,在迅速推广的过程中也遭到一些语言学家的批判和质疑。如英国语言学家莱昂斯(Lyons)对义素分析理论提出了四点质疑:一是存在循环论证的情况,义素与词的概念义并未清晰地区分开,一个词的概念义在另外一个词的分析中充当义素;二是与定义义素的最小的意义成分观点矛盾,对于同一个词,不同的学者分析出的义素成分有差异;三是采用二元对立的肯定、否定某个义素的存在来分析词汇语义有时解释不充分。四是没有形成义素排列规则,分析一个词的各个义素时其排列顺序并非是无结构的序列[7](P90)。
义素分析法作为语言学界一项开拓性工作,其最早展开对词义内部的微观结构成分进行分析和描写,为词义结构的分析找到了一种便于操作的方法,同时也是结构语义学的一个重要里程碑。因此,我们需要辩证地认识义素分析法的得与失。
(二)自然语义元语言理论
除义素分析法之外,之后语言学界对于词义微观粒子的认识,以自然语义元语言(Natural Semantic Metalanguage, NSM)理论为代表。对自然语义元语言的研究,我们可以溯源到17世纪的哲学研究领域。17世纪中期著名的法国哲学家阿尔诺曾指出:“Furthermore, I say it would be impossible to define every word. For in order to define a word it is necessary to use other words designating the idea we want to connect to the word being defined. And if we again wished to define the words used to explain that word, we would need still others, and soon to infinity. Consequently, we necessarily have to stop at primitive terms which are undefined.”(要定义每个词是不可能的,因为,如果要定义一个词,则必需用其他词清楚地指出跟我们所要定义词相联系的概念。而如果我们希望进一步定义那些用来解释该词的词语,则我们仍然需要更多其他词,以此类推,以至无穷。最终我们不得不停留在不可定义的基元上。)[8](P15)
作为语言哲学思想的进一步发展,为了避免词义解释中出现的循环论证、用复杂概念解释简单词汇及解释外来语时的文化偏颇现象,波兰语义学派的代表人物威尔茨贝卡(Anna Wierzbicka)在逻辑元语言的基础上创立自然语义元语言理论(Natural Semantic Metalanguage, NSM),该理论定义了构成词汇语义的基本单位为语义基元(semantic primitive)[9](P97)。 威尔茨贝卡认为:“The elements which can be used to define the meaning of words cannot be defined themselves; rather they must be accepted as ‘indefinable’, that is, as semantic prime.”[10](P12)(用来定义词汇意义的元素其本身并不能够被定义,相反,它们必须被视为是不可定义的语义基元)。
自然语义元语言理论作为当代语义学研究中的一种新范式,其基木理论框架最初形成于20世纪70年代初[11](P25)。威尔茨贝卡设想用自然语义元语言理论来解释所有语言的基本语义,认为通过分析任何一种自然语言,都能找到一套概念基元,因为每一个基元都具有普遍性的人类基本概念在特定语言中的表现。通过对比几种自然语言,她解析出14个非任意性的普遍语义基元(universal semantic primitives),分别是:I, you, someone, something, part, live, this, say, good, happen, want, feel, not, imagine,并在此基础上提出了一套化简释义(reductive paraphrase)的基本方法来进行词义分析。20世纪80年代中期之后,其研究范国逐步得到拓展,深入到词汇语义学、语法结构、词典编纂、语言类型学等语言学领域,随后又通过“文化脚本”理论转向跨文化语用学领域[12](P69)。
自然语义元语言理论中的“语义基元”也被称之为“概念基元”(conceptual primes),是用来分析词汇语义构成的最简词汇[10](P9)。语义基元可以是词,也可以是其他语言表达形式,如短语成分(phrases)或粘着语素(bound morpheme)。作为自然语义元语言理论语义分析的元语言描写工具,语义基元具有三个特点:不可定义性(indefinability)、普适性(universality)和可验证性(testability)[13](P378)。经过对不同自然语言的深入对比分析、不断地改进与发展,在自然语义元语言理论中已经确定的语义基元共有60多个[14](P8)。
自然语义元语言理论可以概述为如果没有一套语义基元就不可能描述词汇的意义。抽象的、复杂的词汇语义需要通过简单的、不解自明的(self-explanatory)语义基元来界定。而这些简单的、不解自明的语义基元构成了一套微型语言(mini-language),与自然语言一样具有表达力和解释力。针对词汇释义过程中出现的循环论证、语义模糊和不准确现象,有效的方法是解析出各种自然语言中表达最简单意义的语义基元[15](P16)。
(三)语义元语言理论
同一时期,美国认知语言学家杰肯道夫(Ray Jackendoff, 1983/1990)提出了语义元语言(semantic metalanguage)的理论,因为其哲学基础不同并且受到认知语法学派的影响,杰肯道夫的语义元语言理论与威尔茨贝卡的理论存在很大的差异。杰肯道夫研究目的并不是为了提高自然语言的可译性(translatability)来寻找语义基元的共核(a shared core of primitives)而是为了弄清楚词汇意义背后的概念[15](P17)。 在杰肯道夫看来,“The thoughts expressed by language are structured in terms of a cognitive organization called conceptual structure. Conceptual structure is not pan of language-it is part of thought.”(语言所表达的思想是由一种叫作概念结构的认知机制所建构的。概念结构不是语言的一部分而是思想的一部分。)[16](P35)
杰肯道夫(1983)认为语义元语言是表达无限概念的有限概念原成分(prime),他提出的一套概念范畴包含事物(thing)、事件(event)、状态(state)、地点(place)、行为(action)、路径(path)、性质(property)和数量(amount)[17](P12)。概念范畴用来描写函数题元结构(function argument organization),也就是动词和介词的内部概念结构。如事件范畴可以被描述为函数go和stay,介词to, from, away就可以用来描述路径范畴[15](P17)。从杰肯道夫的语义元语言理论来看,他认为词义概念可以解析为一组数量有限的元语言成分,而这些元语言成分描写的概念本身又有内部结构,内部结构便是动词与介词相对应的原成分派生出的概念组合[18](P9)。
对比而言,威尔茨贝卡自然语义元语言中的语义基元是自然语言中简单的、不解自明的日常词语,其目的是用来解释抽象的、复杂的概念的语义,可以被称之为释义元语言。杰肯道夫的语义元语言理论是从概念的内部结构来对语义结构的分析理解,可以称之为结构元语言。
二、国内词汇语义微观结构研究概述
对汉语词汇语义的研究是在传统训诂学研究的基础上发展起来的。20世纪上半叶,训诂学在古汉语研究上仍然占据重要的地位。同时,在词汇语义研究方面增加了新的内容,一些研究人员开始采用现代语言学的观点来解释词汇语义的变化并产生了一系列新的研究成果。20世纪70年代以后,研究人员对词汇状况的研究形成了学科词典学这一新的学科,对词汇意义的研究形成了词汇语义学。在研究过程中,学者们通过吸收相关学科的研究成果,使汉语词汇学研究的方法不断完善,为词汇语义的形式化描写奠定了基础[19](P31)。对国内词汇语义微观结构的研究主要从三个方面来概述:自然语言处理领域的词义结构微观研究、词典编纂领域的词义微观结构研究及词义微观结构研究的新高地。
(一)自然语言处理领域的词义结构微观研究
在自然语言处理领域,词义微观层面的研究主要是董振东先生在How Net中提出的“义原”理论和黄曾阳先生在HNC(Hierarchical Network of Concepts)中提出的“概念基元”理论。在他们的研究过程中,不仅在理论上强化了对词义微观结构的描写意识,还构建了大规模的词义知识库,在汉语自然语言处理过程中发挥了重要的作用。
1.How Net(知网)
知网是由我国著名中文信息处理专家董振东先生主持开发的。它是以汉语和英语中的词汇所代表的概念为描述对象,目的是揭示概念与概念之间及概念所具有的属性之间的关系为基本内容的一种常识知识库。虽然董振东先生曾一度声明知网是一个常识知识库而非一部语义/义类词典,但在计算语言学界学者们把它当作国内最早的大规模可计算的汉语词汇语义知识库系统。它主要包含:中文词语100168条、英文词语96370条,中文义项114985项、英文义项121042项、概念定义29868条,数据总记录数达到191924条[20](P34)。
知网知识库构建的哲学基础是世界上一切事物都在特定的时空内不停地运动和发生变化。事物从一种状态转变到另一种状态通常是由其属性值的改变来实现。任何事物都包含多种属性,属性决定事物之间的异同,没有属性就没有事物。知网运算和描述的基本单位为:万物(包含物质和精神)、部件、属性、时间、空间、属性值以及事件[20](P34)。
知网用“义原”来定义概念的属性从而实现对概念语义的深入描写。在知网中,义原被界定为最基本的、不能再被分割的语义的最小单位。假设所有的概念被解构成一系列义原,所有的义原构成一个有限集,义原通过一定的规则组合构成一个无限概念的集合。知网就是通过这个有限的义原集来描写无限的概念的,如知网中“男人”这一概念用“human人, family家,male男”三个义原加以描述。目前,知网的有限集包含2199个义原[21](P47)。
知网在描写概念语义的基础上进一步描写了概念与概念之间及概念属性之间的各种关系,概括起来有16种,分别是上下位关系、同义关系、反义关系、对义关系、部件—整体关系、属性—宿主关系、材料—成品关系、施事/经验者/关系主体—事件关系、受事/内容/领属物等—事件关系、工具—事件关系、场所—事件关系、时间—事件关系、值—属性关系、实体—值关系、事件—角色关系、相关关系。通过这16种关系,概念的组合和聚合特征都得到充分的描写。
2.HNC知识库
中科院声学所黄曾阳先生创立的概念层次网络(Hierarchical Network of Concepts, HNC)是有关自然语言处理的理论体系。该理论体系以概念化、层次化和网络化的语义表达为基础。HNC理论把人脑的认知结构区分为局部联想脉络和全局联想脉络,认为对联想脉络的表达是语义层面的根源问题。局部联想对应的是词汇层面的联想,而全局联想则是句子及语篇层级的联想。HNC理论就是通过这两类联想实现计算机理解自然语言[22](P87)。
概念层次网络理论把语言概念空间设定了四个层级的数字符号体系,分别是:概念基元表示式、语句表示式、语境单元式和语境表示式,各自对应自然语言中的短语、句子、段落及语篇[23](P19)。在构建理论体系的基础上,HNC理论尝试用有限的概念基元来表达无限的概念、用有限的句子类型表达无限的语句、用有限的语境单元表达无限的语境。通过深入的研究和发现,HNC已经完整地构建了大约20000个有限的概念基元、句子类型57种、语境单元约15000种。概念基元形成了层次化、网络化的表示系统,从底层到高层分别为456个概念树、101个概念群和18个概念范畴,这一个系统构成了概念联想脉络的基础[24](P16)。这些基础资源的建设纳入到HNC的概念知识库、词语知识库和常用及专用知识库中。
概念层次网络理论最核心的部分当属词语知识库,其中不仅包含有词汇的语法语义知识,如概念类别、义项数量、义项使用频度等,还包含句子类型知识。在HNC理论中的57种句子类型主要是句子的语义类型,与句子的句法结构没有关系。57种句子类型作为基本类型,通过其表达式及组合来描写任何语言的语义结构。句类表示式是由语义块构成,语义块是句子语义的构成单位。不同的句类有着不同的特点,这一内容被称为句类知识。语义块、句类、句类表示式和句类知识是HNC理论的基本概念[25](P28)[26](P35)。 HNC理论通过这些基本概念对语言知识进行了详尽描写。而对语言知识的描写形成了概念化和数字化的体系,而不是传统的用自然语言来对语法语义进行描写的。
(二)词典编纂领域的词义结构微观研究
在词典编纂领域中,南京师范大学李葆嘉教授及其团队对词汇的释义和语义分析方面进行了系统研究,发表了一系列有影响的成果,其中最显著的成果之一是“析义元语言” 理论。“析义元语言系统是用来分析对象语言的语义特征集,其主要功能用于义征辨析和义场建构。析义元语言的研究内容主要是语义特征简称(简称‘义征’或‘义元’)和语义关联简称(简称‘义联’),提取‘义征’是建立析义元语言系统”的关键,成功的标准是看能否满足语义分析功能。”[27](P98)目前他们共提取了汉语析义义征2,800多个。李葆嘉指出:“析义元语言工程是词汇元语言工程和释义元语言工程的后续工程。”[28](P8)因此,他们提取析义元语言所使用的语料资源,很多跟安华林提取的释义基元词相同[29](P135)。
安华林将释义基元词界定为用于辞书释义的最低限量基本词[30](P37)。 释义基元词主要适用于现代语文词典、解释日常词目的感知义以及各种文化程度的读者人群。由于其基础性、元素性和有限性,释义基元词能够在满足明确释义的前提下,不存在语义成分的可再分性,同时力求“少而精”,把词数控制在最低限度。释义基元词提取基本上是采用词频统计的方法,利用计算机通过大规模语料库提取高频词,或者对词典释义文本进行统计分析提取高频释义用词,经过人工筛选、合并、优化得到释义基元集,在很大程度上释义基元词本身就是词,有固定的物理形态,属于自然语言的词汇系统本身,无法摆脱在词典释义中循环论证的现象。
(三)词义结构微观研究的新高地
词义基因理论由胡惮提出,该理论借鉴基因科学的理论和方法对词义进行微观分析,把词义基因作为语义分析的基本单位[31](P156)。
胡惮从定义的视角和定义的参照物对词义基因进行界定。首先,词义基因的物理形态音素、音节、音位、语素、词等概念虽然不同,但这些概念都具有一定的自然语言物理形态,包括语音形态和书写形态,都是自然语言的一部分。而意义是没有自然语言物理形态的,虽然讨论语义所使用的元语言系统中可以包括一部分自然语言,但是它们本身不是意义的物理形态。语义学专用的元语言符号,比如施事、受事等,它们也只是语义关系的指称符号,也不是意义的物理形态。没有物理形态,语义单位就难以准确切分。传统语言学虽然把义素和义位都称为语义单位,但是它们也不是语义的物理形态,按照义素分析法,它们还可以无限分割。其次,词义基因的参照物也不完全是词,虽然大多数情况下词义基因所面对的处理对象是词,它们受辖的上位范畴有时候会超出词的范围。比如说“吃”的施事和受事一般不能是“桌子”“椅子”之类,我们描写“吃”的词义的时候不能忽视这一点,但是这已经超出了词本身的范围,涉及到组合的逻辑限制了。
在经典遗传学中,“基因”被定义为:基因是遗传信息的基本元件,是控制某一个特殊方面表型的功能单位和不能被重组和突变分开的结构单位。现代遗传学从分子生物学的角度,把“基因”定义为:基因是遗传信息的基本单位,一般指位于染色体上编码一个特定功能产物(如蛋白质或RNA分子等)的一段核苷酸序列[32](P89)。
参照语言学中对语音和词汇最小单位的定义,以及遗传学中对基因的定义,胡惮把“词义基因”定义为控制词的某种语义特征,并且可以通过遗传和重组构造新词的词义基本结构单位。同时,胡惮构建了词义基元描写的元语言系统,其包括三个部分,从自然语言中提取的词义基因单位、词义信息基因结构描写符号和XML语言代码。元语言系统的设计兼顾人用和机用两方面,既有较强的可读性,方便人类读者阅读和理解,以及作为语义学研究工具,也具有高度形式化和可计算性的特点,可直接供各种自然语言处理系统调用。目前胡惮及其团队已经完成了现代汉语词义基因数据库的动词分库和形容词分库的建设[33](P10)[34](P12),为自然语言处理和语言工程的发展提供了有力支撑。同时编纂现代汉语形容词语义基因词典,可为词典编纂和汉语作为第二语言教学提供参考。
三、词汇语义微观结构研究述评
从国内外词义分析的各种理论来看,不管是在语言学领域还是自然语言处理领域,研究人员对词义的分析描写都是建立在一套基本或最小的词义单位的基础之上。而词义微观结构研究的新趋势——词义基因理论与以往的研究有着本质的差异。最关键的一点是定义词义基因的视角和关注的侧面不同。以往的研究是从结构主义或概念认识的角度出发,关注的重点是词义的解释或结构描写;而词义基因是基于全息论哲学思想,从生物遗传学的角度来定义词义基因,重点关注词义的特征维度、词义基因对词义特征维度的控制、词义基因的遗传运作机制、词义的基因结构图谱及其形式化描写。以下主要论述词义基因理论与其他理论的具体区别与联系。
(1)词义基因理论与义素分析理论的区别与联系。一是义素的提取具有主观性和随机性;词义基因的约定和提取有严格的标准。二是义素集缺乏统一标准,不同的词互为义素,普遍存在循环释义;词义基因集相对稳定,只用基因集合中的元素描写词义,通过词义特征维度限制循环释义现象的产生。三是词的义素结构式缺乏标准模式,义素之间的语义关系难以表达;词义基因结构方程式是标准统一,维度函数和结构方程可以清晰描写所有词义基因之间的语义关系。四是义素分析法采用的语义场对比方法以及分析中所使用到的部分语义角色可供词义基因分析提供参考。
(2)词义基因理论与自然语义元语言理论的区别与联系。一是自然语义元语言理论针对跨语言提取适合多种语言和文化的通用语义基元;词义基因提取针对特定语言,不同语言提取的基因集不同。二是自然语义元语言理论中定义的语义基元有限,自2002年以来威尔兹彼卡及其团队发布60多个语义基元以来,没有持续更新,这显然不足以描写一种语言甚至是跨语言中大多数词汇的语义,因此该理论的价值主要在于方法论意义,不足以支持大规模的工程应用;词义基因理论所提出的词义基因库开发是一项面向语义计算处理的持续工程,现在已经完成了现代汉语部分词类的基因库建设工作,后续的开发将继续进行。三是自然语义元语言理论对语义基元的定义跟词义基因存在一定差距,其中部分词义基元,例如 A LONG TIME(长时间)、 A SHORTTIME(短时间)、FOR SOME TIME(一段时间)等,在汉语中不能作为一个最小的概念语义单位。四是自然语义元语言理论中的部分语义基元可为词义基因提取提供参考。
(3)词义基因理论与概念语义学的区别与联系。跟自然语义元语言类似,杰肯道夫的概念语义学主要在于其理论价值,提取的概念基元十分有限,不足以描写大部分词语。其理论方法对词义基因的分析也是有参考意义的。
(4)词义基因理论与概念层次网络理论的区别与联系。一是概念层次网络通过模拟人脑认知的局部联想和全局联想脉络,构建概念联想网络,把概念基元当作语义联想的激活因子,自上而下地分析和提取概念基元;词义基因立足于词义的内部微观结构,通过语义分析获取词义的结构基因,通过词义基因间的语义关系自下而上地生成概念语义网络。二是概念层次网络中的概念基元体系采用纯数学表达式描写概念的语义,再通过映射关系跟自然语言的词汇进行对应,不能完全精确描写词义的各个方面;词义基因分析中对词的意义描写通过词义结构方程,精确描写词义各个维度的特征以及词义基因之间的复杂语义关系。三是概念层次网络直接面向计算应用,对人类读者而言不具有可读性;词义基因函数和词义基因结构方程既可以直接用于计算,也方便人工阅读和处理,可以直接用于词典编纂和语言教学。四是概念层次网络中的概念网络和概念基元可作为词义基因研究的重要参考。
(5)词义基因理论与知网的区别与联系。一是知网面向的是常识知识,因为知识表示必然涉及到语义,因此有语义描写,出发点是世界知识,落脚点是语义关系描写;词义基因直接面向自然语言的语义分析,出发点是自然语言本身,落脚点是自然语义知识的计算表征。二是知网重视关系的描写,对词义的结构分解颗粒度较粗,义原的解释力不够,比如,科学DEF={knowledge知识},显然“科学”并不等于“知识”,二者之间存在较大差异;词义基因可以对词的所有语义特征维度进行描写,知识颗粒度更精细。三是知网对同义词的词义采用相同的结构式描写,不能体现词义之间的差异;词义基因函数和词义信息结构方程式能够对词义进行更精确的描写,可以有效避免这些问题。四是知网的语义角色分类非常细致,可为词义基因分析提供有益的参考。
(6)词义基因理论与词典释义基元词的区别与联系。一是词典释义元语言研究中的基元词提取基本上是采用词频统计的方法,利用计算机通过大规模语料库提取高频词,或者对词典释义文本进行统计分析提取高频释义用词,经过人工筛选、合并、优化得到释义基元集;词义基因主要通过语义分析逐个提取,在验证和优化的环节也会采用统计的方法。二是词典释义基元词本身就是词,有固定的物理形态,属于自然语言的词汇系统本身;词义基因不是词,虽然有部分基因也可以用自然语言的词素和词来记录,但是这只是为了表述和理解的需要,它们本身没有自然语言的物理形态。三是释义基元词主要用于解释词汇的意义,面向的对象是人;词义基因则主要用于分析词的语义特征维度和词义信息结构,主要面向语义的计算处理,也可以供人阅读。四是释义基元词可以为词义基因的提取提供素材,部分代表一个最小认知概念的释义基元词可以作为词义基因来处理。
四、结语
基于对词义微观结构理论研究的梳理,笔者认为在词汇语义学领域,国内外研究人员对词义微观结构的研究既存在历时关系上的演化,又有共时关系上的共存。在研究方法、研究目的、理论框架等方面存在继承关系,而在理论基础、研究路径和具体操作流程方面也存在既相对又互补的关系。语义学作为一门既复杂又多维、既古老又新颖的学科,在未来的深入研究中要打破学派、理论壁垒,开展跨学科研究。在词义语义微观结构研究中亦是如此,需要在学科之间或者同一学科的不同理论之间寻找结合点,开展行之有效的研究。其中的词义基因理论就是典型的例子,是中国学者汲取中外词汇语义学理论之后,基于现代汉语语言事实创建的符合汉语特点的词汇语义学理论,在中国语义学理论创新上取得了一定的突破。