复杂科技术语构词中的语素化
2015-05-11于东等
于东等
摘 要:复杂术语通常作为整体使用,具有词的特征,其中包含的其他术语或通用词的词汇地位下降为语素,即语素化。在该视角下,具体学科的复杂术语构词可描述为三层模型:首先学科基本概念由学科基元语素表征,然后由学科基元语素扩展构成固有语素组,最终由固有语素组扩展构成复杂术语。统计显示,在通信学科中超过80%的术语均包含学科基元语素,几乎所有术语均包含固有语素组。
关键词:复杂科技术语,语素化,学科基元语素,固有语素组
中图分类号:H083;N04 文献标识码:A 文章编号:1673-8578(2015)02-0015-06
Morphemization in Complex Terms Constitution
YU Dong RAO Gaoqi TANG Gongbo XUN Endong
Abstract: In Chinese, complex terms are usually used as one word, so other terms or general words that constitute the term can be seen as morphemes, so called morphemization. Under this view, complex term formation can be described as a three layer model: firstly, basic concepts of a subject can be described by a number of domain element morphemes; then, inherent morpheme groups are extended based on domain element morphemes; finally, complex terms are formed by using inherent morpheme groups. Statistics show that more than 80% terms in communication science contain domain element morphemes and almost all terms contain inherent morpheme groups.
Keywords: complex term, morphemization, domain element morpheme, inherent morpheme group
收稿日期:2014-12-11
基金项目:国家自然科学基金项目(61300081,61170162);国家科技支撑项目(2012BAH16F00);北京语言大学中央高校基本科研业务专项资金(15YJ030006)
作者简介:于东(1982—) ,男,山东日照人,博士,讲师,研究方向为计算语言学。通信方式:yudong_blcu@126.com。
引 言
随着科技不断发展,新概念不断涌现,作为概念载体的科技术语的数量飞速增长。在中文中,由于无法为每个概念创造全新的词语,由多个“单词”复合构成的复杂术语成为概念表示的主要形式。研究复杂术语的构词结构,不仅可以发展对中文术语的认识,在实践上还能够为概念相似度计算、新术语发现、语义分析、机器翻译和信息检索等提供理论支撑。
在《现代术语学引论》[1]中,将“采用原有单词构成词组表示新的概念(的术语)”定义为“词组型术语”,比如“码分多址”“赫夫曼编码”“高斯最小频移键控”等。与词组型术语相对应的则是“单词型术语”,例如“比特”。而实际上,术语无论内部结构复杂或者简单,其所指必然只有一个概念,从语法功能和语义的角度上看都是一个整体。
在构词理论中,造词材料一旦组合成词,根据同类性原则彼此均要以“语素”的身份出现[2-3]。从这个角度而言,“词组型术语”并非真正词组或短语,词组型术语定义中“采用原有单词”所指的单词,在复杂术语中应不再具有词汇属性,而成为构词的语素。而且,“单词型术语”本身经常用作“词组型术语”的组成部分。其自身又分为两类:可以单独做术语和不能单独做术语。这与合成词中语素的表现十分相似。另一方面,构成术语的诸多“单元”(不仅仅是单词)与其独立使用时有所不同,出现了“语素化”的现象。原有单词在术语中常出现语义压缩、形态缩略、词性变换等。将复杂术语看成为若干词的组合,不如看成是若干语素或语素组的组合。因此,从语素角度分析术语构词特征,更符合实际情况和语言理论。本文将具有内部结构的术语视为整体,姑且称为复杂术语。在该视角下,我们从语素构词角度研究复杂术语中语素形态和构词特征。
此外,对于一个学科而言,学科中的术语和它本身表征的概念系统具有等价关系。概念系统的复杂性将体现在术语构词中,具体表现为构成复杂术语的语素之间存在内在联系和规律。以通信科学为例,选择全国科学技术名词审定委员会发布的《通信科学技术名词》(2008版)[4]作为研究对象,并对其中的2107条术语进行了包括语素切分、语素类型在内的标注。通过分析这些复杂术语的语素类型和来源,并对其进入术语形成语素过程中的语素化现象进行分析和讨论,我们发现特定学科术语纷繁复杂、数量巨大的背后是少数基元概念组合构成概念组,由概念组再组成术语概念的过程。具体到物质层面就是学科基元语素组成语素组,由语素组组合构成大量复杂术语。
一 科技术语构词的语素化机制
邱艳萍在《概念整合在语素化构词中的作用》中指出[5],语素化主要分为两类:音节语素化和词的语素化。前者指本来不表义的音节变成了表义的语素;后者则指汉语中已经存在的词,它们的词汇地位发生变化,由词下调为一个构词语素,以便派生新词。本文的研究主要集中在后一种,即词的语素化方面。endprint
对于复杂术语中,语素化现象又可以进一步分为两种:第一种,是直接将词语作为新词的一部分使用。这样的例子如“比特滑动”“插入损耗”“接入协议”等,这种现象在我们标注的术语中占较大比例。第二种,是将词语进行若干形式变换和处理后,形成构成新术语的语素。这主要表现在语义和形态两方面。在本文研究对象中,语义方面的语素化主要表现为语义范围的缩小与转化,如:
(1)浏览器——万维网(Web)服务的客户端浏览程序。可向万维网服务器发送各种请求,并对从服务器发来的超文本信息和各种多媒体数据格式进行解释、显示和播放。(语义缩小)
(2)游牧性——用户或终端慢速移动,或无需跨区切换的特性。(语义转化)
其中,(1)内语素“浏览”的语义缩小为了“浏览网页”,(2)“游牧”则完全脱离了其本义。
在形态上的表现有位移(相对于定义中的表达顺序)和缩略,如:
(3)比特劫取——泛指借用分配给某些信息传输用的比特来传送另外功能的操作。(位移)
(4)跳频——无线传输中,射频频率按照某种特定算法发生的重复变化……(缩略与位移)
其中,(3)的原始定义中的实际动作是“截取”,“比特”是动作的受事,通常应出现在动作的后面。但语素化过程中“比特”出现了位移。(4)中“跳”所指称的动作是“跳转”,“频”指称“频率”, 是“跳转”的主语。它在语素化中发生了缩略,且同时发生了位移。
另一方面,术语和它本身表征的概念都具有系统性,这样的系统性同样反映在术语构词的语素集合中。可以认为语素在术语内和术语间也具有语义上的联系。具体来说,科技术语是具体概念的表征,对于一个特定概念而言,根据概念层级不同,一般存在上位概念、下位概念,实际上是学科概念体系中的一个分支节点。整个学科中,所有的概念可以形成树状结构,如图1所示,“通信”和它的4种下位概念,构成该学科内概念体系的一棵子树。
图1 术语“通信”构成的概念树
对于某个学科的术语而言,新术语的构词与术语概念在概念体系中所处的层级高度相关。较上位的概念出现较早,往往是学科中的基本概念,因此其对应术语的构词形式大多比较简单,可认为是学科基本术语。而较下位概念,往往是上位概念在某种情形下的扩展或限定,其对应术语的构词较多采用“上位概念+限定语/补充成分”的形式加以描述。这样的情况在我们标注的数据中占83.4%。在这样的结构中,上位概念往往由学科基本术语演化而得到,而限定语的来源则颇为广泛。
从语素角度来看,术语“图像通信”中,“图像”和“通信”是词汇语素化的典型,其中“图像”是基本概念“通信”的限定成分。两者均可进一步划分为单字语素“通”“信”和“图”“像”。而在该术语中,它们实际上能够作为语素组整体出现。学界通常认为语素组具有和语素同样的构词、造词功能[6]。为区别二者,本文将“信”“图”这样的单字语素称为学科基元语素。复杂术语中学科基元语素和语素组在构词中的作用将在第二部分进行详细介绍。
二 从语素到复杂术语
对于大部分学科,随着学科研究不断深入,该学科的术语会逐渐增多,这是词汇系统开放性的一个缩影。但通过观察可以发现,特定学科中,大部术语都是复杂术语或者“词组型术语”,其内部仍存在细分结构。正是这样的细分结构,使得学科术语数量巨大,同时所使用的语素和语素组却十分有限,即术语构词中体现出语言宏观的“有限单元形成无限组合”的特性。
为了描述这样的有限单元,我们对通信学科数据集合进行了最小语素单元的划分,以“最小音义结合单位”为依据,将术语集中的每条术语进行划分,得到的语素可认为是该学科中不可再分概念(原子概念)的体现,我们称之为原子语素。如(5)至(8)所示。
(5)通信——通(交流、沟通)+ 信(信息)
(6)双工——双(双向)+工(工作模式)
(7)香农熵——香农(Shannon)+熵(热力学标量)
(8)长波——长(长的)+波(电磁波)
通过观察发现,类似(5)(6)(8)的术语虽是多语素复合词,但也经常作为整体被语素化,成为复杂科技术语内部的一个语素组。相反,复杂科技术语并不直接操作原子语素,而是在语义上对原子语素进行了整合,通过使用语义更加明确的语素组实现构词。
同时,语素组还可以有效减少语素多义同形的现象。语素组所表示的复合概念直接参与构成复杂科技术语所指称的概念。且语素组在学科内重复使用,对整个术语的学科性起到基础的构建作用。每种语素组和构成它们的原子语素间的对应关系又相对固定。如(9)(10)所示。
(9)高斯噪声——高斯+噪声(噪+声)
(10)通信卫星——通信(通+信)+卫星(卫+星)
上述过程中,原子语素往往先组合成为语素组,然后再由这些语素组经过组合和变换,形成形式更为复杂的术语。其构词层次结构如图2所示。
必须强调的是,虽然语素组在语义和构词上有重要作用,但是其并非一种新的语法单位:它只是语素之间的一种紧密结合。因此语素组也可以和语素直接构成词,而不违背相似性原则。
图2 复杂科技术语的构词层次结构
对通信学科术语进行统计发现,原子语素的数量远远少于由其构成的语素组的数量,能产性也远远小于语素组。语素组的高能产性背后是少数学科基本概念组合构成大量概念组,然后再由概念组组成更复杂的概念的过程。因此可以认为,语素组这一中间层次的存在是复杂术语巨大能产性的基础和关键。
此外,在术语构成成分中,根据语素来源不同,还可以进一步分析语素组成与学科概念体系之间的联系,这样的分析有助于学科术语制定和规范化,本文在第三、四部分对此进行讨论。
三 学科基元语素endprint
构成学科术语集合的众多原子语素也存在来源的差异。如例(8)中,“波”指代的概念是“电磁波”,符合通信学科的语境。类似还有“信”“频”“香农”等。这些原子语素都具有通信学科的特征,即不(常)出现在非通信学科词语中。本文将具有这样性质的原子语素定义为学科基元语素,后文简称基元语素。而例(8)中语素“长”的语义和其在普通词汇中无异,均表示“两端之间距离大”。类似还有“双”“短”“系统”“模型”等。这些语素常作为学科术语的限定成分出现,在构造复杂术语的过程中不可或缺,只是它们自己的语义不具有学科性,可认为是学科无关的通用语素。
表1中给出了通信学科术语集中统计得到的高频基元语素示例及其频率数据。通过标注和统计2107条术语,本文最终确定该学科的基元语素共130个。这些基元语素可以进一步分为音译基元语素(如“香农”)和基本基元语素。在通信术语中音译基元语素43条,基本基元语素87条。它们在术语中的分布情况如图3所示。
统计发现,在术语集中包含基元语素的术语共有1694条,占全部术语的80.4%,其中由基本基元语素单独生成的有1670条,音译基元语素单独生成的有120条。从统计来看,基元语素构造了学科中大部分的术语,说明学科相关的语义表示在术语这一词汇系统中占据主导地位。
同时也注意到,仍存在一部分术语不包含任何基元语素,如“每户平均收入”(电信运营商用于测定来自每个用户收入的指标)。从字面上看,此类术语的学科特征不明显,较难判断其必然属于通信学科。这是因为此类术语经常与学科内其他术语共同出现和使用,其代表学科属性的部分在使用中为避免赘述而省略。
基元语素生成术语的能力差异巨大,如“网”共出现在214条术语中。“网”多次和“络”组合并稳定出现在许多术语中。第四部分将对其进行详细介绍。
四 学科固有语素组
和基元语素类似,本文将术语集中稳固组合、表达学科特定概念的语素组称为学科固有语素组。在基元语素的基础上,笔者进一步筛选出学科固有语素组。表2为通信学科术语集中统计得到的高频固有语素组。
固有语素组并非完全由基元语素构成。如“无线”,“无”就是一个非学科基元语素,但是和基元语素“线”一同构成了在大量术语中稳定重复使用的语素组“无线”,并且表达了通信学科的学科语义。因此固有语素组的强大构词能力不仅来源于基元语素的组合,也来源于基元语素和非基元语素的组合。
由图4可以发现,出现频率不小于10次的语素组有36条,在所有的语素组中占11.43%,说明少量固有语素组具有强大构词能力。如(11)所示。
(11)数字(参与构建68条术语)
数字——数字 通信
数字——数字 信号
数字——数字 化
数字——数字 差错
数字——数字 线 对 增益
……
较之基元语素,语素组的构词能力分布表现出了更加明显的长尾现象。这也从一个侧面反映了学科术语的概念集中程度。此外,基元语素生成学科固有语素组的能力,也表现了类似的现象,如表3和图5所示。
在术语集中,复杂科技术语的语素组平均长度为5.4(包括非固有语素组)。但是所蕴含的固有语素组大多为一个。这进一步表明了固有语素组对学科概念具有较好的表征特性,即复杂术语多由一个上位概念和其他非学科限定语复合构成。如图6为“微波通信系统”这一术语从语素到语素组再到术语本身的构成过程。
五 语素化视角下的术语构词
从语素化的视角出发,复杂科技术语的构词更能体现术语所对应概念体系的特点。本文所提出的学科基元语素、学科固有语素组的概念,实质上就是学科概念体系在复杂术语中的映射过程。可以看出,学科术语的构词就是概念组合的过程,表现在物质层面就是从学科基元语素到复杂科技术语的构建过程。
基元语素对于一个特定学科而言,起到基础性作用,是构建该学科概念和术语的核心。并且我们有理由稍微大胆地认为它们也是构建整个学科知识的核心。如图7中,围绕基元语素“频”,能够构建出通信学科若干复杂术语。
对于术语规范化而言,制定术语集进行科技名字规范可以使用同样的方法,即从基元语素出发,进行规范。一个理想的科技术语应当包含有学科基元语素或学科固有语素组,使得术语的学科性语义表征更为具体,亦不会引起混淆。
另一方面,随着学科交叉的空前深入,不同学科的语素和语素组以前所未有的速度和规模互相渗透。而科技进步又使得大量学科概念成为日常生活中的一般概念。学科与学科之间和学科与通用之间的界限日益模糊。因而从基元语素和固有语素组的层面上对术语进行规范和界定将对术语工作提供有益的帮助。
参考文献
[1] 冯志伟. 现代术语学引论[M]. 北京:商务印书馆, 2011.
[2] 曹德和. 语速研究的性质、方法及语料来源[J]. 复旦学报:社会科学版,2003 (6):134-140.
[3] 刘力坚. 复合词造词材料的语素化问题[J]. 浙江师范大学学报:社会科学版,2005 (4):20-24.
[4] 科学技术名词[M]. 北京:科学出版社,2008.
[5] 邱艳萍. 概念整合在语素化构词中的作用[J].西南民族大学学报:社会科学版,2012 (S1):178-181.
[6] 丁建川.“语素组合体”述要[J]. 广西社会科学,2005(7):162-165.endprint