中文信息处理中离合词的处理策略
2010-09-28周卫华胡家全
周卫华,胡家全
(1.三峡大学文学与传媒学院,湖北宜昌 443002;2.荆楚理工学院,湖北荆门 448000)
中文信息处理中离合词的处理策略
周卫华1,胡家全2
(1.三峡大学文学与传媒学院,湖北宜昌 443002;2.荆楚理工学院,湖北荆门 448000)
离合词是现代汉语中一种特殊的语言现象。文章对动宾式和并列式离合词的扩展形式进行了细致的描写,并分析了这两类离合词的扩展形式的特点,认为动宾式和并列式离合词的扩展形式不同于典型的动宾结构,在中文信息处理系统中,应该建立离合词词库,对离合词的扩展形式做出专门的符号标注。
中文信息处理; 离合词
一、离合说的提出
汉语中有这样一种较为特殊的语言现象:对于一个AB组合,从静态的角度看,一般由A、B两个成分构成,在形式和结构上和复合词是一致的;从动态的角度看,当该组合进入一定具体语言环境后,它们既可以独立使用,又可以在中间插入其他成分,其用法和短语极为相似。
对于这种既可“离”又可“合”的语言现象,较早就引起汉语学界的关注,很多学者都对这一现象做过研究。陆志韦先生在《汉语的构词法》中最早提出“离合词”这一说法[1]。他认为,动宾结构的合成词,如能扩展,在未扩展时是一个单词,扩展后,至少是两个词,因此这种词称为“离合词”。
离合词到底是词还是短语?学界对此问题存在不同的看法,比如王力称为“仂语”[2]10、林汉达称为“结合动词”[3]、赵元任称为“离子化”[4]等。归纳起来也就是三种主要的观点:词、短语、离合词。此外,也有少数学者把离合词看作是一个连续统,将离合词看作是词和短语的中间状态。
汉语中像“撒谎”这样既可“离”又可“合”的语法单位,究竟是应该看作词比较合理,还是看作短语比较合理呢?我们认为,各家之说都有其合理之处。正如邢福义先生所说:“不管用什么办法来解释有关事实,不同的人在处理上总难免出现分歧。在各抒己见的情况下,可以认为各种处理都对。事实上,各种处理都不影响对构成成分间关系的认识。”[5]2-3
二、离合词是一种特殊的词
离合词作为汉语中一种特殊的语法现象,在语言应用领域较早就引起了从事对外汉语教学工作的研究人员的关注,近些年,在中文信息处理领域也受到重视。在中文信息处理领域,我们更多的是需要关注这类现象在句法和语义上有哪些特点,相应地应该采取什么样的处理策略。
我们认为,如果一个组合AB,既可以作为一个词单独使用,也可以在它中间插入其他成分而被分离,但被分离后仍然是一个整体,而且所表达的基本语义也具有凝固性,只能从整体上去理解其意义,这样的组合就是离合词。比如:
(1)我们没时间与加木措见面,其实也没这必要。(池莉《让梦穿越你的心》)
(2)自从我爸爸一当“右派”,我没见过妈妈的面。(鲍昌《芨芨草》)
在例(1)中,“见面”作动词单独使用,表示“彼此对面相见”的意思;在例(2)中,“见面”中间插入了其他成分,在形式上看起来是一个短语,但实际上在语义上还是具有整体性,仍然是“见面”这个词语所包含的意思,不像动宾短语“吃糖、喝酒、喝茶”的意义是组合成分在意义上的自相组合。我们可以比较:
从例(3)中可以看出,离合词中间插入其他成分后,尽管从形式上看起来和典型的动宾短语是一样的,但实质上二者还是有所区别。离合词中间插入其他成分后仍然只能作为一个整体使用。比如例(3)中,“见过妈妈的面”是一个离合词的扩展形式,它不能用于“把”字句、“被”字句,宾语也不能前移;相反,“吃了妈妈的糖”就可以用于“把”字句、“被”字句,宾语也可以前移。吕叔湘先生曾说过,“有些组合只有单一的意义,难于把这个意义分割开来交给这个组合的成分”[6]22。吕叔湘先生所说的情况就是离合词扩展后在意思上具有整体性,不像一般动宾短语是组合成分意义的自相组合。
我们认为离合词单独使用时是一个词,但它又可以扩展使用,所以是一种特殊的词,在中文信息处理中,应该采取特殊的处理策略。
三、离合词的特点及其扩展形式
1.可插入助词“着、了、过”
本文对《现代汉语词典》(第5版)的2281个动宾式和并列式离合词进行了考察,约有1938个中间能插入“了”,约占85%;能插入“过”的约有1551个,约占67%;能插入“着”的约有433个,约占19%。这说明离合词中间插入“了”和“过”是动宾式和并列式离合词较为常见的扩展方式之一。
2.可插入补语
很多动宾式和并列式离合词中间能插入时量、动量、结果、趋向等补语,形成“动词+补语+宾语”结构。一部分离合词能插入时量或动量补语,用于补充说明动词持续的时间或动作的次数。比如:说了一会儿话、游了一天泳、洗过三次澡。根据对语料的考察,能够插入时量补语和动量补语的离合词不是很多,在2281个动宾式和并列式离合词中,大约只有10%左右的离合词可以插入这两种补语。
有些离合词中间能插入结果补语,表示动作行为的结果。插入离合词中间的结果补语一般由单音节动词或形容词充当。比如:办完事、放开手、缠住手。离合词中间插入结果补语的用例比较少,而且不同的离合词可以插入哪些补语,也没有一定规律性,属于离合词的个体特征。
有些离合词中间可以插入趋向补语。趋向补语一般由趋向动词充当,趋向动词既可以是单音节的趋向动词,也可以是复合趋向动词。如果趋向补语是单音节趋向动词,就可以直接插入离合词中间。比如:放下心、标上价、落下了幕。如果趋向补语是复合趋向动词,它就不能直接插入离合词中间,一般都是把离合词的后一个成分放在复合趋向动词中间。比如:跑起步来、说起话来、放出风来。
有些离合词中间可以插入“得”和“不”,在插入“得”和“不”的同时,一般还要插入其他成分,用于表示可能或不可能。比如:使得/不上劲、放得/不下心。
3.可插入定语
根据对语料的观察,在动宾式和并列式离合词中间插入一个数量短语、代词、名词、形容词等,作离合词后一个语素的定语的用例比较多。离合词中间插入定语主要有以下几种类型。
第一,插入数量短语作定语。由于大多数动宾式离合词的后一个构成成分一般都是名词或名语素,即使后一个成分不是名词或名语素,扩展后也因为动宾结构的类化作用而被名词化,所以动宾式离合词可以扩展成为一个动宾结构的短语。少数并列式离合词都可以按照“动+X+宾”的插入离析形式强制成为动宾格式。一般名词都能受数量短语的修饰,所以动宾式和并列式离合词中间插入数量短语的可能性就大大增强。比如:说几句话、开一个价、看一个相、撒一个谎、唱一台戏。
第二,插入名词或代词作定语。有些离合词中间能插入名词或人称代词充当定语。一般情况下,名词或人称代词后面都要添加助词“的”。比如:握领导的手、帮你的忙。有一些离合词中间可以插入指示代词作定语。比如:我还从来没吃过这种亏、我敢跟你打这个赌。还有些离合词中间可以插入疑问代词“什么”。插入疑问代词“什么”后,句子主要用于表示一种否定、不满或反问的语气。比如:
(4)抹什么黑呀?我看这很好嘛。(《编辑部的故事·侵权之争(上)》)
(5)你着什么急呀!什么也看不清。就看一月亮,还模模糊糊的。(同上)
第三,插入形容词作定语。有一部分离合词中间可以插入单音节形容词作定语。比如:出大力、吃大苦、打硬仗。根据对语料的考察,离合词中插入单音节形容词作定语的用例不多,插入的单音节形容词中,“大”的使用频率最高。
4.部分离合词可重叠
根据对语料的考察,有一部分离合词可以重叠,但其重叠方式比较特殊,只重叠前一个构成成分。一些离合词的前一个构成成分,可以按照VV、V一V、V了V的方式重叠,在这三种重叠方式中前两种方式使用频率较高。比如:谈谈心、打一打杂、点了点头。
还有一些离合词可以重叠前一个构成成分,并且在重叠成分中插入“不∕没”。比如:生不生气、生没生气。值得注意的是,有些离合词中间,可以同时插入多种句法成分,前面讨论的表示时体的助词、补语、定语等可以同时插入一个离合词中间。比如:吃了一次大亏、洗了三次热水澡。
5.离合词的几种主要扩展形式
通过上文的分析可以看出,动宾式和并列式离合词中间可以插入不同的句法成分,可以有多种扩展方式。现将常见的扩展形式归纳为以下几种主要类型:
A.V+着/了/过 +O
B.V+补语+O
C.V+定语+O
D.V+着、了、过/补语/定语 +O
E.V+补语/了、过/定语 +O
F.V+不/得 +补语/了、过/定语 +O
G.V+一/了/不/没 +V+O
H.V+什么+O
四、离合词的处理策略
1.确定离合词的数量
离合词是汉语特有的一种语言现象,我们把它的扩展用法归为边缘语法,可以为其建立一个词库。在建立词库之前,需要确定离合词的数量。确定离合词的数量既可以避免离合词词库的容量过大,同时也可以有效地区分离合词的扩展形式和典型的短语结构。因为离合词和短语是一个连续统,汉语语法界对离合词的确认还存在着争议。
我们以《现代汉语词典》(第5版)中标注的离合词作为依据,在离合词词库中只收录动宾式和并列式离合词,大约有3千条左右。
2.离合词扩展形式的描写
动宾式和并列式离合词只有3千条左右,它们在汉语词汇中所占的比例并不是很大,但其在中文信息处理中却较为重要,需要单独进行处理。从中文信息处理的角度来看,由于离合词的扩展形式是一种边缘语法现象,其数量不是很大,而且每个离合词的扩展形式又各有其特点,宜于建立一个词库。
由于离合词的扩展形式有限,而且每个词中间可以插入的成分各不相同,在离合词词库中,首先就需要根据上文总结出来A-H八种扩展形式,对每个离合词有可能的扩展形式做出标注,然后对其扩展成分的词类做出具体描写。傅爱平认为,在离合词构词规则的条件部分应该标明离合词扩展形式和扩展参数[7]7-13。用个性规则和共性规则配合的方法,就有可能在识别离合词时解决一部分构词和句法交错的问题。本文通过对2281个动宾式和并列式离合词的研究,总结出以下几种扩展形式及参数。
A.V+u+O:u={了,过}
B.V+补语 +O:补语={m+q,v:={到}}
C.V+定语 +O:定语={m+q,m,q,n+u:= {的},r+u:={的}}
D.V+u/补语/定语 +O:u={了;过};补语= {m+q};定语={m+q,m,q,n+u:={的},r+u:= {的}}
E.V+补语/u/定语 +O:补语={v:={到,上}};u={了};定语={m+q,m,n+u:={的},r+ u:={的}}
F.V+d/u+补语/u/定语 +O:d={不};u= {得,了,过};补语={v:={到,上}};定语={m+q,m,q,n+u:={的},r+u:={的}}
G.V+m/u/d+V+O:m={一};u={了};d ={不,没}
H.V+r+O:r={什么}
如果我们建立一个离合词词库,对其中的每一个离合词都按照一定的方式进行描写,那么,在识别单音节动词和名词宾语构成的动宾短语时,就可以把离合词的扩展形式构成的特殊动宾短语排除,有利于对有多个义项的单音节动词进行词义排歧,也有利于机器翻译时从整体上理解离合词扩展形式的意义。
建立了一个离合词词库,并在词库中将每个离合词的扩展形式都做详细的描写,在对文本进行分词和词性标注时,可以利用词库中的信息,将离合词的扩展形式标注出来。一个语料库对离合词的扩展形式做出标注,可以很大的程度上提高后续分析的效率。
[1] 陆志韦.汉语构词法[M].北京:科学出版社,1957.
[2] 王 力.中国现代语法[M].北京:商务印书馆,1985.
[3] 林汉达.动词的连写问题[J].中国语文,1950(10).
[4] 赵元任.汉语口语语法[M].北京:商务印书馆,1979.
[5] 邢福义.汉语语法学[M].长春:东北师范大学出版社,1996.
[6] 吕叔湘.汉语语法分析问题[M].北京:商务印书馆,1979.
[7] 傅爱平.汉英机器翻译源语分析中词的识别[J].中文信息学报,1999(5).
[责任编辑:杨 勇]
H 136.5
A
1672-6219(2010)06-0039-03
2010-06-25
周卫华(1970-),男,湖北宜昌人,三峡大学文学与传媒学院副教授,博士,主要从事语言学及应用语言学研究。