基于有限状态转移网络的词语重叠形式生成和识别
2011-12-12刘群
刘群
(襄樊学院 文学院,湖北 襄阳 441053)
基于有限状态转移网络的词语重叠形式生成和识别
刘群
(襄樊学院 文学院,湖北 襄阳 441053)
有限状态转移网络是语言形式化表达手段之一。通过对词语重叠音节数目的限制、语义内涵的限制、典型形式的限制,确定有限状态转移网络可接受的词语重叠的范围,运用有限状态转移网络再现了汉语词语重叠的生成过程和生成模式,以此说明静态的语法规则或语法结果是可计算的。
汉语;语言形式化;有限状态转移网络;词语重叠
词语重叠是汉语普遍的语言现象。汉语是缺少形态变化的语言,这也就使得词语重叠究竟是不是形态变化的争议成为可能。有人将词语重叠界定为汉语重要的语法手段,并且是可以直接感知的显性语法手段。也有人将之归为构形法的一类。构词法和构形法是词的结构分析中两种既互相对立又互为补充的方法。由两个或两个以上语素组合成新词的规则即是构词法。这样的结论几乎是盖棺定论的。但是,汉语究竟有没有构形法?《马氏文通》、《新著国语文法》、《中国文法要略》等汉语语法著作,都不承认汉语有构形法。《汉语语法论》则认为汉语有构形法。作者后来还根据词和形态标记的依存关系将形态区分为内部形态和外部形态。重叠则是构形法的内部形态。当然,形态是否有内部和外部之分?这是语言学理论尚待解决的问题,我们且不必深入探讨。但是,汉语的确有一些词语具备明显的形态变化的特点。形态变化的结果不是产生新词,而是呈现一个词的不同的语法形式,并由此附加上一定的语法意义。“语法手段之说”、“构形法之说”,实际上都殊途同归地承认重叠是词语的形式方面的变化。
有限状态转移网络是语言形式化表达手段之一。我们可以借助这样的方式对汉语词语重叠现象加以类似于自然科学的描述和解释。
一、有限状态转移网络可接受的汉语词语重叠的范围
从词类角度看,名词、量词、动词、形容词的可重叠性已是公认的事实。鉴于有限状态转移网络的“有限性”,有必要细化有限状态转移网络可接受的汉语词语重叠的范围。
(一)重叠的音节数目限制
形态手段的使用常常受词语音节数目多少的影响。[1]如英语形容词的级。单音节形容词级的变化以形态手段体现,即单音节形容词后直接加后缀er和est表示比较级和最高级,如short—shorter—shortest。多音节形容词级的变化以词汇手段体现,即多音节形容词前直接加单词more和most表示比较级和最高级,如interesting—more interesting—most interesting。同样,汉语的重叠也受音节数目的影响和限制。
1.名词和量词重叠只限于单音节,双音节的或多音节的则不可重叠。
月——月月 年——年年 个——个个 条——条条
窗户——窗户窗户 窗户——窗窗户户
2.形容词和动词重叠可以是单音节的,也可以是双音节的。
动词重叠:摸——摸摸 想——想想 打扫——打扫打扫 晃悠——晃晃悠悠
形容词重叠:高——高高 小——小小 简单——简简单单 笔直——笔直笔直
汉语词语重叠最多的音节数目是4个,那么重叠的基本音节数只能是1个或2个,形式上可以用A代表一个音节,A、B代表2个不同的音节。
(二)重叠的语义内涵限制
语义内涵一般有语法层面的、词汇层面的、篇章层面的。词语重叠的语义是指向语法层面的。不同语言词语重叠的语法意义是不一样的。马来语名词重叠表复数,俄语动词重叠表未完成体,印地语形容词重叠表程度高。就汉语而言,通过重复整个词(A或者AB)或词的一部分(A或者B)的方式获取的是某种抽象的、概括的、附加的语法意义,即以结构形式变异获义。那么,这里就有两个限制性的条件:重叠即词语外在形式的变化是获取新义的前提,通过形式变化获取的新义是一般性的一类意义。如此一来,至少可以排除两类重叠并非本文讨论的重叠。
一是叠音式的单纯词,如猩猩、姥姥、亭亭、翩翩;二是重叠式的合成词,如星星、宝宝、哥哥、刚刚、仅仅、常常。两者都是两个相同的字组合成词的方式。所不同的是,叠音式单纯词的两个音节表示一个语素,单个音节没有语义值,即AA式没有原形A,不存在A(原形)→AA。所以,AA式就不能以结构形式的变异获取抽象的语法意义,其意义只能是词汇层面的词汇意义。
重叠式合成词的单个音节有语义值,两个音节是两个语素,即AA式有原形A,存在A(原形)→AA。这一类词的语义形式比较复杂。以“哥—哥哥”为代表的亲属称呼,以“宝—宝宝”为代表的亲昵爱称和以“星—星星”为代表的一般指物名词,其A式和AA式的语义差异并不明显。也有人认为A式是口语语体,AA式是书面语语体。笔者认为这样的分别很牵强。
例1:——这是谁呀?——这是我哥。
例2:——这是谁呀?——这是我哥哥。
例1、例2的语义完全相同。生硬地分出口语语体和书面语语体反而不合适。
以“刚刚”为代表的副词,其A式和AA式是两个不同的词。有时,A义=AA义;有时,A义≠AA义。如“常、常常”都表示行为、动作的次数频繁。
例3:他常迟到=他常常迟到。
但是,否定式多用“不常”,少用“不常常”。[2]
例4:他不常来了。
例5:他不常常来了。
和叠音式单纯词重叠式合成词不同的是,名词、量词、动词、形容词是以结构变异获义,获取的是一类抽象的语法意义。
1.名词、量词重叠的语法意义。
名词、量词重叠后表“每一”。如天天=每一天、朵朵=每一朵。石毓智称之为周遍性表达。[1]79徐通锵指出,周遍性的事物被认为是有定的。所以,周遍性一般由两个义项组成:既定的范围和每一个成员。
2.动词重叠的语法意义。
(1)动词重叠后呈现的是动作行为发生或进行的方式,相当于印欧语系的语法范畴“体”。具体而言,主要是试行体、短时体、完成体。[3]
看(原形)——看看(短时体)——看一看(短时体)——看了看(完成体)——看了一看(完成体)
研究(原形)——研究研究(试行体)
(2)动词重叠后表示动作的随意性、反复性或延续性。
说笑——说说笑笑(随意性) 来往——来来往往(反复性) 踉跄——踉踉跄跄(延续性)
3.形容词重叠的语法意义。
(1)形容词重叠后表事物程度的加深或减弱。
干净——干干净净(程度的加深) 大——大大(程度的加深或减弱)
笔直——笔直笔直(程度的加深)
(2)形容词重叠后表贬义,主要用于口语。
糊涂——糊里糊涂 古怪——古里古怪
(三)重叠的典型型和非典型型
从典型范畴(prototype—based category)的角度出发,以重叠的外在形式作为参照标准,重叠有典型和非典型之分。典型的重叠模式是A、B或AB自身重叠,如AA、ABB、ABAB。非典型的重叠模式是A、B或AB的重叠需借助其他形式,这里的其他形式一般是指某一个具体的汉字。所以非典型重叠也可称作嵌字式重叠,如A了A、A里AB。需要说明的是,被嵌的汉字没有实在的语义值,或者表示空灵的语法义,如“了”“着”;或者语义值为零,如“里”。以此为准,名词、量词、动词、形容词的典型重叠形式和非典型重叠形式可以总结为:
表1 典型重叠和非典型重叠
状态转移网络的其字符串或符号串是字母表上的字符组成的长度有限的序列。[4]严格地讲,字母表的符号应该是作用性质相同的记号单位。如0—9是数字符号,A—Z是大写字母符号。显然{A、B、AB、了、一、着、里}不是一类符号,更不能构成字母表∑。所以,经过取舍,状态转移网络只能描述典型的重叠形式。
那么,同时符合以上3个条件的重叠形式就是有限状态转移网络可接受的形式,即有限状态转移网络描述对象={单音节A或双音节AB}∩{结构形式变异获义}∩{典型重叠}=AA、ABAB、AABB、ABB、AAB。
二、基于有限状态转移网络的汉语重叠形式的生成模式
有限状态转移网络(FSTN,Finite State Transition Network)是一个有向图。所以,有限状态转移网络也叫图计算。完整的有限状态转移网络由结点、单圈、双圈、有方向的弧线、转移条件(有条件或无条件)的标记构成。其中,结点代表转移状态,单圈代表非终止状态,双圈代表终止状态,有方向的弧线是不同状态的连接线,弧线上的字符即转移条件的标记。若是无条件转移,则统一标注为ε(空字符)。
q0是起始状态,q1是中间状态,q2是终止状态。状态转移过程是:状态q0到状态q1的条件是当前字符为A,状态q1到状态q1的条件是当前字符为A,状态q1到状态q2的条件是当前字符为B,状态q2到状态q2的条件是当前字符为B,状态q2到状态q1的条件是当前字符为空。需要注意的是:状态q0到状态q1是空集,即不存在形式A;状态q2到状态q1是空计算,即从状态q2到状态q1是无条件的。
按照以上有限状态转移网络的运行规律和运行过程,汉语词语重叠形式的生成过程可以表示如下:
表2 有限状态转移网络识别重叠形式的过程
表3 重叠式的状态转移表
表2所示有限状态转移网络也可用状态转移表(state transition table)的形式表示。
有限状态转移网络好比有限状态自动机,动态地计算出语言成分的生成过程和生成模式,和静态描写、阐释语法成分的分析方法相互补充,既印证了语法实体存活的可能性,也说明语法规则或语法结果是可计算的(computable)。但是,对语言的形式化处理也就意味着简单化,毕竟自然语言的意义和形式不是绝对的一一对应关系,因此,形式的手段和它所要替代的自然语言之间有时很难达成一致。比如嵌字式重叠,所嵌字的字形、意义、位置缺少应有的稳固性,导致有限状态转移网络无法识别其生成过程。当然,这也为我们的研究提出了新的课题。
[1] 石毓智.语法化的动因和机制[M].北京:北京大学出版社,2005:109.
[2] 吕叔湘.现代汉语八百词[M].北京:商务印书馆,1984:92.
[3] 张 静.语言语用语法[M].河南:文心出版社,1994:1078.
[4] 俞士汶.计算语言学概论[M].北京:商务印书馆,2007:27.
Generation and Recognition of Word Repetition Based on FSTN
LIU Qun
(College of Chinese Language and Literature,Xiangfan University,Xiangyang 441053,China)
Finite State Transition Network(FSTN)is one of the methods on language expression in forms.It indicates that the static rules or results of the grammar are countable according to the limitation of the repetition syllable’s numbers,the connotation of the meanings,the typical forms,and to make sure the acceptable scope of the repetition of the words in the Finite State Transition Network,and representation the process and the model of the generation of the repetition of Chinese words through the Finite State Transition Network.
Chinese;Language formalization;Finite State Transition Network(FSTN);Word repetition
H109.4
A
1009-2854(2011)10-0071-04
2011-09-18
刘 群(1972—),女,湖北襄阳人,襄樊学院文学院副教授,主要研究方向:现代汉语,对外汉语教学。
(责任编辑:倪向阳)