APP下载

基于格语法思想的范畴类型逻辑研究

2014-09-25邹崇理崔佳悦

关键词:论元范畴介词

邹崇理,崔佳悦

一、格语法的基本思想

著名计算语言学家黄昌宁教授在《人机通用——现代汉语动词大词典》的序言中写道:“自从1968年美国语言学家费尔默(C.Fillmore)发表论文《格辨》(The Case for Case)以来,采用动词格框架来表达句意的做法已被越来越多的研究人员所接受,并广泛应用于各国的自然语言系统中。”“从计算机对自然语言的理解和翻译来看,述语动词和形容词是句子句法结构和语义解释的中心,因此如果能在一部电子词典中对句子中的述语动词及其周围的名词性成分所发生的语义组合关系(即格关系)作出具体详尽的描写,就可以大大提高自然语言理解系统或机器翻译系统的性能。”①林杏光等:《人机通用——现代汉语动词大词典》,北京:北京语言学院出版社,1994年,第1页。

格语法是20世纪60至70年代产生的语法理论,和生成语义学类似,是转换语法中分裂出来重视语义的一个分支。其基本做法是:句法分析的目标是自然语言语句的语义底层结构,这个底层结构的格局是:动词统领整个语句,语句的其他部分由动词的论元组成,而动词的论元则由具有不同格角色的名词担任。这些名词分为:施事格名词、受事格名词、与事格名词、时间格名词、方位格名词和工具格名词等等。

格语法的基础部分由一系列规则组成,最基本的有三条:

a.S→M+P

b.P→V+C1+… +Cn

c.Ci→K+NP

这里a表示一个句子S可改写成情态M(否定,时态和体态等)和命题P两大部分,b表示命题P可改写成V和若干格Ci,Ci可进一步改写成格标记K和名词短语NP。在格语法那里,动词是句子底层结构的中心。V是广义的动词,Ci为变项,在具体句子中由各个不同的格来担任(如施事格A,受事格O,工具格I和方位格 L),格标记 K由介词表示。如英语句子:

John wrote a letter in the room.

按照格语法的分析,其底层结构为①Fillmore,J.Charles,The Case for Case,In Universals in Linguistic Theory,ed.by Emmon Bach & Robert T.Harms,New York:Holt,Rinehart& Winston,1968,p.20.:

格语法所谓句子的底层结构实际上是一种类似生成语义学所倡导的语义结构。这里如果暂时忽略这句英语句子的情态不计,删去作为格标记的介词,语义结构就成为对应动词的n元谓词和对应n个NP的n个论元的毗连,可归结为:

我们可以看到,V、O、L和A等4个子节点的关系不是完全对等的关系。V对应动词,在格语法看来处于中心成分的地位,而O、L和A分别对应三个名词短语,与V比较,处于非中心成分的地位。如把清华树库转换成CCG库的一个分析例子②周强:《组合范畴语法CCG和汉语处理》,北京:中国社科院哲学所学术报告,2012年,第26页。:

上图每一个母节点管控的两个子节点,其对应的范畴不是对等的关系,而是一个是函子范畴(代表中心成分),另一个是论元范畴(代表非中心成分)。Steedman在CCGbank:User's Manual中讨论宾州树库转换成CCG树库时写道:If the non-head child is a complement with category Y,the category of the head child is X/Y if the head child is left,and XY if the head child is right③Julia Hockenmaier,Mark Steedman,CCGbank:User's Manual,Department of Computer& Information Science Technical Reports(CIS),2005,p.34..(如果非中心子节点对应范畴Y,则出现在左边的中心子节点对应范畴X/Y,出现在右边的中心子节点对应范畴XY)。这里强调,把宾州树库转换成CCG库时最重要的做法之一就是给宾州分析树中的每个节点确定相应的范畴,即函子范畴或论元范畴。这同时就是在语言分析中贯彻了格语法的中心成分和非中心成分的思想。

格语法是一种动词中心的语法理论,把动词当作句子的中心成分,把动词周围的名词短语当作句子的非中心成分。格语法的分析模式导致语言分析中的多分法。树图(3)的分析就是一种4分法。母节点S统领了V、O、L和A等4个子节点。这种分析是人们关于自然语言的句法语义结构的简洁思考的结果。按照二分法,英语带有多重介词短语的动词短语“put the key into the box on the table”可以这样分析:put(the((key(into(the box)))(on(the table))))。这种分析推演的最后语义结果是:put(ɩ(on(ɩ(table))(into(ɩ(box))(key))))①B.Carpenor,Type Logical Semantics,Cambridge/London:MIT Press,1997,p.224.。就人类的认知能力而言,这样的高阶逻辑式不够直观,显得复杂。如采用基于格语法思想的多分法句法分析:

导致的语义解读可以比较简洁:put(ɩ(key),ɩ(box),ɩ(table))。“采用多分法的好处是:①可以更加合理解释语言现象。……②冯志伟:《自然语言的计算机处理》,上海:上海外语教育出版社,1996年,第33页。可以在编制程序上减少程序量:一些长句子,如果采用二分法,层次会多到十层八层,计算机在处理这样多的多层次的树形图时,需要逐层进行搜索,程序的编写十分复杂,运算量也很大。而采用多分法,大大地减少了层次,提高了计算机处理语言的工作效率”②。

在格语法那里,中心成分即动词的功能作用经常发生变化。通常引用的英语句有:

a.The door opened.

b.The boy opened the door.

c.The boy opened the door with a key.

这里动词open在a是一位动词,在b那里是二位动词,在c那里是三位动词(从格语法的底层语义结构看)。为此,在格语法那里,动词open的格框架特征为:

无圆括号的格标记O(对象格)是必选的,圆括号内的格标记I(工具格)和A(施事格)是可选的。俗话说“铁打的营流水的兵”,格语法理论所谓作为语句中心成分的动词是不可缺少的“铁打的营”,而各种名词性成分是可多可少的“流水的兵”。这就表明:open作为一位动词可能转变成二位动词或三位动词,其语法功能因此发生变化。从范畴语法的角度看,这里动词open所属的范畴随所在的语句不同而改变。

二、汉语适合于格语法的分析模式

由中日合作MMT汉语生成组编写的《现代汉语动词大词典》,从格语法的角度对现代汉语的动词句进行分类,以动词为中心,加上必选格的名词,构成格框架。对2000多个动词产生的格框架进行统计和归类,获得的结果是:三大类(一价格框架、二阶格框架和三阶格框架),九中类(一价自动词格框架、一价内动词格框架、二价他动词格框架、二价自动词格框架、二价外动词格框架、二价内动词格框架、二价领属动词格框架、二价系属动词格框架和三价他动词框架),五十三小类。其中有③林杏光等《人机通用——现代汉语动词大词典》,北京:北京语言学院出版社,1994年,第31~34页。:

(1)施事 +V。其动词有:爆发、抱歉、奔跑、奔走、蹦等。

(2)当事 +V。其动词有:变化、残废、堕落、恶化、害羞等。

(3)施事 +V+受事。其动词有:爱好、爱护、爱惜、安插、安慰、安装等。

(4)施事 +V+结果。其动词有:出版、创造、发明、建立、建筑等。

……

(13)施事 +V+受事或与事。其动词有:指点、指导等。

(14)施事 +V+同事。其动词有:联合、联络、配合等。

(15)施事 +V+原因。其动词有:操心、愁、躲、躲避、算计等。

……

(21)施事 +V+工具。

(22)施事 +V+时间。

(23)施事 +V+方式。

(24)施事 +V+范围。

(25)施事 +V+处所。其动词有:到达、登、渡、逛、接近等。

(26)施事 +V+处所或时间。

……

(43)分事 +V+领事。其动词有:属。

(44)当事 +V+客事。其动词有:是。

(45)当事 +V+系事。

(46)施事 +V+与事 +受事。其动词有:补助、答复、讹诈、告诉、贡献等。

……

(53)施事 +同事 +V+结果。其动词有:攀。

从上述基于格框架的汉语句式分类里,明显见到由动词担当的中心成分和由各种格名词担当的非中心成分的区别。《现代汉语动词大词典》把动词所能带的格分为必须格和可选格两类。足以描述某个动词的格关系特征必不可少的格叫作必须格。换句话说,必须格不但可与动词搭配,而且必不可少,缺少了它,就影响语义的自主性。比如:“我削了个苹果”,施事“我”和受事“苹果”是必需格。“老师给我一本书”,施事“老师”、受事“一本书”和与事“我”是必须格。可选格虽可与动词搭配,但缺少了它不影响语义的自足性。比如:“我用刀子削了个苹果”,工具格“用刀子”是可选格。“按处长的要求我们把里面的柜子都抬出来了”,依据“按处长的要求”是可选格。“连长向窗外探望了一下”,方向“向窗外”是可选格。

同时,我们看到汉语表达式中存在大量的动词双宾语句。朱德熙先生把双宾结构分析为动词后面带两个宾语的构造。传统认为,凡是动词后带有两个名词短语的构造,如下所示:

都被视作双宾结构。因此,大量满足该条件的句式都可被认作双宾语句。马庆株依据宾语语义特征把这些双宾结构分为14类。这是双宾结构研究中最具代表性的分类。

汉语双宾语句的句法分析方便采取格语法的多分法,而不是下边的两分法:

此外,我们看到汉语中还有不少多重介词短语句,如:

(a)张三在餐馆吃牛排

(b)张三用刀叉吃牛排

(c)张三在餐馆用刀叉吃牛排

(d)张三在餐馆吃牛排用刀叉

(e)张三在圣诞节用刀叉在餐馆吃牛排

我们假定上述汉语句中的介词短语的宾语是表达特定含义的光杆名词,即:牛排意味这份牛排,刀叉意味这把刀叉,餐馆指的是这个餐馆。就(c)而言可以按照格语法的思想这样分析:

上述分析树的最高节点S统领4个子节点,采用的是多分法。

现代汉语以动词为中心的格语句,因为有可选格的情况,动词就可能有时统领两个格名词,有时统领三个甚至四个格名词,就像上文所举多重介词短语句(a)—(c)所呈现的那样。动词语法功能发生的这种变化在范畴语法里的显示就是:给同样一个动词指派的函子范畴可能是NP2S,也可能是(NP1S)/NP2,还可能是(NP1S)/(NP2,NP3),等等。

现代汉语中的话题句及其相关的主宾句有:

书买了——有人买了书

门开了——有人开了门

《红楼梦》读了——有人读了《红楼梦》

同样的动词,从左边的话题句到右边的主宾句,其中动词的语法作用产生了变化,一位动词转化成二位动词。在范畴语法看来,动词发生的这种变化就导致给动词指派的函子范畴也要相应作出改变。如在左边主题句中动词的范畴是NP2S,在右边的主宾句中动词的范畴就变成了(NP1S)/NP2,我们的范畴类型逻辑应该揭示这种函子范畴的变化机制。

三、范畴语法的抽象

基于格语法思想的多分法的分析方式可用范畴语法的方式表述为①A.Bastenhof,Categorial Symmetry,Ph.D.Thesis at University of Utrecht,2012,pp.16 -18.:

定义1 语境自由语法(CFG)G是四元组(V,∑,R,S),这里V是非终端符号或范畴的集合,∑是与V不相交的终端符号或词条的集合,R⊆V×(V∪∑),并且S∈V是起始符号。R中的〈A,w〉称为重写规则,写作A→w。

涉及多分法的汉语片段的语法G,R中的重写规则为:

S→NP PP1…PPnVP(汉语多重介词短语句的多分法)

VP→IV

VP→TV NP1NP2(汉语双宾语的多分法)

VP→TV NP PP1… PPn(汉语多重介词短语句的多分法)

PP→Prep NP

NP→张三 李四 圣诞节 (这个)餐馆(这把)刀叉 (这份)牛排 (这本)书

IV→送了 买了

TV→送 买 吃

Prep→在用

定义2 给定语境自由语法 G=(V,∑,R,S),基于→递归定义⇒*和∑*。

(1)若A∈V,w∈∑,则A→w为A⇒*w(w ∈∑*)。

(2)若A,B,C∈V,u,v∈∑*且B⇒*u,C⇒*v,则A→B C为A⇒*uv(uv∈∑*)。

例如,若把∑当作上述汉语片段的词条集合,∑*是包括词条在内的所有的短语(合语法的和不合语法的)的集合。(按惯例,∑*之上的可及关系⊗u0…un表示(u0,…,un)∈⊗)

定义3 令G=(V,∑,R,S)是CFG,其所有的重写规则形如A→B1…Bn(A,B1…Bn∈V)或A →w(w ∈∑)。定义框架FG= 〈WG,⊗G〉:

WG=∪A∈V{〈A,w ′〉|w ′∈∑*并且 A ⇒*w}

⊗G(〈A,u0〉,〈B1,u1〉,…,〈Bn,un〉)当且仅当 u0=u1…un并且 A→B1…Bn∈R

例如,我们定义CFG是分析汉语句“张三在餐馆用刀叉吃牛排”的语法。作为词条的集合∑={张三,吃,牛排,在,餐馆,用,刀叉},而∑*={张三,吃,牛排,在,餐馆,用,刀叉,吃牛排,在餐馆,用刀叉,张三在餐馆用刀叉吃牛排,…}。其中一个⊗G(〈A,u〉,〈B,v〉,〈C,w 〉,〈D,u′〉,〈E,v′〉)可以具体表现为下面的四分法分析树:

基于上述描述多分法的框架可以构造体现格语法思想的范畴逻辑语义模型M=〈WG,⊗G,‖·‖〉,其中‖·‖的定义如下:

‖p‖ ={〈A,u 〉|A ⇒*u}

‖P,Q1,…,Qn‖ ={〈A,u0〉|存在〈B1,u1〉,…,〈Bn+1,un+1〉满足:⊗G(〈A,u0〉,〈B1,u1〉,…,〈Bn+1,un+1〉)并且〈B1,u1〉∈‖P‖并且〈B2,u2〉∈‖Q1‖并且,…,并且〈Bn+1,un+1〉∈‖Qn‖}

‖P/Q1,…,Qn‖ ={〈B1,u1〉|对任〈A,u0〉,〈B1,u1〉,…,〈Bn+1,un+1〉有:若⊗G(〈A,u0〉,〈B1,u1〉,…,〈Bn+1,un+1〉)并且〈B2,u2〉∈‖Q1‖并且,…,并且〈Bn+1,un+1〉∈‖Qn‖则〈A,u0〉∈‖P‖}

‖Q1,…,QnP‖ ={〈Bn+1,un+1〉|对任〈A,u0〉,〈B1,u1〉,…,〈Bn,un〉有:若⊗G(〈A,u0〉,〈B1,u1〉,…,〈Bn+1,un+1〉)并且〈B1,u1〉∈‖Q1‖并且,…,并且〈Bn,un〉∈‖Qn‖则〈A,u0〉∈‖P‖}

基于上述框架及其模型确立揭示格语法思想的范畴类型逻辑的公理系统是进一步的工作。本文从经典的范畴类型逻辑角度来研究这种新型范畴类型逻辑的元逻辑性质。

经典的范畴类型逻辑角度是把范畴的语义值看作语言符号串的集合,而不是由语言学范畴和语言符号串作成的序对的集合。基于格语法的CTL是在经典的CTL那里进行适度改进而成的。这里需要确立两条针对函子范畴论元增添的规则:

吃 ⇒[(NPa)S]/(NPo)

⇒[(NPa,NPp)S]/NPo

⇒[(NPa,NPp,NPi)S]/NPo

⇒[(NPa,NPt,NPi,NPp)S]/NPo

给出例句(b)的范畴类型逻辑分析如下:

为了充分展现格语法多分法的思想,对通

从X/(Z1)推出X/(Z1,Z2)

从(Z1)X推出(Z1,Z2)X

更一般的表述:

(RI)X/(Z1,…,Zn)→X/(Z1,…,Zn,Zn+1)

(LI)(Z1,…,Zn)X →(Z1,…,Zn,Zn+1)X

(RI)的具体应用:

[(NPa)S]/(NPo)→[(NPa)S]/(NPo,NPp,NPi)

(涉及施事受事的动作)(涉及地点工具施事受事的动作)

汉语多重介词短语句涉及的介词短语的多少会造成动词的论元可多可少。零重介词短语句即简单的主谓句,其动词的论元只有两个——施事论元和受事论元,包含一个介词短语的主谓句其动词具有三个论元,包含两重介词短语的主谓句其动词论元可以有四个……。对这些多重介词短语句的句法分析就会使中心动词分别被指派包含不同数量论元的函子范畴。强调逻辑推演的方案是:先给动词确定一个固定的范畴,然后根据不同的上下文需要用(RI)或(LI)规则推演出所需要的范畴。

这里词库中关于及物动词的初始指派为:

吃 ⇒[(NPa)S]/(NPo)

基于对及物动词“吃”的初始的范畴指派,采用推演的方法,可以推出汉语多重介词短语句(a)—(c)中所需要的“吃”对应的多样函子范畴:

涉及施事、地点和受事的动作

涉及施事、地点、工具和受事的动作

涉及施事、时间、地点、工具和受事的动作

常范畴类型逻辑的一系列机制做了调整改变:范畴形成定义的改变和函项应用规则的改变,函子范畴的论元范畴是n个并列的范畴,积的范畴分为右积范畴和左积范畴。范畴的形成为:

定义4 给定原子范畴的有穷集合A①原子范畴A={S,NPa,NPo,NPl,NPi,NPt…}。加标NP是满足格语法区分名词格的要求。,范畴的集合C是满足下列条件的最小集合:

·A⊆C;

·若 X∈C,Z1,…,Zn∈C 且 Zi≠Zj,则X/(Z1,…,Zn)是右函子范畴∈ C;(n≥1)

·若 X∈C,Z1,…,Zn∈C 且 Zi≠Zj,则(Z1,…,Zn)X是左函子范畴∈ C;(n≥1)

·若Y是右函子范畴∈C,Z1,…,Zn∈C且是Y中的论元范畴且Zi≠Zj,则Y,Z1,…,Zn是右积范畴∈C;(n≥1)

·若Y是左函子范畴∈C,Z1,…,Zn∈C且是Y中的论元范畴且 Zi≠Zj,则Z1,…,Zn,Y是左积范畴∈C;(n≥1)

·封闭性。

基于格语法的范畴类型逻辑公理系统有一条等同公理、两条结构公理(即两条受限的缩减公设):

A1.A →A

A2.Y,Z1,…,Zn→Y,Z1,…,Zn-1(Y,Z1,…,Zn是右积)

A3.Z1,…,Zn,Y →Z1,…,Zn-1,Y(Z1,…,Zn,Y是左积)

推演规则:有受限的冗余规则4条,传递规则1条:

(Y,Z1,…,Zn是右积)(Z1,…,Zn,Y是左积)

向前(向后)的函项应用定理由A1和冗余规则一步推得:

(F)X/(Z1,…,Zn),Z1,…,Zn→X

(B)Z1,…,Zn,(Z1,…,Zn)X →X

为了描述自然语言动词所属范畴的改变,可推出:

(RA)X/(Z1,…,Zn)→X/(Z1,…,Zn+1)

(LA)(Z1,…,Zn)X →(Z1,…,Zn+1)X

证明:据(F)有:X/(Z1,…,Zn),Z1,…,Zn→X;据 A2 得:X/(Z1,…,Zn),Z1,…,Zn,Zn+1→X/(Z1,…,Zn),Z1,…,Zn;传递得:X/(Z1,…,Zn),Z1,…,Zn,Zn+1→X;再据冗余规则得:X/(Z1,…,Zn)→X/(Z1,…,Zn+1)。

增加相应的框架限制:

是中心成分,z1…zn是非中心成分)

是中心成分,z1…zn是非中心成分)

(n≥1)

按照格语法,格语句的构造涉及一分为三和一分为四的句法分析。SP2所刻画的从R4变换到R3的直观依据有:

这即是说:W中若有两个非中心成分位于左边和中心成分毗连的符号串,相应就有一个非中心成分位于左边和该中心成分毗连的符号串,即在汉语中,如果“李四在北京出差”的表达式成立,“李四出差”的表达式也能成立。

SP1所刻画的从R/5转换到R/4转换的直观依据有:如“吃饭在餐馆”的表达式成立,则“吃饭”的表达式也成立。

模型 M= 〈W,R/n+2,R +2,‖·‖〉,其中‖·‖的定义为:(n≥1)

据此可以证明基于格语法思想的范畴类型逻辑系统的可靠性和完全性。

四、结 语

格语法的思想要点是:句子结构以动词为中心成分围绕数量不等的格名词而展开,这导致语言表达式的中心成分和非中心成分的区分和多分法的语法分析模式。格语法的分析有利于自然语言的计算机信息处理。汉语适合于格语法的分析模式。揭示格语法思想的范畴类型逻辑,需要实行更新变异。中心成分和非中心成分以及多分法的分析模式造成左积范畴和右积范畴的区分,导致函子范畴的论元增添,使得其框架语义中可及关系的非单一化。

继本文之后还需要进行以下后续研究:(a)经典范畴语法中还有很多技术手段,如基于结合公理和交换公理的函项复合和置换等运算显然排除在本文的范畴系统之外,其运算过程并不是单纯的左积或右积运算所能说明的。基于格语法的范畴类型逻辑系统是一个简单化处理的系统,可能导致自然语言中一些语言现象不便处理,这需要大力进行后续研究,在词库的构建上或机制的扩展方面下功夫。(b)范畴类型逻辑处理自然语言的最终目的,是给范畴推演的每一环节配备λ-词项,多分法的范畴分析需要匹配相应的λ-演算手段,这似乎是有一定难度的工作。(c)汉语句中主语、宾语以及介词的宾语如果是量化短语而不是专名或表示特指含义的光杆名词的话,其句法分析会涉及量词提升等更复杂的操作,需要考虑量词提升给格框架分析带来的影响。

猜你喜欢

论元范畴介词
批评话语分析的论辩范畴研究
介词和介词短语
正合范畴中的复形、余挠对及粘合
Clean-正合和Clean-导出范畴
介词不能这样用
基于语料库的俄汉“怀疑”语义客体论元对比研究及其翻译
基于论元结构和题元指派对汉语处置义“把”字句的句法语义分析
离合词扩展式的句法成因
看图填写介词
不能把范畴不同的两个问题混为一谈