关于组合范畴语法CCG
2011-10-30邹崇理
邹崇理
(1.燕山大学文法学院,河北秦皇岛 066004;2.中国社会科学院哲学研究所,北京 100732)
关于组合范畴语法CCG
邹崇理1,2
(1.燕山大学文法学院,河北秦皇岛 066004;2.中国社会科学院哲学研究所,北京 100732)
组合范畴语法CCG(Combinatory Categorial Grammar)和类型逻辑语法TLG(Type Logical Grammar)都是范畴语法的现代版本,前者关注范畴语法的语言学应用和自然语言的信息处理,后者倾向于从逻辑的角度审视范畴语法的理论性质。CCG的特点有:原子范畴的加标多样化和彻底的词汇主义思路;斜线算子的下标模态化和函子范畴的多样组合;基于范畴等级和范畴构造的视角建立CCG的证明论。
组合范畴语法CCG;类型逻辑语法TLG;函子范畴的组合
范畴语法是一种面向自然语言信息处理的逻辑理论。按照这种理论,自然语言是由词构成词组、词组构成语句的符号系统,自然语言的这种构造生成被看作是计算推演的过程。范畴语法产生于20世纪30~40年代,50年代以后逐步走向成熟。
组合范畴语法 CCG(Combinatory Categorial Grammar,简称CCG)则在20世纪80~90年代开始出现,是对范畴语法进行扩展的现代版本。扩展的实质在于“组合”(combinatory),即基于范畴语法增添了函子范畴的组合运算,这类似数学中函数的复合。与此同时,类型逻辑语法TLG(Type Logical Grammar,简称TLG)也是范畴语法发展的现代产物,这个发展方向的源头是著名的兰贝克演算(Lambek,1958)。自诞生起CCG和TLG就显示出各自侧重的偏好。CCG关注自然语言“语境敏感层面”的表达力问题,从语言学和计算语言学的角度探讨基于统计模型的自然语言的自动机处理问题。而TLG的兰贝克传统则热心于范畴语法的逻辑理论问题,把范畴语法看成是一个逻辑系统,配备框架语义学,讨论系统的可靠性和完全性,以及系统的可判定性。本文从范畴语法的基础出发,进而介绍CCG,看看这个理论到底具有哪些不同于TLG的内容。
跟范畴语法一脉相承,CCG也是一种基于词汇的语法形式理论。就是说,CCG把自然语言的生成过程凝缩在词条的范畴构造上[1]。例如:
我们可以通过词条“proved”的范畴构造(2)来体现生成规则(1)的内容。从某种意义上说,(1)确定了(2)。根据(1),我们有生成树:
按照(3)从上到下看,节点VP对应的函子范畴是:运算的论元是NP,运算的结果是S,记作S NP,其运算是向后的,即论元范畴在函子范畴的后边。而节点V对应的函子范畴为:论元是NP,结果是SNP,记作(SNP)/NP,其运算是向前的,即论元在函子的前边。(SNP)/NP就是词条Proved对应的范畴。因此说,范畴语法指派给动词的函子范畴的构造显示出:运算前的论元范畴和运算后的结果范畴以及运算的方向。于是,CCG从范畴语法那里传承的函项应用于论元的规则为[1]:
向前的应用
向后的应用
以上规则就是CCG对范畴语法基本思想的继承。除此以外,CCG还发展出自己新的内容,概括为三点:原子范畴的加标多样化和彻底的词汇主义思路;斜线算子的下标模态化和函子范畴的多样组合规则;基于范畴等级和范畴构造的概念建立CCG的证明论。
首先,CCG为刻画丰富多彩的自然语言,其范畴设置比TLG更加精细化。对原子范畴譬如N, NP,PP,S等等,可以通过添加数格等标记进一步多样化,如名词短语范畴根据数的特征分为NPsg和NPpl,根据格的特征分为NPsbj和NPobj,还有主格复数名词短语范畴NPplsbj等等。CCG是彻底的词汇主义语法理论,词库中甚至还有词缀的范畴指派[2]:
图1 词库
图1这样的词库显示:第一列的第七行就是对名词的复数词缀的范畴指派,第二列第八行就是对第三人称动词词缀的范畴指派。基于这样的词库,CCG关于动词第三人称词缀和名词复数词缀的推演例子如图2[2]:
图2 推演例
其次,纯粹的范畴语法限于函项应用于论元的句法贴合规则,这样限制了语境自由文法的表达力。CCG扩大了语境自由文法的规则集合,添加了基于函子范畴的组合(置换)获得另一函子范畴的那些规则。如:
函子范畴的向前组合
函子范畴的向后组合
函子范畴的向前置换
函子范畴的向后置换
不仅如此,基于Jacobson(1990,1992)、Hepple(1990)、Baldridge(2002)和Baldridge&Kruijff (2003)等人的工作,CCG进一步提出函子范畴及其规则的模态化概念,即给斜线算子添加下标。具体来说,CCG提出四个基本的模态*,◇,×和■作为斜线算子的下标,各种不同下标的斜线算子适用于不同的函子范畴组合规则。换言之,不同下标的斜线算子的性质往往通过各自适用的组合规则体现出来。
提出斜线算子模态的用意在于:带下标*的斜线算子是最受限的,仅适用于最基本的函项应用规则(即NL的规则);带下标◇的斜线算子允许推演中的结合性(即适用于L的规则);带下标×的斜线算子允许推演中的交换性(即适用于NLP的规则);带下标■的斜线算子适用于所有的范畴推演规则(即适用于LP系统的规则)[1],见图3:
图3 斜线模态下标的作用
提出斜线算子模态下标的后果是给有关词条指派带下标的函子范畴,词条在生成中受到的限制通过各自不同下标的斜线算子不同的适用范围体现出来。如果不用模态下标,要避免某些不合语法的词序(词的线性排列),我们不得不把各种自然语言生成中受限制或被禁止的地方专门列出来,从而使组合规则因自然语言的不同而异。采用模态下标的手段,组合规则就是普遍适用的,每一自然语言的语法适用同样的规则集合,不同自然语言的差异表现在词库中,即有关词条指派带模态下标的函子范畴,这是CCG的特色。
四个模态下标的关系类似四个兰贝克演算的关系:处于顶端的*是最强的母类型,适用的组合规则范围最窄;处于底端的 ■ 是最弱的子类型,适用的组合规则范围最宽,见图4。
图4 斜线模态下标之间的关系
带下标*的斜线算子适用的规则范围最窄,只有少量的组合规则适用于带下标*的斜线算子,这包括范畴语法最基本的规则(>)和(<):
因为*是其他模态下标的最大母类型,(>)和(<)之类斜线/*涉及的规则适用于其他所有模态下标的范畴。即对任α∈{*,◇,×,■},X/αY Y⇒X总能成立。
以下组合规则对带■的斜线算子范畴适用,但对*不成立:
这些组合规则由于具有上述限制,我们就可以在词库中对英语连词“and”指派带*的斜线算子范畴,以剔除那些不符合英语语法的生成推演,从而指出某些英语词条的排列不合语法性。在词库中只要有(4)这样的指派,(5)那样的推演就不能获得结果,(<B)向后组合规则不适用于带*的斜线算子范畴。这就从CCG的角度解释了“sleeps and he talks”的不合语法性。
推而广之,指派给“and”的范畴表现为:(X★X)/★X,这种指派能够满足英语中正常表达式的范畴推演,如图5:
图5 推演例
最后,我们简略介绍CCG基于范畴等级概念和从范畴构造的视角建立的CCG证明论。CCG的英语片段思想和蒙太格语法略有不同,不同种类自然语言的区别在蒙太格语法那里通过句法规则体现出来,而CCG贯彻词汇主义的思路把这些差异放到词库中去。CCG的证明论也不同于TLG的做法,而是从范畴构造的独特视角建立的范畴推演理论[2]。
先介绍类型(范畴)等级(type hierarchy)的概念。类型的等级是序对〈T,⊆〉,满足:
1)T是类型的字母表。
2)⊆是T上自返的反对称的和传递的关系,称作管辖关系,该系统是一个弱序。
3)〈T,⊆〉有一个最小元素(处于等级顶端的),即存在一个类型管辖自身在内的所有类型。
4)〈T,⊆〉满足:T的具有上限的每一子集都有一个最小上限。〈T,⊆〉中极大类型的集合中的元素是除自身外不管辖其他任何类型,换言之,极大类型是没有(真)子类型的类型。
我们给出类型等级的例子,如图6:
图6 英语的范畴等级关系
直线条表示管辖关系⊆。top是该类型等级中的最小类型,它管辖该等级中所有的类型。是该类型等级中的极大类型,它们只管辖自身。T在这里作为饱和(原子)范畴的集合A有top,S,Nom等17个成员。
上述类型等级中只有饱和的原子范畴,这对刻画自然语言的生成推演是不够的。我们还需要大量的函子范畴,所以CCG就有函子范畴的构造(category structure)、函子范畴的描述(category description)以及前者对应后者的满足等概念。
前面谈到,指派给词条的范畴,尤其是函子范畴的构造凝聚了有关的句法生成过程。
对范畴构造进行形式化定义就构成了CCG证明论的语义基础。基于饱和(原子)范畴字母表A上的范畴构造是一个六元组〈Q,Res,Arg,Vs,VM,VA〉,其中:1)Q是点的集合;2)Res和Arg分别是Q上的结果关系和论元关系;3)Vs和VM对每一非终结点分别指派斜线和斜线的模态下标; 4)VA对每一终结点指派A中的一个饱和范畴。例如,基于字母表{S,NP}的函子范畴(S×(NP)/*(NP◇S)的构造树为(见图7):
图7 范畴构造树
范畴构造是语义概念,相关的句法概念是范畴描述。范畴描述的集合是这样一个最小的集合,满足:
1)每一饱和范畴符号自身是范畴描述,即A⊆Φ;
2)对所有φ,ψ∈Φ,所有μ∈{*,◇,×,■},φ/μψ∈Φ;
3)对所有φ,ψ∈Φ,所有μ∈{*,◇,×,■},φ/μψ∈Φ;
4)对所有φ,ψ∈Φ,所有μ∈{*,◇,×,■},φ/μψ∈Φ。①这里出现的竖线双方向算子在通常文献中不常见,参见参考文献[2]。
然后,令基于类型等级〈A,⊆〉的范畴构造S=〈Q,Res,Arg,Vs,VM,VA〉,q∈Q。S与q局部满足A上的范畴描述φ,即S,q╞φ当且仅当
1)φ∈A:存在某个满足 φ⊆α的 α使得VA(q)=α
2)φ=(ψ1δμψ2),δ∈{/,},μ∈{*,◇,×},Vs(q)=δ,VM(q)=μ,S,Res(q)╞ψ1并且S,Arg(q)╞ψ2
3)φ=(ψ1|μψ2),μ∈{*,◇,×},VM(q)=μ,S,Res(q)╞ψ1并且S,Arg(q)╞ψ2
4)φ=(ψ1δ■μψ2),δ∈{/,},Vs(q)=δ,S,Res(q)╞ψ1并且S,Arg(q)╞ψ2
5)φ=(ψ1|■ψ2),S,Res(q)╞ψ1,S,Arg(q)╞ψ2
基于上述英语范畴的等级,CCG给出英语片段,也叫英语部分语句系统的形式定义。令∑是英语词条的集合,我们有∑基础上的四元组〈A,⊆,S,L〉满足:
1)〈A,⊆〉是饱和范畴的等级。
2)S是A中的特异元素。
3)L是从∑中非空符号串到A上生成的范畴描述的映射,即英语词库。
这样的〈A,⊆,S,L〉就称作CCG的英语片段。
最后,CCG给出任意两个范畴描述φ和ψ的⊆-相容概念,在英语片段基础上定义各种有效推理模式的概念:把词库中对词条的范畴指派定义成前提词条结论为范畴的推理模式;范畴的提升、不同模态下标的函子范畴的各种组合和置换规则自然就是CCG证明论中带有各种不同限制条件的推理模式[2]。
所以,组合范畴语法CCG比较类型逻辑语法TLG而言,能更加深入揭示自然语言的语言学特点,全面服务于自然语言的计算机处理需求。其特征是:1)为刻画自然语言词类的丰富句法特征对原子范畴进行加标多样化的设置;2)为描述自然语言句法生成的细微之处对斜线算子实行模态化分类,据此确立不同斜线算子范畴的多样组合规则;(3)基于范畴等级和范畴构造的思想构造CCG的证明论系统。
[1]Steedman M,Baldridge J.Combinatory Categorial Grammar[C]//Kirsti Börjars.Non-transformational syntax:a guide to current models.[S.l.]:Blackwell,2005.
[2]McConville,Mark.Type-hierarchical CCG[M].Edinburgh:University of Edinburgh,2005.
Combinatory Categorial Grammar CCG
ZOU Chong-li1,2
(1.School of Humanities and Law,Yanshan University,Qinghuangdao 066004,China; 2.Institute of Philosophy,Chinese Academy of Social Sciences,Beijing 100732,China)
Combinatory Categorial Grammar(CCG)and Type Logical Grammar(TLG)are the modern version of the categorial grammar.The former approach is concerned with the application of the linguistics and the information processing of the natural language;and the later one tended to scrutinize the nature of the theory of categorial grammar from the perspective of logic.The features of CCG are: the various way of labeling the basic category and the complete lexicalism;the modalization to the index of the slash operator and the multiple combinations of functor categories;the proof to CCG which based on the class of category and the construction of category.
CCG;TLG;combination of functor categories
B81
A
1674-8425(2011)08-0001-05
2011-06-06
国家社科基金项目“面向自然语言信息处理的范畴类型逻辑研究”(09BZX046)研究成果。
邹崇理(1953—),男,四川成都人,研究员,博士生导师,研究方向:自然语言逻辑。
(责任编辑 魏艳君)