基于范畴类型逻辑的汉语反身代词指代歧义的消解

2020-06-22张晓君

湖北大学学报(哲学社会科学版) 2020年3期

张晓君

(四川师范大学哲学研究所，四川成都 610066)

一、引言

指代是常见的自然语言现象，它具有简化表述、衔接上下文、连贯意义的作用(1)张晓君：《指代消解的主要方法及其机制》，《毕节学院学报》2012年第10期。。在自然语言中，指代词(anaphor)所指的对象和内容称为先行词，为指代词确定先行词的过程叫做指代消解(anaphora resolution)。典型的具有指代现象的自然语言语句如：

(a)我家狗狗叫点点，我特别喜欢它。

(b)我儿子上学了，他周末才回来。

这里语句(a)中的“它”与“点点”具有指代关系，“它”是指代词，“点点”是先行词；类似地，语句(b)中的“我儿子”与“他”之间也具有指代关系，“他”是指代词，“我儿子”是先行词。

指代词与先行词之间的照应关系是语篇意义连贯的基础，准确快速地为指代词找到回指的先行词是语篇理解的基础和关键。指代消解在机器翻译、信息抽取、文本摘要、自然语言接口和问答系统等人工智能领域有着重要的作用(2)张晓君：《指代消解的主要方法及其机制》。，是自然语言信息处理研究的重点和难点领域之一，国内外计算语言学界、心理学界、语言学界和逻辑学界等领域的学者从不同的视角对其进行了锲而不舍的长期研究。

据笔者所知，仅仅在自然语言逻辑领域，能够进行英语进行指代消解的自然语言逻辑理论就有十多种(3)张晓君：《指代消解的主要方法及其机制》。，比如：动态谓词逻辑(Dynamic Predicate Logic，简称DPL)(4)J.Groenendijk，M.Stokhof，“Dynamic Predicate Logic”，Linguistics and Philosophy，Vol.14,1991,pp.39-100.、动态蒙太格语法(Dynamic Montague Grammar，简称DMG)(5)J.Groenendijk，M.Stokhof，“Dynamic Montague Grammar”，in L.Klmn，L.Pólos，eds.，Papers from the Second Symposium on Logic and Language，Budapest：Akadémiai Kiadó，1990，pp.3-48.、话语表现理论(Discourse Representation Theory，简称DRT)(6)H.Kamp，U.Reyle，From Discourse to Logic，Dordrecht：Kluwer Academic Publisher，1993.、范畴类型逻辑(Categorical Type Logic，简称CTL)(7)G.Jäger，Anaphora and Type Logical Grammar，Dordrech：Springer，2005.、组合范畴语法(Compostional Category Grammar，简称CCG)(8)温雪：《从转换生成语法看范畴类型逻辑的基本思想》，《重庆理工大学学报》(社会科学)2015年第8期。等都能够进行指代消解。为了对汉语进行指代消解，国内学者借鉴对英语进行指代消解的方法和经验，对多种汉语句式的指代消解进行了研究，比如：邹崇理(2002、2018)(9)邹崇理：《逻辑、语言和信息》，北京：人民出版社，2002年；邹崇理等：《自然语言信息处理的逻辑语义学研究》，北京：科学出版社，2018年。、满海霞(2014)(10)满海霞：《汉语照应省略的类型逻辑研究》，北京：对外经济贸易大学出版社，2014年。、贾青(2015)(11)贾青：《范畴类型逻辑及其在汉语反身代词回指照应中的应用》，北京：中国社会科学出版社，2015年。、林胜强(2015)(12)林胜强：《基于动态谓词逻辑的汉语指代现象的信息处理》，《四川师范大学学报》(社会科学版)2015年第6期。、张晓君(2018)(13)张晓君：《汉语指代消解及其推理模式研究》，北京：人民出版社，2018年。等等。

在自然语言中，常常出现由于指代不明而产生的歧义，即指代与歧义相伴而行。虽然在自然语言中有多种句式都存在指代歧义，但由于篇幅原因，本文仅仅对汉语中普遍存在的反身代词的指代歧义进行消解。例如：实例(1)“赵强认为李丽讨厌自己”，它的第一种歧义解读是“赵强认为李丽讨厌李丽”，第二种歧义解读是“赵强认为李丽讨厌赵强”，这两种歧义都是由于其中的反身代词“自己”指代不明而产生的。实例(2)“赵强气愤地看着李东摔打自己的狗”，它的第一种歧义解读是“赵强气愤地看着李东摔打赵强的狗”，第二种歧义解读是“赵强气愤地看着李东摔打李东的狗”，这两种歧义也是由于其中的反身代词“自己”指代不明而产生的。

二、常见的指代消解理论及其消解机制

语篇理解和指代消解是一个相互作用的动态过程(14)王晓斌、周昌乐：《基于语篇表述理论的汉语人称代词的消解研究》，《厦门大学学报》(自然科学版)2004年第1期。，而经典的一阶和高阶逻辑无法进行指代消解，导致了20世纪70年代在自然语言理解领域出现了著名的“动态转向”(dynamic turn)，从而产生了多种受到蒙太格语法的影响且能够进行指代消解的动态语义学，比如：1981年Kamp提出的话语表现理论(15)H.Kamp，“A Theory of Truth and Semantic Representation”，in J.A.G.Groenendijk et al.，eds.，Formal Methods in the Study of Language，Amsterdam：Centrum Voor Wiskunde en Informatica，1981,pp.277-322.、1982年Heim提出的文本更新语义学(File Change Semantics，简称FCS)(16)I.Heim，“File Change Semantics and the Familiarity Theory of Definiteness”，in R.Bäuerle et al.，eds.，Meaning，Use，and Interpretation of Language，Berlin：Walter de Galter De Gruyter，1983，pp.164-189.、1990年Groenendijk和Stokholf提出的动态蒙太格语法(17)J.Groenendijk，M.Stokholf，“Dynamic Montague Grammar”，pp.3-48.、1991年Groenendijk和Stokholf提出的动态谓词逻辑(18)J.Groenendijk，M.Stokholf，“Dynamic Predicate Logic”，pp.39-100.。之后，还产生了对这些理论进行改进的动态语义理论，比如：带有演算的话语表现理论(即-DRT)、“自下而上”的话语表现理论、组合性话语表现理论、增量动态逻辑、带有内在动态广义量词的动态谓词逻辑等等(19)张晓君：《汉语指代消解及其推理模式研究》，第27页。。

在这些动态语义学理论中，(1)几乎都采用可能世界语义学，几乎都满足组合性这一自然语言进行毗连生成的基本原则；(2)动态变元约束机制代替了来自一阶谓词逻辑的静态变元约束机制；(3)意义被看作是模型中状态变元之间的关系，意义就是算法，意义就是潜在的语境更新(20)J.van Eijk，“Incremental Dynamics”，Journal of Logic，Language and Information，Vol.10，No.3,2001,pp.320-321.，即：“意义就是算法”等同于“意义就是计算潜在语境的算法的更新”，等同于“意义就是计算真值条件内容的算法的更新”(21)张晓君、邹崇理：《从信息与智能交互的角度看周礼全先生的四层次意义理论兼论语言表达式的意义理论》，《哲学研究》2012年第9期。。

这些动态语义学理论进行指代消解的方式方法和优缺点各不相同。大致说来，话语表现理论能够对指代现象进行动态处理，但是其处理过程不满足自然语言的基本原则组合性原则。动态谓词逻辑能够组合地对指代现象进行动态处理，但其语境增量具有一定的破坏性。动态蒙太格语法利用动态内涵逻辑对语句的意义进行翻译时，成分间可能的指代关系则是通过特别的话语标记来标示，能够很好地进行指代消解。带有内在动态广义量词的动态谓词逻辑能够进行指代消解的基础是：允许动态存在量词的第一个论元与第二个论元之间具有间接约束关系。增量动态逻辑能够进行指代消解的基本思路是：“规定量词可以约束下一个可以达到的变元寄存器，并定义了能够为代词找到先行词的语境”(22)张晓君：《指代消解的主要方法及其机制》。。带有演算的话语表现理论则是通过引入-演算，从而使得话语表现理论能够组合地对指代现象进行动态处理(23)张晓君、邹崇理：《从信息与智能交互的角度看周礼全先生的四层次意义理论兼论语言表达式的意义理论》。。组合性话语表现理论同时具有带有演算的话语表现理论和蒙太格风格的组合性翻译树的优点，能够动态地且组合地进行指代消解(24)R.Muskens，“Combining Montague Semantics and Discourse Representation”，Linguistics and Philosophy，Vol.19，No.2,1996,pp.143-186.。

通过对自然语言逻辑中常见的几种指代消解理论进行对比研究，就会发现指代消解的机制主要包括(25)张晓君：《指代消解的主要方法及其机制》。：(1)中介机制(比如：话语表现理论)；(2)动态约束机制(比如：动态谓词逻辑)；(3)加标机制(比如：动态蒙太格语法)；(4)范畴机制(比如：范畴类型逻辑和组合范畴语法)；(5)复合机制(比如：增量动态逻辑)。本文将利用范畴类型逻辑的知识(即采取范畴机制)，根据词条的不同句法作用，对多个词条采取不同的毗连组合顺序以及对同一词条指派不同的范畴等手段，来达到对汉语中反身代词指代歧义进行消解的目的。

三、范畴类型逻辑的基本思想

自然语言具有毗连性(concatenation)，即较大语言成分是由较小语言成分通过组合的方式逐步递增而成的。自然语言具有生成性(generation)，通过毗连，自然语言符号串可以由较小语言成分逐步生成扩张为较大语言成分。弗雷格(Frege)利用语句函项的思想来分析自然语言的毗连生成过程，即：把某一语言成分当作函项，把旁边与之毗连的语言成分当作函项的主目，两个语言成分的毗连可以看作是函项运算的结果(26)张晓君：《带有受限缩并规则的兰贝克演算的模型论》，《哲学动态》2011年第8期。。范畴类型逻辑使用运算和推演的手段揭示自然语言组合性构造过程的基本思想是：语言认知就是数学计算，语法分析就是逻辑推演；概括地讲：认知=计算；语法=逻辑；分析=演绎。范畴类型逻辑经历了基本范畴语法、兰贝克演算、蒙太格语法、类型逻辑语义学和语法逻辑这五个发展阶段(27)邹崇理：《范畴类型逻辑》，北京：中国社会科学出版社，2008年。。

范畴类型逻辑是使用附加推理规则对基本范畴语法进行扩张而得到的自然语言逻辑理论，它把基本范畴语法的演绎成分作为逻辑演算的证明系统进行了重建(28)G.Jäger，Anaphora and Type Logical Grammar，p.17.，利用编码了词条句法和语义信息的范畴运算来刻画自然语言的毗连生成。范畴类型逻辑使用-演算作为语义表示语言，由于-表达式的指称没有歧义，而且容易理解，通过在类型-演算语言中被刻画的词条意义，就可以表示从自然语言到语义表示语言的组合翻译，这种翻译也间接地决定了对象语言的组合解释，因此这一语义表示语言具有组合性，即：复合表达式的意义是由其组成部分的意义以及它们的组合方式决定的。因为范畴语法假定表层结构是语义表示的唯一标准，而且表层结构也可以被组合性地加以解释(29)G.Jäger，Anaphora and Type Logical Grammar,p.16.。

在范畴类型逻辑中，具有不同句法的同一词条可以指派不同的范畴。一个语言符号的范畴既决定了此语言符号在句法方面的组合潜能，同时又表征了此语言符号的指称具有怎样的类型(31)G.Jäger，Anaphora and Type Logical Grammar，p.11.。语义类型不仅决定了一个语言符号可能解释的范围，而且决定了其翻译的句法性质。范畴类型逻辑所使用的语义类型就是语义表示语言的句法范畴，而且范畴与类型之间的对应限制了从自然语言到-演算的可能翻译。复合范畴可由基本范畴通过联结词“/”(向前毗连算子)和“”(向后毗连算子)组成。词形变化与语言间的参数变化，可以通过对词条的不同范畴指派体现出来。在词库中可以确定一个基本表达式的翻译(因此也间接地确定了其意义)，因此，一个被解释语言的一个范畴词库是一个三元关系：一个表达式的形式、此表达式的句法范畴、此表达式到-演算的翻译。

四、相关词库及推理规则

范畴类型逻辑认为，自然语言的毗连生成其实就是一种函项运算，为了揭示这种运算的规律，就需要利用范畴对自然语言的词条进行分类编码，并把其中一些词条对应的范畴作为函项，把另一些词条对应的范畴作为函项运算的主目，利用自然语言词条对应的范畴之间的运算就可以表达自然语言的毗连生成(32)邹崇理：《范畴类型逻辑》，第1-11页。。范畴类型逻辑通过函项运算不仅可以表征自然语言生成时的逐步递增性，而且满足意义组合原则这个自然语言逻辑语义学的基本要求。换言之，范畴类型逻辑在语言表达式的句法和语义方面都满足组合性原则，这是范畴类型逻辑受到普遍关注的主要原因之一。

例如：为了表征“John kisses Kate”这样的语句的毗连生成过程，指派给专名John和Kate的范畴为np，指派给语句的范畴为s，及物动词kisses向右毗连一个范畴为np的专名形成范畴为nps的不及物动词短语kisses Kate，然后向左毗连一个范畴是np的专名形成范畴为s的语句，因此指派给及物动词kisses的范畴是(nps)/np。可见，及物动词kisses具有双重不完全性，它需要向右毗连一个范畴标记为np的名词短语或专名形成范畴标记为nps的不及物动词短语，然后再向左毗连一个范畴标记为np的名词短语或专名才能生成为范畴标记为s的语句。

为了区分这种向左或向右毗连的不同方向性，范畴类型逻辑引入了范畴形式为AB的向右毗连函子和范畴形式为BA的向左毗连函子。向右毗连函子AB要求所缺失或毗连的部分在其右边，且“”在句法上起着联结词的作用，“”称作“右毗连算子”。当函子范畴AB与其右边的主目范畴B进行毗连运算时，可以得到结果范畴A，这一毗连运算可以表示为：AB+B=A。类似地，向左毗连函子BA要求所缺失或毗连的部分在其左边，且“”在句法上也起着联结词的作用，“”称作“左毗连算子”。当函子范畴BA与其左边的主目范畴B进行毗连运算时，可以得到结果范畴A，这一毗连运算可以表示为：B+BA=A(33)邹崇理：《范畴类型逻辑》，第2页。。右毗连算子“”与左毗连算子“”的引入，不仅使得我们可以区分自然语言词条所对应的范畴进行毗连运算时的方向性，而且可以通过不同范畴之间的毗连运算来刻画自然语言的毗连生成性。

规则1(词条毗连规则)：

(1)如果词条a的范畴是AB，词条b的范畴是B，那么词条a与词条b的毗连ab的范畴是A，即：AB+B=A；

(2)如果词条a的范畴是B，词条b的范畴是BA，那么词条a与词条b的毗连ab的范畴是A，即：B+BA=A。

例如：在词条“讨厌”的句法范畴(nps)np与词条“自己”的句法范畴((nps)np)(nps)进行毗连运算时，形成的词条“讨厌自己”的范畴就是nps。

根据范畴类型逻辑的思想和分析本文两个指代歧义实例所需要的词条范畴指派，可以确立如下词库：

专有名词(比如：赵强、李丽、李东)：np

普通名词(比如：狗)：n

毗连反身代词或名词短语的及物动词(比如：讨厌、摔打)：(nps)np

毗连宾语从句的及物动词(比如：认为、看着)：(nps)s

副词(比如：气愤地)：(nps)(nps)

例如：在分析“讨厌自己”的毗连生成时，“讨厌”的语义用“讨厌′”来表示，其句法范畴是常见的及物动词范畴(nps)np，由于“讨厌自己”是不及物动词短语，其句法范畴是nps，因此“自己”的范畴是((nps)np)(nps)，而“自己”的语义则用可以形式化为Rx.Rxx的论元削减词来表示(34)张晓君、满海霞：《带有受限缩并规则的兰贝克演算中的照应算子》，《重庆理工大学学报》(社会科学)2011年第4期。(即把二元关系作为论元，其结果还是得到二元关系)，因此“自己”的语义和句法范畴可以表示为：“Rx.Rxx：((nps)np)(nps)”。

通过加标演绎，范畴类型逻辑的公理和推理规则可以提供关于语义表示的矢列运算。矢列式的前件公式用变元加标，其后件用-演算的可能复合项加标。一个成分的实际翻译可以用前件中公式的相应词条翻译，来代替后件中的自由变元而得到。在本文的相关规则中，“l：C”表示范畴C具有标签l，小写字母“x，y，z，…”表示-演算的变元上的元变元，大写字母“M，N，R…”表示-项上的元变元。

现在分别给出对本文中的汉语反身代词指代歧义进行消解时所需要的三个推理规则。

规则2(函数应用规则)：

在规则2的(1)中，“x：AB”表示一个词条对应的语义是x，对应的范畴是AB；“y：B”表示另一个词条对应的语义是y，对应的范畴是B；“xy：A”表示这两个词条的语义合成是xy，这两个词条对应范畴之间的毗连运算的结果就是A，即：AB+B=A。规则2的(2)表示的意义与此类似。

在范畴类型逻辑中，虽然短语结构不是语言表示的一部分，但是词条的句法范畴结构决定了哪些词条是可以进行结合的。例如：可以为“李丽讨厌自己”中的子串“讨厌自己”指派句法范畴nps，但是子串“李丽讨厌”却不能够指派句法范畴nps。然而“主语+及物动词”的复合表达式是可以结合的。由于专名“李丽”的句法范畴是np，而及物动词“讨厌”的句法范畴是(nps)np，这二者是无法直接进行毗连运算的，因此需要如下规则3中的向前的类型提升规则，把“李丽”的句法范畴np提升为s(nps)，只有这样才可以与“讨厌”的句法范畴(nps)np进行毗连运算，从而得到“李丽讨厌”的句法范畴snp。

规则3(类型提升规则)：

例如：根据向前的类型提升规则，可以把语义和句法范畴“李丽′：np”提升为“x.x李丽′：s(nps)”。

规则4(函数复合规则)：

例如：“讨厌”与“自己”进行毗连运算得到“讨厌自己”时，需要使用规则4中向后的函数复合规则；而“李丽”与“讨厌”进行毗连运算得到“李丽讨厌”时，需要使用规则4中向前的函数复合规则。

在分析“李丽讨厌自己”的毗连生成时，首先利用规则4的向后的函数复合规则对“讨厌′：(nps)np”与“Rx.Rxx：((nps)np)(nps)”进行毗连运算，在“讨厌”的语义“讨厌′”与“自己”的语义Rx.Rxx进行毗连运算得到“x.讨厌′xx”的同时，“讨厌”的范畴(nps)np与“自己”的范畴((nps)np)(nps)进行毗连运算，得到(nps)这一不及物动词“讨厌自己”的范畴。然后再利用规则2的向后的函数应用规则对“李丽′：np”与“y.讨厌′xx：(nps)”进行毗连运算，在“李丽”的语义“李丽′”与“讨厌自己”的语义“x.讨厌′xx”进行毗连运算得到“(讨厌′(李丽′)(李丽′)”的同时，“李丽”的范畴np与“讨厌自己”的范畴(nps)进行毗连运算得到“李丽讨厌自己”这一语句的范畴s。由此可见，范畴类型逻辑可以同时表征自然语言的语义合成和句法组合过程。

五、汉语反身代词歧义消解实例分析

据笔者所知，能够进行指代消解的范畴的方法就达6种之多(35)张晓君：《指代消解的主要方法及其机制》。，本文仅仅借鉴Szabolcsi(1989、1992)(36)A.Szabolcsi，“Bound Variables in Syntax(Are There Any?)”，in R.Eartsch et al.，eds.，Semantics and Contexual Expressions，Dordrecht：Foris Publication，1989，pp.295-318；A.Szabolcsi，“Combinatory Grammar and Projection from the Lexicon”，in I.A.Sag et al，eds.，Lexical Matters，Chicago：University of Chicago Press，1992.提出的方法：把反身代词看作是一个论元削减词(argument reducer)，即把二元关系作为论元。例如：实例(1)中的宾语从句“李丽讨厌自己”中的“自己”的意义可以表示成Rx.Rxx，它输入一个范畴为(nps)np的及物动词(即“讨厌”)，并产生一个范畴为nps的不及物动词短语(即“讨厌自己”)，因此，其句法范畴是((nps)np)(nps)，这个范畴可以看作是：把向后的类型提升规则应用到基本范畴np上而得到的。

实例(1)“赵强认为李丽讨厌自己”是带有宾语从句的复合语句，其中的及物动词“认为”后面组合的是范畴为s的语句，而不是名词短语，所以这里“认为”的范畴是(nps)s。实例(1)的两种语义解读的推导请分别参见图1和图2的证明树。本文图中lex表示词条。

(图1) “赵强认为李丽讨厌自己”的第一种解读(“赵强认为李丽讨厌李丽”)的语义推导图

(图2) “赵强认为李丽讨厌自己”的第二种解读(“赵强认为李丽讨厌赵强”)的语义推导图

对比图1和图2可知：在第一种歧义解读中，语句是从后向前依次进行组合，对专名“李丽”的范畴指派为np；而在第二种歧义解读中，先把“李丽”范畴np的类型提升到s(nps)之后，再与“讨厌”进行组合，之后再与“认为”进行组合，最后再与“自己”进行组合。即：利用多个词条不同的组合方式以及同一词条的不同范畴指派等手段，实现了不同语义解读的表达，从而实现了歧义消解。

如果给实例(2)“赵强气愤地看着李东摔打自己的狗”中反身代词“自己的”，指派的范畴与“这个”、“那位”指派的范畴一样，都是nn，就无法对歧义进行消解。为了消解歧义，需要把“自己的”范畴指派成Rz.Rzz：(((nps)np)(nps))n，这一范畴首先与范畴为n的普通名词“狗”进行毗连，组合成“自己的狗”，其范畴是Rz.Rzz：((nps)np)(nps)，其句法作用类似于实例(1)中的“自己”。

实例(2)的两种语义解读的推导图请分别参见图3和图4的证明树。

(图3) “赵强气愤地看着李东摔打自己的狗”的第一种解读“赵强气愤地看着李东摔打李东的狗”的语义推导图

(图4) “赵强气愤地看着李东摔打自己的狗”的第二种解读“赵强气愤地看着李东摔打赵强的狗”的语义推导图

需要说明的是：由于图3超过了公式编辑器最多10级的上限，故图3直接给出了“自己的狗”的组合语义。对比图3和图4可知：在第一种解读中，首先从后向前依次进行组合，从而得到宾语从句“李东摔打自己的狗”，然后再与“气愤地看着”进行组合得到动词短语“气愤地看着李东摔打自己的狗”，最后再与“赵强”进行组合得到整个语句；而在第二种解读中，是先把“李东”范畴np的类型提升到s(nps)之后，再与“摔打”进行组合，之后再与“气愤地看着”进行组合后，再与“自己的狗”进行组合，最后再与“赵强”进行组合得到整个语句。此例利用基于范畴类型逻辑的范畴机制，对具有不同句法的同一词条指派不同的范畴，并对多个词条采取不同的毗连组合顺序等手段，达到了对反身代词指代歧义的消解的目的。

六、结语

综上所述，(1)指代消解的五种主要机制包括：中介机制、动态约束机制、加标机制、范畴机制和复合机制；(2)范畴类型逻辑利用编码了词条句法和语义信息的范畴运算来刻画自然语言的毗连生成，其基本思想是：语言认知就是数学计算，语法分析就是逻辑推演；(3)范畴类型逻辑利用词条在类型-演算语言中的意义，不仅可以决定从自然语言到语义表示语言的组合翻译，而且还可以决定对象语言的组合解释；(4)利用对具有不同句法的同一词条指派不同的范畴，以及对多个词条采取不同的毗连组合顺序等手段，可以从逻辑推演和计算的双重视角对汉语反身代词指代歧义进行消解。本文指代歧义消解实例印证了：(1)推演树中的-标签不仅可以提供所讨论的成分的语义表示，而且还可以记录其证明历史；(2)如果同一个语句有两个不等价的证明，那么此语句就有两种不同的歧义解读。

由于汉语语序灵活、语义复杂、指代歧义句众多等原因，对汉语进行计算机信息处理仍然任重道远，希望本文的研究能够起到抛砖引玉的作用。