基于广义量词单调性的自然语言推理模式研究
2015-12-18黄朝阳张晓君
黄朝阳,张晓君
广义量词理论(generalized quantifier theory)是在一阶逻辑和模型论的基础上发展起来的自然语言逻辑理论,是表达力较强的逻辑工具,具有诸多重要的研究成果和广泛的用途。该理论主要通过广义量词的真值定义,来表达广义量词所涉及的论元集合的性质或不同论元集合之间的关系,以达到表达广义量词的逻辑推理性质和普遍语义性质的目的。利用广义量词各种语义性质(比如:单调性、对称性、驻留性等)及其相互关系,以及广义量词与其三种否定量词的语义性质之间的关系,可以解释并证明广义三段论(包括传统三段论)的有效性和可化归关系①张晓君:《广义量词理论研究》,厦门:厦门大学出版社,2014年,第166~189页。。因此,在一阶逻辑基础上发展起来的广义量词理论,大大提升了一阶逻辑处理现实问题的能力②张晓君:《广义量词的各种单调性之间的关系》,《安徽大学学报(哲社版)》2012年第5期。。也因此,作为重要逻辑工具的广义量词理论,在计算机科学中的知识表示、知识推理和自然语言信息处理等方面,都具有重要的理论意义和广泛的应用价值。
要对自然语言所携带的信息进行计算机处理,就需要对自然语言的基本单位——常常以词语形式出现的广义量词的意义进行精准的形式刻画。通常的语言学对词语意义的解释和描述是模糊不清的,因此,我们需要突破语言学的方法来解释词语的意义。经过长期的研究发现,利用数学的方法和其他非语言学的方法,可以较为精确地解释自然语言中普遍存在的广义量词的意义。事实上,广义量词理论不但可以精确地表达广义量词本身的意义,而且还可以精确地表达更广范围内的非逻辑表达式(比如,时态和时间副词、模态和态度动词以及一些不能够显性量化的名词短语等)的意义。广义量词理论不仅可以对自然语言进行逻辑推演,而且还可以对自然语言进行精确的计算与信息的表达和处理。因此,该理论对自然语言的计算机自动分析有着重要的影响。从目前来看,广义量词理论已经成为现代逻辑学、语言学(包括计算语言学)、信息科学、哲学、认知科学等交叉领域的重点研究内容之一。
一、广义量词理论概况
20世纪初,逻辑学家在研究全称量词∀和存在量词∃这两个标准量词的基础上,逐步形成了经典的一阶逻辑理论。20世纪中期以来,伴随逻辑学和计算机科学日新月异的发展,一些逻辑学家和语言学家逐渐发现:(1)在自然语言中,存在大量具有非常有趣的数学推理性质的量词,但是这些量词却不能用一阶逻辑中的全称量词∀和存在量词∃加以定义①A.Mostowski,On a Generalization of Quantifiers,Fund.Math.,no.44,1957,pp.12-36.;(2)在自然语言中,还存在传统三段论无法解释的大量有效的广义三段论推理。20世纪末期,Barwise和Cooper参照Montague的观点,把数理逻辑的研究范围推广到广义量词,并研究了自然语言中的量化特征②J.Barwise,R.Cooper,Generalized Quantifiers and Natural Language,Linguistics and Philosophy,vol.4,no.2,1981,pp.159-219.。之后,在Keenan③E.L.Keenan,The Semantics of Determiners,in Shalom Lappin(Ed.),The Handbook of Contemporary Semantic Theory,Oxford:Blackwell Publishing,1997.、Barwise和Cooper④J.Barwise,R.Cooper,Generalized Quantifiers and Natural Language,in S.Davis and B.Gillon(Eds.),Semantics:A Reader,Oxford:Oxford University Press,2004,pp.482-525.、van Eijck⑤J.van Eijck,Syllogistics=Monotonicity+Symmetry+ Existential Import,http://www.oai.cwi.nl/oai/asset/10940/10940D.pdf,2005.、Peters 和 Westerståhl⑥S.Peters,D.Westerståhl,Quantifiers in Language and Logic,Oxford:Claredon Press,2006.、Szymanik⑦J.Szymanik,Quantifiers in Time and Space,Polen:Geboren te Warschau ,2009.、Chow Ka Fat⑧Chow Ka Fat,Inferential Patterns of Generalized Quantifiers and Their Applications to Scalar Reasoning,Ph.D.dissertation,Hong Kong Polytechnic University,2012.等人工作的基础上,广义量词理论得到空前的发展。这些研究表明:广义量词理论虽然是经典一阶逻辑理论的延伸和扩展,但是它更加注重广义量词的逻辑推理特征和普遍语义性质的表达⑨M.Manzano,Extensions of First Order Logic,Cambridge:Cambridge University Press,1996,pp.66-68.。这一理论除了适用于原有的一阶逻辑中的标准量词,而且还可以表达和定义诸多标准量词无法表达的非标准量词⑩丁国旗:《广义量词及其单调性》,《山东外语教学》2001年第3期。。
广义量词既包括限定词、一阶逻辑的全称量词∀和存在量词∃,还包括由限定词“a”“an”“the”和其他量化关系指称所形成的所有名词短语。比如,“正好五个学生”“他的手机”“所有的星球”“没有”“超过七分之三”“几个”“两者都不”“一打的”“不超过五个的”“大多数的”“少于一半的”等都是广义量词。限定词或名词短语是语法概念,而广义量词则是语义概念。对自然语言中的名词短语或限定词进行语义解释后,可以得到集合论中的广义量词。“严格地说,名词短语或限定词的指称对应于广义量词”⑪张晓君:《广义量词理论研究》,第39页。。本文中,A、B、C表示广义量词所涉及的论元组成的集合,E表示所讨论的论域;若无特别说明,量词都指广义量词。
“广义量词理论是外延性的语义理论”⑫L.T.F.Gamut,Intensional Logic and Logical Grammar,Chicago:University of Chicago Press,1991,pp.222-245.。“从语法的角度来看,一个广义量词就是一个变元约束算子”⑬张晓君:《广义量词的相关性质研究》,《逻辑学研究》2010年第3期。,揭示了广义量词的定义域与该定义域的任意子集间的二元关系。“从语义的角度来看,一个广义量词就是一个映射,通过揭示广义量词的论元集合的性质或论元集合之间的关系来描述广义量词的语义性质”⑭张晓君、林胜强:《基于广义量词理论的直言三段论推理规则的形式化辨析》,《中国社会科学院研究生院学报》2015年第1期。。因而,利用标准模型论可以对广义量词进行形式化表述。简言之,广义量词的普遍语义性质和逻辑推理特征,“主要是通过揭示广义量词所涉及的论元集合的性质或不同论元集合之间的关系来加以表达”①张晓君:《广义量词理论研究》,第7~8页。。笔者认为,正是这一做法,才使得广义量词理论能够成批量地处理自然语言中有关量词的普遍语义性质和逻辑推理性质。
二、相关背景知识
广义量词可以按照集合论运算中有多少论元或论元是什么的标准,而被划分为〈1〉类型量词、〈1,1 〉类型量词以及〈1,1,1 〉类型量词等。“〈1〉类型量词表示广义量词涉及的论元集合的性质,〈1,1〉类型量词表示广义量词左、右两个论元所涉及的集合之间的二元关系。自然语言中存在最普遍的广义量词是〈1〉类型量词和〈1,1〉类型量词。常见的名词短语对应于〈1〉类型量词,绝大多数限定词对应于〈1,1〉类型量词”②张晓君:《广义量词的各种单调性之间的关系》,《安徽大学学报(哲社版)》2012年第5期。。由于对〈1〉类型量词的研究可以转化为对其〈1,1〉类型的亲缘量词的研究,因此,本文研究的重点是〈1,1 〉类型量词。含有〈1 〉类型量词的语句具有Q(A)这样的结构,而含有〈1,1〉类型量词的语句具有Q(A,B)这样的三分结构。这些结构在自然语言中非常普遍。
例如,在“至少七分之四以上的人都希望拥有自己的房子”中,“至少七分之四以上的人”是〈1〉类型量词。该语句具有Q(A)这样的结构,A表示“至少七分之四以上的人”组成的集合,“至少七分之四以上的人”这一〈1〉类型广义量词具有“希望拥有自己的房子”这样的性质;而“至少七分之四以上的”则是〈1,1〉类型量词,该量词的真值定义揭示了集合之间这样的二元关系:QE(A,B)⇔|A∩B|≥4/7|A|,即该量词的限制论元A与其辖域论元B具有这样的二元关系:A与B交集的基数大于或等于A的基数的七分之四。显然,对“至少七分之四以上的人”这一〈1〉类型量词的研究,可以转化为对其亲缘量词“至少七分之四以上的”这一〈1,1〉类型量词的研究。
广义量词Q有三种否定运算:外否定¬Q、内否定Q¬和对偶否定Qd。利用广义量词及其三种否定量词之间的关系,可以解释和证明诸多广义三段论的有效性及其可化归关系③张晓君:《广义量词理论研究》,第166~189页。。
定义1 〈1,1〉类型量词的三种否定运算④S.Peters,D.Westerståhl,Quantifiers in Language and Logic,pp.130-132.
令Q是一个〈1,1〉类型量词,E是一个论域,且 A、B ⊆E,定义:
(1)(¬Q)E(A,B)⇔非QE(A,B);
(2)(Q¬)E(A,B)⇔QE(A,E-B);
(3)(Qd)E(A,B)⇔¬(Q ¬)E(A,B)⇔(¬Q)E¬(A,B)。
其中,¬Q表示Q的外否定量词,Q¬表示Q的内否定量词,Qd表示Q的对偶否定量词。
广义量词的性质主要有:同构闭包性、驻留性、单调性、对称性、相交性和逻辑性。单调性是广义量词最重要的语义性质。具有单调性的量词都具有驻留性⑤S.Peters,D.Westerståhl,Quantifiers in Language and Logic,pp.178-179.。利用广义量词的语义性质可解释或判断自然语言中的诸多推理的有效性⑥张晓君:《扩展三段论的可化归性与广义量词的语义性质之间的关系》,《逻辑学研究》2012年第2期。。
定义2 〈1,1〉类型量词的驻留性
对任意的〈1,1〉类型量词Q而言,Q是驻留的(conservative),当且仅当,对所有的论域E和所有的A、B ⊆E,QE(A,B)⇔QE(A,A∩B)。
在汉语中,很多〈1,1〉类型量词都具有驻留性。例如:
(1)大多数女人都喜欢看爱情剧。⇔大多数女人都是喜欢看爱情剧的女人。
(2)10%以上的市民家庭月收入过万。⇔10%以上的市民家庭是收入过万的市民家庭。
定义3 〈1,1〉类型量词的单调性
令E是任意的论域,对任意〈1,1〉类型量词Q而言:
(1)Q是右单调递增的,当且仅当:如果B⊆C ⊆E,那么 QE(A,B)⇒QE(A,C)
(2)Q是右单调递减的,当且仅当:如果B⊆C ⊆E,那么 QE(A,C)⇒QE(A,B)。
(3)Q是左单调递增的,当且仅当:如果B⊆C ⊆E,那么 QE(B,A)⇒QE(C,A)。
(4)Q是左单调递减的,当且仅当:如果B⊆C ⊆E,那么 QE(C,A)⇒QE(B,A)。
三、关于<1,1>类型广义量词的若干事实和推论
通过深入的研究,笔者发现:自然语言推理模式与广义量词的单调性之间具有密切的关系,即我们可以通过广义量词的左或右单调递增或递减的性质,来解释或判断自然语言推理模式的有效性。笔者在Peters和Westerståhl和Chow Ka Fat等学者相关研究文献的基础上,总结出关于〈1,1〉类型广义量词的十二个事实和十二个推论。具体如下:
事实1:如果Q是右单调递增的且B⊆C⊆E,那么¬QE(A,C)⇒¬QE(A,B)。
证明:令A,B是任意的集合,E是所讨论的论域,Q是〈1,1〉类型量词。先从左到右证,如果〈1,1〉类型量词QE是右单调递增的,根据单调性定义3(1)知,对所有的 B⊆C⊆E,QE(A,B)⇒QE(A,C),那么¬QE(A,C)⇒¬QE(A,B)。再从右到左证,如果B⊆C⊆E且¬QE(A,C)⇒¬QE(A,B),那么¬¬QE(A,B)⇒¬¬QE(A,C),即QE(A,B)⇒QE(A,C)。也就是说,对所有的 A ⊆C⊆E,QE(A,B)⇒QE(A,C),根据单调性定义3的(1)可知,Q是右单调递增的。结论得证。
以下其他所有定理的证明与此类似。根据事实1可得推论1。
推论1:由于some是右单调递增的,如果假设 B ⊆C ⊆E,且令 Q=some,则¬Q=no,那么no(A,C)⇒no(A,B)。
实例1:很显然,如果“有些人以吃苹果为生”成立,那么“有些人以吃水果为生”也成立。如果令A是论域E中所有人组成的集合,B是所有以吃苹果为生的人组成的集合,C是所有以吃水果为生的人组成的集合,很显然,B⊆C⊆E,根据单调性定义3(1)可知,“some”是右单调递增的。再根据推论1可知,no(A,C)⇒no(A,B)。具体地说,就是:如果“没有人以吃水果为生”成立,那么“没有人以吃苹果为生”也成立。
事实2:如果Q是右单调递增的且B⊆C⊆E,那么(Q ¬)E(A,C)⇒(Q¬)E(A,B)。
推论2:由于most是右单调递增的,如果假设 B ⊆C ⊆E,且令 Q=most,则 Q ¬=fewer than half of the,那么 fewer than half of the(A,C)⇒fewer than half of the(A,B)。
实例2:显然,如果“大多数学生早早地离开了教室”成立,那么“大多数学生离开了教室”也成立。如果令A是论域E中所有学生组成的集合,B是所有早早地离开了教室的学生所组成的集合,C是离开了教室的学生所组成的集合,而且B⊆C⊆E,根据单调性定义3(1)可知,“most”是右单调递增的。再根据推论2可知,fewer than half of the(A,C)⇒fewer than half of the(A,B)。具体地说,就是:如果“不到一半的学生离开了教室”成立,那么“不到一半的学生早早地离开了教室”也成立。
事实3:如果Q是右单调递增的且B⊆C⊆E,那么(Qd)E(A,C)⇒(Qd)E(A,B)。
推论3:由于most是右单调递增的,如果假设 B ⊆C ⊆E,且令 Q=most,则 Qd=at most half of the,那么 at most half of the(A,C)⇒at most half of the(A,B)。
实例3:根据实例2可知,most是右单调递增的。根据推论3可知,如果“最多一半的学生离开了教室”成立,那么“最多一半的学生早早地离开了教室”也成立。
事实4:如果Q是右单调递减的且B⊆C⊆E,那么(¬Q)E(A,B)⇒(¬Q)E(A,C)。
推论4:由于fewer than half of the是右单调递减的,如果假设 B⊆C⊆E,且令 Q=fewer than half of the,则¬Q=at least half of the,那么at least half of the(A,B)⇒at least half of the(A,C)。
实例4:如果“不到一半的花是靠昆虫授粉”成立,那么“不到一半的花是靠蜜蜂授粉”也成立。如果令A是论域E中所有花组成的集合,B是所有靠蜜蜂授粉的花所组成的集合,C是所有靠昆虫授粉的花所组成的集合,很显然,B ⊆C ⊆E,根据单调性定义3(2)可知,“fewer than half of the”是右单调递减的。再根据推论4可知,at least half of the(A,B)⇒at least half of the(A,C)。具体地说,就是:如果“至少一半的花是靠蜜蜂授粉”成立,那么“至少一半的花是靠昆虫授粉”也成立。
事实5:如果Q是右单调递减的且B⊆C⊆E,那么(Q ¬)E(A,B)⇒(Q ¬)E(A,C)。
推论5:由于at most n(n为自然数)是右单调递减的,如果假设B⊆C⊆E,且令Q=at most n,则 Q ¬=all but at most n,那么all but at most n(A,B)⇒all but at most n(A,C)。
实例5:如果“班上最多三个学生抽过烟”成立,那么“班上最多三个学生抽过雪茄”也成立。如果令A是班上所有学生组成的集合,B是所有抽过雪茄的学生组成的集合,C是所有抽过烟的学生组成的集合,很显然,B⊆C⊆E,根据单调性定义3(2)可知,“at most n”是右单调递减的。再根据推论5可知,all but at most n(A,B)⇒all but at most n(A,C)。具体地说,就是:如果“班上最多除了三个学生以外的所有学生都抽过雪茄”成立,那么“班上最多除了三个学生以外的所有学生都抽过烟”也成立。
事实6:如果Q是右单调递减的且B⊆C⊆E,那么(Qd)E(A,C)⇒(Qd)E(A,B)。
推论6:由于at most n(n为自然数)是右单调递减的,如果假设B⊆C⊆E,且令Q=at most n,则Qd=less than n,那么less than n(A,C)⇒less than n(A,B)。
实例6:根据实例5可知,“at most n”是右单调递减的。再根据推论6可知,less than n(A,C)⇒less than n(A,B)。具体地说,就是:如果“班上不到三个学生抽过烟”成立,那么“班上不到三个学生抽过雪茄”也成立。
事实7:如果Q是左单调递增的且B⊆C⊆E,那么(¬Q)E(C,A)⇒(¬Q)E(B,A)。
推论7:由于some是左单调递增的,如果假设 B ⊆C ⊆E,且令 Q=some,则¬Q=no,那么no(C,A)⇒no(B,A)。
实例7:如果“有些女人以吃水果为生”成立,那么“有些人以吃水果为生”也成立。如果令A是论域E中以吃水果为生的人组成的集合,B是论域中所有女人组成的集合,C是论域中所有的人组成的集合,很显然,B⊆C⊆E,根据单调性定义3(3)可知,“some”是左单调递增的。再根据推论7可知,no(C,A)⇒no(B,A)。具体地说,就是:如果“没有人以吃水果为生”成立,那么“没有女人以吃水果为生”也成立。
事实8:如果Q是左单调递增的且B⊆C⊆E,那么(Q ¬)E(B,A)⇒(Q ¬)E(C,A)。
推论8:由于some是左单调递增的,如果假设 B ⊆C ⊆E,且令 Q=some,则 Q ¬=not all,那么not all(B,A)⇒not all(C,A)。
实例8:实例7已经说明,“some”是左单调递增的。再根据推论8可知,not all(B,A)⇒not all(C,A)。具体地说,就是:如果“并非所有的女人以吃水果为生”成立,那么“并非所有的人以吃水果为生”也成立。
事实9:如果Q是左单调递增的且B⊆C⊆E,那么(Qd)E(C,A)⇒(Qd)E(B,A)。
推论9:由于some是左单调递增的,如果假设 B ⊆C ⊆E,且令 Q=some,则 Qd=all,那么all(C,A)⇒all(B,A)。
实例9:实例7已经说明,“some”是左单调递增的。再根据推论9可知,all(C,A)⇒all(B,A)。具体地说,就是:如果“所有人以吃水果为生”成立,那么“所有女人以吃水果为生”也成立。
事实10:如果Q是左单调递减的且B⊆C⊆E,那么(¬Q)E(B,A)⇒(¬Q)E(C,A)。
推论10:由于at most n(n为自然数)是左单调递减的,如果假设B⊆C⊆E,且令Q=at most n,则¬Q=more than n,那么 more than n(B,A)⇒more than n(C,A)。
实例10:如果“最多五辆小轿车到达了婚礼现场”成立,那么“最多五辆红色的小轿车到达了婚礼现场”也成立。如果令A是论域E中到达婚礼现场的所有交通工具组成的集合,B是论域中所有到达婚礼现场的红色小轿车组成的集合,C是论域中所有到达婚礼现场的小轿车组成的集合,很显然,B⊆C⊆E,根据单调性定义3(4)可知,“at most n”是左单调递减的。再根据推论10可知,more than n(B,A)⇒more than n(C,A)。具体地说,就是:如果“超过五辆红色小轿车到达了婚礼现场”成立,那么“超过五辆小轿车到达了婚礼现场”也成立。
事实11:如果Q是左单调递减的且B⊆C⊆E,那么(Q ¬)E(C,A)⇒(Q ¬)E(B,A)。
推论11:由于at most n(n为自然数)是左单调递减的,如果假设B⊆C⊆E,且令 Q=at most n,则 Q ¬=all but at most n,那么all but at most n(C,A)⇒all but at most n(B,A)。
实例11:实例10已经说明,“at most n”是左单调递减的。再根据推论11可知,all but at most n(C,A)⇒all but at most n(B,A)。具体地说,就是:如果“最多除了五辆小轿车之外的所有小轿车到达了婚礼现场”成立,那么“最多除了五辆小轿车之外的所有红色小轿车到达了婚礼现场”也成立。
事实12:如果Q是左单调递减的且B⊆C⊆E,那么(Qd)E(C,A)⇒(Qd)E(B,A)
推论12:由于at most n(n为自然数)是左单调递减的,如果假设B⊆C⊆E,且令 Q=at most n,则 Qd=less than n,那么 less than n(C,A)⇒less than n(B,A)。
实例12:实例10已经说明,“at most n”是左单调递减的。再根据推论12可知,less than n(C,A)⇒less than n(B,A)。具体地说,就是:如果“不到五辆小轿车到达了婚礼现场”成立,那么“不到五辆红色小轿车到达了婚礼现场”也成立。
四、结 语
从以上的论述可以看出,基于广义量词理论的自然语言推理模式的研究显得非常直观明了,而且,这些推理对具有良好逻辑思维的人而言似乎是顺理成章的,并不存在很大的困难。然而,这些推理对我们人类是如此容易方便,并不意味着对人类制造的计算机也是如此。要使计算机或智能机器人(如取款机)能够顺利地进行这些推理,我们不得不将这些自然语言的推理模式加以形式化,否则,它们就完全不能识别,更不用说自动去完成这些推理。本文给出的事实对所有满足相应单调性的广义量词而言,其推理模式都是适用的,因而可以成批量地处理自然语言推理。这将十分有助于提高逻辑处理现实中推理问题的效率。要研发更高智能的计算机或机器人,就需要研发更先进的推理机,因而也就需要对自然语言推理模式加以深入的研究。