自然语言逻辑语义学研究述评
2016-04-22姚从军邹崇理湖南科技学院马克思主义学院湖南永州4599中国社会科学院哲学所北京0073
姚从军,邹崇理(.湖南科技学院马克思主义学院,湖南永州 4599;.中国社会科学院哲学所,北京 0073)
自然语言逻辑语义学研究述评
姚从军1,邹崇理2
(1.湖南科技学院马克思主义学院,湖南永州 425199;2.中国社会科学院哲学所,北京 100732)
[摘要]自然语言的逻辑语义学是逻辑学、语言学和计算机科学的跨学科交叉研究的产物,研究的对象是自然语言,研究的方法涉及逻辑和计算的概念。近十来年,逻辑语义学的跨学科研究方兴未艾,其中有较大影响的要数范畴语法的三个现代版本的发展:范畴类型逻辑CTL、组合范畴语法CCG和非连续兰贝克演算DLC。CTL是从逻辑的高度概括分析语言的形式工具的学说,CCG是基于特定规则而关注语言事实分析需求的形式语法,DLC是专门分析语言中非连续现象的形式理论。本述评阐述的就是范畴语法三个现代版本的国内外发展概况。
[关键词]逻辑语义学;信息处理;自然语言
湖南省重点建设学科“思想政治教育”资助,湘教发[2011]76号;湖南省社科基金项目(14YBA174)
邹崇理(1953-),男,四川成都人,博士生导师,主要从事自然语言逻辑研究。
一、自然语言逻辑语义学的背景
逻辑学是人文社会科学和自然科学共同的基础学科。逻辑学在联合国教科文组织确定的七大基础学科中位居第二,仅次于数学。怀特海(Whitehead)甚至认为,没有逻辑就没有科学。爱因斯坦指出:“西方科学的发展是以两个伟大的成就为基础,那就是:希腊哲学家发明形式逻辑体系(在欧几里得几何学中),以及通过系统的实验发现有可能找出的因果关系(在文艺复兴时期)。”[1]
20世纪中叶以来,计算机科学技术的迅猛发展导致席卷全球的信息革命,而自然语言是信息的重要载体之一,信息革命离不开自然语言的计算机处理。今天,生活在信息时代的人们都要或多或少使用自然语言计算机处理的研究成果来获取互联网上的各种知识和信息。而逻辑在自然语言的信息处理过程中发挥着巨大作用。
自然语言的计算机信息处理的过程是:第一,用数学或逻辑手段把需要研究的语言学问题形式化;第二,把这种形式化的表述编制成算法;第三,基于算法编写程序,使之在计算机上加以实现,从而建立各种自然语言处理系统;第四,对自然语言处理系统进行评测,不断改进质量和性能。上述过程的第二步是自然语言逻辑语义学发挥作用的地方,自然语言逻辑语义学的研究是计算机对自然语言进行信息处理的先导工作和理论基础。
逻辑语义学是自然语言信息处理研究的基础理论学科,前者为后者提供了诸多重要的操作工具和指导思想。从逻辑语义学角度对自然语言进行形式化研究,其成果对自然语言的信息处理领域产生影响,可拓宽计算机对自然语言进行信息处理的思路,并提高处理的效率。比如,在范畴语法的现代版本之一——组合范畴语法CCG中,自然语言的句法和语义之间有一个透明接口,表现在:先给自然语言语词赋予一个由句法范畴和语义词项构成的词条,接下来的推演中,语词毗连就转换成句法范畴和语义词项两条线索的并行推演,结果得到新的句法范畴和语义词项。在许多形式语言学理论自动分析中,基于CCG设计的自然语言计算机分析器分析速度是最快的。“2009年在约翰霍普金斯大学举行的夏季研讨班(JHU Summer School 2009)上,研究人员通过采用优化的句法分析算法,使CCG句法分析在维基百科(Wikipedia)语料上达到每秒超过100句的分析速度”[2],而基于中心语驱动语法的计算机分析器处理一个语句就需要几秒钟。
二、自然语言逻辑语义学国内外研究现状
20世纪90年代以来,欧美国家先后成立了面向自然语言信息处理的跨学科研究机构,其中包括姆斯特丹大学的逻辑、语言和计算研究所。该所还创办了《逻辑、语言和信息》期刊。以这些研究机构和期刊为基础,欧洲每年举办“逻辑、语言和信息”暑期研讨班。这种逻辑学、语言学和计算机科学的交叉研究在西方近二十年来发展迅猛。与西方相比,国内总体上差距较大,但也出现可喜端倪,如中国社科院哲学所、中山大学和北京语言大学等单位已产生一批跨学科研究的初步成果。
自然语言逻辑语义学的跨学科研究集中体现在目前有较大影响的范畴语法的三个现代版本的发展:范畴类型逻辑CTL、组合范畴语法CCG和非连续兰贝克演算DLC。我们评述的是三个现代版本的发展概况,这种概述只是国内外研究现状的一瞥,挂一漏万在所难免。
范畴类型逻辑CTL是基于逻辑推演概念的研究产物,主要关注范畴逻辑系统的构造和系统逻辑性质的讨论,最早的成果是1958年兰贝克(Lambek)[3]给出的兰贝克演算L。范丙申指出,兰贝克演算作为一种弱的子结构逻辑对应简单类型λ-演算,这种思想为范畴语法提供了一个非常自然的句法—语义接口,开创了类型逻辑语义学[4]。之后,许多逻辑和语言学家尝试向兰贝克演算L添加范畴算子或联结词,对L加以扩张,如莫哈特(Moortgat)[5-6]、卡彭特(Carpenter)[7]。
新世纪的CTL研究有:范畴类型逻辑的核心是范畴算子,伴随范畴语法产生的起函项作用的斜线算子提出已经历经了半个多世纪,而由贾格尔提出的处理照应回指现象的竖线算子“|”仅有不足十年的光景,据此构造了受限的兰贝克演算系统LLC[8]。其次,波兰的资深专家布斯兹科乌斯基(Buszkowski)教授等人[9],在非结合的兰贝克演算NL中增加了两个加法联结词∩(交,“and”)和∪(并,“or”)及相关联结词的四个规则、加法常项⊥和Т及相应的两条公理、乘积常量1和0及相应的规则和定义,提出了完全的非结合兰贝克演算。为此构造了多类模型。如代数模型中的剩余半群、剩余广群、剩余幺半群、剩余酉群等模型,证明了各种完全的兰贝克演算的强完全性。此外,通过增加范畴算子来提升兰贝克演算NL生成能力的途径还产生了兰贝克-格里辛演算(Lambek-Grishin Calculus)LG,LG增加了三个与传统范畴算子对偶的新算子:
据此确立了4组包括交互公理在内的非逻辑公理。贝纳蒂和莫哈特(Bernardi& Moortgat)[10]用LG分析量词的辖域歧义性。麦立森(Melissen)[11]表明,使用类型Ⅳ交互公理扩展NL得到的LG的表达力已经超出了词汇树毗连语法LTAG。阿诺(Arno)[12]将其应用于量词辖域歧义性的研究,并得出结论:即使省略格里辛的交互公理,基础逻辑LGø足以推出一个语句所有可能的组合辖域解读。
CTL在国内尚处于引介阶段。邹崇理在其专著《自然语言逻辑研究》[13]中最早介绍了CTL;之后,张秋成的《类型—逻辑语法研究》[14]和邹崇理的《范畴类型逻辑》[15]都专门对CTL做了更深入细致的讨论,并将其应用于对汉语的分析和描写。近十年来,CTL的受关注程度日渐增高,逐渐呈现多元化的发展特点[16],还有关于计算机程序的应用研究(秦莉娟、周昌乐[17],丁胜彬[18])。
近年关于CTL的国内研究有所深化:2009年刘冬宁设计的并发Lambek时态演算系统和模态Lambek演算系统,用来解决“John works yesterday”之类句子的“时态语法错误”问题[19]。2013年贾青在其博士后出站报告中为解决汉语返身代词回指照应问题提出的多模态范畴类型逻辑系统MMLLC[20],2014年满海霞基于贾格尔的LLC而提出了LLCW′系统,用于解决汉语的照应省略现象[21],2014年邹崇理提出了基于多分法的范畴类型逻辑系统,该系统是Lambek演算的一种变异,是对形式语法理论格语言分析方式的范畴逻辑提升,对自然语言中适用于多分法的哪些现象起到提高分析效率的作用[22]。
组合范畴语法CCG是为满足计算机信息处理需求而制定的自然语言语法,更加关注语言事实,其优势主要在于信息处理上。国际上对于组合范畴语法的讨论已经比较完善,有理论基础方面的讨论:斯蒂德曼(Steedman)[23]、麦康维尔(McConville)[24];有关于词库构造的讨论:麦康维尔[24]、博萨金(Bozsahin)[25];有组合范畴语法语义的构:斯蒂德曼[26]、鲍德里奇(Baldridge)和克鲁伊夫(Kruijff)[27];还有组合范畴语法的计算应用研究,霍肯莫尔(Hockenmaier)首先在宾州英文树库(PTB)上自动转换生成英文CCG树库;特斯(Tse)使用霍肯莫尔的算法,从宾州中文树库(CTB)转换出中文CCG树库[28]。
近年来,CCG创始人斯蒂德曼2012年出版的专著[29]在组合范畴语法框架下提出了一条全新的量词研究思路,只承认全称量词及其亲缘量词的量词地位,其他传统量词均被处理为广义的斯科林函项,语句的两种歧义由斯科林项的常元与变元两种取值生成,构造了基于Skolem项的逻辑系统,巧妙地解决了传统做法所面临的各种问题(如量词辖域歧义句问题),避免了驴子句悖论,语义生成效果理想,开辟了量词辖域研究的新思路。
在国内,组合范畴语法研究刚刚开始,几篇引介性文章有:邹崇理[30]、冯志伟[31]、姚从军[32];满海霞研究了组合范畴语法的计算性特征[33]及运用组合范畴语法分析汉语的“把”字句[34]和“有”[35],李可胜等探讨了汉语CCG研究中的句法和语义的对应性[36];在组合范畴语法的计算应用上,微软亚洲研究院黄昌宁教授和宋彦、周强等在清华中文树库TCT的基础上,通过自动转换方式实现了中文CCGbank的构建[37],目前已完成第二阶段提取隐形谓词-论元角色的工作。
关于CCG的国内研究,近年来更深入的成果是姚从军的工作[38]:一是处理非连续现象,汉语有三种非连续现象:NCC(non——constituent conjunction)结构,话题句和TVP(transitive verb phrase)结构。为处理汉语的话题句,姚从军扩展了范畴类型,用它们表示不同种类话题成分的范畴,贯彻了范畴语法大词库、小规则的原则,体现了范畴语法跨语言不变性特征。二是在CCG框架内处理汉语的照应和省略现象,以及汉语的形容词谓语句和主谓谓语句。三是在CCG句法推演时匹配了语义运算,一定程度弥补了周强等计算机专家使用CCG处理汉语语句时语义运算的缺失。
非连续兰贝克演算DLC是Morrill用于解决自然语言中的非连续现象形成的理论成果。自然语言中的短语动词、习语、定语从句、量词辖域、断裂句现象等都显示出非连续结构,非连续结构是自然语言普遍存在的一种现象,其典型特征是“句法结构和语义结构不匹配”,是对句法和语义对应的组合原则的挑战,以古典兰贝克演算为核心的范畴类型逻辑没有足够的手段来处理此类现象。为了生成和解释这些非连续现象,范畴语法学家们先后提出了“内包操作”、域算子、提取算子等方案,但都不够系统,往往只是针对部分的非连续现象。为了系统地处理非连续现象,莫里尔(Morrill)[39]提出了非连续兰贝克演算DLC。DLC不是对古典兰贝克演算的局部修正或补充,而是一个幂级的整体扩展,它不针对某一个非连续现象,而是对各种各样的非连续现象做统一处理。
运用DLC处理自然语言各种复杂结构的工作近年已经开展起来,莫里尔处理了中间提取、裹挟移动、照应、自反化等诸多英语不连续结构[39],国内的王欣[40]则处理了现代汉语的习语、非成分并列、缺口句以及反身代词“自己”等几种不连续结构。
三、自然语言逻辑语义学研究面临的挑战
自然语言逻辑语义学的最大特色是逻辑、语言和计算的跨学科交叉研究。这个特色面临的挑战是不同学科的不同兴趣需求如何互相融洽的问题。CTL具有在逻辑领域抽象深化的趋势,关注的问题是逻辑系统本身的元逻辑性质,而渐渐远离了所要解决的自然语言问题。而CCG非常强调计算机信息处理所需要的商业开发价值,即要求处理的语言现象必须具备“真实文本”和“大规模”的特点,对逻辑工具本身的探讨不感兴趣。而跨学科研究的语言学特质则要求理论研究不仅仅具有对语言的描述性,更看重的是对语言的解释性。不同学科看待问题的视角各有长短,逻辑视角的特点是刻画精准严格但处理的对象范围相对较窄,而语言学角度的特征是囊括的现象丰富多样但描述的精确性不够。如果三大领域都各自站在自家的立场自恋自赏,只顾各自感兴趣的题材,研究容易分道扬镳,跨学科的共同目标便会渐行渐远。因此,自然语言逻辑语义学面临的最大挑战就是三大领域进行沟通和融洽的问题,即始终积极努力去寻找平衡的视角点,据此既能一定程度顾及抽象的元逻辑性质讨论,又能考虑到语言学的理论解释力,甚至服务于计算机信息处理所谓“真实文本”和“大规模”的需求。
其次,自然语言逻辑语义学研究存在许多思想观念层面的问题。如前述的CTL、CCG和DLC同属于范畴语法,范畴语法坚持的组合原则和单层结构思想,在具体的研究中经常受到质疑。自然语言自身的非连续结构和非连续的兰贝克演算DLC系统就是对句法和语义对应思想的挑战,自然语言句法形态始终表现为连续的符号串,出于语义分析的需要才把某些符号串人为分割开,这里句法和语义对应不起来。CTL中主张结合和交换结构性质的LP系统也是对单层结构思想的某种超越,因为在范畴语法眼中的自然语言对象只有就近毗连的一个层面,可以交换的结构显然就不是单一的结构。怎样在理论上重新认识范畴语法的组合原则和单层结构思想,将是未来自然语言逻辑语义学思考的问题。
再次,自然语言逻辑语义学研究还存在许多待解决的语言问题,如大量非连续的复合量化句中的多元量词问题,自然语言中使用代词等索引词的表达式占全部表达式的70%以上,从逻辑视角刻画各类索引词所涉及的各种照应回指现象,也是CTL和CCG需要深入开展的工作。
最后谈谈自然语言逻辑语义学应用于汉语所面临的困难。第一,汉语作为一种非形态语言,在句法上缺少严格的形态标记,但汉语语义的“意合特性”某种程度可以弥补句法的不足。怎样从逻辑语义学角度描述汉语的意合性,怎样在范畴语法规则的设置上揭示汉语语义与句法的对应规律,是逻辑语义学面临的一大难题。第二,汉语的连动句、兼语句和致使句等多动词句表现出大量的省略现象,这涉及到非连续现象,汉语的一些复合量化表达式和介词词组也属于非连续现象。在作为逻辑语义学重要分支的DLC框架内处理汉语的省略现象和非连续现象是有待研究的难题之一。第三,黄昌宁教授等使用标准算法完成了清华中文树库(TCT) 中32 737个句子的CCG树库的转换,对于未能转换的33个语句,需要分析其原因,尝试提出解决方案。况且所获得的中文CCG树库以及使用霍肯莫尔算法从宾州中文树库(CTB)转换出的中文CCG树库都没有配备作为语义解释的λ-项,这是一个难啃的硬骨头,需要做大量的研究工作。
[参考文献]
[1]爱因斯坦.爱因斯坦文集(第1卷)[M].北京:商务印书馆,1976:574.
[2]宋彦,黄昌宁,揭春雨.中文CCG树库的构建[J].中文信息学报,2012(3):3-21.
[3]Lambek J.“The Mathematics of Sentence Structure”[J].American Mathematical Monthly,1958(65):154-170.
[4]van Benthem J.The Semantics of Variety in Categorial Grammar[M].Simon Fraser University,Burnaby, 1983.
[5]Moortgat M.Categorial Investigations,Logical and Linguistic Aspects of the Lambek Calculus[M].Foris Dordrecht,1988.
[6]Moortgat M.‘Categorial Type Logics’,in J.van Benthem and A.ter Meulen(eds),Handbook of Logic and Language(chapter 2)[M].Elsevier,MIT Press,1997.
[7]Carpenter B.The Turing-completeness of Multimodal Categorial Grammars,European Summer School in Logic,Language and Information[M].Utrecht,1999.
[8]Jäger G.Anaphora and Type Logical Grammar[M].Springer,2005.
[9]Buszkowski,Wojciech.Full Lambek Calculus and Type Grammars[R].2014第三届亚洲逻辑会议报告,中国广州.
[10]Raffaella Bernadi and Michael Moortgat.Continuation semantics for the Lambek- Grishin calculus[J].Information and Computation,2010,208(5):397-416
[11]Matthijs Melissen.The generative capacity of the Lambek-Grishin calculus:A new lower bound[M].In Philippe de Groote,Markus Egg,and Laura Kallmeyer,editors,Proceedings of Formal Grammar 2009, volume 5591 of Lecture Notes in Computer Science, Springer,2011:118-132
[12]Arno Bastenhof.Polarized montagovian semantics for the Lambek-Grishin calculus[M].In P.de Groote and M-J.Nederhof,editors,Formal Grammar-15thand 16thInternational Conferences.Revised SelectedPapers,volnme 7395 of lecture Notes in Computer Science,Springer,2012:1-12.
[13]邹崇理.自然语言逻辑研究[M].北京:北京大学出版社,2000.
[14]张秋成.类型-逻辑语法研究[M].北京:中国人民大学出版社,2006.
[15]邹崇理.范畴类型逻辑[M].北京:中国社会科学出版社,2008年。
[16]邹崇理.自然语言逻辑的多元化发展及对信息科学的影响[J].哲学研究,2001(1):48-54.
[17]秦莉娟,周昌乐.面向范畴语法分析的汉语词库的构造及实现[J].中文信息学报,2001(3):16-21.
[18]丁胜彬.范畴语法在自然语义分析中的应用[J].电脑知识与技术,2009(9):7728-7729.
[19]鞠实儿,等,著.面向知识表示与推理的自然语言逻辑[M].北京:经济科学出版社,2009:283—315.
[20]满海霞.汉语照应省略的类型逻辑研究[M].北京:对外经济贸易出版社,2014.
[21]贾青.中国社科院哲学所博士后出站报告[R].2014.
[22]邹崇理.基于多分法的范畴类型逻辑[R].社科基金重大课题报告会,2015.
[23]Steedman M.The Syntactic Process[M].The MIT Press,2000.
[24]Mark McConville.The lexicon in combinatory categorial grammar,PhD Proposal[M].Institute for Communicating and Collaborative Systems,School of Informatics,University of Edinburgh,January 2003.
[25]Cem Bozsahin.“Word Order,Word Order Flexibility and the Lexicon(DRAFT v2.0)”[M].(was`Lexical Origins of Word Order and Word Order Flexibility.') In preparation for a chapter in Theoretical Issues in Word Order,S.Ozsoy(ed.),Kluwer.For comments.2005.
[26]Steedman M.ategorialGrammar[A]//Wilson R,Keil F(eds).The MIT Encyclopedia of the Cognitive Sciences[M].Cambridge MA:MIT Press,1999:101-103.
[27]ason Baldridge and Geert-Jan Kruijff.Coupling CCG with Hybrid Logic Dependency Semantics”[M].In Proceedings of ACL 2002,2002.
[28]宋彦,黄昌宁,等.中文CCG树库的构建[J].中文信息学报,2012(3):3-8.
[29]Steedman Mark.Taking scope:the Natural Semantics of Quantifiers[M].Cambridge Mass:MIT press, 2012.
[30]邹崇理.关于组合范畴语法CCG[J].重庆理工大学学报,2011(8):1-5.
[31]冯志伟.范畴语法[J].语言文字应用,2001(3):17-28.
[32]姚从军.组合范畴语法研究述评[J].哲学动态,2012 (8):103-105.
[33]满海霞.组合范畴语法与其计算性特征[J].毕节学院学报,2013(6):50-56.
[34]满海霞.汉语把字句及相关句式的CCG形式计算[J].湖北大学学报,2013(6):42-49.
[35]满海霞.关于逻辑语义学的句法系统[J].安徽大学学报,2014(4):23-28.
[36]李可胜,邹崇理.基于句法和语义对应的汉语CCG研究[J].浙江大学学报,2013(6):132-140.
[37]Huang C N.,Song Y.“Chinese CCGbank Construction from Tsinghua Chinese Treebank”[M].Proceedings of the Roundtable Conference on Linguistic Corpus and Corpus Linguistics in the Chinese Context, Hong Kong,2011.
[38]姚从军.组合范畴语法研究[R].中国社会科学院哲学所博士后出站报告,2014.
[39]Morrill G.Categorial Grammar:Logical Syntax,Semantics,and Processing[M].oxford University Press Inc.,New York,2012:95-217.
[40]王欣.类型逻辑范畴语法研究[M].北京:外语教学与研究出版社,2014.
Review on the Logic Semantics of Natural Language
YAO Cong-jun1,ZOU Chong-li2
(1.College of Marxism,Hunan University of Science and Engineering,Yongzhou,Hunan 425199,China;
2.Institute of Philosophy,Chinese Academy of Social Sciences,Beijing 100732,China)
Abstract:Logical Semantics of natural language(NL)is the hybrid product of the interdisciplinary studies among logic,linguistics and computation science;the object of the studies is NL while the methods it adopts involve the concepts from logic and compute.For the past decade,the logic semantics witnessed its rapid development.The most influential developments are three modern versions of Categorical Logic:CTL,CCG and DLC.CTL is a logical theory which analyzes the formal features of natural language;CCG is a rule-based formal grammar of NL;DLCis a formal theory on those non-continuous phenomena of NL.This paper makes a review on the development of these three versions of CL.
Key words:logical semantics;information processing;natural language
作者简介:姚从军(1971-),男,湖北随州人,副教授,哲学博士,主要从事认识论哲学、现代逻辑学研究;
基金项目:国家社科基金重大项目(10&ZD073);湖南科技学院“十二五”重点建设学科“汉语言文字学”资助;
收稿日期:2016-01-20
DOI:10.16573/j.cnki.1672-934x.2016.02.005
[中图分类号]B81
[文献标志码]A
[文章编号]1672-934X(2016)02-0032-06