《面向自然语言处理的100个语言学要点II:语义、语用篇》评介
2021-03-07上海外国语大学项奇军蒋世玉
上海外国语大学 项奇军 蒋世玉
《面向自然语言处理的100个语言学要点II:语义、语用篇》(LinguisticFundamentalsforNaturalLanguageProcessingII:100EssentialsfromSemanticsandPragmatics)是华盛顿大学Emily M. Bender教授和爱丁堡大学Alex Lescardes教授的合力新作。这两位教授投身自然语言处理(NLP)和语言学的跨学科研究,有着丰富的教学和科研经验。其中Bender教授是中心驱动短语结构语法的领头人,也是该书系中一部广受好评的《形态句法篇》(Bender 2013)的唯一负责人;而Lescardes教授则专攻计算语义学/语用学,是分段式语篇表述理论的核心创始人。
李颖、冯志伟(2015)认为目前主流的基于统计的NLP系统存在不足,必须引入语言学知识来弥补。基于统计的方法虽然在字、句的分析上取得了明显的成果,然而面对篇章处理则明显存在困难。提升NLP系统对篇章的理解和生成效果需要增加语义、语用的考量。该书作为一本手册类书籍,正是为了填补NLP研究者对语义和语用学知识点的缺位,以求提升现行算法的准确率。就该书的主要观点而言,两位作者也都认为语言学知识在NLP中起到不可忽视的基础性作用,理解相关的语言学知识有助于建立新一代的NLP系统。
1. 主要内容
该书共14个章节,涵盖100个语言学要点,由引介、语义篇、语用篇和资源4个部分组成。其中,第一部分包括第1章,第二部分包括2—8章,第三部分包括9—13章,最后一部分包括第14章。
在第1章“引言”中,作者指出当今语义学的研究流派众多,虽然认知语义学、框架语义学等语义学分支近年来风头正盛,但NLP研究应对其保持谨慎的态度,认为以形式化的语义学和语用学为中介是向NLP研究者介绍语言学的正确路径,也是向语言学研究者介绍NLP的不二之选。接着作者简单介绍了语义学和语用学的概念,并在此基础上引导读者了解语义学和语用学与NLP是如何互动的,并说明了形式化的语义和语用是如何帮助构建更好的自然语言理解和自然语言生成系统的。
第2章“什么是意义”是语义学部分的开篇。该章所提及的概念贯穿全书的语义学部分,是理解NLP与语义学关系的基础。作者首先介绍了如何用形式语义学的基本工具对 “意义”进行形式化。接着,作者剖析了“意义”的3个层次,并从形式语义学的角度,阐释了“意义”的3个层次,而且提醒NLP研究者,认识到“意义”的多层次性是能够正确处理它的前提。之后,作者进而运用言语行为理论对“意义”进行阐释,并对言语行为理论的3个阶段与“意义”的3个层次的异同做了回答。在该章的后半部分,作者认为,对于NLP研究而言,前面提到的三层“意义”的理解和生成并不是NLP最难克服的一关,语言的“意义”还包括情感和社会意义,譬如姿态、语气等非言语的认知与语言意义之间的复杂互动将会是NLP势必要攻破的最后一道门槛。另外,在社会意义方面,作者指出NLP在礼貌和敬语方面仍有很大的进步空间。倘若NLP在识别社会意义上取得突破,会对追溯品牌评价、侦察仇恨言论等有着广阔的用武之地。
第3章“词汇语义概览”涉及的是有关NLP的词汇语义学领域。作为4、5、6章的统领部分,作者简要梳理了词汇语义学的子领域——词义、语义角色以及搭配等。作者特别指出,在形式化语义中,单词通常被表示为不透明的谓语符号,这导致了有关单词意义的重要信息会被丢失。另外,作者也谈到词嵌入的问题,认为基于语境的词嵌入的一个缺点是不能够将常识推理纳入其中。
第4章“词义”对词义及其相互作用的各种方式进行了整体描述,除了讨论如多义词、近义词、同义词等传统语言学的话题之外,该章也展示了词义研究面临的一系列挑战,如历时的词义变化、隐喻造成的词义延伸、高频词对可预测变化的阻断等。该章还进一步介绍了两个对NLP研究可能起到启发作用的语言现象:一是论元关系导致的词义转移;二是论元词义的初始化问题。前者如“Ringo squeezed himself into a narrow space.”中squeeze的非标准用法,后者如“I drank all night.”中drank的另一个论元被初始化为alcohol。这些现象可以应用于自然语言理解中的错误分析。
第5章“语义角色”比较简短,主要介绍了语义角色及其相关内容。首先作者对比了以不同细粒度定义语义角色的方案,如VerbNet、FrameNet和PropBank,然后讨论了语义角色的实现,如软约束(soft constraints)和隐性实现(implicit realization)等。最后作者点明NLP需要“语义角色”这一概念,区分句子中的语义角色能有效帮助计算机理解自然语言。
第6章“搭配和多词表达”。该章介绍了搭配和多词表达(multiword expressions,MWEs)的定义及其属性。作者认为MWEs的语义是单词语义与组合语义的桥梁。MWEs继承了单词语义的许多属性,MWEs如同单词语义一样,主要属性有:多重意义、语义模糊、意义转移等。而使MWEs区别于单词的重要特性是,依附于MWEs的词形比单个词形更少歧义。最后,作者也提到,在MWEs中,惯用语是其重要组成部分,并且认为,表达一个惯用语的语义与其各部分语义之间的关系是NLP研究很有挑战性的任务。
第7章“组合语义学”。该章的前半部分围绕谓语论元结构及其派生机制给出了“组合语义”的定义,并且例证了形式化的语义能够帮助解决一些句法上的歧义现象。然后作者在简要介绍了比较表达、复数表达之后,较为详细地探讨了量词和其他运算符(如否定或副词)带来的挑战,其中一个难题是如何解决它们在不同语言中的各种编码方式。最后一小节作者专门介绍了基于分布的词向量研究,作者重申,形式语义表示是根据真值和指称定义的,它们被设计用来预测逻辑关系;但语义表示中的离散符号及其集合论解释并不特别适合定量地进行语义相似度的推理。因此作者预测词嵌入提供的不同视角在今后的NLP研究中会大有可为。
第8章“组合语义学:超越谓词-论元结构”进一步向读者呈现时、体、言据性(evidentiality)以及礼貌等语言概念。该章中作者引用了丰富的语料,充分地将自然语言中有关上述概念的纷繁复杂的语法化方式展示给读者,例如,英语中过去/非过去时有语法化表现,而其他很多语言却没有;英语中体和言据性的语法标记不明显,但万巴亚语(Wambaya)、雅基语(Yaqui)却有丰富的言据性语法标记。而在要点的设置上,作者着重强调了礼貌标记在不同语言层次中的体现和其在指代消解上的作用。例如,日语中的敬词通常用来指代他人而非言者自己。
第9章“超越句子”将对意义的讨论提升到了语篇层面,介绍了计算机理解语篇意义的基础方法(如语篇更新函数、构建语篇的模型)以及改善语篇理解的方法。作者重点阐释了语篇意义的构建需要建立在语篇组成部分之间的连贯关系上,并列、从属两种连贯关系将组成部分连接起来,从而构建语篇表达结构;作者还强调语篇的释义必须在动态之中进行,例如在两个句子中,第一句话中的语义辖域(如量词辖域)必须发生动态改变以将下一句的内容囊括在内。
第10章“指代消解”的主题是NLP中信息抽取的核心概念之一。作者首先介绍了指代消解的定义及其面临的挑战,随后详细解释了4个决定消解的语言学因素,即语法因素、逻辑表达式、模态逻辑、语篇结构。作者重点讨论了连贯关系对于消解起到的作用,比如:改变语篇片段间的连贯关系,一般也会引起指代(通常是代词)意义的改变;作者进一步指出目前的统计模型普遍忽视连贯关系的作用,引导读者思考如何能在计算模型中应用连贯以提高消解效果。
第11章“预设”以介绍预设与蕴含的区别为基础,依次探讨了预设触发项以及预设投射等问题。例如,作者引用Karttunen (1973)内嵌谓词的分类,指出并非所有的内嵌小句都能够发生预设投射。该章中最为核心的部分是预设顺应的介绍以及其限制条件的提出。作者总结认为,预设顺应的发生主要取决于预设辖域与语篇中其他内容之间的关系,并用丰富的例子详细阐释预设顺应的这些限制条件。该章对预设的介绍颇具理论深度,不过缺乏对于NLP与预设,特别是与预设顺应之间联系的说明。
第12章 “信息状态与信息结构” 首先讨论了信息状态(主要是有定性这一特性)以及不同语言中对其的形态句法标记。例如,一些语言(如英语、日语等)可以通过名词词组的形式来标记信息状态,另一些语言(如土耳其语)则可以利用格来标记。作为该章的重点,作者讨论了信息结构的概念及其语言标记,例如重音和声调能够反映信息的新与旧和语句的话题与焦点。此外,作者还讨论了信息结构对于消歧所能起到的作用。自然语言中充满了歧义,由韵律所表现的语句信息结构能对意义选择提供帮助。
第13章“含义与对话”围绕含义这个核心,从含义类别、NLP技术以及会话策略3个方面进行了讨论。首先,作者区分了会话含义和规约含义,并指出对含义的模拟必须兼顾这两种含义。作者接着着重探讨了含义与NLP的接口,例如,目前基于格莱斯会话原则、关联理论的NLP计算系统都会关注言者和听者的认知状态,这些系统能够很好地表达出句子的语义,却很难判断出其真值等等。最后,作者还举例说明了一些会话策略,如部分肯定、沉默、音调变化,提出要让会话系统捕捉这些细节,今后还需要做很多工作。
第14章“资源”推介了4种实用的语义、话语处理分析资源(词汇语义关系的检索工具、标有句子语义信息的各类语义银行、可呈现语义信息的句法分析器和标有话语信息的语料库)及其获取的方法和途径。
2. 评价
该书对语义学和语用学研究领域的基本情况、相关问题进行了较为全面的介绍和分析,不仅突出地体现了手册类著作承担的语言凝练、举例易懂、便于查阅等特点,也展示了作者独特的见解。具体特点呈现如下:
该书语言凝练,信息密度极大,主题明确且层次分明。每个要点的介绍基本都在两页之内完成,在每个章节中的安排也都经过深思熟虑。在第二部分语义篇中,作者选择话题详略得当,提出的问题也极具代表性。作者尽可能地只选取与NLP有关或是可能为解决NLP难题提供思路、方法和路径的语言学现象和理论,可以说对NLP研究者而言,文中提到的每个话题都值得仔细揣摩。而且,文章中不仅只是简单介绍理论,更为研究者抛出了许多有价值的问题,其中不仅有NLP一直在研究的经典问题,也包括NLP将来可能涉及的新挑战。第三部分语用篇中作者对要点各章节中的分布比较均匀,章节与章节相互平行,这些章节的内容均不可小觑。细读文章可以发现,篇章的连贯关系这一知识点贯穿了该部分始终,是整个部分的核心。这与Jurafsky & Martin(2008)著作的语用部分对语篇连贯的强调不谋而合。
该书的另一个特色是语种丰富,且举例易懂;知识点的讲解,特别是难点,均以典型的语言例子来做具体说明。文中所选语言例子本身,克服了英语为主的传统模式,共用了45种语言的例子。在讲到语言意义的社会层面时,作者选用日语举例,只用4个句子就让读者感受到了日语里的敬语体系的繁杂。在词义部分,作者更是同时选用多种语言的例子来证明词义的历时变化和模糊性的特点。例句的选取上,作者也力求简短,翻阅全书,几乎找不出长度超过一行的句子。并且非英语例句的英语标注详尽,尽可能地还原了语言原貌。
作为一本手册类书籍,该书还具有编排精美、索引方便、资源丰富的特点。在书的最后,作者贴心地罗列了介绍过的语言学知识点及其在文中出现的具体位置。这样的安排一方面能够让读者在整体上测试知识掌握的程度,一方面便于读者复习遗忘部分的内容。虽说该书主要面向的是NLP研究者,但这绝不是说语言学家就不值得一读了。书中提供丰富的语义、语用计算分析处理资源,能为语言学家提供语言研究的新工具和新视角。而且,如若相关领域的语言学家要做跨学科的研究,也能从这该书中受到启发。
该书的另一特点是作者基于对该领域的敏锐观察,提出了许多独创的见解,对读者颇具启发意义。作者全局审视了当前面向指代消解的统计系统,指出这些系统只利用了论元结构和分布词汇语义而忽视了连贯关系所引起的语篇结构。而连贯关系在跨句的篇章层面,有着至关重要的作用。这就引发读者思考如何能够在先行算法中加入这个元素,从而提高消解正确率。作者还指出当前对于沉默意义的研究非常缺乏。一言不发并非不能传情达意,相反可能蕴含了丰富的意义。那么如何来判断哪些沉默有意义,哪些没有意义,有意义的沉默究竟反映的是何种意义,都是值得读者进行进一步探讨的话题。这里只是列举了两个比较典型的启发之处,而书中还有众多启发点。
任何一本书都可能有其局限性,该书也不例外,主要存在两个问题。书中有几处并没有具体阐明NLP与语言学要点如何衔接。例如,作者对预设顺应花了许多笔墨,但是未能将其与NLP联系起来,可能对读者产生一些困扰。此外,对于一些颇具深度的语言理论的介绍,囿于篇幅限制,不可能面面俱到,如果在每个主题的篇末提供一些基础性的参考书目或者章节,那么会有助于NLP研究者,特别是非母语为英语的研究者,得到更深入的理解和拓展。
总而言之,该书是一本不可多得的语言学知识手册。作者以精致的笔触,介绍了语义学、语用学中与NLP密切关联的要点,在语言学知识与NLP之间架起了一座桥梁。更可贵的是,该书秉持的是语言学知识和统计方法并重的理念,认为语言学在NLP中扮演了不可或缺的角色,这为将来的NLP发展指明了道路。