基于抽象语义表示的汉语疑问句的标注与分析
2022-09-05闫培艺霍凯蕊曲维光
闫培艺,李 斌,黄 彤,霍凯蕊,陈 瑾,曲维光
(1. 南京师范大学 文学院,江苏 南京 210097;2. 郑州金桂中学,河南 郑州 450040;3. 南京师范大学 计算机与电子信息学院,江苏 南京 210023)
0 引言
随着人工智能的发展,自动问答[1]、对话机器人[2]等领域成为了研究的热点,其中疑问句的自动理解是自然语言处理中一项非常基础而复杂的任务。而现阶段疑问句的自动分析主要采用问句分类[3]、句型识别[4]、疑问焦点语义角色标注[5]等方法,精度和效率不理想。同时,随着聊天机器人[6]、智能问答[7]等系统的发展,疑问句的自动分析越来越重要,这就需要从整体结构上把握疑问句的语义,为自动句法分析奠定基础。
然而,传统的疑问句分析存在三个问题: 首先,疑问句表示需要将问句分类和依存分析分别进行建模计算后再进行组合,效率较为低下。其次,现有疑问句分类方法难以解决一句多问的情况。例如,“谁知道怎么赢?”是特指疑问句且拥有两个疑问焦点,传统方法难以清楚表示此类疑问句结构。最后,目前标注体系缺乏对省略、指代消解、小句关系等语言现象的有效表示方法,因此难以完整地表示疑问句的语义结构。
在语言学领域,疑问句相关研究集中在疑问句的结构类型等方面。而汉语疑问句以其结构复杂、形式多样等特点备受关注,如邵敬敏[8]、闫亚平[9]、赵睿艺[10]等人的研究,但是在形式化表示方面的研究较少,对计算没有直接帮助。
因此,本文尝试通过一种新的语义表示方法——抽象语义表示(Abstract Meaning Representation,AMR)来描写汉语疑问句,解决疑问句的疑问焦点、疑问结构、省略、指代等问题,形成一个完整的疑问句语义表示体系来服务于汉语疑问句理论和自动分析研究。本文通过2 000多句真实语料的标注,测试了抽象语义表示的形式化表征能力,并统计分析疑问句在疑问焦点和疑问结构上的分布特点。
全文结构如下: 第1节梳理了疑问句的理论以及形式化表示的研究脉络。第2节总结了使用抽象语义表示标注汉语各类疑问句的特点,介绍了数据来源和标注方法。第3节统计了疑问概念标签amr-unknown的语义关系,分析了疑问代词的语义功能特点。第4节是结论和未来工作。
1 相关工作
1.1 疑问句的理论研究
传统语法时期,疑问句的研究主要围绕分类和表达效果展开,如Curme等[11]、Jespersen[12]等的工作。从语法角度,根据表层结构将疑问句分为一般疑问句、特殊疑问句、选择疑问句以及附加疑问句,认为疑问句除了表示询问等情感外,还有寒暄等语用含义。这些研究以描写为主,虽然Nesfield提到了变换(transformation),但未能触及语义层面[13]。该时期疑问代词研究集中在指示代词和疑问代词的对比分析等方面[14]。结构主义语言学强调句子在语法研究中的重要性。布拉格学派提出了主位的概念,认为主位是一个句子的话题。主位的提出和疑问焦点的相关理论在某种程度上是一样的。Vachek还提出了标记(markedness)理论,一开始标记用来分析音位的区别性特征,后来也用来分析疑问句标记[15]。
英语疑问句通常把系动词、助动词及疑问词置于句首,这和汉语保持原位不一样。生成学派将小句的根设置为一个CP,英语助动词和疑问词在疑问句中从原位移入CP的C位;而在肯定句中,这个C由that充当。以Chomsky为代表的生成语法学派最有代表性的研究成果是对疑问句语序生成机制的分析。Chomsky针对特殊疑问句提出了wh-移位说,但该学派只关注句法层面疑问句的生成机制,不关注语义层面的表示[16]。Baker认为疑问句本质上是在生成时包含了一个疑问成分[+Q][17]。系统功能语法认为言语功能通过语气选择体现在合乎语法规律的小句中。Halliday等认为对一个语言项目进行分类时,应按照精密度的阶,由一般趋向特殊,对每一个选择点上的可选项给以近似值[18]。
国内对疑问句的研究主要集中于语气范畴。马建忠把语气分为传信和传疑两种[19]。陆俭明则将疑问句的研究从宏观分类转向微观描写[20]。吕叔湘把疑问语气分为“询问、反诘、测度”三种[21]。在疑问句分类方面,王力把疑问句分为叙述句、描写句和判断句[22]。黄伯荣提出疑问句类型有特指问、是非问、正反问和选择问四类[23]。邵敬敏等则将语法、语义、语用三个平面的理论运用到汉语疑问句的研究中[8]。在疑问代词方面,黎锦熙认为有些疑问代词有“不定称”和“虚指”的用法[24],还有邵敬敏等[25]、刘月华[26]等人的研究。
通过对国内外疑问句理论研究的梳理,可看出国外侧重于通过疑问句的形式探究疑问句本质,不断研究其生成机制。国内虽对疑问句进行了细致描写,比如分类体系等,这些有助于学科语言教学和句法理论研究,但对于疑问句的语义结构问题涉及较少,未能从整体上刻画疑问句的语义。
1.2 疑问句的形式化表示研究
随着疑问句理论的不断发展,国内外不断有学者尝试对疑问句进行表示,大致分为两类: 一类是建立疑问句语料库,确定标注体系;另一类是一般语料库附带对疑问句标注方法的简单说明。
首先是疑问句语料库,国外比较著名的是Clark等从TRC评测语料中抽取了1 171句以what开头的疑问句,主要标注了词性信息[27]。Judge等构建了一个含有4 000个疑问句的语料库,数据主要来源于TREC跟踪测试集,以期生成的句法分析树对问答系统有所帮助[28]。Myers针对法语wh-疑问句中不同句法结构可以表示相同语义的特点,建立了法语疑问句语料库[29]。Mrozinski提供了一个关于提问“为什么”疑问句的语料库,695句语料均来源于维基百科,此外还使用Amazon Mechanical Turk框架收集了问句的匹配答案[30]。Sidi构建了马来语疑问知识语料库,以期完善马来语语法和语义规则[31]。
接着是一般语料库中的疑问句标注,基于短语结构语法的宾州树库选取了华尔街日报的真实语料,着重标注了句子中的短语结构和短语功能,从中我们可得到疑问句中的短语结构分析以及一些统计语义角色的浅层语义分析[32]。基于依存语法的布拉格依存树库主要由形态层(morphological level)、句法层(analytical level)和语义层(tectogrammatical level)构成,分别标注了句子的词法、句法和语义信息。和其他句型一样,疑问句也标注了这些信息,可以为我们提供疑问句中各个词语间的依存关系、配价关系以及体现句子信息结构的话题-焦点连接信息[33]。这两个大型语料库数据丰富,但是都没有为疑问句设计系统的表示方案,对其处理相对简单。
国内关于疑问句形式化表示的研究发展比较缓慢,疑问句语料库偏少。比较著名的是山西大学彭洪保的基于汉语框架网的疑问句语义角色标注语料库,其语料主要来源于山西旅游景点,共计3 011个疑问句[34]。该语料库提出了一种根据疑问句目标词共现率来判别疑问句所属框架的方法。李茹等构建的小型疑问句语料库包含1 566个关于旅游景点五台山的疑问句,主要根据焦点进行了疑问句类别统计[35]。
关于疑问句分类体系,国内较为著名的是哈尔滨工业大学的分类体系。文勖等在UIUC[37]的基础上,根据汉语特点将疑问句分为人物、地点、数字、时间、实体、描述、未知七大类,以及根据实际情况又定义了60小类[36]。在一般语料库中,基本上未对疑问句的标注方法进行单独说明,比如哈尔滨工业大学依存语料库、清华大学语义依存网络语料库等。下面以哈工大的依存库为例,对“谁想去公园啊?”进行标注示例:
哈工大语义依存分析已经不像以往简单进行语义角色标注等浅层语义分析,而是通过依存结构将词汇之间的语义关系表示出来。在图1中,Root表示根节点,AGT表示施事,dCONT表示操作的客事,LOC表示地点,mDEPD表示依附标记,mPUNC表示标点。句子的基本架构较为清晰,但对于疑问信息的表示还不够明确。例如,我们需要根据“谁”来确定疑问焦点,但是“谁”也有无疑而问的情况,例如“谁也做不出来。”同时,“啊”的意义也比较多样,仅根据mPUNC也难以判断其疑问含义。疑问句最重要的就是应该清楚知道该句到底在问什么,即疑问焦点是什么。该句是特指疑问句,那么疑问代词就是疑问焦点。图1并没有标识出疑问焦点,只有在语料库中将其标注出来,点明其语义关系,才有利于计算机的自动分析。再者该分析也忽略了“去”“想”和“谁”的论元共享关系,不利于把握完整的语义结构。
图1 “谁想去公园啊?”的语义依存树分析
随着自然语言处理的发展,国内外学者越来越重视疑问句的形式化表示。国外集中在词性标注等方面;而国内关注分类等研究。总体而言,这些研究对于疑问句整体语义表示研究涉及较少,且研究重点较为分散,不利于疑问句计算和自动分析,也不利于其系统研究。作为自然语言处理界新兴的句子语义表示方法,抽象语义表示能够更为完整地表示整句的语义结构和疑问结构信息。因此本文将基于抽象语义表示来标注汉语疑问句,系统介绍其标注方法,统计疑问焦点的语义关系等相关信息,以期对疑问句的研究和自动语义分析起到一定作用。
1.3 抽象语义表示研究
抽象语义表示(AMR)是一种新兴的较完整的句子语义表示方法。它将句子中的词语抽象为概念,分析概念之间的语义关系,并将这些语义关系抽象为带有语义关系标签的有向弧,把句子语义抽象为一个单根有向无环图[38]。AMR将句子中词语抽象为概念,用图结构来表示概念以及概念之间的关系,并拥有新增、删除、替换的抽象机制[39]。利用这一机制,AMR可突破表层句法结构的差异,将深层的语义结构统一表示出来。
AMR是基于英语制定的,李斌等针对汉语特有的语法特点完善标注体系,形成了中文抽象语义表示(Chinese Abstract Meaning Representation,CAMR)[40]。在CAMR标注体系中,概念的编号不再由标注器随机分配,而是先对句子进行分词,根据词语序列分配相应编号。下面以“谁想去公园啊?”为例,对改进后的CAMR标注方法进行简要展示。
如图2所示,“谁”在该特指疑问句中是疑问焦点,是理解语义的关键,用核心语义关系arg0(原型施事)和疑问概念amr-unknown共同来表示,并且使用关系mode和概念interrogative点明了疑问语气类型。相对于传统的依存句法树表示来说,CAMR也兼顾了“想-01”、“去-01”和“谁”的论元共享关系,语义结构表示较为完整,并且分词对应编号实现了语义图中的概念与原句词语的对齐。
图2 “谁想去公园啊?”的CAMR表示
自2013年标注规范公开发布以来,AMR语料标注工作不断推进。目前AMR已经有近五万句的英文语料库,语料内容来自新闻等领域。CAMR也公布了中文《小王子》语料库(1)https://amr.isi.edu/,还有通过LDC发布的1万句对齐版的标注语料(2)https://catalog.ldc.upenn.edu/LDC2019T07,语料内容除CTB 8.0外,还兼顾语文课本、微博等领域的数据。在自动分析方面,F值达到了80%[41]。本文主要基于CAMR对汉语疑问句进行标注。
2 数据来源及标注
2.1 数据来源
本文语料主要是从已经标注过的语料中抽取出来的疑问句: 来源一是CTB 8.0版的10 149句网络媒体语料,其中疑问句1 215句;二是2001年人教版一到六年级的语文课本中的8 696句语料[42],其中疑问句692句;三是和英文《小王子》句对齐的中文《小王子》1 563句,其中疑问句164句,共计2 071句疑问句。
2.2 CAMR表示疑问句的特点
通过1.2节的梳理,我们可以发现: 以往的疑问句形式化表示没有完整的标注体系,研究重点集中在分类和语义角色标注上。如果要理清疑问句的句子语义结构,这些是不够的。
CAMR的标注体系在AMR的基础上,根据汉语特点进行了优化,形成了一套较为完整的疑问句标注方法,具体特色如下:
(1)设置虚节点(新增概念节点)标签。AMR中的虚节点标签由概念单词的首字母表示,对于首字母相同的概念,不容易区分。但CAMR使用xn(n∈N)的形式表示虚节点,n是基于分词结果分配的有序编号。若为人工添加,则由系统随机分配。这样一来就实现了概念、关系与词的对齐。特别地,对于部分形式意义较为凝固的构式成分,CAMR将其整体作为一个谓词标注或只标注其表层义。
(2)标注疑问语气。语气信息对句子语义影响很大,尤其在书面汉语中。汉语没有严格意义上的形态变化,语气词和语法意义之间是多对多的关系,是否添加标点符号“?”、是否具有语气词等都会使整句的情感和语义发生变化。
(3)既可以从整体上理解疑问句的深层语义结构,又能清晰把握疑问焦点的语义关系。CAMR允许根据句子语义增删概念节点,允许论元共享,如图2所示。它可以通过图结构清晰而完整地将整句语义表示出来。再加上疑问概念amr-unknown与不同语义关系的搭配使用设置,我们可以清楚地知道句子的疑问焦点是什么、具有什么样的语义关系,以及疑问焦点的对齐信息。
2.3 数据标注
CAMR中的语义关系分为两种: 核心语义角色关系和非核心语义角色关系。用形如“argx(x∈[0,4])”的5个标签来表示核心关系,用如“cause(起因)”等48个语义标签来表示非核心关系。表1列出了CAMR表示疑问句常用的语义关系标签以及含义。
在处理疑问句时,除了常规的标注操作外,需特别注意的是对疑问语气和疑问代词的处理。表1中的关系标签mod在CAMR中对应祈使(imperative)、疑问(interrogative)、感叹(expressive)和判断(judgement)四种语气概念,即用关系mode和概念interrogative共同表示疑问语气,将其标注在整句的根(root)上。若遇到有多个分句的长句,并且最后一个分句有疑问语气,则标注在此分句的根上。
表1 常用语义关系标签以及含义
主要标注对象有标点符号“?”、疑问语气词“吗”等。当句子中只有“?”或者疑问语气词时,疑问语气由“?”或者疑问语气词单独承担;当二者一起出现时,疑问语气由其共同承担。但当一个句子有多种语气时,如“他为什么这样呢!”既有疑问又有感叹,此时由“呢”承担疑问语气,由“!”承担感叹语气,将这两种语气都表示出来。最后,疑问代词“谁”“什么”等使用概念标签amr-unknown搭配不同的语义关系标签来表示。
本文的疑问句标注借鉴现代汉语传统的分类体系——将疑问句分为是非疑问句、选择疑问句(包含正反疑问句)和特指疑问句三大类,同时也兼顾了一些特殊的疑问句结构[8]。各类疑问句使用的主要关系及概念标签如表2所示。
表2 各类疑问句的基本关系及概念标签
2.3.1 是非疑问句
对于是非疑问句,CAMR使用关系标签mode和表示疑问的概念标签interrogative共同描写句子的疑问语气。
图3例子中,“?”和“吗”一起承担了疑问语气,用“_”连接分词编号。“被找到”表示被动,因此增加了虚节点person来引出“找到”的行为施事,其标签编号由系统随机分配。再者,CAMR增加了词语和概念关系的对齐信息,使得虚词对应于概念节点或节点之间的关系弧,“被”字引出施事,标注在实词“男孩”和“找到”之间的有向弧上[43]。另外AMR不标注体,CAMR根据汉语特点增加了关系标签aspect,用于标注助词“着”“了”等。
图3 “男孩被找到了吗”的CAMR表示
另外,是非疑问句中经常出现的“是不是”“是否”等副词成分,如“他是否收集蝴蝶标本呀?”。这些副词是对事件的真实性进行发问,本质上也属于是非疑问句的范畴。所以CAMR在处理这些成分时,也会将其抽象表示为关系标签mode和概念标签interrogative。
2.3.2 选择疑问句
CAMR会将表示选择概念的“或者”“还是”等替换为概念or。同时,和关系标签operatorx,即opx,一起使用。另外,在正反疑问句中,使用关系polarity和概念“-”表示否定概念。
在图4左例中,“还是”被等价替换为or,关系标签op1和op2对选择项进行了说明。右边例子中的选择项“走”和“不走”属于正反两种情况,将“不走”中的否定项“不”等价替换为否定符号“-”。
图4 选择(包含正反)疑问句的CAMR表示
2.3.3 特指疑问句
在特指疑问句中,会将“什么”“怎么”等疑问代词抽象为概念amr-unknown。
图5左例中,“帮忙”是一个离合词,使用“_”把“帮”和“忙”连接合并处理,且可将“窝”更正为正确的概念“我”。但是在传统的语义依存分析体系中,“帮”和“窝(我)”的关系则无法显示出来。在右边的例子中,CAMR使用关系标签poss表示“谁”和“玩具”之间的领属关系,“的”作为虚词,将其标注在“谁”和“玩具”之间的弧上。
图5 特指疑问句的CAMR表示
2.3.4 其他疑问句的处理
一是“非疑问句+疑问小句”类附加问结构。该结构通常是由一个陈述小句,加逗号(也可不加),最后加上一个“是吧”“是吗”等疑问小句组成。因为CAMR表示的是句子深层结构的抽象语义,所以语序对其标注没有影响。所以“是吗”等疑问小句本质上还是对前面陈述句所表达事实的质疑,如图6左侧例子。
二是“难道”类反问结构。在CAMR中,使用关系标签mod(modifier)来表示一般的修饰关系,用来衔接上下文的关系词,如“难道”“又”“再”等,如图6右侧例子。
图6 附加问和反问类疑问句的CAMR表示
三是间接问句。疑问短语可以单独成句,也可以作为一个结构成分出现在另一个句子中,通常是充当宾语。疑问短语做宾语有两种类型,一是全句为陈述句,如“你了解这是为什么。”这时宾语已经失去了疑问性质和功能,故不关注该类用法。二是全句为疑问句,如图7左侧例子。
四是自问自答类的设问句。自问和自答是设问句不可分割的一个整体,可以看出发问者其实是无疑而问,如图7右侧例子。采用multi-sentence(多句关系)概念标签来处理多个句子之间的关系,与关系标签sntx(x∈N)配合使用。
图7 间接问句和设问句的CAMR表示
在这一节中,我们对是非、选择(包含正反)、特指这三大类疑问句的标注方法进行了举例说明,同时也对一些特殊疑问句结构进行了标注展示。CAMR既可以处理常规的疑问句标注,表达出深层的语义结构,也可以较好地表示一些无疑而问等特殊的疑问句表达。
3 统计分析
虽然CAMR无须借助分类系统分析疑问句的语义结构,但我们也可以利用表2相关标签统计出三大类疑问句的占比情况,如表3所示。从表中可以看出,特指疑问句的占比最高,达51.71%,选择疑问句最少,只有4.73%。
表3 各类疑问句的比例分布
3.1 特指疑问句的疑问焦点
CAMR允许根据句子语义增删概念节点,允许论元共享,既可以通过图结构清晰而完整地将整个句子深层语义表示出来,又可以通过语义关系和疑问概念amr-unknown搭配使用等把握疑问焦点信息,这对于我们准确理解疑问句非常有帮助。吕叔湘[21]指出“回答问话,一般不用全句,只要针对疑问焦点,用一个词或短语就够了”。对于疑问句来说,我们需要清楚的就是疑问句是针对什么提出疑问,疑问语义中心在哪里,即疑问焦点在哪里[44],这对于计算机自动分析是非常重要的。是非疑问句是对整个句子的客观事实提出疑问,那么疑问焦点就落在了整句的语义上;选择疑问句有选择项,那么opx关系标签所对应的概念标签就是我们需要关注的疑问焦点语义项。
但是特指疑问句比较特殊,具有不一样的构成要素——疑问代词,比如“怎么”“什么”“哪里”等。疑问代词作为句法功能和意义的结合,是特指疑问句的疑问焦点[44]。林裕文也指出“特指是对准疑问代词回答的”[45]。再加上有的特指疑问句不止一个疑问焦点,仅从疑问句分类角度难以准确把握完整的语义信息,如图8所示,该句有“谁”和“怎么”两个疑问焦点,分别具有arg0(原型施事)和manner(方式)两种语义关系,传统计算研究方法难以直接处理。针对特指疑问句要素特点,CAMR使用疑问概念amr-unknown,同时搭配各种语义关系来共同表示疑问焦点信息。疑问代词的不同使用方法可能会有不同的语义关系,下面将通过统计数据详细分析疑问代词语义角色的分布特点,总结疑问代词的语义功能特点。
图8 “谁知道怎么赢?”的CAMR表示
3.2 疑问概念amr-unknown的语义关系特点
本文对2 071个疑问句中的1 410个疑问代词所对应的1 410个概念amr-unknown的语义关系信息进行了统计,不同语义关系的使用分布情况如表4所示。
表4 疑问概念amr-unknown的语义关系分布
从表4可以看出,疑问概念amr-unknown各类语义关系有23种,总共出现了1 410次,但分布不平衡,使用频率较高的前三大类依次是cause、mod以及arg1,分别用来提问原因、修饰成分以及原型受事,分别占比26.45%、16.74%以及16.45%。在出现的4种核心语义关系中,概念amr-unknown为受事的语义关系最常见。非核心语义关系有19种,种类比较多,且出现总次数是核心语义关系的两倍左右,达67.87%。这些不同的语义关系代表的是说话人不同的提问对象,所以弄清疑问代词的不同语义关系是什么,是我们把握特指疑问句语义的重点所在,也是问答系统提高回答准确率的关键所在。
3.3 小结
通过对2 071个疑问句的标注,我们可以看出CAMR可以完整而清晰地表示出汉语疑问句的整体结构。而以往处理疑问句的方法,比如问句分类、依存分析等,很难完整表示出疑问句结构的深层语义。通过对1 410个疑问概念amr-unknown的语义角色种类进行统计分析,发现cause、mod以及arg1的语义关系使用最为频繁。在CAMR的标注体系下,处理疑问句有一套完整的标注体系,无须设置分类标签,通过语义关系标签就可以知道句子的疑问焦点是什么、位置在哪里,从而准确把握整句的语义结构。
4 结论及未来工作
随着自然语言处理领域的不断发展,疑问句的形式化表示越来越受到各界学者的重视,但是由于汉语疑问句形式多样、结构复杂,目前还没有比较完整的标注体系可以很好地表示汉语疑问句的整体结构。本文首先梳理了国内外疑问句的相关理论与计算研究。接着使用改进之后的CAMR体系针对 2 071个汉语疑问句,对不同结构类型疑问句的标注方法进行了说明。最后对1 410个疑问概念amr-unknown的语义关系种类进行了统计分析,发现其非核心语义角色的使用频率最高。这一标注体系不需要进行疑问句分类,就可以更好地描写疑问代词的功能,把握其语义关系,并解决一句多问的问题,对问答系统作出正确回答有很大的帮助。
在未来工作中,我们会扩大汉语疑问句的语料规模,丰富语料类型,关注口语化的疑问句表达,进而继续完善CAMR标注体系,推动相关理论研究。最后,希望通过标注语料库进行机器学习,不断提高CAMR语义自动分析效果,推进疑问句的自动分析和应用。