中文问句的形式分类和资源建设
2022-09-05黎江涛饶高琦
黎江涛,饶高琦
(北京语言大学 汉语国际教育研究院,北京100083)
0 引言
问句分类的效果直接影响问句理解。传统的中文问题分类主要是根据答案对象的类型划分[1],如询问人物、地点、时间、数量等,曹志娟等人还在此基础上增加疑问词短语分类、问题标准型、特征词分词来增强计算机识别问题能力的方法[2],刘朝涛等人则进一步将疑问词模式与问题类型对应起来,进行了基于疑问句句型识别的问题理解研究[3]。在这些分类任务中,问句的形式只是作为分类的辅助特征。
实际上,一定的问句形式下的问句类别可以对应一定的问句功能,但这方面的理论在问句理解实践中并没有得到重视;相反,随着数据集的增加,问句覆盖的范围越广,复杂的问句形式特征被当作解决新问题的补丁不断地添加进来,使得问句分类标准越来越复杂。如果能在问题分类中先提供一个形式分类接口,再按照不同问句形式下对应的问句功能对问句做进一步分类,那么就能在形式上不遗漏任何问句,同时也能在分类过程中根据问句形式定位问句的具体功能。所以在现有问句分类研究基础上,提倡问句的形式分类具有深刻意义。
1 问句的性质
1.1 问句的范围
傅惠钧曾根据“疑”和“问”的组合划分出“有疑有问、有疑无问、无疑有问、无疑无问”四类[4]。很明显“有疑有问”和“无疑无问”均可以明显地判断句子是否为问句,问题就集中到了“有疑无问”和“无疑有问”这两类句子上。
先说“有疑无问”。吕叔湘给出过例句“也许会下雨吧”,表示有传疑但不发问[5]。这类例句后面既可以加上问号标记,也可以不加上问号标记,邵敬敏根据这种对比指出,两种情况表达的疑问程度是一致的,区别仅仅在于是否发问,即是否要求对方表示态度[6]。所以由此可见,从问答理解的角度来看,回答的前提是存在发问,所以将没有发问意图的句子排除在分析目标之外是合理的,这也符合问句提出的预期,即发问—解答。本文也将根据是否有发问意图来区分疑问问句和非疑问问句。
再说到“无疑而问”,学界对这类句子众说纷纭,普遍认同的一个观点是反问句(也叫反诘问句)可以作为“无疑而问”的典型代表,《马氏文通》中将这类句子的功能称为“传信”,与“传疑”相对。判断这一类句子必须要明确一点: “信疑”皆是从说话人的意图中推断出来的,而不是站在对话的全知视角或是听话人视角。如果“信疑”脱离了说话人的意图,那么问句就可能会随着不同的回答而有不同的定性,在疑问句和反问句之间摇摆不定。例如,“谁欠你钱?”,说话人如若想表达“我不欠你钱”的意思,该句则是反问句,但如果不考虑说话人的意图,仅考虑该问句的可回答性,也可以说“某某欠了钱”,但这明显已经脱离了说话人想表达的意图。所以“无疑而问”本质上是不含发问意图的句子。对于问句理解来说,如果是在问答系统中,“无疑而问”的问句显然不能成为分析的对象,因为句子本身不存在疑问点,也就无法对问题做出回答;但如果从人机对话的角度来说,“无疑而问”更偏向是一种套着疑问形式的表达方式,这样的句子往往承载着说话人的某些观点、意图,计算机要做的就是要在遵守语用交际原则的情况下回应这些句子,此时的“无疑而问”类句子无疑应该纳入该研究的分析对象。
而本文讨论分析的对象以含有说话者发问意图的问句为主,对不含发问意图的问句只做简单的功能探讨。
1.2 问句的分类
含有说话者发问意图的问句通常又叫疑问句,按照形式上的不同,它们又可以分为四类: 是非问、特指问、选择问、正反问。
•是非问结构类似陈述句,一般用升调,句尾一般有“?”,句尾有时兼有语气助词“吗”显化疑问语调,也可以用“啊、哇”,但不可用“呢”[7-8],如例1所示。
例1: 21世纪人类将要开发月球吗?
•特指问用疑问代词代替未知部分,常用的疑问代词有“谁、什么、哪儿、怎么、多少”等,句尾有时用“呢”或“啊”,不用“吗”[8],如例2所示。
例2: 这是哪里啊?
•选择问有并列的若干分句,前后分句常用“是”“还是”相呼应,有时用语气助词“呢”或“啊”,但不用“吗”。另外,选择问中语气助词和连词可以兼有[8],如例3所示。
例3: 是吃西餐还是吃中餐?
•正反问通常包含否定词“不、没有”,不采取复句的形式,在谓语中心或补语中用肯定和否定并列形式来提问[8-9],具体情况如表1所示。
表1 正反问形式及例句
1.3 问句形式概述
问句形式是判断问句的依据,主要包括语音语调、标点形式、句法格式、特征词。语音语调主要指句子的句调,一般问句的句调均以声调为主。标点形式主要指问号,这是问句的主要形式标记。句法格式指不同问句类型由特定句法单位构成的格式,按照问句类别可以分为是非问句法格式、特指问句法格式、选择问句法格式和正反问句法格式。而特征词是指能够帮助判断问句类别的典型词语,比如特指问的疑问代词,选择问中的“还是”等。
根据承载问句的介质不同,可以从以下两个方面来说明问句形式的作用和特点。
(1) 在语音问句识别中,本该使用标点停顿的地方用语音停顿替换,表达疑问的标点形式用相应的语音语调替换,因此主要是语音语调、句法格式和特征词等在语音问句识别中起作用。
(2) 在文本问句识别中,标点完全代替语音信息起到停顿、疑问语气的作用,所以标点形式、句法格式和特征词在识别中占据主要地位,其中标点形式尤以问号“?”为主。
所以在问句判别的领域中,语音语调信息与标点信息形成对立,句法格式和特征词两者相互补充,甚至两者还互有交叉,一定情况下还可以相互转换。问号往往就是问句的标志。本文将重点研究文本中的问句表现形式。
2 问句形式在问句分类中的作用
问答系统一般由问题分类、查询扩展、搜索引擎、答案抽取以及答案排序选择等多部分组成[10]。问题分类是建构问答系统的重中之重。而对于问题分类而言,目标问句语料的筛选又是问题分类的前提条件。质量高的问句语料可以提高问题分类及后续工作的效率。
问句提取的对象通常都是文章中的对话内容,即引号内的问句,这样做有两个好处: 一是可以保证问句提取的自然度,能够最大限度地模拟日常问答;二是为判定问句的意图提供了条件,可以通过问句的上下文来推测说话人的意图,从而判别句子是“有疑而问”还是“无疑而问”。而文本问句的形式在上文已提到包括标点形式、句法格式、特征词三类,下面将围绕这三点说明问句形式在问句语料筛选中的作用。
2.1 标点形式
问号是问句的主要标志,根据问句中问号的多少可以把问句大致分为以下两类。
(1) 问句中存在多个问号
一般包括两种情况: 其一,问句是个连续问句群(例4),此时问句能被分解为若干个单独的问句;其二,问句是选择问句的一种形式变体(例5),此时每一个以问号成句的句子不能单独理解,必须将问句群看作一个整体,因为从语义上来说,单独的问句语义并不完整,只有问句群才能够表达完整的意义。
例4: 你是谁?你来自哪里?
例5: 你要喝果汁?还是牛奶?
连续问句往往不能成为问句分类分析的典型语料,但其作为问句的组合形式的一种,能拆解成若干个问句来理解。而选择问句的形式变体实际上是标点的一种误用,在形式上与连续问句相同,但它在问句语料中也占有一定数量,应算作问句分类分析中的典型语料,否则会使选择问句在自然语言中的比例不能得到正确的反映。
(2) 问句中只存在一个问号
又可根据问句内部是否存在标点分为两类: 一类是组合问句群,另一类是常规问句。汉语中的连续问句可以用逗号连接,以问号结尾。此时句子并不是单一的问句,而是一个组合式的问句群,不能成为问句分类分析的典型语料(例6)。
例6: 我是谁,来自哪里,又将会去何处?
2.2 句法格式
问句中存在一些包含特殊句法格式的句子,这类句子如果按照形式去分析,其问句理解的复杂程度相较其余典型问句要大得多,可细分为以下几类。
(1) “W+呢”类
“W+呢”类又可细分为“NP+呢?”和“VP+呢?”两类。
“NP+呢”在形式上没有明显的问句形式特征,但可以根据其前行句在深层语义上对其进行不同的扩展,如例7所示。
例7:
陈奶妈: “清少爷,你这一向好啊?”
曾文清: “好,您老人家呢?”(曹 286)
“您老人家呢?”可以作“您老人家好不好”“您老人家怎么样”“您老人家好吗?”等三种语义理解,且这三种理解分别属于正反问句、特指问句、是非问句。所以可以看出,理解这类问句在语义上需要借助语用信息,在形式上做进一步分类也容易出现分歧。
(2) “VP+呢?”
邵敬敏[6]将这类问句分成了三种类型:
甲 (要是)VP呢?
乙 (要是)VP,怎么办呢?
丙 (要是)VP呢?(要是)VP,怎么办呢?
形式上来看,“VP+呢”类问句中,甲句型最简洁,乙句型最完整,丙句型兼具甲、乙句型的特点,三种类型都能表达相同的语法意义。另外,从功能上来看,“VP+呢”类问句既能表示假设,也能表示询问,但无论是何种功能,这类问句的理解同样需要语用信息,且问句往往以甲句型出现。当然,如果考虑到根据深层语义补足原有形式的话,这类问句应是特指问,即根据完整句型乙推出。所以,在问句语料的筛选中,这类问句往往因为其功能的复杂性而被排除在典型问句的筛选范围之外。
(3) 省略疑问成分的问句
一些问句还存在一些缺省疑问成分,但在一定语境下仍旧可以表达疑问[6]。例如,两人初次见面时,一方可以用“您是?”提问,意为“您是哪位/您是谁”;对对方的变化感到疑问,可以用“您这是?”提问,意为“您这是怎么了?”。
这类句子在省略了疑问词的情况下,以是非问句的形式存在,但如果根据深层语义补足原有形式,这类句子大多属于特指问,且要理解句子省略了何种疑问词也需要结合语用信息才能说明。所以,在问句语料的筛选中,这类问句往往排除在典型问句的筛选范围之外。
(4) 回声问句
回声问是“对话的问题”,具有更多的交际价值,但对于问题本身来说它需要依托一定的语境才能理解它的含义或补全它的完整问句形式[6]。所以,在问句语料的筛选中,这类问句往往排除在典型问句的筛选范围之外,如例8所示。
例8:
鲁侍萍: “老爷那种绸衬衣不是一共有五件?您要哪一件?”
周朴园: “要哪一件?”(曹 63)
2.3 特征词
不同的问句类型有自己的特征词,这些特征词是判定句子类别的标志。如果特征词出现了错误,就可能影响问句的分类,进而影响问句的理解。主要表现为疑问代词,如例9、例10所示。
例9: 在中国有好多人在看摇滚?
例10: 浮云是神马意思?
前者的“好多”带有地域方言色彩,应属疑问词,对应标准式“多少”;后者的“神马”是网络词汇,属于疑问词“什么”一种语言变体。如果在问句理解中不能对这些形式的问句加以区分,则容易在语法结构和语义分析上造成偏差,最后影响问句的理解。由此可知,在问句语料的筛选中,还需要注意特征词的错写对语料筛选的影响。
所以,标点形式、句法格式、特征词在问答系统的任务中具有举足轻重的作用,规范的问句形式和信息正确同等重要,规范的问句形式是保障问句语料正确性、完整性的基础。
2.4 问句特征选取与特征集构建
根据语言学对是非问、特指问、选择问和正反问的定义,可以进一步将句法格式和特征词细化为疑问格式、语气词、语气副词以及疑问代词四大类,这四大类在具体语料中又可以细分为七个小类: 语气词“呢”类、语气词“吗”类、疑问代词、语气副词、是非问疑问格式、正反问疑问格式以及选择问疑问格式。
在是非问句中,一些句子的显性问句标记过少,不含七小类特征中的任一特征,如是非问“他走了?”。所以为避免没有特征匹配是非问句的情况,我们将增加一类补充特征,即当问句不存在疑问代词、正反问疑问格式和选择问疑问格式任一特征时,默认该句有补充特征,否则没有。所以最终可从以上八个问句特征的角度来描述问句。
3 问句语料库建设
3.1 数据标注
为测试问句形式对语料筛选的有效性,同时也为问句数据做进一步的分类,我们从一批小说语料中选取了2 400个问句并将这些句子分成三组,每组800句,交由6位语言学专业的研究生两两标注,问句的分类标准主要参照上文的问句定义。是非问、特指问、选择问和正反问分别以数字1、2、3、4表示。一个完整标注的问句如下所示,问句前的数字代表问句的类别。
1: 还有其他异常情况吗?(问句标注示例)
经统计,三组在没有对抽取句子进行形式上的筛选之前,一致率分别为0.855,0.820,0.845,平均一致率达0.840;而经过对抽取的句子按照常规问句形式的筛选,剔除句意理解与语用信息相关的句子后,一致率分别为0.965,0.943,0.894,平均一致率达到0.934。可见,问句形式在本研究中有助于提高问句标注的一致率。同时,以上实验也表明,根据问句的语言学特征来判定问句种类并不是一个过于复杂的任务,在此基础上可以继续扩大问句标注规模。
3.2 问句分布情况
经标注及筛选后,共得到1 679个问句。在此基础上,我们还标注了一批形式上较为规整,不依赖语境且可以自足分析的百度知道问句数据集,共2 621句。各数据集的问句分布如表2所示。特指问在问句中数量与占比均为最高,其次是是非问、正反问以及选择问,在一定程度上也大致反映了这四类问句在自然语言中的分布情况。
表2 问句数据分类分布情况
此外,在不同数据集上,四类问句的分布也稍有差异。在小说问句中,是非问与特指问占比相当,特指问略高于是非问;而在百度问答问句中,特指问占比超过70%,远远超过是非问的20.1%,在一定程度上呈现了小说问句与百度问答问句的特点,两者既有联系又有区别。百度知道问句是属于百科问答式问句对概念的提问、事件发生的原因等问句比例较大,致使包含疑问代词的问句较多,也就造成了特指问句在百度问答数据集上分布较多。而小说问句中并没有这种明显的倾向性,使得是非问句与特指问句分布较为均匀,同时小说问句的语境也更接近于日常生活场景的问句使用情况。
3.3 问句特征在语料中的分布情况
我们已整理出了问句的八个小类特征,分别用F1~F8来表示,在语料库中,这些形式特征的计量统计如表3所示。从表3可以发现,各特征多寡是和不同类型问句占比有关的,部分特征分布情况甚至可以直接反映问句整体的分布情况。如特征F3、F4、F5、F6的占比与四类问句在数据集中的分布情况相当,反映出特指问和是非问在问句中占比较大,选择问正反问数量更少。另一方面,疑问格式与疑问代词特征的占比相加大于100%,说明问句分类的结果不是仅由疑问格式决定的,至少存在一个问句包含多个疑问格式或疑问代词的情况,问句分类的复杂性也体现于此。
表3 问句特征分布
4 基于问句形式对自动分类
4.1 基于统计机器学习的多特征分类
从问句特征到问句种类的识别实际上是一个从特征到分类的问题。其过程就是把每个问句中能匹配的问句特征转化为可量化的特征向量,最终将特征向量映射到该问句所对应的类别。根据表3的问句特征我们对语料中的问句进行向量化处理,含有指定特征即将特征所在维度的向量值记为1,反之记为0;是非问、特指问、选择问、正反问分别用1、2、3、4表示。如表4所示。
表4 问句特征转换示例
在获得多维度向量及其对应的分类标签后就已经进入了根据特征分布进行问句分类的任务。根据以往分类任务经验,本文拟用支持向量机、逻辑回归分类器、贝叶斯分类器、K近邻、决策树以及随机森林等六种机器学习方法来验证问句特征对问句的分类效果。
此外,不同特征数量的选择对问句分类的结果也会有影响。F1~F8等特征近似于从语言学角度对问句形式进行列举,但哪些特征组合能够使得问句分类效果最佳需要进一步实验证明,所以本文将对F1~F8等8个特征做排列组合,共计225种组合结果。
我们再将人工标注的1 679句小说问句作为训练语料,后续标注的2 621句百度知道问句作为测试语料,将机器学习方法与特征组合结果结合后,下文将从多角度来分析模型的分类效果。
4.2 基于形式特征集的有限状态自动机
考虑到不存在问句特征和问句类型完全一一对应的情况,问句特征可以分为充分不必要条件(语气词、疑问格式等)、必要不充分条件(疑问代词、语气副词等)两种。充分不必要条件对判断的贡献程度会高于必要不充分条件,从这个角度来说,问句特征贡献程度便有如下排序,语气词=疑问格式>疑问代词=其他。此外,根据表3我们可以把特征的覆盖率作为问句特征对问句分类的贡献程度的另一参考,便有如下排序: 语气词>疑问格式>疑问代词>其他。那么基于此,我们可以让贡献大的问句特征优先参与问句判定,而问句特征无法覆盖的问句可以归入形式最多样的是非问,这样问句分类就是在一个有限规则内进行,只要输入一个问句,必定可以输出问句所属的类别。这样就完成了基于形式特征集的有限状态自动机构建准备。
4.3 实验结果
由于问句类别包含四类,我们主要从宏观的角度来分析模型随特征数量变化的情况,即通过不同模型分类的F1值宏平均和微平均分析问句分类整体的优劣(图1、图2)。考虑到在某一特征数量下,存在不同特征组合影响分类结果准确性的情况,我们只选取某一特征数量下模型的最优结果作为比较对象。
图1 不同模型F1值在特征数量上的宏平均
图2 不同模型F1值在特征数量上的微平均
从图1、图2可以看出,特征数量与模型的分类效果并不完全成正比,说明只有特定的典型问句特征组合集才利于问句分类。此外,并得出随机森林模型在特征数量为5时,分类模型的F1值宏平均和微平均达到最高值,分别是0.98和0.99。此时选取的特征分别是F2、F3、F4、F5、F6,即语气词“吗、么、嘛”、疑问代词是非问疑问格式、选择问疑问格式以及正反问疑问格式。随后,我们将百度知道的2 621条问句作为实验对象,采用有限状态自动机分类和随机森林模型分类的效果如表5所示。
表5 问句特征转换示例
从模型整体效果来看,随机森林的F1值宏平均和微平均相较有限状态自动机的分类结果提高了0.04和0.03。这一方面说明了有限状态自动机分类的方法对问句分类也有较好的效果,通过特定的问句规则可以有效覆盖大多数问句,但这种方法往往会出现召回率偏低的情况,无法处理一些组合特征;另一方面也说明了随机森林模型在进行问句分类过程中具有更好的分类效果。
从各个问句小类的分类结果来看,特指问的F1值在两种分类方法中均为最佳,但在是非问、正反问中,有限状态自动机的F1值却偏差随机森林颇多,表明是非问句、正反问句的判定受形式特征的多样性影响明显,单一的问句特征不足以覆盖大多数此类问句;而对于正反问句来说,有限状态自动机的方法在精确率上高于随机森林模型,说明正反问的问句形式特征对正反问的判定具有较强的作用,但在召回率上低于随机森林模型,与是非问情况相同,也体现了正反问形式特征的多样性。
4.4 模型错例分析
按照错判的类别分为以下典型几类:
例11: 有谁能帮忙解释一下,吴尊拍这张照片的这时候在干吗?
上述句子是特指问句,却被错判为是非问句。究其原因是“干吗”作为疑问代词,词中含有“吗”字,使得模型误以为含有是非问特征词,加之语气词“吗”属于强形式特征,模型会倾向于将问句分类为是非问。
例12: 听说有位明星自杀了真的假的?
上述句子是选择问句,却被错判为是非问句。这是由于选择问句的形式不能覆盖原问句形式所致。选择问句中最典型的疑问格式是“×还是×”,但也存在选择并列的情况,如上句。并列的成分可以是谓词性成分,也可以是体词性成分,但不论是何种成分,并列成分在结构上总存在一定的相似性。也正是由于这个原因,这类问句在形式上难以量化,本实验的模型对此类问句的识别效果有限。
例13: 韩庚什么的,没上09央视春晚吧?
上述句子是是非问句,却被错判为特指问句。这是由于原是非问句缺少明显的是非问形式特征,但却存在疑问代词,使得模型倾向于将原问句判断为特指问。从另一个角度来说,上述问句的疑问代词“什么”并不是疑问点,而是表示虚指。要正确对此类问句分类,必须分清句中的疑问代词是否表示疑问。
例14: 可最近心情又是不好,吃药都没作用啦,难道说还是抑郁症?
上述句子是是非问句,却被错判为选择问句。这是由于句中出现了选择问形式特征,但“还是”前后连接的并不是选择的对象。结合前文中选择问句错判的例句,可以发现选择问问句分类精确率较其他问句低,主要是由于连词“还是”作为选择问的典型特征,易与状中结构“还是”混淆,召回率低则是选择问存在不易归纳的问句形式所致。
例15: 如何判断经营者决策是否正确?
例16: 怎么看哈士奇纯不纯?
上述句子是特指问句,却被错判为正反问句。这是由于句中同时存在正反问形式特征和特指问形式特征所致,正反问形式特征对问句分类的直接增益更大,所以原句被判别为正反问句。实际上,上句中的“经营者决策是否正确”和“哈士奇纯不纯”并不是原问句的疑问焦点,“经营者决策是否正确”等价于“经营者决策的正确性”,“哈士奇纯不纯”等价于“哈士奇的纯度”,要解决这一个问题,需要引入问句焦点信息的识别工作。
5 结论
本文通过分析了问句形式在问句语料筛选和问句分类中的作用,在问句形式自动分类中证明了问句的形式分类本身是一个特征较为明确、规则性较强的问题,使用规则系统也可以获得不差的效果。当形式特征集为语气词“吗、吧、么、嘛”、是非问疑问格式、疑问代词、选择问疑问格式、正反问疑问格式时,问句分类模型的F1值能达到0.98。
考虑到不同问句形式可以对应不同语用功能的前提,我们认为,在为问句分类时可以增加一个问句形式分类的接口,一方面问句形式自动分类的精度有一定的保障,另一方面可以在这个问句形式分类接口处集中处理所有问句形式的问题,为问题进一步分类提供分类基础。下一步我们将考虑在不同数据集上验证问句形式的分类效果,增强问句形式对分类的泛化能力。