基于句式结构的高效语法图解标注系统
2014-02-28杨天心彭炜明宋继华
杨天心,彭炜明,宋继华
(1. 北京师范大学 信息科学与技术学院,北京 100875;2. 北京大学 计算语言学教育部重点实验室 北京大学计算语言学研究所,北京 100871)
1 引言
构建大规模、高质量的深层标注语料库是自然语言处理的基础环节,也是语料库语言学研究的前沿课题。深层树库的构建过程,是在分词、词性标注基础上,详细标注文本语句的句法和语义信息。只有积累大规模的涵盖各个领域的平衡标注语料才能全面覆盖林林总总的语言现象。众所周知,树库标注中无论是词类的判断还是句法层次的切分都是极其繁琐的过程,需要大量人力和物力投入才能保证这一深层标注语言工程的一致性和高质量。
经过国内外研究者多年的努力,已经构建了一些大规模的汉语树库,影响较大的有宾州汉语树库(CTB)、台湾Sinica树库、清华树库(TCT)、哈尔滨工业大学依存树库、国家语委现代汉语树库、中国科学院计算技术研究所的机器翻译句法树库等[1]。海量的文本数据完全由人工标注是不现实的,人机结合模式既能发挥机器的效率优势,又能通过人工干预和校对保证树库的质量,因此在树库构建过程中被广泛采用[2-5]。不论完全人工标注还是人机结合的标注模式,高效便捷的标注工具都占有举足轻重甚至决定整个树库工程成败的作用。即便是句法分析自动化程度较高的树库工程中,也需要通过一定的标注工具来提供便捷的人工校对和修改功能。可见,标注工具是树库构建中不可或缺的重要组成部分,对于树库建设的意义不言而喻。
目前主流的句法标注工具都提供可视化的操作界面,并通过程序生成结构化的数据储存格式(图1)。这些工具对于树库工程的构建起到了很大的推动作用,但是离人们构建大规模树库的效率期望还是存在较大距离。或者说,树库标注费时费力的现状仍然没有因为工具的改进而发生质的变化,因此,国内外汉语树库也都限于百万字级别的规模。究其原因,虽然树库构建中已经使用了可视化的标注工具并结合了机器的自动分析,但是从标注人员的具体需求出发,针对标注操作的各个环节进行简化、优化的设计和研究却远远不够。另一个重要的制约因素是,句法标注的困难程度与句法结构的形式化设计有着直接关系。目前树库的主要句法结构类型为短语结构和依存结构。在层次结构的标注过程中,不管是以NP,VP等节点来构造层级树,还是通过依存弧设置词语间的句法支配关系,标注工具所能呈现的形式化结构与人对于句子结构的直观理解模式之间还存在着相当大的差距,以致只有具备专业知识背景的标注者才能进行句法的分析和校对,并且大量的时间都耗费在了繁琐的节点操作和依存关系设置上面。
图1 典型的短句结构句法标注工具TreeEditor
我们注意到,在早期汉语语法体系中,黎锦熙的句本位语法设计了一种图解法,以接近于人理解的形式依次展现句子从主干到枝叶的层次结构。因此,我们借鉴黎氏图解法的思想,探索基于句本位的汉语句法结构形式化系统设计。新的形式化句法结构采纳图解法的可视化呈现形式,同时存储为符合一定规范的XML结构格式。在面向计算机信息处理的同时,注意兼容现代教学语法体系,力求做到与人的自然语感和理解模式一致,这是自然语言处理领域的一种崭新思路与尝试。
2 句式系统的图解设计
黎氏图解法将句子结构以一种清晰而简洁的形式展示出来,句子各个成分以及成分之间的相互关系都一目了然。我们对黎氏图解法进一步改进和完善,设计了一套全新的句子结构图解样式和存储结构格式,并实现了相应的可视化图解操作模式和标注功能。
2.1 图解法操作模式
图解系统将句子成分划分为八种,每种成分与特定的图形样式相对应。主语、谓语、宾语为三种主干成分,在图形中位于一根长横线之上;定语、状语、补语作为附加成分主要位于长横线的下方;呼语和插入语是不影响结构格局的独立成分。所有成分以及成分之间的关系可以用一张总图表示出来,即图解公式,如图 2所示。图解公式是对汉语句子结构的概括和总结,通过其中的成分和结构关系可以生成所有的汉语语句。在图解标注工具中,图解总公式被实现为快速切分句子的核心操作区域,公式中每个成分区域都设置为相应的功能“热区”,点击热区即可在当前选定的句法成分上进行相关操作(如添加附加成分、成分复杂化等),并在图形内部建立成分之间的结构关系。
图2 汉语图解公式
标注过程以“先主干后枝叶”的形式进行,这样的过程与人理解句子结构时“自顶向下,逐步求精”的认知心理具有一致性,因而容易为标注者接受和掌握。标注过程首先确定句子主干成分之间的总体结构格局,在二维平面上将各个语句成分的文本块分配到对应的图形控件上,如图3所示;再对各个成分内部的修饰关系进行更细致的切分,以完成整句的语法标注,如图 4所示。
图3 确定句子总体结构格局
图4 扩展成分的切分
为了更加直观地反映当前操作的局部结构,在图形上通过不同颜色动态显示相关成分之间的支配和从属关系。如图 4所示,光标进入的区域显示为中灰色,代表当前句法操作的“焦点”,此时支配焦点的 “父成分”显示为深灰色,而受焦点支配的“子成分”(或称依存成分、从属成分)则显示为浅灰色。下面以“勤劳的工人在河边修建雄伟的桥梁。”一句为例介绍图解标注的具体操作过程。
如图 5所示,首先将待分析句子置于默认的主干线(“主||谓”格局)的谓语核心位置之上,然后依次进行如下句法切分操作。
第一步切分主谓: 将光标置于“工人”之后,并点击图2所示图解公式中分隔主谓的双竖线,工具自动将焦点控件中光标前后的字符串分别“填入”主语和谓语对应文本框。
第二步切分动宾: 光标调到动词“修建”之后,点击图解公式中引出宾语的单竖线,工具自动将光标之后的字符串,即宾语部分“填入”新增的宾语成分中。此时,句子主干结构格局已定,为“主-谓-宾”句式。
第三步切分主语的定语和中心词: 光标调到主语文本框中“勤劳的”之后,此时焦点区切换到了主语位置,再点击图解公式中的左下斜线(三类定语中的形容词定语),工具将形容词“勤劳”和结构助词“的”分别填入新增的形容词定语成分中的特定位置。
第四步切分状语和谓语核心: 光标调回谓语文本框“河边”之后(焦点回至谓语框,以下不再说明焦点),点击图解公式中不出头的右折线(“介名”状语),工具将“在河边”填入新增的介名状语图形中。
第五步切分介名结构: 光标移至“在”后,点击切分介词的控件(位于“虚词”操作区,不在图解公式中),介词“在”被填入介名状语控件的介词位置。
第六步切分宾语的定语和中心词,操作类似第三步。
通过这种类似于短语结构二分法的切分操作模式,标注者只需要几次鼠标点击,便能快速地将文本分配到对应成分上形成图解图形。最后,工具按照一定的层次规范将图解样式转化成XML结构格式,具体见2.2节。
2.2 编解码和XML
系统中整个标注流程都在可视化图形界面上进行,而系统内部采用XML结构存储数据。因此需要在这两种形式化结构之间建立一套有效的转换机制。我们将图解图形转换为XML的过程称为编码,而XML转换为图解图形的过程称为解码。它们之间的转换机制即图解系统句法结构的编、 解码规范。规范必须保证二者转换时信息无损,且符合汉语的句型句式规律,因此规范本身也是一个复杂的汉语句法分析系统,已另外撰文阐述[6]。限于篇幅,本文不作展开,只给出上例对应的XML存储结构。如图6所示,各元素(Element)和属性(Attribute)的意义说明如下:
图5 图解标注流程示例
元素标记: ju(整句),xj(小句),sbj(主语),prd(谓语),obj(宾语),att(定语),adv(状语),a(形容词),u1(结构助词),n(名词),v(动词)。
属性与取值: ju包含了ctg(句子类型)和cnt(原文)两种属性,ctg属性的sim取值代表单句;xj和prd包含ptt(句式结构)属性,取值中S表明包含主语,VO代表动宾谓语句。
图6 示例语句对应的XML存储结构
3 句式结构和句式系统
3.1 句式结构
对比示例图解标注流程不难发现,最终生成的XML层次结构(以下简称“图解结构”)并不拘泥于图解过程中二分切分的操作步骤。例如,操作过程中是先切出宾语,之后才切出了状语,但图解结构中,adv和obj同一层次,与谓语核心v互为兄弟。由此可见,图解结构层次并非取决于图解操作步骤。也就是说,很多操作步骤即使互相交换,如先切状语和先切宾语两种切分顺序,只要保证最后的图形中各个成分的结构关系一致,就不会对内部结构产生影响。而图解结构规范设计遵循“中心词分析法”思想,句子成分的中心词一定与其直接孩子成分位于同一层次。因此,在一定的句式格局中,各成分围绕谓语核心形成模式化的固定层级结构。我们称这种固化的层次结构为图解法的“句式结构”。
句式结构与中文信息处理中短语结构的重要区别是,它的层级设计只与特定句式的结构格局有关,因此,标注人员在进行图解时只要对小句(包括整句和内部嵌套的子句、谓词结构)的句式把握准确,图解标注结果的结构层次就能由程序正确地“编码生成”。
图解法与同样采取“中心词分析法”思想的依存句法分析的区别在于图解结构有句式的宏观约束。依存分析虽然把存在直接支配关系的词通过依存弧联系起来了,但从体系结构设计上看,谓词的左、右依存弧的个数及依存关系类型都没有明确的限制,可以说,基本上还是上下文无关的。而图解法首先明确地划分主干和附加成分,并对主干成分的配置格局和附加扩展规则进行了系统约束,形成了图解法独特的句式系统。
3.2 句式系统
综合汉语语法学界的研究成果,我们概括总结了汉语单句的12种基本句式结构[7-9],如图 7~ 9所示,基本句式只考虑主语、谓语核心、宾语三种成分的组合结构,首先分为主谓句和非主谓句两大部分,主谓句又根据谓核个数进一步分为单核谓语句和多核谓语句。任何复杂的语句结构都可以由基本句式通过一定的扩展变换规则(参考图解公式)而生成。
图7 单核谓语句式结构
图8 多核谓语句式结构
图9 非主谓句式结构
基于句式结构的切分过程总是处于句式系统的框架约束下,包含了句式所代表的高层语义信息,而不是简单的二元短语结构堆叠。利用句式本身包含的语义信息,各个内部成分之间的层次关系能够根据图解图形自动生成。在图解操作模式下,标注者只需要正确判断句子所属的句式结构,而无需逐层地切分层次,省去了层次切分和依存关系设置等繁琐的操作,提高了标注的效率。在句式结构体系中基本句式是有限的,标注者只需要熟悉体系中的12种基本句式和教学语法中的常用概念,就能够胜任深层语法标注工作。
4 词类标注模式
对语料的词性判断和校正,也是树库语料标注过程中的较为繁琐的环节。利用句本位语法的特点,可以在一定程度上自动确定词类,只有少数情况下才需要人工干预。基于句式结构图解法在词性标注上也有显著的效率优势。
4.1 指称位与陈述位
图解法的词类标注思想源于黎氏语法体系,即采纳“依句辨品”的词类观[9]。根据词所充当的句法成分来辨别词类,句子成分和词类之间存在着一定的对应关系(但非一一对应)。图解系统可以利用这种对应关系,让大部分的词类标记由程序根据图解位置(成分)自动生成,标注者只需要进行少许的二值选择。具体实现中,引入“指称位”和“陈述位”的概念,如主语、宾语对应指称位,谓语对应陈述位。指称位默认对应词类系统中的体词(主要为名词、代词),陈述位默认对应词类系统中的谓词(动词、形容词)。在图解体系中,根据概率原则,实体位默认为名词,通过文本框上的标记复选框可以切换成代词,其它体词结构(如数量词)则通过句法操作(特殊的热区按钮)实现;陈述位默认为动词,通过复选框可以切换成形容词。图 10到图12展示了图解系统中实词词类标注的相关操作。从中可以看出,实词的词类标注工作量极小。而虚词基本上都与特定的成分类型相关联,在进行相关句法操作时就已经在特定图解位置上为虚词设置了固定的文本框。
图10 主语宾语默认为名词,谓语默认为动词
图11 选中复选标记,主语为代词,谓语为形容词
图12 主语切换为数量结构
4.2 “指称化”
若完全执行“依句辨品”,则出现在主、宾语位置上的单个谓词被认为是发生“名物化”,转类为名词,这将极大地放开汉语兼类词的范围,进而导致“词无定类”。因此,在图解标注系统中我们从句法层面实现词类的指称化,将充当主、宾语的谓词顶起以标识指称化的过程,而不将谓词转类为名词,如图13所示。这样,图解树库便可以基本继承现有分词标注语料的词类标记,做到既“词有定类”,又“依句辨品”[6]。
图13 宾语为“指称化”的谓词
4.3 词库与词类的自动分析
由于我们对“依句辨品”具体操作的相关调整,图解体系与现有分词语料的词类标记是基本兼容的,因而可以利用规范的中文信息处理分词词典来辅助判断分词单位和词性。在系统中嵌入词库作为词法规范,既可以解决标注者由于语感差异而导致标注不一致的问题,同时也能极大地减少标注者在词语上的辨析时间。鉴于此,我们从北京大学计算语言学研究所《现代汉语语法信息词典》中提取了包含8万条词项的基本词库,以此作为词性提示和自动词性判断的底层知识资源。
5 系统辅助功能
基于句式结构的图解标注模式从总体上保证了图解标注效率,而便捷的辅助功能对于树库构建效率也有重要的影响。机器辅助分析是标注系统智能化的核心模块,该模块会随着句本位语法研究的深入而持续改进。在本课题中,辅助分析从两个方面入手,一是基于统计建立句式索引库,另一方面建立基于规则的语义知识库。句式索引库由高频的语句模式和语句特征结构组成,系统将要标注的生语料与该库中的特征和模式进行相似度比较,将匹配的部分绘制到图解图形中。而语义规则库则通过将语句抽象为语义模式来构建,机器辅助分析时用分词序列进行语义模式的匹配,找出所有能够匹配的句子主干,再将非主干词作为附加成分进行更细致的判定,得到分析结果。
在图解操作模式基本功能的基础上,工具中还设计并实现了支持树库建设的一系列外围功能,如多级复制粘贴、图形成分拖拽操作、成分删除后文本回退、图解操作撤销恢复、联机与离线模式、基于数据库或文件系统模式、审校机制、用户管理机制以及用户帮助和学习系统等。
图14 基于句式结构的标注系统
6 标注实践与效果分析
在句式结构体系提出和完善的同时,也并发的开始了基于该系统的标注工具的开发与树库的设计。通过在标注系统原型上的实际操作来检验和完善语法理论,并在此过程中发掘更高效的标注模式和机器辅助算法。经历两个月的开发和测试,标注系统正式投入到面向对外汉语教材的语法图解标注项目中。
标注者以高校兼职学生为主,标注时间和地点不限,学科背景即包含语言相关专业,也包含非语言专业,审核者在测试阶段已经过相对较长时间的语法理论学习和标注训练。新加入项目的标注者依靠在线用户帮助和学习系统快速入门并解决疑难问题。即使不同标注者语言学理论基础各不相同,但都能在一到两天的学习和标注过程中,达到熟练掌握的程度,正确率和标注速度接近平均水平。在项目初始阶段以人工标注为主,机器辅助的条件下,到截稿时已完成3.6万句,52万字规模的语料标注。人均正确标注效率可达: 4 450字(207句)/每天(7小时)标注结果由图解图形编码生成,而图解的生成能力受到句式系统框架的约束,有效地限制了非法结构的产生。在一定程度上保证了树库的一致性。
在项目运作中,基于句式结构的语法理论和与之对应的标注工具对于树库构建的效率提升是显而易见的。在此基础上构建大规模的深层标注树库变得切实可行,需要的人力和物力资源被大幅度压缩。下一步任务是在当前标注模式下,使系统更具交互性和智能性,即研究人机交互式的半自动分析算法,探索自动句法分析所需的知识库。
[1] 王跃龙,姬东鸿.汉语树库综述[J].当代语言学,2009(1):47-55.
[2] 周强,张伟,俞士汶.汉语树库的构建[J].中文信息学报,1997,11(4):43-52.
[3] 周强.汉语句法树库标注体系[J].中文信息学报,2004,18(4):1-8.
[4] 王慧兰.汉语句类依存树库的构建研究[J].北京大学学报(自然科学版),2013(1):25-30.
[5] 赵怿怡,关润池.汉语依存树库的构建[A].第三届学生计算语言学研讨会论文集[C],2006.
[6] 彭炜明, 宋继华, 王宁. 基于句式结构的汉语图解析句法设计[J]. 计算机工程与应用.2014,50(06):11-18.
[7] Jing He, Weiming Peng, Jihua Song, et al. Anatation Schema for Contemporary Chinese Based on JinXi Li’s Grammar System. In: Proceedings of The 14th Chinese Lexical Semantics Workshop (CLSW2013), LNAI,Volume 8229, Springer,2013:668-681.
[8] 彭炜明,何静,宋继华.句本位语法图解析句系统的设计与实现[C]//第四届数字典藏与数字人文国际研讨会.台湾:2012.11.30.
[9] 彭炜明,宋继华,王宁,康明吉.汉语传统语法及其在中文信息处理中的应用展望[J].中文信息学报,2012,26(4):50-60.
[10] 彭炜明,宋继华,俞士汶.中文信息处理的词法问题——以句本位语法图解树库构建为背景[J].中文信息学报,2014,28(02):1-7.