内容标签和关系标签相结合的汉语篇章标注规范
2015-04-21李素建王宇昕
王 荀,李素建,王宇昕
(北京大学 计算语言学教育部重点实验室,北京 100871)
内容标签和关系标签相结合的汉语篇章标注规范
王 荀,李素建,王宇昕
(北京大学 计算语言学教育部重点实验室,北京 100871)
篇章标注是自然语言处理中的重要任务,很多其他任务,如自动摘要、机器问答等都可以通过篇章标注得到对文本内容和语义的认识,从而获得更好的结果。与此同时,篇章理解的理论如篇章修辞结构(RST),向心理论(CT)等与实际问题的结合并不紧密,难以实用。该文中我们参考现有的语言学理论和一些语篇标注库(如RST-DT,PDTB),并结合自然语言处理任务特点,提出了一套用于篇章标注的汉语标注体系。这个体系能够比较准确和全面地描述出篇章的内容和逻辑关系,并很好地服务于实际任务的需要。
篇章语义标注;修辞结构理论;关系标签;内容标签
1 引言
在自然语言处理中,很多任务,如自动摘要、机器问答等,单纯依靠统计的方法只能抽取到文本表面的特征,而且过分依赖于频次等信息。如果可以对篇章进行语义分析,得到对篇章的内容和逻辑关系的认识,便可以辅助模型的设计或者算法的改进从而获得更好的结果。但是现有的篇章语义分析的理论如修辞结构理论(Rhetoric Structure Theory,RST)[1]、语篇向心理论(Centering Theory)[2]等与实际问题的结合并不紧密,导致语义关系难以得到充分利用。
本文参考话语分析理论,特别是RST等篇章结构方面的理论,并结合自然语言处理中常见任务的特点,提出一套用于篇章标注的标签体系。这个体系由内容标签和关系标签两套标签体系构成,能够比较准确和全面地描述出篇章的重点内容和语义关系,可以很好地满足实际任务的需要,同时保持了体系的完备性,兼顾了理论和实际的双重需求。
2 篇章标注的相关工作
篇章关系是指文本的组成部分之间的语义关联。一般只考虑相邻的部分之间的语义关系。研究篇章关系时的语义单位,一般是句子或者小句,也有以短语为基本单位的,彼此组合起来形成更大的单位,自底向上层层联合,直至形成一篇文档被完全标注。一般使用树状结构来描述语义关系,也有使用图模型的。
目前篇章标注中代表性的工作,一个是基于RST理论的RST-DT (RST-Discoures Treebank)语料库[3]。RST-DT语料库基于RST理论标注了385篇Wall Street Journal文章。RST理论认为篇章内部存在着不同的语义关系,整个文本由这些关系连接起来而成为一个整体。
其中另外一个目前应用较广泛的是2006年发布的PDTB[4],最新的版本是2008 PDTB-V2[5]。PDTB的标签设置相对比较简单,它将连接词视为谓词,将具有语义关系的成分视为谓词的论元。PDTB将语义关系分为三层,最高层主要有四种语义关系,分别是Comparison、Temporal、Contingency和Expansion。每种关系下面可以继续再分,最多有三层,其中第二层有16种关系。PDTB一共标注了一百万字规模的华尔街新闻文章。其他还有基于框架语义学的FrameNet语料库,它是基于框架语义学,以动词为核心,专注于事件和场景的描述,共有大约1 200个框架。而Graphbank则使用图来对语义关系进行描述的。
中文的篇章语义分析工作基本上采用RST的框架,主要对修辞关系进行标注,而并不对内容和关系进行区分。在此基础上的工作有乐明[6]在财经类文章上进行的标注;娄开阳[7]在新闻语料上进行了比较系统的语义关系分析研究,标注了数百篇新闻语料,并进行了统计和分析,对新闻叙事的宏观和微观结构的表现形式进行了详尽说明;李毅等[8]基于奥运语料的语义成分标注规范等。这些研究基本是在RST的框架内进行的,对汉语的篇章分析进行了有意义的研究,取得了一定成果。
总结以上几种语篇标注的体系和语料库,我们可以发现,RST-DT和GraphBank是将整个文本作为一个整体进行理解和标注,而PDTB和FrameNet主要用来描述文本片段。前者能够较好地描述文本内部的语义关系,而后者可以对文本片段进行详尽的说明。而在自然语言处理的实践中,对文本语义的把握和对细节的分析理解对自然语言处理都很重要。目前的种种方法,并不能很好地兼顾二者。从这一点出发,我们设计一种新的篇章标注体系,来对文本篇章进行标注。
3 标注体系的设置
在对文本进行篇章分析的时候,我们一方面需要对篇章的语义关系进行标注;另一方面还需要对一些重要内容进行标注,以便在整体上把握篇章结构的同时,在局部也可以得到更详细的理解。标注过程中,我们提出了所应遵循的标注基本原则。
3.1 标注的基本原则
分层的原则: 篇章的构成是分层的。在不同的层次关系的种类和紧密程度不一样。我们设计了一个多层体系来描述篇章。 3.2中将对篇章的分层体系结构进行详细说明。
简单的原则: 使用尽可能少的标签,清晰地描述出篇章重要的内容和逻辑关系。我们将关系标签和内容标签分开使用。文章的单位彼此之间用关系连接起来,而重要的内容使用内容标签单独标识出来。这样的设计层次比较清晰。保证了标注体系的完备性。另外将内容标签和关系标签分开,保证了基本的关系标签的稳定性。而内容标签可以根据标注对象进行扩展,保证了体系的灵活性。
异质的原则: 在不同的层面,关心的侧重点不同。标签也有不同的适用范围,这一点跟RST是有区别的。 在RST-DT中,不同的层面使用相同的关系。
这些原则将在本文提出的标签体系中得到体现。
3.2 篇章的体系结构
整个体系的层次如下,篇由关系比较单调和松散的章组成;章由一个或者几个意义段组成;意义段由意义段或者自然段组成。自然段下辖句子。句子内部又可以分为句子基本单位。每一层的单元彼此之间以及上下级层次之间存在着关系,从而构成整个篇章。
篇是自然存在的一篇文章,结构完整,信息完备。章是篇的直接组成成分,一篇可以由若干章组成而且一般包含若干章。章内容比较完整,彼此之间的独立性较强,章之间的关系也较少,较简单。同一章内部的段落之间联系比较紧密。章由一个或者多个意义段组成。章之间也可以彼此组合形成章。意义段由一个或者若干个彼此之间联系紧密的自然段组成的,意义段往往关注一方面内容。自然段由句子和一个较长的停顿组成。句子内部可以进一步切分为基本单位。章作为文章中比较高的层次,一篇中章的数目比较少,章之间的以及章和篇的关系也比较简单。所以描述这种关系的标签,也比较简单。除去一般的关系标签外,章和篇之间还可以加入实现、附属、背景、前言等类似的关系标签,来描述逻辑和内容上难以描述,形式上比较明显的章与篇的关系。
段落之间的关系可以从多个层面进行描述。有的是很明显而不需要标注的: 比如段落之间的先后关系;是否属于同一个章节等。还有的是隐藏的,需要判断的: 比如逻辑和内容上的联系。我们的标签体系要描述的为后者。段落的跨度比较大,彼此之间关系的性质也不一样,有的段落之间关系比较疏松,有的则很紧密。关系比较紧密的自然段合在一起称为意义段。段与段的结合,最后构成章。
句子和段落之间的关系是最重要的。对于段落以上的层面,由于数目所限,通常不能提供足够的信息,而且如果要直接服务于摘要或者问答等应用系统,粒度太大,并不适合。而句子作为组成篇章的基本单位,可以提供足够的信息。所以这个层面的描述是非常重要的。句子的内部可以进行进一步的切分,小句之间存在比较紧密的关系。
由上面的分析可知篇章天然具有一种层次结构,对于不同层次我们关心的重点也不同,因而使用的标签也不同。
3.3 关系标签和内容标签的设定
关系标签: 是两个相邻成分之间的关系。所有的关系都必须在相邻的两个成分之间。
内容标签: 是单个篇章成分本身的内容所具有的意义特征。
关系标签是必须的,内容标签是可选的,内容标签可以是对关系标签的一个补充。例如,因果关系中,可以使用内容标签补充说明是原因部分还是结果部分。(RST里面因果和果因是两个不同的标签,本文中将二者合并为一个,加上内容标签来说明因果和果因的区别。)
内容标签独立于关系标签,用来说明成分的主要内容,比如功能、用途、原因、结果等。内容标签的设计比较灵活,而关系标签的数目和种类则是固定的,不能增减。这样可以同时满足标签体系的灵活性和稳定性。
关系标签的设定: 我们主要参考RST的标签体系,根据统计规律,将比较类似的标签进行合并,同时将使用比较广泛的标签进行细分,并结合要处理的文本和实际问题,设计如表1所示的关系标签体系。
表1 关系标签
续表
内容标签和关系标签是独立的,用来对部分文本的内容或者功能进行说明。它随着标注对象的变化而变化。内容标签的设置和关系标签的设置是彼此独立的,但是它们的标注并非截然分开。文本应当首先进行关系标签的标注,形成层次的结构;然后内容标签标注在结构中的成分上。即内容标签标注的对象应当是关系标注中的一个单位。下面我们给出标注的具体样例和分析。
4 标注样例
我们分别在医学文本和新闻语料上进行了标注,下面给出几个标注的样例。
文本如图1 中所示的那样,来自医学文献(内科学部分),根据文字内容,我们采用的内容标签如表2所示。使用关系标签和内容标签同时进行标注的结果如图2所示。
表2 医学文本的内容标签
图1 医学文本及基本单位的切分(部分)
图2 医学文本标注结果(部分)
内容标签与文本内容紧密相关,用来对文本的重要内容进行标识和说明。其中“#”后面的部分是该成分的内容标签,用来说明此成分的内容。由于篇幅所限,我们只截取了标注结果的一个片段。从结果可以看出,我们可以清晰地描述文本的篇章结构,并标识出重要的内容。其中关系标签描述了整个文本的篇章结构和彼此之间的语义关系;内容标签对重要的片段进行标记。医学文本的结构关系相对比较简单,我们下面使用新闻语料来对文本关系标签的标注进行详细说明。以1998年1月4日 《人民日报》第三版-科威特散记为例,我们对整个篇章进行标注。文本及基本单位的切分如图3所示。
图3 科威特散记文本及基本单位切分
标注关系标签时需要注意,呈现出多种关系时,一般来说优选最强的关系。这个最强是指在上下文中表现出的最强、最明显的关系。
篇章关系标注的结果见图4。其中为了方便起见,我们将段上和段内的关系分开描述。在实际标注中,我们开发了一套篇章标注软件,来实现基本单位的切分(称为“分段分句”)、关系标签的标注(称为“关系标注”)和内容标签的标注(称为“内容标注”)。图5所示的是关系标注的界面。
目前为止,我们已经标注了将近十万字的医学文本,并对新闻、专利、说明书等进行了试标注。在标注的同时我们也根据语料,对标注体系不断进行调整。
图4 散文文本关系标注结果
图5 标注软件的界面
5 总结和展望
本文提出了一套全新的文本标注体系,我们分别在新闻语料和医学文本上进行了标注,从试标注的结果来看,这套标签体系可以描述篇章的语义关系,同时标识出重要内容。对自动摘要、机器翻译、自动问答等应用都有很大的作用。特别是将内容和语义关系分开,很好地保证了标注体系的理论上完备性,另外又保证了重要信息可以被标识出来。对整体语义结构和对文本片段都有较强的描述能力。之后我们将对更多的文本进行标注,并不断完善这套体系。
[1] Mann William C, Sandra A Thompson. Rhetorical Structure Theory: Description and Construction of Text Structures[C]//Proceedings of University of Southern California, Information Sciences Institute, 1986.
[2] Walker M A. Centering Theory in Discourse[M]. Oxford:Clarendon Press, 1998.
[3] Carlson Lynn, Daniel Marcu, Mary Ellen Okurowski. Building a discourse-tagged corpus in the framework of rhetorical structure theory[C]//Proceedings of the Second SIGdial Workshop on Discourse and Dialogue-Volume 16. Association for Computational Linguistics, 2001.
[4] The Penn Discourse TreeBank 1.0 Annotation Manual[R]. The PDTB Research Group. March 29, 2006.
[5] Prasad Rashmi, Diresh Nikhll, Lee Alan, et al. The penn discourse treebank 2.0[C]//Proceedings of the 6th International Conference on Language Resources and Evaluation (LREC 2008). 2008.
[6] 乐明. 汉语财经评论的修辞结构标注研究[C].第九届全国计算语言学学术会议,2007
[7] 娄开阳. 现代汉语新闻语篇的结构研究[M],北京: 世界图书出版公司,2008.
[8] 李毅,亢世勇,孙茂松,孙道功. 基于奥运语料的语义成分标注规范[C].全国第八届计算语言学联合学术会议,南京,2005.
[9] Baker Collin F, Charles J Fillmore, John B. Lowe. The berkeley framenet project[C]//Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics-Volume 1. Association for Computational Linguistics, 1998.
[10] Fillmore Charles J. Frame Semantics and the Nature of Language[J]. Annals of the New York Academy of Sciences, 1976,280(1): 20-32.
Exploration on Chinese Discourse Tagging Scheme
WANG Xun, LI Sujian, WANG Yuxin
(Key Laboratory of Computational Linguistics(Peking University) Ministry of Education Peking University, Beijing 100871, China)
Discourse Tagging is fundamental in natural language processing and helpful to a deep understanding of the texts. Many application tasks, such as automatic summarization, question & answering and so on, would benefit a lot from a thorough understanding of the text. On the basis of the existing discourse theories such as Rhetoric Structure Theory or Centering Theory, this paper designs a new discourse tagging system, which covers both the logical relations and text content or the practical needs of real natural language processing tasks.
discourse tagging; rhetoric structure theory; relation tag; content tag
王荀(1988—),硕士,主要研究领域为自然语言处理,文本分析,统计机器学习。E⁃mail:wangxun.pku@gmail.com李素建(1975—),通讯作者,博士,副教授,主要研究领域为自然语言处理,自动文摘、篇章分析。E⁃mail:lisujian@pku.edu.cn王宇昕(1990—),硕士,主要研究领域为自然语言处理。E⁃mail:arkipku@gmail.com
1003-0077(2015)03-0065-06
2013-04-08 定稿日期: 2013-07-29
国家自然科学基金(61273278);国家社会科学项目(12&ZD227);国家科技支撑计划子课题项目(2011BAH10B04-03);国家863计划(2012AA011101)。
TP391
A