面向信息处理的大规模句子语义知识库研究述要
2011-12-05周明海亢世勇
周明海 亢世勇
(鲁东大学,烟台,264025)
刘金凤
(海军航空工程学院,烟台,264001)
1.引言
句子语义知识库指计算机所存储的句子层面语义知识的集合,既包括句子语义知识系统,也包括在此系统指导下建立的标注语料库,可分为义项标注库、语义角色标注库等。本文所说的句子语义知识库主要指标注了语义角色的知识库。有些知识库并非专门的句子语义知识库,比如FrameNet是计算机词典编纂工程、VerbNet是动词词库,但这些知识库都对句子进行了语义角色标注,有自己的理论体系,也有一定的数量规模,因此我们均视之为句子语义知识库。
句子语义知识库的建设可以促进句法语义接口问题的深入研究,为大规模语料的自动语义标注提供训练集,服务于机器翻译、信息提取、文本摘要、问答系统等多项研究。出于863项目子课题“事件描述块句法语义标注”语料库建设的需要,我们从项目研制时间、研制者、所建知识库的规模、建库的理论基础、所设的语义角色等方面考察了近些年来国内外影响较大的句子语义知识库,总结规律、吸取经验教训,更好地服务于我们的项目。表1列出了近年来国内外所建的句子语义知识库。
2.国外句子语义知识库的建设
句子语义知识库的建设离不开先进的语义学理论的指导。近些年来,国外特别是美国在语义学理论方面一直处于领先地位,他们构建语义知识库的经验值得我们深入研究和借鉴。
2.1 框架语义知识库(FrameNet)
FrameNet是美国加州大学伯克利分校于1997年开始构建的一个以框架语义学为理论基础、以真实语料库为依据的计算机词典编纂工程,该项目由美国国家科学基金NSF资助,由Fillmore主持,已发布了五版,是一个依然在建设中的英语在线词汇知识库。截至目前,FrameNet研究小组共标注了1,007个语义框架,描述了11,797个英语词元(其中近7,000个词元已完成了注释),并给出15,000多个带有语义标注信息的例句①。
FrameNet虽然是一个计算机词典编纂工程,但其对框架、框架元素的界定及独特的句子语义标注体系非常引人关注。框架是对“场景”的结构化表征,这些场景包括信仰、实践、制度、想象等,并为一定言语社团中意义的交流提供了基础。框架中涉及的各种参与者、外部条件和其他概念角色,称为框架元素(Frame Elements),相当于我们所说的语义角色。框架元素的获得遵循以下程序:先把含义接近、语义搭配属性(配价属性)基本相同的不同词元归为一个框架,再给出共有的框架元素。下面是一个标注样例:
框架:[Perpetrator/man]+abduct+[Victim/him]+[Time/Sinterrog]
例句:A year ago [
在FrameNet中,框架元素根据它们与框架的紧密程度分为三种:核心(core)、外围(peripheral)和题外(extrathematic)元素,此外还有一种为隐含核心。核心元素是一个框架在概念上的必要成分,核心元素在不同的框架中有所不同,凸显出框架的个性。外围元素对于主要事件不增加额外的、独特的事件,如时间(Time),空间(Place)等。它们不显示框架的个性,可以出现在任何框架中。题外元素把一个事件置于另一些事件状态的背景之下,它们或者是一个实际事件,或者是同类状态,如“重复”。外围和题外元素大致是通用的,而核心元素则随着框架的不同而不同,2008年10月发布的FrameNet已有9,000余个框架元素。
表1 近年来国内外建设的句子语义知识库
2.2 英语命题库(PropBank)
PropBank是由BBN公司、约翰霍普金斯大学MITRE研究所、纽约大学、宾夕法尼亚大学从2000年开始构建的。该语义资源库是在宾州树库(Penn TreeBank)的基础上添加一层谓词—论元结构信息而建立起来的,即把语义角色指派到树库句法树的有关节点上。PropBank中的一个标注单元被称为一个命题。命题由动词和它的语义角色组成,目前已标注1MB的语料,4,592个动词,共44,631个句子,平均每个句子包含2.53个命题,每个命题包含3.21个语义角色②。
与Framenet不同,PropBank只给动词标注带有语法标记成分的语义角色。在对待语义角色上,PropBank试图超越传统语义标注理论,认为语义角色的数量、语义角色之间如何区分并无定论,并且目前的语义角色并不能覆盖所有的词。为了避开这些问题,PropBank不企图证实或不证实任何一种语义理论,它的语义角色是针对某个动词的容易理解的具体的词,即以一个一个的动词来定义语义角色,目的是提供一致的语义标签,更好地服务于计算统计和自动提取。下面是一个标注实例:
Roles:Arg0:agreer
Arg1:proposition
Arg2:otherentityagreeing
Usually John agrees with Mary on everything.
Argm-TMP: Usually
Arg0: John
Rel: agrees
Arg2-with: Mary
Arg1-on: everything
PropBank先给出动词的框架,每一个框架由一个或多个对应于特定动词的义项的框架集合(framesets)组成,每一个框架集合带有一组语义角色(即角色集合,roleset),分别以通用的论元标记Arg0,Arg1,...,Arg5,ArgMs等来标记。Arg0,Arg1,...,Arg5的语义角色并不对应,Arg0多为施事、因事或经验者,Arg1多为受事论元,脚标2、3、4、5只是论元出现的顺序,在此基础上,再通过Verbnet、Wordnet映射实现语义抽取。PropBank还使用了TreeBank现有的功能标记来标注非必有论元,这些语义角色对事件的表达非常重要,如表2所示。
表2 PropBank辅助语义角色体系
PropBank的目标是对原树库中的句法节点标注上特定的语义标记,使其保持语义角色的相似性。标注旨在提供一个覆盖面广的用手工标注的语义角色语料库,使得更好的通用语言理解系统的开发、论元结构句法实现时发生变异的原因和方式的计量研究成为可能。
2.3 英语动词库(VerbNet)
VerbNet是目前最大的在线英语动词词典,是由美国科罗拉多大学的Martha Palmer,Karin Kipper等教授于2000年开始构建的,现在己发布到VerbNet 3.1版(2009年),共274个动词义场,约4,000个动词,5,500个义项,标注了1,249个实例③。VerbNet通过完善和增加子类的方式扩展Levin动词分类体系实现之间的句法和语义的对应,是一个分层的领域独立、覆盖面广的动词词汇库,并且可以与其他词汇资源(如WordNet、Framenet、PropBank)映射。
作为目前最大的在线英语动词词典,VerbNet为NLP(Natural Language Processing)应用提供了需要的信息,包括:清晰的谓词论元结构、题元角色、选择限制、框架集、句法分析和语义成分。VerbNet将动词分为若干个类,对于同一动词类,句法行为相同的具有共同的句法框架。VerbNet在句法上对应着语义角色,而具体的语义信息则用布尔运算式来表示,具体标注内容如下例。
Class Hit-18.1Roles and Restrictions: Agent[+int_control] Patient[+concrete] In-strument[+concrete]Members: bang, bash, hit, kick, ...Frames:NameExampleSyntaxSemanticsBasicTransitivePaula hitthe ballAgent VPatientcause (Agent, E) manner(during (E), directedmotion, Agent)! contact(during (E), Agent,Patient) manner (end (E),forceful, Agent) contact(end (E), Agent, Patient)
VerbNet共设23个语义角色,不区分核心和辅助语义角色,并且这些语义角色具有较高的概括度。
2.4 中文命题库(Chinese PropBank)
中文命题库由Martha Palmer,Nianwen Xue,Zixin Jiang等人从2002年开始在宾州大学中文树库的基础上添加谓词—论元结构形成的④。中文命题库基本上参照了PropBank的标注体系,但与英语的PropBank不同的是在语义标注时保留了宾州中文树库的句法标记。目前已标10,364个句子,包含4,854个不同的谓词。
Chinese PropBank的句子来自于新华新闻和光华杂志。标注实例如下:
Frameset:f1
ARG0: entity described
Frame:
( (IP (LCP-LOC (NP (ADJP (JJ 挡风))
(NP (NN 玻璃)))
(LC 上))
(NP-SBJ (NN 火花))
(VP (VV 飞溅))
(PU。)))
ARGM-LOC: 挡风玻璃上
ARG0: 火花
REL: 飞溅
Chinese PropBank基本上参照PropBank的语义角色体系,为每一个动词定义了一组语义角色。在语义角色表示方法上采取和PropBank大致相同的办法,但在处理ArgM上还是有所差异,他们称之为联结角色。其中辅助语义角色共11个,即:ArgM-ADV、ArgM-CND、ArgM-CMP、ArgM-EXT、ArgM-LOC、ArgM-PRP、ArgM-BNF、ArgM-PRP、ArgM-DIR、ArgM-FRQ、ArgM-MNR、ArgM-TMP、ArgM-TPC。另外ArgX-PRD、ArgX-CRD、ArgX-PSE和ArgX-PSR四个语义角色可以分开使用。
2.5 英语名词库(NomBank)
NomBank是与PropBank相关联的语义标注项目,由纽约大学构建。NomBank从2003年1月开始制定标注规范,2007年12月17日发布了NomBank.1.0,涵盖了宾州树库中所有已标记过的名词。NomBank先从202,965个含有名词或含有名词论元的例句中抽取了114,576命题句子,最后标注了约5,000个普通名词⑤。
NomBank跟PropBank一样,也要标注PropBank语料中与普通名词同现的论元情况。这个项目很大程度上是在凯瑟琳·麦克劳德Nomlex项目及支撑动词有关研究的基础上进行的,这使得语料库中标注了论元结构的名词有一半是名词化了的词或具有名词化属性的名词(如aggression和agenda的论元结构跟动词destroy和schedule很相似)。NomBank大致采用了PropBank的框架集,即当词类转化时,而语义角色框架缺不变,如动词“decide”和名词“decision”的语义框架一样。NomBank的特殊性使得该项目组更加细致地定义了名词的论元结构,包括前人研究中有所涉及但很粗浅的领域。因此,他们还研究了一些有代表的语言现象,包括:支撑动词结构、跨层次论元结构……除了动词名词化(如decision,helper,nominee),他们还研究形容词的名词化(如incompetence,ability,wisdom),关系名词(如president,friend,father),部分整体名词(如barrage,clump,variety)以及其他带有名词论元的名词。下面是一个标注实例:
There have been no customer complaints about that issue.
REL=complaints
ARG0=customer
ARG1=about that issue
ARGM-NEG=no
注:Nombank里的“REL”和其他语义资源库里的一样,都是要标注的目标,是支配论元的核心。
Nombank共有十个辅助语义角色,其中有九个辅助语义角色和PropBank一样,还有一个“ArgM-ADJADV”是Nombank特有的,指形容词做状语。
2.6 中文名词库(The Chinese Nombank)
中文Nombank是由Nianwen Xue等在中文命题库的基础上将英语命题库和英语Nombank的普通标注框架应用到了中文的名词化谓词的标注上建成的。该工作大约从2006年开始,像Nombank一样,中文Nombank在已有标注句法信息的50万词的中文树库的基础上添加了一层语义信息。中文Nombank标注两种与名词化谓词有关的成分,即类似论元的成分、类似辅助语义角色的成分。论元也采用ARG0...ARGn的方式,辅助语义角色也采用ARGM-X的形式。名词化谓词虽然和其相对应的动词使用相同的框架,但在实际句子中名词化谓词用到的论元会比纯谓词的论元要少。这种标注大致相当于鲁川先生对汉语槽关系的标注。同样,名词化谓词用到的辅助语义角色(ARGM-X)较谓词用到的也要少,下面是一个具体标注实例:
[ARGM-LOC 在国际 事物 中],[ARG0 欧盟
at international affairs inside, European Union
同 中国] [SUP 进行] 了 [ARGM-MNR 很好]
and China conduct LE very good
的 [REL合作]。
DE cooperation.
3.国内句子语义知识库的建设
国内句子语义知识库的建设起步虽然比国外早,并且成绩斐然,但影响力却不理想,这点值得我们深思。
3.1 中文句结构树资料库(Sinica Treebank)
中文句结构树资料库从1986年起由中央研究院词库小组(CKIP)开始构建。他们从中央研究院现代汉语平衡语料库(Sinica Corpus)中抽取句子,以讯息为本格位语法(Information-based Case Grammar)的表达模式,经由计算机自动剖析成结构树,再由人工修正、检验。目前发布至3.0版,包含了6个档案,61,087个中文树图,361,834个词;中文句结构树数据库开放了网上检索,提供相关中文句法、语义关系等信息。另有1,000个句结构树供开放下载⑥。
Sinica Treebank利用中文剖析系统,将每一个句子剖析成结构树,依据词汇的语法、语义信息和中心语主导原则,判定每一字串的中心语的词组类型,并为每一个词组结构标上类型和相关的语义角色,使得每一个成分都标记有语义角色、词/词组类型等。标注实例如:
蒋介石确实讲过此话
(agent:NP(Head:Nba:蔣介石)|manner:VH11:確實|Head:VE2:講|aspect:Di:過|goal:NP(quantifier:Nep:此|Head:Nac:話))
Sinica Treebank以Tesnière的依存语法理论为基础,设计了63个语义角色。语义角色包括中心语、论元及附加成分。因中心语不同,相关的论元角色及附加成分亦有不同。
3.2 句子级语义标注的现代汉语语料库系统
句子级语义标注的现代汉语语料库系统是北京师范大学中文信息处理研究所与北京大正语言知识处理科技有限公司合作开发的。该语料库系统以黄曾阳先生的概念层次网络理论为指导,从语义层面对汉语句子进行了各个层级的描述,目前已标注近30万字的汉语语料,其中20万字为连续文本,另外10万字为非连续文本,包含5,000多个单独的句子。
该语料库系统的标注内容包括:句类、语义块、句蜕和块扩、词语。与以往自下而上的语料标注方式不同,该系统对句子的语义进行了自上而下的标注,即先标注句类,再标注下一级的语义块,然后是包含在语义块中的句蜕和块扩,最后是词语。下面是标注实例:
!31113T31Y30*?1J然后向他们‖提出‖新的要求。
该语料库系统对汉语句子从语义层面进行了从句群到词语的各个层级的描述。标注语料既为语言研究搭建了平台,也为语言本体研究和应用研究提供了丰富而宝贵的素材和资源。
3.3 汉语框架语义知识库(Chinese FrameNet,CFN)
汉语框架语义知识库是由上海师范大学和山西大学合作开发的,是一个以框架语义学为理论基础、以真实语料为事实依据的语义词典。该语义词典用语义Web标记语言描述,计算机可读、可理解。CFN以加州大学的FrameNet为参照,对汉语语义进行形式化描写,可以近似地看成FrameNet的汉语对应库。截至到目前,CFN课题组已就汉语3,037个词元构建了310个框架,标注了21,600条句子。词元覆盖认知、科普、法律和旅游等多个领域。
同FrameNet一样,CFN也是一部计算机词典,包含三个子库:框架库、句子库和词元库。在句子库中,CFN主要标注了目标动词、框架元素、短语类型、句法功能,具体实例如下:
CFN参照FrameNet,定义了一个个框架,每个框架都有相应的框架元素,用以表示一个语义框架中的各种语义角色。每个框架下包含一定数量的词元,这些词元具有相同的框架元素。
CFN的框架元素分核心框架元素和非核心框架元素,核心元素在不同的框架中有所不同,显示出框架的个性,非核心框架元素不显示框架的个性,分为形容、动作时间量、修饰、手段、时间等。在非核心框架元素中有一些是各个框架通用的,被称为“通用非核心元素”,如物量、受益人、环境条件、并行事件等31个。
3.4 北大中文网库(Peking University Chinese NetBank)
北京大学袁毓林老师主持的北大中文网库是一个正在建设中的对汉语大规模真实文本进行多层次语义关系标注的语料库,语料在100万字左右。该语料库旨在通过对语料进行多层次的语义标注,给汉语的论元结构、逻辑结构和篇章结构等语义关系及其句法实现建立文件,并为训练基于统计的自动语义分析系统提供数据。
北大中文网库项目共定义了21个论元角色,在标注论元信息的同时,也对句子的主观信息进行了标注。他们将主观信息的标注放在逻辑语义关系中,具体包括否定关系、模态关系、时体关系、称代关系和指示关系,主要涉及否定算子、模态算子和时体算子跟受其约束的成分之间的逻辑语义关系,还有代词和指示代词跟其先行语之间的照应关系。
跟PropBank相似,北大中文网库是在詹卫东、常宝宝等人开发的北大汉语句法分析树库的基础上进行语义标注,而且分别采用人工手动标注和软件辅助标注两种方式,但其定义的语义角色还是传统的、概括度较高的语义角色。如:
[军队人数]Th<不>neg{<得>mod{超过[人国人口总数的1%]Re}}
3.5 现代汉语句子语义结构系统研究语料库
该语料库的建设开发分为三个阶段:第一阶段从2001年开始,由国家973项目子课题“标注语义结构语料库的研究与实现”支持。在这一阶段中,只标记句中的“因事”、“果事”和谓语动词三部分,据此开发了一个400万词规模、包含228,960个句子的汉语语义骨架标注语料库。尽管对语义成分的分类较为粗略,附着的句子语义结构信息较为简单,但这样的标注对于“咬死了猎人的狗”一类歧义句的消歧具有很好的效果。
在总结原来简单语义成分标注的基础上,第二阶段进一步在一定规模语料库里标注词性、句法成分、语义成分(即语义角色)等信息,开发了一个500万字的奥运语料库。该语料库共设置了23类语义成分标记,对探索语义成分映射为句法成分所受的限制、句子的句法结构与语义结构的对应关系打下了坚实基础。
由于第一阶段的语义角色标注过于简单,第二阶段标注的奥运新闻语料则过于专业,平衡性差,因此在总结这两个阶段研究的优缺点后,第三阶段则选取中小学语文课本、对外汉语教学阅读材料等语料进行标注。目前已加工好的语料为80余万字。在这一阶段,先前的23类语义成分也调整为25类,标注实例如下:
[S四合院/n]D [P是/v]V [O一个/m 盒子/n]X 。/w
3.6 “事件描述块句法语义标注”语料库
“事件描述块句法语义标注”语料库建设是863项目“基于人类识知的语义知识融合、学习与计算技术”(编号2007AA01Z173)的一个子课题,由清华大学、北京大学、鲁东大学共同构建。研究的重点集中在对物质世界和人类社会中的几大类客观关系的实践内容加以分析和标注,主要包括:广义拥有关系、时空存现关系和时空变化关系等方面。通过对真实文本句子中的事件情境内容的准确标注,在词汇层面上建立起句法关系与谓词-论元结构之间的内在联系,为进行大规模真实文本句子的事件内容信息分析提供重要的训练和测试语料库。语料来源于清华树库、人民日报、中小学语文课本,最后共标注了10万多句。
事件描述块的句法语义标注项目在吸收前人研究成果的基础上,根据语义角色评价标准和语义角色数量设置原则,经过反复研究,最终确定了一个包含46个语义角色的标注体系,并确定了程度、限定、肯定、否定、频率、时态、方式、评论、补充等9个辅助语义角色。具体标注实例如下:
[D-pp 对/p 用/p 公车/n 接送/v 孩子/n 上学/v [的/u]h ]O-GY ,/w 除了/p [P-vp 没收/v ]Tgt [O-np 汽车/n ]PN ,/w 还要/v 开除/v 司机/n 。/w
4.构建句子语义知识库的几点认识
4.1 语义角色的精细等级
袁毓林(2007)指出语义角色的粗细程度可以因语言学家的认识或具体的应用目标的不同而不同,从非常专门的到非常一般的,从而形成不同等级的语义角色集合,并将语义角色各种粗细不等的分类系统分为微观、中观和宏观三个等级(见下图)。
通过前文的分析,我们根据语义角色的抽象度和适用范围把语义角色的精细度分为四级,如表3。
表3 语义角色精细度的四个层级
袁毓林(2007)在中观层面上分出了基于动词类的角色和基于场景的角色,但由于这两类语义角色的抽象度不同,我们在此把其分为两级。Chinese PropBank界定的语义角色是在微观层次上基于特定动词的角色,但是还借鉴了宏观层次上原型角色的抽象性指派的做法,使用了数目相对有限的带编号的论元。Chinese FrameNet是通过基于场景的语义框架来定义语义角色。北大中文网库的语义角色是中观层次上基于动词类的抽象角色,在定义角色时,又借鉴了微观层次上针对特定动词的参与角色进行具体描写的做法。Sinica Treebank和知网都是中观层次基于动词类的语义角色,而一般的学者体系也都属于这种层级类型。
由此我们可以看出,尽管微观、中观和宏观三个层次上的语义角色分类都有其在信息处理中的应用价值,但是中观层面的语义角色系统使用最为普遍,而且在语义角色的分类和界定上出现了兼顾几个层次信息的趋势。
4.2 语义角色的数量设置
语义角色的设置要根据所要达到的目的,可以是两个也可以是无数个,且各有利弊。语义角色抽象便于总结语法规则,却不利于统计;语义角色越具体就越便于统计应用,但很难找出普遍的规则。现在的通常做法是和第二、第三级映射,以便得出抽象的规则。目前国内的标注大都还处于第一、二、三级标注阶段,针对一个个特定动词的语义角色标注还有待于进一步的深入研究。
林杏光(1998)认为,语义分类的灵活性导致了语义格的非穷尽性,但是不应追求划分语义格的数量,而应采用“逐层控制,层层推进”的方法。这种说法确实有道理,但是在具体的语言工程中还是需要一个有确定数量的语义角色体系。一般而言,语义角色的数量与语义角色的精细等级是成正比的,宏观层次的语义角色要远远少于微观层次基于特定动词的语义角色数量。由于语义角色抽象程度的不同和对语义角色认识的不同,在同一个层级语义角色的数量也会存在差异,如同样是中观层次的语义角色系统,Sinica Treebank有63个语义角色,知网却有90个。
从工程应用的角度来看,语义角色数量的多少对于整个知识库的构建有着很大的影响。数量太少,则提供的语义信息不够精细;数量太多,则人工标注时记忆负荷大,语义角色数量过多会导致计算机系统运行效率明显低下。所以在确定语义角色数量时,要权衡这些因素,取一个相对合理的中间值。
4.3 语义角色的分类
这里“语义角色的分类”不是指对一个个语义角色的划分和界定,而是指划分出具体的语义角色后,对语义角色的进一步分类,如必有论元和非必有论元的区分、基本格和一般格的区分、动元和非动元的区分、角色和情景的区分等。虽然说法不一样,但是这些分类的实质不外乎是对语义角色核心和非核心的区分。
关于核心语义角色和非核心语义角色的区分,学术界一般的观点是在语义系统之下将语义角色进行大的分类,如鲁川、林杏光(1989)认为包括主体、客体、邻体、系体在内的角色是核心的语义成分,包括凭借、根由、环境在内的情景是非核心的语义角色,范晓(2003)、陈昌来(2003)则认为动元是核心角色(如施事、受事、经事、感事等),状元是非核心角色(如工具、方式、原因等),观点比较一致。实际上这是一种很概括的分类,只能反映语义角色大致的情况。
在我们看来,非核心语义角色与核心语义角色是相对的。某个语义角色对于动词A来说是核心语义角色,对于动词B来说或许就是非核心语义角色,如“工具(instrument)”是动词“打”的核心语义角色,但对于“买”来说,却是非核心语义角色。语义角色的核心与否是针对一个个具体的动词而言的。如果站在所有动词的角度来区分核心角色和非核心角色,情况就比较复杂,很难说哪个语义角色是核心的、哪个是非核心的。
4.4 其他几点认识
语义角色标注格式规范与否至关重要,这不仅关系到该语料是否便于提取使用,也关系到不同资源之间的映射。从前面的实例来看,“事件描述块句法语义标注库”的标注格式更简单易懂、便于提取。
句义的核心内容由命题和情态两部分构成,虽然已有研究涉及了情态,但研究还需要进一步深入。
附注:
① http:∥framenet.icsi.berkeley.edu/
② http:∥verbs.colorado.edu/propbank/framesets-english/
③ http:∥verbs.colorado.edu/~mpalmer/projects/verbnet.html
④ http:∥verbs.colorado.edu/chinese/cpb/index.html
⑤ http:∥nlp.cs.nyu.edu/meyers/NomBank.html
⑥ http:∥rocling.iis.sinica.edu.tw/CKIP/engversion/tree- bank.htm
陈昌来.2003.现代汉语语义平面问题研究[M].上海:学林出版社.
范晓.2003.说语义成分[J].汉语学习(1):1-9.
林杏光.1998.中文信息界的语义研究谭要[J].语言文字应用(3):94-97.
鲁川、林杏光.1989.现代汉语语法的格关系[J].汉语学习(5):11-15.
袁毓林.2007.语义角色的精细等级及其在信息处理中的应用[J].中文信息学报21(4):10-20.