新闻文本中事件语义表示
2019-10-31王先传刘宗田
王先传,刘宗田
(上海大学计算机工程与科学学院,上海200444)
事件是客观存在的,事件的动作、对象、时间、环境等信息都是伴随着事件的发生客观存在的,而不依赖于语言.从事件语义学出发,许多自然语言中的句子都是一个特定的事件语义结构,句子本身的意义则是由这一事件语义结构来表示和体现.每一个具体的事件语义结构不是完全独立的,而是具有事件语义关系.因此,在新闻文本中描述事件以及这些信息的语言符号都具有一定的语义.合理有效地表示事件、事件与事件之间的关系等语义信息已成为计算语言学、自然语言处理等领域的关注内容.
一些认知科学家认为,事件是人类认识和理解现实世界的基本单元[1].人们在描述或传播信息时,通常也是以事件为基本单元进行的.如“2014年11月3—7日,在上海召开CIKM2014会议.”这样的描述方式在人们做总结或计划时经常出现的,是以事件(召开)为单位,并附有一定的时间(2014年11月3—7日)和地点(上海)等要素信息动态地描述已发生或将要发生的事件信息.因此,将事件概念运用到语义Web技术,实现计算机对互联网信息基于事件的语义理解显得非常合理.类似地,以事件为单位来描述事情的动态发展过程,在新闻文本中也有诸多呈现.新闻文本可以看作是由一系列含有这些语义角色信息的事件依据事件与事件之间内在本质的联系所组成的.
形式化表示事件和事件关系是一项基础性工作,以事件为知识表示单元,对新闻文本中的事件语义以及事件关系语义形式化,可以为事件本体以及基于事件的知识推理提供服务.
1 相关研究
Jackendoff[2]认为,事件语义包括4个方面的内容.第一部分是事件本身,是指客观世界中发生的事件,不依赖于语言符号.第二部分是语言本身,将其作为一种工具来描述或刻画客观世界中的事件.语言将客观世界中的事件映射到语言中的事件,将语义信息赋予语言中的事件;语言是人类为了交流各自知晓的事情而产生的,是一个独立的符号系统,人类通过语言描述或刻画客观世界中事件的方式与人类自身的知识系统和认知基础相关[3].第三、四部分是描述者和接受者.描述者和接受者不仅是语言的使用者,同时也是事件的观察人.描述事件的任务就是描述者通过语言的形式,直接或间接地把知晓的客观世界中的事件传达给接受者.
1.1 本体建模语言
本体语言主要有RDF(S)[4],OWL[5]与DL等,主要是用于表示概念、概念与概念之间的分类关系.但是,事件是动态的,与静态的概念不同,因此许多学者提出新的本体语言以表示事件语义.常亮等[6-7]在描述逻辑的基础上,提出了动态描述逻辑,能同时表示和推理静态和动态2个方面的知识,其中动态描述逻辑是一种统一的形式化框架;Liu等[8-9]考虑到事件的特征,使用动态描述逻辑的思想对OWL进行了扩展,并把这种方法运用在面向事件的本体建模中;Schank等[10]依据概念依赖理论提出脚本这一知识表示方法,用来表示特定领域内一些事件的发生序列,以表达预先构思好的特定知识或顺序性动作及事件;Batsakis等[11]提出了一种可以描述时间-空间信息的本体建模语言,这种语言在数量和质量上对时空信息进行了处理,并提供了一个强大的操作集合,包括从已有的时空关系对未知的关系进行推理.
1.2 (新)戴维森方法
新戴维森方法源于形式语义学与事件语义学的结合.Davidson[12]认为,动词描述了事件和事件论元之间的关系,语法论元也是语义谓词的论元,将事件论元增加到逻辑表达式中,这就形成了事件语义的戴维森分析方法.之后,一些学者在戴维森分析法的基础上,提出了很多针对逻辑形式分析法的局部修正意见,这些意见称为新戴维森分析法.新戴维森方法认为,事件和事件论元间的关系是通过论旨角色联系的,语法论元和事件间的联系也是通过论旨角色联系的[13-16].Landman[17]认为,动词词汇和一个或多个论旨角色联合构成了事件谓词;Kratzer[18]主张动词描述事件和事件主旨之间的关系;Champollion[19]认为,戴维森事件语义与健壮的量化理论是一致的,其注重量化事件语义和链接语义之间的关系;Lasersohn[20]在事件上,针对隐含变量语义量化可以解决大量的语言学问题,基于事件的语义理论进行了不同于事件论元结构的表示与分析;Champollion[21]在新戴维森的基础上,结合代数语义和分体论描述了事件语义中的量化、否定和联接语义信息.
本体建模语言,特别是描述逻辑与OWL是基于对象的知识形式方法,建立在概念和关系之上,注重的是分类及其定义,适合于通过概念分类学来表示应用领域的静态知识,是对特定模型进行形式化的有效方法.新戴维森方法更多的是从语言学视角出发,研究自然语言的事件语义结构,把语义角色引入事件结构,将与动词相对应的事件谓词处理为只带有事件论元的一元谓词.戴维森方法带有3个论元,同戴维森事件形式化结果相比,新戴维森带有更多的事件语义细节.新戴维森强调的是对具体的英语语料实例的研究,讨论的修饰语现象相对较少,没有涉及自然语言表达中更为广泛的其他语言现象,对自然语言语义中的很多内容无法准确表达,如描述事件的不确定信息,复杂对象、环境以及事件关系等修饰事件的语义信息.事件与事件之间的关系是多样化的,上述2种方法关注的是对独立的事件语义表示,除了本体建模语言考虑了分类关系外,二者没有考虑到事件与事件之间的其他关系.
2 事件模型与事件关系
我们引用刘宗田给出的事件定义.
定义1(事件) 事件是指在某个特定的时间和环境下发生的、由若干角色参与的、表现出若干动作特征的一件事情.形式上,事件可表示为e,定义为一个6元组:
其中,事件6元组中的A,O,T,V,P,L称为事件要素,分别表示事件的动作要素、对象要素、时间要素、环境要素、断言要素与语言表现要素.
由于客观世界中事件之间具有固有的内在本质联系,因此新闻文本中的事件之间也具有相应的联系.2009年,刘宗田等[1]将事件之间的关系分为分类关系和非分类关系2大类,其中非分类关系包括因果、组成、伴随与跟随关系.
3 事件语义形式化表示
新闻文本中的句子不仅描述了单个事件以及该事件的时间、环境、动作和对象等语义信息,还描述了这一事件与另一事件之间的内在关系.因此,事件语义包括以下2方面内容:①事件的动作、环境、时间和对象等语义信息;②事件与事件之间的关系.
3.1 事件语义表示符号
本工作给出对事件、事件类以及事件类关系形式化表示的各种语义符号(见表1).
表1 部分事件语义表示符号Table 1 Part of symbols about event semantic representation
在表1中,R表示事件关系;■,■,¬分别描述逻辑中析取、合取与否定算子;∀,∃分别为全称量词和存在量词;→,≮,▷,‖分别表示事件的因果关系、组成关系、跟随关系与伴随关系;⊕为聚合算子.
3.2 事件语义形式化方法
本工作将事件谓词看作仅包含事件论元的一元谓词,把事件的6要素通过逻辑合取符号与事件谓词形成新的事件形式化方法:
其中:∃e表示存在一个事件,e为事件论元;eX(e)为事件谓词;eA(e,A)为事件的动作,A为具体的动作内容;eO(e,O)为事件的对象,O为具体的对象内容;eT(e,T)为事件时间,T为具体的时间内容;eV(e,V)为事件发生的地点或环境,V为具体的地点或环境内容;eP(e,P)为事件的断言,P为具体的断言内容;eL(e,L)为事件的语言表现,L为具体的语言表现内容.
3.3 文本中不确定信息的表示
在新闻文本中有大量的模糊性词语描述事件的对象多少、动作的程度、距离的远近以及时间的长短等[22].针对这些模糊性的信息,本工作使用模糊集合理论进行表示[23-24].
定义2(模糊子集[24]) 论域U上的一个模糊子集A,就是给定论域U到区间[0,1]的一个映射:
其中,映射μA为模糊子集A的隶属函数,∀u∈U对应一个确定值μA(u)∈[0,1],μA(u)称为u∈U对A的隶属程度.
隶属函数μA表征论域U上的模糊子集A,μA(u)的大小表示u对于模糊子集A的隶属程度.μA(u)的值越接近1,u从属于A的程度越大;μA(u)的值越接近0,u从属于A的程度越小.
对于论域U上的模糊子集A,要反映出∀u∈U对模糊子集A的隶属度μA(u),可以使用Zadeh法、单点法、向量法、序偶法和隶属函数法等来表示.
在新闻文本中,形容词、副词和动词等带模糊性的词语最为常见,这些词语作为前缀,形成许多模糊性的词组.特别是有些词,如“非常”“有点”“多半是”等,将其作为前缀会使语气发生较大的变化,但是这些模糊信息与原来的模糊信息并没有本质区别,只是表示程度不同.这里称这类词为算子或变换.
诸如“很”“极”“比较”“稍许”等词可以使用语气算子表示,“可能”“大约”与“近似”等模糊词可以使用模糊化算子表示,“多半是”“属于”等词语可以使用判定化算子表示[24].
3.4 动作要素形式化表示
事件的动作要素主要是通过事件触发词、动作程度以及动作发生所使用工具进行描述,动作程度描述事件发生的程度是一种不精确的描述.在式(1)中的事件动作添加一个隶属度μA(u),并将其单独作为一个论元,表示事件动作要素的程度:
式中,μA(u)是对描述事件动作模糊程度的表示,μA(u)表示为隶属程度.
事件对象有主体对象与客体对象之分,结合语义角色理论,分别以符号eO.Agent与eO.Theme表示事件的主体对象和客体对象,事件的形式化方法为式中:eO.Agent(e,O)为事件的主体对象,O为具体的主体对象内容;eO.Theme(e,O)为事件的客体对象,O为具体的客体对象内容.
例1 Jinke stabbed Qin violently.
可以解释为:存在刺杀事件,事件的主体对象是Jinke,事件的客体对象是Qin,且刺杀程度是violently.
为了描述事件发生所使用的工具,引入工具的语义角色,并将其单独作为事件动作的一个工具角色进行描述:
式中,eA.Tool(e,tool)为描述事件动作的工具,tool为具体使用的工具.
例2 Jinke stabbed Qin with a sword.
可以解释为:存在刺杀事件,事件的主体对象是Jinke,客体对象是Qin,刺杀动作使用的工具是a sword.在例2的事件形式化表示中,对“with a sword”赋予动作的Tool语义角色,并作为事件动作的一个语义角色单独进行形式化表示.
3.5 对象要素形式化表示
新闻文本中,有的事件有多个不同的主体对象或客体对象,有时使用具体的数字修饰,有时用模糊信息描述.对于事件中有多个不同的主体对象或客体对象的情况,引入聚合算子⊕对这些主体对象或客体对象进行聚合操作:
式中,O为聚合操作后的事件对象,Oi为某一事件的不同对象.
对于使用具体数字或模糊信息描述对象的数量,为对象引入数字或隶属度μA(u),并将其作为对象的一个论元进行描述,这样对象要素的事件形式化方法可表示为
使用描述逻辑的方法可以形式化表示对象要素中的一些概念.
例3 The driver and a passenger were injured.
可以解释为:存在受伤事件,且事件的客体对象是驾驶员与一名乘客.
(E3)中客体对象驾驶员与乘客是2个不同的概念,使用描述逻辑可以将其形式化表示为
例4 Three people were injured.
可以解释为:存在受伤事件,事件的客体对象是人,且受伤人员的数量是3个.
3.6 时间要素形式化表示
在新闻文本中描述的事件通常包括过去发生的事件、正在发生的事件和将要发生的事件3种类型,这3种事件在时间上分别对应过去时、进行时和将来时.描述事件的时间,通常又会有时间段、时间点2种情况.针对上述文本对时间要素的描述,这里借鉴新戴维森方法对事件时态的描述方法进行时间要素表示.
在新戴维森方法中,I和t是与事件中的时态表示有关,I为时间段,t为时间点,“t∈I”表示t是I集合的元素.I与now可以实现为“<”“=”与“>”,I<now表示过去时,I=now表示现在时,I>now表示将来时[25].
因此,在考虑事件发生的时态时,事件形式化方法可表示为
式中:I表示时间段,可以取值为I<now,I=now或I>now;Tense表示时态.这里,为了形式化表示的简洁,在除例5外的描述实例中,没有对事件的时态进行形式化表示.
例5 Jinke stabbed Qin.考虑事件发生的时态后,例5可以形式化为(E5)的形式:
可以解释为:在过去的某个时间点存在刺杀事件,事件的主体对象是Jinke,客体对象是Qin.
3.7 环境要素形式化表示
在新闻文本中对事件环境要素的描述有单个地点环境、多个同等级的地点环境、多个不同等级的地点环境和地点环境变化4种情况.针对多个同等级的地点环境,使用符号⊕进行聚合操作;针对多个不同等级的地点环境,引入符号⊃表示2个地点环境的上下级关系,如中国⊃上海;针对地点环境变化的情况,引入符号■表示事件发生地点环境的变化,如北京■上海.
例6 Jinke stabbed Qin in the palace.
可以解释为:存在刺杀事件,事件的主体对象是Jinke,客体对象是Qin,且事件的发生地点是在palace里.
例7 Obama visited China,Russia,and Korea.
可以解释为:存在访问事件,事件的主体对象是奥巴马,事件的地点分别是中国、俄罗斯和韩国.
例8 The earthquake happened in Wenchuan County Sichuan Province.
可以解释为:存在地震事件,事件发生的地点是汶川县,汶川县是四川省的一个地区.
例9 The airplane flew from Beijing to Shanghai.
可以解释为:存在飞行事件,事件的主体对象是飞机,飞行的出发地是北京,目的地是上海.
3.8 事件关系形式化表示
本工作使用如式(8)所示的形式化方法,表示事件与事件之间的关系.
式中:ei,ej表示2个不同的事件;R(eiTej)表示这2个事件之间具有T类型的事件关系,T可以取如下表示事件关系的符号:→,≮,▷,‖.
例10 The earthquake caused Tom to die.
可以解释为:存在地震事件,存在死亡事件,死亡事件的客体对象是Tom,地震事件和死亡事件的关系是因果关系.
3.9 新闻背景形式化表示
在新闻文本中,不仅有对新闻事件的描述,还有与该事件有关的一些新闻背景的描述.新闻背景是有关新闻事件发生的历史、环境与原因的说明[26].新闻背景中的历史也是事件,是在时间上发生于新闻事件之前的事件,可以使用式(1)的方法形式化表示历史事件.新闻背景中的环境一种是从“点”上介绍新闻事件所处的环境,另一种是从“面”上介绍新闻事件与其他事件之间的关系,本质上反映的是这2个事件之间的关系,前者可以使用上述3.7节的方法形式化表示,后者可以使用式(8)的方法形式化表示.新闻背景中的原因主要是对新闻事件的对象、动作等要素做一些解释和说明,其本质上是对事件要素所处状态的一种描述.本工作采用如下形式化方法表示新闻背景中的原因:
式中:∃s表示存在一个状态;sX(s)为状态词,s为状态论元;sO(s,O)为状态的对象,O具体的对象内容;sT(s,T)为状态所处的时间,T为具体的时间内容;sV(s,V)为状态所处的地点或环境,V为具体的地点或环境内容.
例11 Tom stayed at home last week.
可以解释为:存在staying状态,状态的对象是Tom,状态所处的时间是last week,状态所处的环境是at home.
4 结束语
本工作从事件语义出发,在新戴维森方法的基础上,将事件谓词看作仅包含事件论元的一元谓词,将其与事件的6要素结合,给出了新的事件形式化表示方法.扩展模糊信息表示,扩展聚合操作算子、环境包含和变化算子,以及事件关系算子,给出了事件的动作、对象、环境、时态以及事件关系的形式化方法,使用描述逻辑方法表示了对象中的概念.实例表明,给出的事件语义形式方法能够较好地阐述文本中的事件语义信息.在此基础上,后续工作将研究事件类的表示以及基于事件类的知识推理.