APP下载

事件知识图谱构建技术与应用综述

2020-02-07

计算机与现代化 2020年1期
关键词:三元组时序图谱

项 威

(华中科技大学电子信息与通信学院,湖北 武汉 430074)

0 引 言

知识图谱源于语义网概念[1],2012年5月由Google公司提出并用于知识搜索引擎。知识图谱由节点和边组成,将现实世界映射到数据世界,描述客观世界的概念、实体、事件及其关系。其中,节点代表客观世界中的概念、实体和事件,边则代表它们之间的关系和属性。知识图谱以复杂的图结构展现,提供了高效的计算和推理能力,在智能问答、决策支持等诸多应用方面表现出优异的性能。

事件是发生在某个特定时间点或时间段、某个特定地域范围内,由一个或者多个角色参与的一个或者多个动作组成的事情或者状态的改变[2]。现实世界中发生的事情都可以被看成事件,人们通过事件和事件之间的关系来认知和了解世界。现有知识图谱以静态的实体为核心,而很多学者认为以动态的事件为核心的知识图谱或事理图谱更符合世界的认知规律。基于事件建立起来的知识图谱,包含了事件的逻辑关系,如共指关系、因果关系、时序关系等,描述了事件间的规律和模式,对传统知识图谱进行补充,应用领域更为广泛。

现实领域对事件数据强烈依赖,而互联网发展带来数据爆炸式增长,尤其是非结构化数据,依靠人工分析、处理和理解海量事件数据已经不现实。事件知识图谱为人们分析、处理和理解海量数据提供了可能,辅助人们认知掌握领域规律,为智能问答、决策分析等应用提供可靠的依据。本文全面介绍事件知识图谱的研究现状,重点阐述事件知识图谱的构建技术,并讨论事件知识图谱的应用。

1 相关研究现状

1.1 知识图谱

知识图谱以三元组的形式表示和储存实例数据,建立数据之间的语义链接[3]。三元组由头实体、尾实体和描述它们之间的关系组成。如<姚明,国籍,中国>,头实体“姚明”、尾实体“中国”和它们之间的关系“国籍”构成一个知识图谱的实例三元组。同时知识图谱用本体(Ontology)对知识框架进行描述和约束。本体概念源于哲学,强调抽象的框架描述,在知识图谱中对实例数据进行框架描述和约束,如一个人的国籍是国家、父亲是男性等。知识本体框架和三元组实例组成的完整知识系统就是知识图谱,通常用语义网的资源描述框架(Resource Description Framework, RDF)规范对它们进行统一表示[4]。

现有大规模开源知识图谱主要是基于百科知识数据构建的,也有基于语言学和领域知识构建的知识图谱,如Freebase、Wikidata、DBpedia、YAGO、NELL、Zhishi.me等。基于维基百科的知识图谱Freebase,采用了RDF三元组的语义数据模型,由MetaWeb开发,被Google收购后导入了众包的结构化知识数据Wikidata[5]。DBpedia是早期的语义网项目,从Wikipedia抽取链接数据集。DBpedia采用了严格的本体形式组织知识条目,包含人、地点、音乐、电影、组织机构、物种、疾病等类定义,同时与Freebase等多个数据集建立数据链接,包含30亿余个RDF三元组[6-7]。YAGO是由德国马普研究所开发的,集成了Wikipedia、WordNet和GeoNames这3个来源的数据,包含1.2亿条三元组的知识图谱。YAGO将WordNet的词汇定义和Wikipedia的本体分类结构进行了融合集成,具有更加丰富的实体分类体系,并且考虑了时间和空间属性,为知识条目(RDF三元组)增加了时间和空间维度的属性描述[8-9]。NELL是卡内基梅隆开发的知识图谱项目,包含400多万条高置信度三元组知识,采用互联网挖掘的方法从Web自动获取三元组知识。NELL给定了初始本体和少量样本,通过机器学习的方式从Web中学习和抽取新的知识[10]。上海交通大学和东南大学以英文维基百科为桥梁,通过跨语言链接技术,融合建立了中文百科知识图谱Zhishi.me[11]。

1.2 事件知识图谱

事件知识图谱多采用“自顶向下”的构建方法,先定义数据模式,再添加实例内容向下细化,构建技术包括事件知识表示、事件知识抽取、事件关系抽取等。事件知识图谱从自然语言文本中抽取事件和实体、属性、关系等并进行知识融合,然后通过本体构建体系框架,以结构化的三元组形式存储。事件知识图谱的计算和推理能力,为多个领域场景的应用提供了技术支撑。例如金融领域,行业的发展以事件为核心,对事件数据高度依赖。事件知识图谱示例如图1所示。

图1 事件知识图谱示例

Rospocher等[12]2016年提出了一种以事件为中心的知识图谱(Event-Centric Knowledge Graph, ECKGs),从新闻报道中抽取事件,包括事件的时间、地点、参与者等,并建立事件间的因果关系和共指关系,重构事件的历史发展和时间演变。Gottschalk等[13]2018年提出了一种以事件为中心的多语言时序知识图谱(Event-Centric Temporal Knowledge Graph, EventKG),从DBpedia、YAGO、Wikidata等现有大型知识图谱中抽取了69万个当代和历史事件、230多万个时序关系,并对抽取的事件、实体和关系进行了融合。Hernes等[14]2018年提出了一种金融事件知识的语义表示方法,自动处理和分析金融事件的意义用于辅助决策。

Li等[15]2018年提出了事理图谱(Event Evolutionary Graph, EEG)概念,描述事件之间的顺承关系和因果关系,用于发现事件的演化规律和后续事件的预测。事理图谱与知识图谱的主要区别在于:1)知识图谱的研究对象主要是名词性实体及其属性和关系,而事理图谱的研究对象主要是谓词性事件及其逻辑关系;2)知识图谱中实体间是确定的关系,而事理图谱中事件演化的逻辑关系是不确定的概率。Li等还构建了金融领域的事理图谱(参见http://eeg.8wss.com),从人民日报等新闻文本中自动抽取了134万个金融事件和140万个事件关系,并评估了事件关系抽取的准确率。

2 事件知识图谱构建技术

事件知识图谱构建与实体知识图谱类似,通常采用基于本体的构建方法进行知识建模,先构建事件知识图谱顶层表示模式,再向下细化补充实例,构建框架见图2。目前事件知识图谱的相关研究主要集中在事件知识的自动获取方面,包括事件抽取和事件关系抽取,也是事件知识图谱构建的关键技术。

图2 事件知识图谱构建框架

2.1 事件知识表示

事件知识表示直接关系到知识推理、知识计算的应用,是事件知识图谱的核心部分。事件知识图谱的本体表示包括实体、属性、事件和关系等方面,主要有:1)实体或对象,例如“中国平安保险(集团)股份有限公司”“马云”;2)事件,例如“收购”“冻结”“融资”等;3)实体和事件的相关属性,例如“职务”“时间”“金额”等;4)事件之间的逻辑演化关系,主要有时序关系、因果关系等。事件知识图谱通常利用本体表示工具,人工构建包含复杂类别和对属性进行约束的本体。

传统的事件表示模型主要基于5W(Who, When, Where, What, Why)构建[16-18],没有建立事件之间的关系连接。Silver等[19]2011年提出了一种离散事件表示本体模型,提供了事件之间的关系表示方法。Van Hage等[20]2011年构建了简单事件模型(Simple Event Model, SEM),对不同领域中的事件进行建模,建立了事件与时间、地点和实体之间的链接,但无法表示事件之间的关系。Rospocher等[12]2016年和Gottschalk等[13]2018年在简单事件模型(SEM)基础上建立了事件之间的关联,构建事件知识图谱。

Li等[15]2018年提出了一种事理图谱表示模型,描述事件之间的顺承、因果关系的事理演化或逻辑。事理图谱将事件及其关系用逻辑有向图来表示,以抽象和泛化的事件为节点,顺承关系和因果关系为有向边,有向边上的转移概率表示事件演化的逻辑可能性。Do等[21]2012年提出了一种基于时间线的事件表示结构,将事件信息映射到时间维度中,用于事件时序关系、共指关系推理和高效计算语义关联等。事件知识图谱本体框架示例如图3所示。

图3 事件知识图谱本体框架示例

2.2 事件知识抽取

事件知识抽取是从描述事件信息的文本中抽取所关注的事件信息并结构化表示,如什么人、什么时间、在什么地方、做了什么事情[22]。事件知识抽取任务在相关公开测评和语料的推动下展开,按照任务定义的不同,可以分为框架表示事件抽取和实例表示事件抽取这2类。框架表示事件抽取是指预先定义好事件框架,包括事件类型、事件元素、元素角色等,进行的事件抽取任务。实例表示事件抽取是在没有预先定义好的事件框架下先抽取实例事件,再归纳事件框架内容,如事件类型、事件元素等。从技术方法层面来看,事件知识抽取可以分为基于模式匹配的方法和基于机器学习的方法2大类。

2.2.1 模式匹配方法

基于模式匹配的事件知识抽取是在一些模式的指导下进行的某类事件的识别和抽取,包括有监督的和弱监督的模式匹配。Riloff[23]1993年通过建立触发词词典和13种事件匹配模式进行事件识别与抽取,事件匹配模式主要利用事件元素初始描述和事件元素上下文语义进行构建,并开发了AutoSlog模式匹配事件抽取系统,在MUC语料上取得优异的性能。Kim等[24]1995年引入WordNet(参见https://wordnet.princeton.edu)语义词典,利用语义框架和短语结构进行事件抽取,并开发了PALKA模式匹配事件抽取系统。Riloff等[25]1995年在AutoSlog基础上开发出AutoSlog-ST系统,不需要对语料中的所有事件元素进行标注,只需标注事件类型,然后利用预分类语料自动学习事件模式。姜吉发[26]2005年提出了一种领域通用事件模式匹配方法IEPAM,将事件抽取模式分为语义模式、触发模式、抽取模式,在MUC-7语料的飞行事故事件抽取中获得优异结果。

2.2.2 机器学习方法

机器学习方法将事件知识抽取任务建模成多分类问题,是目前的主流方法。Ahn[22]2006年率先将事件抽取分为4个阶段的多分类子任务,包括:1)事件触发词分类,判断词语是否为事件触发词和事件类型;2)事件元素分类,利用判断实体词语是否是事件元素;3)事件属性分类,判断事件属性;4)事件共指消解,判断2个事件实例是否属于同一事件。Ahn用Timbl和MegaM模型进行分类,利用词汇特征、字典特征、句法特征、实体特征完成触发词分类子任务,利用事件类型、触发词特征、实体特征、句法特征完成事件元素分类子任务。常用的机器学习分类模型还有最大熵模型(Maximum Entropy Model, MaxEnt)[27]、概率软逻辑推理方法[28]、依存结构分析方法[29]、结构感知机模型[30]等。机器学习事件知识抽取方法的各阶段子任务相互独立,导致误差从前向后传播,性能逐级衰减,无法处理全局的依赖关系。文献[30]2013年和文献[31]2014年提出了基于结构预测的事件抽取联合模型,从全局特征和整体结构中同时抽取所有的事件信息。

2.2.3 神经网络方法

近年来,随着深度学习的快速发展,神经网络逐步应用到事件抽取任务中。神经网络的方法将事件抽取建模成端到端的系统,使用包含丰富语言特征的词向量[32]作为输入,通过神经网络自动提取特征并分类进行事件抽取,不需要或者极少地依赖外部的NLP工具。Chen等[33]2015年提出基于动态多池化卷积神经网络(Convolutional Neural Networks, CNN)的事件抽取方法,利用动态多池化方法学习出一个句子中包含的多个事件。Feng等[34]2016年提出用双向长短期记忆网络(Long Short-Term Memory, LSTM)进行事件检测,但没有探索事件元素的抽取方法。Nguyen等[35]2016年利用双向LSTM抽取句子中的语义特征,然后联合句子结构特征同时抽取事件触发词和事件元素。

2.3 事件关系抽取

事件关系抽取以事件为基本的语义单元,自动抽取事件之间的逻辑关系,包括事件的共指关系、因果关系、时序关系等。事件关系的抽取和构建可以揭示事件发展规律,厘清事件关联并全面了解事件,进而构建事件知识图谱。

2.3.1 事件共指关系抽取

共指关系是指代表同一目标事件,例如“阿里巴巴以95亿美元的高价全资收购饿了么”和“阿里巴巴集团与饿了么签订收购协议”代表同一事件。事件关系抽取不仅可以发现多源数据中的相同事件,在事件知识融合和更新补全方面也发挥着关键作用。Choubey和Huang[36]2017年利用事件之间的依存关系,采用由简到难(Easy-First)的迭代方式进行事件共指消解。Peng等[37]2016年提出了用语言角色标注(Semantic Role Labeling, SRL)方法结构化表示事件,并将结构化事件转化为事件向量,通过计算事件间的余弦相似度进行事件共指消解。Lu和Ng[38]2017年提出了联合推理学习的事件共指消解方法,旨在避免事件共指消解中各子任务组件间的误差传递,提高事件共指消解性能。杨雪蓉等[39]2014年提出了利用事件触发词和事件元素推断事件关系,取得了很好的事件共指关系抽取效果。

2.3.2 事件从属关系抽取

事件从属关系是指同一事件话题下包含的多个子事件,例如“中美贸易战”事件话题下包含的“美国加征关税子事件”“美国制裁华为子事件”和“中美贸易谈判子事件”等。动态地从网页新闻文本中抽取子事件能极大地帮助用户理解事件话题的内容、历史演变和最新进展。清华大学李涓子教授团队在事件从属关系抽取方面的系列工作极具代表性。Hu等[40]2015年提出了将后续相似子事件知识作为先验知识,增强当前事件的子事件抽取模型。Hu等[41]2015年提出了基于概率的贝叶斯网络结构学习方法,利用子事件在Wikipedia中的关系网络学习同类事件的子事件知识,建模子事件的结构关系。在抽取事件从属关系的基础上,Hu等[42]2017年提出了一个端到端的上下文LSTM模型,自动生成可能发生的子事件描述文本进行事件预测。

2.3.3 事件时序关系抽取

时序关系指事件在时间上的先后顺序,有助于事件的发现和推理,是事件知识图谱构建的关键要素。时序标注体系TimeML(参见http://www.timeml.org/)和语料TimeBank将事件时序关系分为之前(Before)、之后(After)、同时(Simultinous)、包含(Includes)等13种,而TimpEval语料仅包含之前(Before)、之后(After)和重叠(Overlap)这3种事件时序关系。Do和Ng等[21,43]2012年利用多种事件特征将一篇文章中的事件按照时序关系构造成事件链。构建同时包含静态实体、动态事件和事件逻辑关系的事件知识图谱,丰富了知识图谱的动态知识,能支撑更多的领域应用。Ge等[44]2015年提出了基于时间感知的多层贝叶斯模型进行事件抽取方法,并用排序学习方法发现关键事件,建立记事年表。Gottschalk等[13]2018年利用YAGO和Wikidata中存在的时间信息抽取事件时序关系并建立事件知识图谱。

2.3.4 事件因果关系抽取

因果关系指事件之间的作用关系,即某个事件是另一事件的结果,例如“美国制裁中兴通讯股份有限公司”和“中兴通讯股份有限公司缴纳罚款”,在事件知识图谱的推理应用中具有重大意义。杨竣辉等[45]2016年提出了通过构建事件和事件元素的语义关联,进行事件因果关系的识别方法。付剑峰等[46]2011年提出了一种基于层叠条件随机场的事件因果关系抽取模型,将事件因果关系建模为序列标注问题。Sorgent等[47]2013年通过制定规则进行事件因果关系抽取,并利用贝叶斯推理优化结果。

3 事件知识图谱典型应用

知识图谱正逐步应用于各行各业,成为人工智能的基石。单纯的静态的实体知识图谱显然已经不能满足实际应用的需要,而事件知识图谱刻画了动态的事件,具有更强大的应用价值。事件知识图谱通过事件之间的因果、顺承等事件关系在推演和预测未来的同时,与实体知识图谱进行关联和互动,实时对实体知识图谱进行补充和校准。本章主要介绍事件知识图谱在智能问答、决策支持和精准营销方面的潜在应用场景。

3.1 智能问答

智能问答作为知识图谱的典型应用,能够接受自然语言形式描述的问题,通过检索知识图谱进行语义分析理解用户意图,再通过知识推理和计算得到答案。然而,传统的静态实体知识图谱仅能回答常识性问题,如时间、地点、人物等。在智能客服系统中,过程类和流程类事项在知识图谱中表示为事件,需要根据事件状态的变化捕捉客户的需求,提高服务的精准度和个性化水平。事件知识图谱在动态事件及其逻辑的支撑下,可以进一步回答逻辑性问题。

3.2 决策支持

知识图谱可以自动将海量非结构化的文本数据和信息利用起来,辅助人工分析研究理解大数据,为决策提供准确、可靠、高效的事实依据。事件知识图谱通过事件驱动传导路径的方式进行知识发现,能够对逻辑知识进行探索,对辅助决策能发挥极大的作用。例如金融领域需要依靠外部事件的因果关系进行推演,预测未来事件和形势的发展进行决策。面对网络舆情除了依靠实体知识图谱技术分析,还需梳理事件的来龙去脉,对事件演化和发展进行预判,准确把握网络舆情事件的走向来应对和控制。

3.3 精准营销

事件知识图谱中事件的顺承和时序关系描绘了事件的整个阶段,事件的阶段性特征能够用于消费推荐任务进而促进精准营销。事理图谱对事件链式依赖和表征事件发展方向可能性的研究就能很好地发现用户的消费意图并触发后续消费事件,通过识别用户的隐式消费意图进而做出个性化的商品推荐。例如,在识别到出行事件时,通过事件知识图谱的顺承关系可以推测出机票预订、酒店预订等多种潜在消费行为。

4 结束语

现有知识图谱构建与应用重点关注静态数据如概念、实体、属性等,随着知识图谱研究的发展和领域应用的需求,必然会逐步扩充到事件知识和事件的时序关系、因果关系、从属关系等动态知识中。动态的事件知识更清晰地描述了发展规律,更有效地提升人们的认知能力。随着计算能力的不断提高和机器学习技术的快速发展,神经网络已被应用到知识图谱的构建技术中,并取得了许多的研究进展。对于事件知识图谱构建任务而言,面向非结构化文本的事件抽取是目前的研究难点和重点,事件抽取的性能普遍较差,远没有达到知识图谱构建的需求,亟待进一步的研究。

猜你喜欢

三元组时序图谱
清明
特征标三元组的本原诱导子
绘一张成长图谱
基于不同建设时序的地铁互联互通方案分析
关于余挠三元组的periodic-模
一个时态RDF存储系统的设计与实现
基于FPGA 的时序信号光纤传输系统
补肾强身片UPLC指纹图谱
主动对接你思维的知识图谱
基于模体演化的时序链路预测方法