本体摘要技术综述
2018-12-25丁悦航于洪涛黄瑞阳李英乐
丁悦航,于洪涛,黄瑞阳,李英乐
本体摘要技术综述
丁悦航,于洪涛,黄瑞阳,李英乐
(国家数字交换系统工程技术研究中心,河南 郑州 450002)
本体是知识共享的重要工具,也是知识图谱的上层结构。随着数据规模和本体复杂性的增长,本体理解与应用日益困难。本体摘要作为缩小本体规模的一项技术,为加速本体理解与应用提供了技术支持。给出了本体摘要的不同定义;对本体摘要方法进行比较分析;介绍了本体摘要评估的指标体系;最后提出本体摘要的进一步研究方向。
知识图谱;本体;本体摘要;本体评估
1 引言
近年来,知识图谱作为可推理的结构化数据集,已经越来越多地应用于智能语义搜索、移动个人助理和深度问答系统[1]。本体作为知识图谱的上层结构,在知识推理和数据层的构建中发挥着重要作用。随着数据规模和本体复杂性的飞速增长,本体的理解和应用难度日益增大。本体摘要作为生成原本体缩略版本的一种方式,能够有效降低本体理解的难度,加快本体应用的速度,从而有效缓解上述问题。
本体摘要的思想源于文本摘要。文本摘要即对文本中的句子,制定重要性评估方法,从而选出最重要的若干个句子作为摘要结果。本体摘要由Zhang等[2]于2007年提出,其通过对RDF(resource defined framework)句子进行重要性评估,选出若干重要的RDF句子作为摘要结果。随后,本体摘要根据目的衍生出用户导向和任务导向的本体摘要。用户导向的本体摘要是让人更方便地理解本体的内涵,从而便于进一步重用本体,因此,基于此目的的方法大多抽取本体中的重要概念作为摘要结果。任务导向的本体摘要是利用摘要本体完成任务,加快任务的完成速度,因此,基于此目的的方法大多在不影响应用的前提下删除原本体中冗余的信息。
在本体领域中,与本体摘要功能相似的2个技术是本体分割和本体模块化。本体分割[3]将一个大本体分割成若干个子本体,每个子本体包含原始本体的一个子主题[4]。本体模块化[5]用于简化本体重用:将原始本体中需要重用的部分模块化,从而重用本体的一部分而非整个本体[6]。这2种技术都能缩小本体规模,促进本体理解,但二者均基于划分技术,没有针对性地保留重要信息。本体摘要与本体领域其他概念的关系如图1所示。
2 本体摘要的定义
本体摘要可以在保留本体语义的前提下有效解决本体体积过大导致的查询效率低、内涵难以理解等问题。近年来,国内外已有多位学者对本体摘要进行了研究,然而不同学者对本体摘要的理解不尽相同,给出的定义也存在差异。
Zhang等[2]参照文本自动摘要的定义[7],首先提出本体摘要的概念:本体摘要是针对某个特殊用户或任务,从本体中提取知识,构建原本体缩略版本的过程。Zhang是最早提出本体摘要这一概念的学者,指出本体摘要分为用户驱动和任务驱动2种形式。本体摘要概念的提出对其后各领域学者对该问题的研究提供了参考借鉴。
Li等[8]认为,相较于本体的其他抽取技术,本体摘要应该保留整个本体中的重要信息,并且是自动生成的。他们参照文本摘要的定义[9]给出了本体摘要的定义:本体摘要是自动生成给定本体缩略版本的过程,用于为用户提供重要信息。可见,Li等的定义更偏重于用户导向的本体摘要。
图1 本体摘要与各个概念的关系
3 本体摘要方法
本体摘要方法按照目的分为用户驱动和任务驱动2类。用户驱动的本体摘要致力于满足用户快速理解大规模本体空间的需要,因此倾向于提取本体中的重要概念和关系。任务驱动的本体摘要致力于在尽可能不丢失信息的前提下把本体缩小到满足问答系统任务的必要大小,因此倾向于删减本体中的不必要信息。
图2展示的是一个示例本体。其中,上半部分用实线绘制,表示模式层,即概念及其之间的关系,对应描述逻辑中的TBox;下半部分用虚线绘制,表示数据层,即个体及其之间的关系,对应描述逻辑中的ABox。TBox即关于描述领域的概念术语的断言,用于定义概念、概念间的关系、角色间的关系;ABox即包含应用领域外延知识的知识库,包括实体的概念断言和关系断言[11]。接下来,以示例本体为例,说明不同本体摘要方法的具体过程。
图2 示例本体
3.1 面向任务的摘要方法
Alani等[12]通过删除问答系统中没有用到的本体信息来加快问答速度。具体地,只保留具有对应实例的类和属性,问答对中涉及的类和属性,以及已有属性的定义域和值域所在的类。通过将摘要后的本体用于问答系统验证了摘要本体的有效性。然而,这种本体摘要方式仅针对特定的应用,无法保证摘要本体的语义完整性和一致性。
图3 Alani等算法摘要后的示例本体模式层
图3是示例本体经过Alani等算法处理后的摘要,算法针对模式层进行摘要。数据层中的Allen和Bob属于模式层中的概念Man,因此保留模式层中的Man。同理,数据层中的Anna和Bella属于模式层中的概念Woman,因此也保留概念Woman。此外,数据层中属性hasFather的定义域和值域分别为Human和Man,因此保留hasFather属性和Human概念。此外,图中匿名节点的作用在于,限制每个人有且只有一个父亲,因此也要保留这种限制。Animal这一概念没有对应实体,因此去除Animal这一概念。
图4 Achille等算法摘要前后的数据层
Deng等[10]给出了本体无损摘要的理论框架。通过合并概念断言和关系断言减小ABox中断言的个数,从而达到缩小ABox的目的。首先获取所有实例集合并查找其中的等价关系,然后构建并存储等价实例集合,将相互等价的实例用一个新的实例代替。相对于其他任务导向的方法,这种摘要方法在没有减少原本体中任何信息的前提下实现了本体摘要,适用于本体推理、问答系统等多种任务。然而,此方法存在一个问题:当原本体发生变化时,原本相互等价的概念或实例可能不再等价。因此,原本体一旦发生变化,就需要重新计算其摘要本体,增加了开销。
图5 Jun Fang等算法摘要前后的数据层
3.2 面向用户的摘要方法
图6 基于RDF句子的算法摘要的图结构
然而,单纯地将本体转化为图,用结构参数生成本体摘要可能会忽略概念层面的语义信息[17]。
Peroni等[18]抽取核心概念作为本体摘要结果。该方法将概念看作节点,概念间的类属关系(subClassOf)看作连边,将本体转化为一个有向图。针对每个节点定义若干表示其不同特性的参数,线性加权后作为最终的重要性评价指标,选取重要性最高的若干个概念作为摘要结果。方法用到的参数有:1) 命名简洁性[19],参数偏好标签简洁的概念,为核心概念的衡量增添了语义信息;2) 基础等级。这一参数评估概念在本体分类学中的中心性;3) 密度,这一参数偏好具有较多属性和分类关系的概念;4) 覆盖,这一参数的目的在于不忽视本体的任何一个重要部分;5) 热度,这一参数强调了最为常用的若干概念。
图7 Peroni等算法摘要后的模式层
如图7所示,算法基于粗体部分所示的本体网络进行重要概念的选取。仅保留本体中的概念和类属关系构成网络,并根据概念标签和复杂网络理论中的各项指标完成重要概念的选取。
Zhang等[20]在之前工作[2]的基础上添加了术语的语义信息。他们仍然以RDF句子为单位进行摘要。与之前不同的是,在评估句子重要性的过程中,他们将RDF句子转化为SPO(Subject, Predicate, Object)三元组,构造句子−术语二分图,并在二分图上计算节点的结构重要性和语义重要性。其中,结构重要性是全球语义网中与当前句子中SPO三元组相关的实体数量。语义重要性是当前句子对应的SPO三元组在全球语义网中出现次数的加权平均。将2种重要性线性加权后进行重排序,得到RDF句子的重要性排序,选取若干个重要性最高的RDF句子作为本体摘要结果。
上述方法利用不同的转化方式将本体转化为图,设定若干参数选取重要程度最高的节点。然而,从本体摘要的定义来看,其目的是产生相较之前本体规模更小的子本体。而上述方法输出的要么是孤立的概念,要么是彼此间可能联系并不密切的RDF语句,没有输出可用的子本体。
图8 基于二分图的算法摘要的图结构
Pires等[21]构造子本体作为摘要结果。将本体中的概念看作节点,关系看作有向边,首先通过度中心性和频繁性的线性加权选取重要概念节点,然后对概念节点进行分组,最后通过添加组间节点连接各个组,形成原本体对应的子本体。
Queiroz-sousa等[22]在Pires等工作的基础上构造用户个性化子本体作为摘要结果。将本体中的概念看作节点,关系看作有向边,首先通过度中心性和接近中心性的线性加权选取重要概念节点,然后通过拓宽路径算法选取连接重要节点的必要节点,进而生成若干条经过重要概念节点的重要路径,从而生成原本体对应的子本体。
Troullinou等[23]在之前工作[24-25]的基础上,结合数据层和模式层设计了摘要方法。具体地,首先利用数据层的数据计算本体中边的相对基数;然后根据模式层中节点所连边的类型和相对基数计算节点的重要程度,从而选取重要概念节点;最后设计算法选取尽可能不相交的、连接重要概念节点的路径,形成原本体对应的子本体。
上述3种方法的思想都是首先将本体中的概念看作节点,关系看作边,将本体转化为图。然后通过多种参数的加权和计算节点重要性,从而筛选出重要节点。最后通过算法选取路径连接重要节点,形成摘要图。3种方法形成的摘要图都与图7形式相同。上述方法的区别在于,Pires等通过分组和连接两步选取路径,Queiroz-sousa等通过用户给定的参数生成个性化摘要,Troullinou等在选取重要节点时同时利用了数据层和模式层的信息。
4 评价准则
Li等[26]参照本体评估的方式,给出了本体摘要评估的3种方式:1) 基于应用的评估,摘要的质量与利用该摘要应用的表现成正比;2) 基于黄金标准的评估,通过对比人工构建的标准摘要和机器生成摘要的相似性进行评估,相似性越高,说明机器的摘要越准确;3) 基于语料覆盖度的评估,根据摘要对本体的语义覆盖度进行评估。其中,面向用户的摘要大多通过基于黄金准则的方法进行评估,具体地,比较用户和算法对概念的排序相似度,或对比用户构建本体和算法生成本体的相似度。面向任务的摘要大多通过基于应用的方法进行评估,具体地,基于摘要本体进行推理、指导问答系统等,通过运行结果评价摘要本体质量。由于基于语料覆盖度的本体摘要评估仅适用于评价手工构建的本体[27],因此目前尚无基于语料覆盖度的本体摘要评估。
接下来,详细介绍基于应用的评估和基于黄金准则的评估。
4.1 基于应用的评估
Alani等[12]将摘要前后的本体分别应用于问答系统,并通过对比二者返回答案的一致性判断本体摘要水平。基于摘要本体的问答系统返回的答案与原问答系统返回的答案越相似,说明摘要结果越好。
曲琛等[28]对摘要前后的本体进行推理一致性检测,若对摘要前后的本体进行推理的结果完全相同,说明二者在语义上是等价的。
事实上,问答系统返回答案的过程也可转化为推理过程。具体地,将待判断断言的否定放入问答系统进行推理,若得出不一致的结论,说明断言是正确的。因此,可通过推理机[29]完成基于应用的评估。推理机是对知识进行解释的程序,根据知识的语义,按一定策略找到的知识进行解释执行[30]。目前常用的本体推理机及其推理类型如表1所示[31-36]。
表1 典型推理机及其推理类型
4.2 基于黄金准则的评价
1) 摘要结果为RDF句子
Zhang等[2]通过对比专家选出的RDF句子和算法选出的RDF句子来评估摘要。具体地,算法摘要与专家评估结果的相似度通过式(1)计算。
词汇重叠度量的计算公式如下。
2) 摘要结果为重要概念
Li等[26]从Zhang等[2]算法生成的RDF句子中抽取重要概念,与Peroni等算法的结果进行对比。结果表明,虽然2种算法摘要的方法和对象不同(Zhang等以RDF句子为摘要单元,而Peroni等以概念为摘要单元),但返回的概念结果相似。然而,Peroni等的算法包含更多名称简洁的概念和更普及的概念。这是因为,Zhang等的算法仅考虑了本体的结构信息,而Peroni等还考虑了命名简洁性和词汇普及性。
Queiroz-sousa等[22]利用同样的方法评估了自己的算法,并与Li等的评估结果进行了对比,对比结果如表2[22]所示。原文中对Zhang等算法在financial本体下的匹配度计算有误,表2中已进行更正。
表2 3种本体摘要算法对比
3) 摘要结果为子本体
Troullinou等通过本体相似度对比了Peroni等的算法、Queiroz-sousa等的算法,以及他们之前提出的RDF Digest算法[24],对比结果如表3所示。
4.3 其他评价方法
Zhang等[20]通过定性评估的方式将摘要结果与其之前的方法[2]进行对比。因为算法用到了全球语义网中的信息,对专家而言,记住语义网中的所有信息是不现实的。因此,他们针对本体信息绘制相应的摘要图进行评估。
Deng等[10]从空间复杂度和时间复杂度两方面评估无损摘要的质量。空间复杂度即给定一个本体,摘要算法在保留其语义的前提下能将其缩减到的最小规模。用压缩本体中的公理数量与原本体中的公理数量作比,来衡量其空间复杂度。具体计算公式如式(5)所示。
时间复杂度即寻找本体中等价关系花费的时间和压缩本体花费的时间。
表4给出了本文所述算法的各项性能对比。
表3 4种本体摘要算法对比
表4 本体摘要算法及评估方式对比
5 结束语
目前,大多数本体摘要方法为用户导向的摘要[38],对任务导向摘要方法的研究仍处于初步阶段。用户导向的本体摘要旨在输出更为简洁的、便于用户理解的本体信息,其目前有3种输出形式:RDF句子、重要概念集合,以及图形化的子本体。任务导向的本体摘要旨在提供高效的本体应用服务,其目前输出形式为子本体。本文对本体摘要的研究现状进行了梳理,总结了用户导向和任务导向的本体摘要方法,分类介绍了摘要质量的评估方法。本体摘要的未来研究趋势主要集中在以下几个方面。
1) 目前没有统一的本体摘要的评价指标,如何根据本体的内在特性,提出一种统一的本体摘要评价标准是该领域发展的关键点。
2) 现有本体摘要方法都是利用某种规则,从现有本体中抽取关键信息作为摘要结果。如何根据现有的本体信息,抽象出本体中没有显式出现的摘要词语,是一个新的研究方向。
3) 现有本体摘要方法没有利用机器学习算法,可以考虑将机器学习和深度学习算法与本体摘要结合,提出新的摘要方法。
[1] 刘峤, 李杨, 段宏, 等. 知识图谱构建技术综述[J]. 计算机研究与发展, 2016, 53(3): 582-600.
LIU Q, LI Y, YIN H, et. al. Knowledge graph construction techniques[J]//Journal of Computer Research and Development. 2016, 53(3): 582-600.
[2] ZHANG X, CHEN G, QU Y Z. Ontology summarization based on RDF sentence graph[C]//International Conference on World Wide Web. ACM, 2007: 707-716.
[3] WANG R, YU X, LI Y, et al. Ontology partition method for semantic query routing[C]//International Conference on Intelligent Pervasive Computing. IEEE, 2008: 86-89.
[4] STUCKENSCHMIDT H, KLEIN M. Structure-based partitioning of large concept hierarchies[C]//International Semantic Web Conference. 2004: 289-303.
[5] D'AQUIN M, SCHLICHT A, STUCKENSCHMIDT H, et al. Ontology modularization for knowledge selection: experiments and evaluations[C]//International Conference Database and Expert Systems Applications. 2007: 874-883.
[6] D’AQUIN M, SCHLICHT A, STUCKENSCHMIDT H, et al. Modular ontologies: concepts, theories and techniques for knowledge modularization[J]. Lecture Notes in Computer Science, 2009, 5445(4): 67-89.
[7] MANI I. Automatic Summarization[M]. John Benjamins Publishing Company, 2001.
[8] LI N, MOTTA E, D'AQUIN M. Ontology summarization: an analysis and an evaluation[J]. International Workshop on Evaluation of Semantic Technologies, 2010.
[9] ERKAN, RADEV, DRAGOMIR R. LexRank: graph-based lexical centrality as salience in text summarization[J]. Journal of Qiqihar Junior Teachers College, 2011, 22:2004.
[10] 邓玲玉. 基于重要度计算的语义物联网本体摘要方法研究[D]. 大连: 大连海事大学, 2017.
DENG L. Research on method of importance computing based semantic web of things ontology summarization[D]// Dalian : Dalian Maritime University. 2017.
[11] 张灵峰, 夏战锋, 彭志平. 基于Tbox和Abox的描述逻辑推理研究[J]. 计算机技术与发展, 2010, 20(11): 122-125.
ZHANG L, XIA Z, PENG Z. Research on description logic's reasoning based on Tbox and Abox[J]//Computer Technology and Development. 2010, 20(11): 122-125.
[12] ALANI H, HARRIS S, O'NEIL B. Winnowing ontologies based on application use[C]//European Conference on the Semantic Web: Research and Applications. 2006: 185-199.
[13] FOKOUE A, KERSHENBAUM A, MA L, et al. The summary ABox: cutting ontologies down to size[C]//The Semantic Web - ISWC 2006. 2006: 343-356.
[14] MIKA P. Social Networks and the Semantic Web[C]//IEEE/WIC/ ACM International Conference on Web Intelligence. 2004: 285-291.
[15] FREEMAN L C. A set of measures of centrality based on betweenness[J]. Sociometry, 1997: 35-41.
[16] ZAFARANI R, ABBASI M A, LIU H. Social media mining: an introduction[M]. Cambridge University Press, 2014.
[17] Ontology selection: ontology evaluation on the real semantic Web.
[18] PERONI S, MOTTA E, D’AQUIN M. identifying key concepts in an ontology, through the integration of cognitive principles with statistical and topological measures[C]//Asian Semantic Web Conference on the Semantic Web. 2008.
[19] ROSCH E. Principles of categorization[J]. Readings in Cognitive Science, 1988:312-322.
[20] ZHANG X, CHENG G, GE W Y, et al. Summarizing vocabularies in the global semantic Web[J]. Journal of Computer Science and Technology, 2009, 24(1):165-174.
[21] PIRES C E, SOUSA P, KEDAD Z, et al. Summarizing ontology-based schemas in PDMS.[J]. Icdew, 2010:239-244.
[22] QUEIROZ-SOUSA P O, SALGADO A C, PIRES C E. A method for building personalized ontology summaries[J]. Journal of Information and Data Management, 2013, 4(3): 236.
[23] TROULLINOU G, KONDYLAKIS H, DASKALAKI E, et al. Ontology understanding without tears: the summarization approach[J]. Semantic Web, 2016, 8(6).
[24] TROULLINOU G, KONDYLAKIS H, DASKALAKI E, et al. RDF digest: efficient summarization of rdf/s kbs[C]//European Semantic Web Conference. 2015: 119-134.
[25] TROULLINOU G, KONDYLAKIS H, DASKALAKI E, et al. RDF digest: ontology exploration using summaries[C]//The ISWC 2015 Posters & Demonstrations Track Co-located with the 14th International Semantic Web Conference (ISWC-2015). 2015.
[26] LI N, Motta E. Evaluations of user-driven ontology summarization[J]. Lecture Notes in Computer Science, 2010, 6317(1): 544-553.
[27] 宋丹辉. 本体评价研究综述[J]//情报理论与实践, 2011, 34(9):118-122.
SONG D. Ontology evaluation and research survey[J]// Information Studies:Theory & Application, 2011, 34(9):118-122.
[28] 曲琛. 语义物联网本体的摘要方法研究[D]. 大连海事大学, 2014.
QU C. Research on summarization method of ontology in semantic web of things[D]// Dalian Maritime University. 2014.
[29] SINGH S, KARWAYUN R. A Comparative Study of Inference Engines[C]// International Conference on Information Technology: New Generations. IEEE, 2010:53-57.
[30] 潘超, 古辉. 本体推理机及应用[J]. 计算机系统应用, 2010, 19(9):163-167.
PAN C. GU H. Ontology reasoned and its application[J].//Computer System&Applications, 2010, 19(9):163-167.
[31] FRIEDMAN-HILL E J. JESS, the rule engine for the Java platform[J]. Sandia National Laboratories, 2006, 48(2): 340-354.
[32] CARROLL J J, DICKINSON I, DOLLIN C, et al. Jena: implementing the semantic Web recommendations[C]//International World Wide Web Conference on Alternate Track Papers & Posters. ACM, 2004: 74-83.
[33] SIRIN E, PARSIA B, GRAU B C, et al. Pellet: A practical OWL-DL reasoner[J]. Web Semantics Science Services & Agents on the World Wide Web, 2007, 5(2):51-53.
[34] HAARSLEV V, MÖLLER R. Racer: a core inference engine for the semantic Web[J]. EON, 2003(October):27-36.
[35] TSARKOV D, HORROCKS I. FaCT++, description logic reasoner: system description[C]//International Joint Conference on Automated Reasoning. 2006:292-297.
[36] BOBILLO F, STRACCIA U. FuzzyDL: An expressive fuzzy description logic reasoner[C]//IEEE International Conference on Fuzzy Systems. 2008:923-930.
[37] GRAVES A, ADALI S, HENDLER J. A method to rank nodes in an RDF Graph[C]// Poster and Demonstration Session at the, International Semantic Web Conference(DBLP). 2008:309-320.
[38] POURIYEH S, ALLAHYARI M, LIU Q, et al. Graph-based Ontology Summarization: a survey[J]. arXiv:1805.06051, 2018.
Ontologysummarizationtechnologysurvey
DING Yuehang, YU Hongtao, HUANG Ruiyang, LI Yingle
National Digital Switching System Engineering & Technological R & D Center, Zhengzhou 450002, China
Ontology is an important tool for knowledge sharing, while it is also the upper structure of knowledge graph. With the explosion of data and ontology complexity, ontology understanding and application are becoming more and more difficult. As a technique to shrink ontology scale, ontology summarization accelerated ontology understanding and application technologically. Different definitions of ontology summarization were shown, ontology summarization methods were compared and analyzed, ontology summarization evaluation parameter system was introduced, and at last, possible future research area was given.
knowledge graph, ontology, ontology summarization, ontology evaluation
TP393
A
10.11959/j.issn.2096-109x.2018081
丁悦航(1995-),女,山东菏泽人,国家数字交换系统工程技术研究中心硕士生,主要研究方向为复杂网络、知识图谱。
于洪涛(1970-),男,辽宁丹东人,博士,国家数字交换系统工程技术研究中心研究员,主要研究方向为网络大数据分析与处理。
黄瑞阳(1986-),男,福建漳州人,博士,国家数字交换系统工程技术研究中心助理研究员,主要研究方向为文本挖掘、图挖掘。
李英乐(1985-),男,河北衡水人,硕士,国家数字交换系统工程技术研究中心助理研究员,主要研究方向为网络大数据分析与处理。
2018-08-27;
2018-09-29
丁悦航,739815262@qq.com
国家自然科学基金资助项目(No.61521003)
The National Natural Science Foundation of China (No.61521003)