基于领域本体映射的综合相似度计算方法
2017-07-18金海涛张琳
金海涛,张琳
(上海海事大学信息工程学院,上海 201306)
基于领域本体映射的综合相似度计算方法
金海涛,张琳
(上海海事大学信息工程学院,上海 201306)
领域本体为知识的共享和重用提供重大作用。本体映射是在异构本体间建立语义映射关系,解决本体异构的重要途径。针对目前本体映射中相似度计算存在的不足,提出一种综合的相似度计算方法,即先依据知网知识词典并考虑未登录词分词后词性的作用,计算出本体元素的概念相似度;再分析本体的层次关系计算其结构相似度;通过加权综合得到本体的综合相似度;最后构建两个异构航运本体,设计实验来验证改进后算法的正确性和有效性,实验表明所提出的方法具有较高准确率。
领域本体;本体映射;本体异构;知网;相似度计算
0 引言
随着语义Web的迅速发展,越来越多的人加入了对本体应用的研究,大量的本体在语义Web中被创建,由于不同的人在创建本体时,所采用的描述语言、描述方式等可能不同,使得即使对相同领域的建模,也会构造出具有一定差异的本体,这严重影响了本体间知识的共享与重用。本体映射是解决本体之间异构问题的有效途径[1],充分实现本体间的互操作,而本体间的相似度计算是本体映射最关键的技术。
目前,在一些本体映射系统中,本体间的相似度计算存在计算量较大、计算准确率较低和映射效率不高等问题,着重体现在:在计算两个本体的相似度时,需要考虑它们的概念、属性、实例等,因此会产生大量的计算,然而,并不是所有的概念、属性、实例都存在一定的相似,它们间可能完全不相似,所以根本不需要计算其相似度;本体映射中计算相似度的方法有很多,例如基于概念名称的方法[2]、基于信息流的方法以及基于结构的相似度计算方法[3]等,但这些算法普遍存在算法单一、映射效率不高的问题,导致查询的准确率不高。
针对上述提到的本体映射中相似度计算存在的问题,本文提出一种基于HowNet和本体结构的综合相似度计算方法,首先,引入了知网及其知识词典,在知网中,概念具有一定的结构,它可由义原描述,通过义原树和义原层次体系结构计算义原相似度,然后根据文中方法计算本体元素的概念相似度;再考虑本体的结构信息,分析本体结构树,计算本体间的结构相似度;最后通过加权计算得到一个综合的本体相似度值,从而提高本体相似度计算的准确率。
1 本体映射相关知识
1.1 本体定义
本体最先起源于哲学,在哲学中,本体是对世界上任何真实存在的事物所做出的客观描述。随后,本体被引入到计算机领域的人工智能界,随着人工智能的快速发展,R.Neches等是最早提出本体相关定义的人。后来越来越多的学者在信息系统等各个领域开始研究本体,并提出了很多不同的关于的本体定义。Gruber提出的本体定义:“本体是概念模型的明确的规范说明”[4]。Borst将本体定义为“共享概念模型的形式化规范说明”[5]。之后,Studer等人提出了更加具体的本体定义,即:“本体是共享概念模型的明确的形式化规范说明”[6]。
本文采用Perez等人提出的本体定义形式,即本体为五元组[7],可由公式(1)表示。
其中,C表示类(概念)的集合,用于描述事物对象的集合,c表示概念(c∈C),指任何事物,例如行为、描述和推理过程等,它们通常构成一个分类层次;R为定义在概念集合上的关系集合,表示概念间的相互作用,形式化上将其定义成n维笛卡尔积的子集:R:C1×C2×…×Cn,r表示关系(r∈R);F表示为概念集合上的函数集合,是一种特殊的关系,形式化定义为:F:C1×C2×…×Cn-1→Cn;A表示为公理集合,代表永真断言;I代表概念的实例集合,i代表实例(i∈I),表示某个概念类中的元素。
1.2 本体映射
所谓本体映射,就是指在异构的本体之间建立联系,使得异构本体达成对相同事物的一致性理解,它能够确定不同的本体之间如何被映射或相互关联。实际上,本体映射就是通过在异构本体间建立映射规则,把两个异构的本体作为输入,之后将两个本体元素之间的语义映射关系输出,映射函数表示为:
给定两个异构的本体O1和O2,从O1到O2的本体映射是指在本体O1中的每个本体元素,在本体O2中可以找到与之相对应的元素,并确定他们之间存在的对应关系。其中,本体O1为源本体,本体O1为目标本体。这里ei1∈O1,ei2∈O2且{ei1}→map{ei2}。{ei1}和{ei2}都表示元素集合(元素为本体中的概念、关系等)。f可以是一种映射类型(subclass、superclass、disjointwith等)或者为null。当f为null时,表示{ei1}和{ei2}之间没有对应关系。
语义间存在的映射关系一般由它们的相似度来决定。相似度定义为sim(ei1,ei2)∈[0,1],其中,ei1和ei2分别表示本体O1和O2的两个元素。文献[8]提出了一种形式化的本体映射函数:
map(ei1)=ei2,如果sim(ei1,ei2)>μ,μ作为阈值,μ∈[0,1],当ei1与ei2的相似度大于阈值μ时,说明它们之间存在语义映射关系,将映射ei1到ei2。
2 本体相似度计算
2.1 概念相似度计算
本文引入知网(HowNet)进行本体的概念相似度计算,根据文献[9]中的方法进行改进,通过义原树以及义原层次结构对义原之间的语义相似度进行计算,并综合考虑了义原在树中所处的层次深度因素;利用改进后的方法对义原描述式进行分类并计算其相似度;对于知网没有收录的概念,采用逆向最大匹配法进行相似度的计算。
(1)义原语义相似度计算
对处于同一棵义原分类树上的节点,为了降低算法的空间复杂度,可以使义原分类树通过一定的规则转换成二叉树的形式,并采用二叉树的链式存储方式,最后利用二叉树节点距离计算公式得到义原间的语义距离,进而通过公式(4)计算得到义原之间的语义相似度。
对位于不同义原分类树上的义原节点,本文采用知网中义原层次体系中义原的上下位语义距离关系并引入深度因素来计算。在义原分类树中,若两对义原路径距离相同,位于层次深度越高的义原,其语义距离相对越小。
其中,A和B是两个义原,分子中的Psp(A,B)表示两个义原重合路径,即相同信息,分母中的Dis(A,B)表示两个义原的路径距离,即相异信息。β是一个与义原深度有关的参数,它的值域为[0,1]。
在知网中,义原的描述方式可以用一个特征结构来表示,其包括以下四个特征[10]:第一基本义原描述、其他基本义原描述、关系义原和关系符号描述四个方面,若本体中的元素被知网收录,则可由公式(6)计算其概念相似度。
其中,βi(1≤i≤4)是权重,且有:β1+β2+β3+β4=1,β1≥β2≥β3≥β4。后者表明了Sim1(A,B)到Sim4(A,B)在计算总体相似度时的比重依次降低。由于概念的最主要特征在于第一基本义原描述,所以一般将其所占的权重设为0.5以上。
因为第一基本义原相似度对其他义原相似度具有一定的制约作用,所以将基于知网的概念相似度记为:
(2)未登录词的相似度计算
由于知网中不可能收录所有的词汇,所以有些词汇在知网中没有相应的语义描述,因此无法对未登录词进行相似度计算,这时就需要对未登录词进行中文分词,将未登录词转化为知网可以理解的形式。
本文采用逆向最大匹配法作为分词算法,所谓逆向最大匹配是从词语的最右边开始匹配,在知网知识字典中查找能够匹配成功的最长的单词。逆向最大匹配后,将未登录词分解为多个知网中存在的词。由于分解后不同词语的词性对相似度计算具有一定的影响,所以本文将动词、名词、代词作为核心词,其所占的权重较大。未登录词相似度算法如下:
(1)对未登录词A和B进行切分,得到未登录词的切分集合M和N;
(2)对集合M、N进行词性标注,并按照词性分别划分为集合M1、M2和N1、N2,其中m1和N1包含了集合M和N中所有的核心词,M2和N2包含了剩余的其他词语;
(3)分别计算M1和N1、M2和N2的语义相似度。假设len(M1) (4)加权求和得到Sim(A,B)的值,未登录词不一定都有集合M1和N1、M2和N2,因此未登录词相似度的公式可记为: 其中,μ和η为不同的词集所占的权重,μ+η=1,μ>η。 2.2 结构相似度计算 在计算本体元素的综合相似度时将本体的结构信息作为相似度计算的一部分,提出一种基于结构的本体相似度计算方法:先将本体结构图转化为一种树状关系,接着在两个本体结构树之间构造一个共有的父节点把两个本体树合并为一个树,再将本体元素之间的语义关系转换为本体树中两个元素的路径距离p,取一个语义半径r,在路径距离p≤r情况下,查找该范围内所有邻居元素,得到一个邻居元素集合,这样两个异构本体的元素即可得到两个与之相关的集合,再根据公式(9)求得本体的结构相似度SimStr(A,B)。 在计算本体的结构相似度时,参照以下规则: (1)在本体树中,如果两个元素节点同属于一个父节点,则这两个元素节点可能是相似的; (2)如果两个元素节点是相似的,则它们的子节点也可能相似; (3)如果两个元素节点是相似的,则它们的邻居节点也可能相似; 依据上述规则,将结构相似度计算定义为公式: 其中,A和B分别为本体O1和O2中的元素,Simp(A,B)表示元素A和B最近的公共父节点之间的相似度;Sims(A,B)表示元素A和B子节点集的相似度;Simb(A,B)表示元素A和B兄弟节点集的相似度,Ns(A)和Ns(B)分别表示A和B的子节点集合,Nb(A)和Nb(B)分别表示A和B的兄弟节点集合。α、β、γ为权重因子,且α+β+γ=1,由于在本体结构树中,父、子、兄弟节点对其相似度的计算具有不同的影响,其中,父节点的影响较大,所以设定α≥β≥γ≥0。 2.3 综合相似度计算 为基于HowNet、本体结构等方面计算所得的相似度分别分配一个权值,得到综合相似度为: 其中,ω1,ω2是两种相似度计算方法所占的权重且ω1+ω2=1(ω1,ω2>0),具体值可以根据具体分析和实际需要来选取。 为了验证改进后算法的有效性,本文通过爬取“中国港口网”中航运、集装箱等文本数据,通过分词方法对文本数据进行分词,得到航运领域的相关术语,分析术语间的关系,通过本体构建方法,使用基于OWL语言描述的本体构建工具Protege4.3构建两个异构航运本体O1和O2。 图1 异构航运本体O1和O2 由于目前还没有专门评估相似度算法质量的专用数据集,本文抽取本体中部分元素作为实验数据进行相似度计算并与传统方法计算结果进行对比。 在计算概念相似度时,首先判断概念是否在知网知识词典中收录,如果概念存在,则直接进行计算,否则,需要先进行中文分词,再计算分词后两两词语之间的相似度,最后利用本文方法得出两个航运本体的概念相似度。 例如:在表1中,计算“装箱单”和“装箱信息”的概念相似度时,知网的知识词典中没有收录这两个词语,但收录了“装箱”、“信息”和“单”这几个词语。所以,首先分别计算“装箱”和“装箱”,“装箱”和“信息”的相似度,由于“单”不是核心词,因此本文不需要计算“单”和“装箱”,“单”和“信息”的相似度,最后,通过相似度值的加权求和得到概念相似度。“装箱单”和“装箱信息”的相似度计算如下:Sim(装箱,装箱)=1.0,Sim(装箱,信息)=0.056,因此SimHow(装箱单,装箱信息)=0.528,对于分词后得到的概念个数较多的情况,同样采用本文方法对各部分概念相似度求和,再取平均值,从而得到航运领域专有术语的概念相似度值。 仅通过概念相似度计算得出的结果并不能精准地确定异构航运本体之间的语义关系,因此,本文通过分析异构航运本体的结构信息,并根据2.2节介绍的方法计算两个异构航运本体间的结构相似度。 例如:计算“货船名”和“船名”的结构相似度为:由于“货船名”和“船名”没有子元素,所以使用的是父元素和兄弟元素的概念相似度作为两个元素的结构相似度,其中α≥β≥γ≥0,α+β+γ=1且β=0,根据多次实验结果,设定权重α=0.82,γ=0.18,得出SimStr(货船名,船名)=0.885。 根据文献[2]与文献[4]中提出的本体相似度计算方法对构建的异构航运领域本体进行相似度的计算,并统计计算结果与本文算法的部分实验结果对比。其中,本文的实验结果为等权值分配得到的本体综合相似度值。 表3 实验结果对比 图2 实验结果对比 结果分析: 由表3和折线图可以看出,通过传统单一方法计算得到的相似度值比较粗糙、片面,不同的方法计算出的相似度值可能存在很大差别,进而得到不同的映射关系。然而,基于本文方法计算得到的综合相似度值相比于文献[2]和文献[4]计算得到的结果具有较高的准确性,进行本体映射时更具参考性,它首先利用HowNet计算本体元素的概念相似度,由此细化每个本体元素之间的关系,其次,由本体结构的相似度计算可以得到两个本体在总的结构上的相似程度,最后结合细化的本体元素相似度和概括的本体结构相似度得到综合的相似度值,根据综合的相似度值使得航运本体元素之间的映射更加准确。 随着现代航运业的迅速发展,信息共享已逐渐成为航运业的必然趋势,信息表示的标准化已成为解决信息共享的重要手段。本文提出了一种基于HowNet和本体结构的综合相似度计算方法,实验结果表明,改进后的算法相对于传统单一算法具有较高的准确率,能有效提高本体映射的效率,实现航运本体资源的共享和重用。 然而,由于本文方法很多地方采用人工分配权值的方式,因此,主观因素在一定程度上影响了实验结果,所以在以后的研究中,可以考虑根据本体元素在领域中的重要性自动分配权值,同时考虑概念的属性、实例等因素的影响,从而使得异构领域本体之间的映射更加准确和高效。 [1]Ding Ying,Foo S.Ontology Research and Development:Part2-A Review of Ontology Mapping and Evoling[J].Journal of Information Science,2002,28(5):375-388. [2]何娟,高志强,陆青健等.基于词汇相似度的元素级本体匹配[J].计算机工程,2006,32(16):185-187. [3]周栩,刘磊,范任宏.基于模式结构分类的本体映射方法[J].电子学报,2011,39(4):882-886. [4]Gruber T.Ontolingua:A translation Approach to Portable Ontology Specifications,Knowledge Acquisition,1993,5(2):199-220. [5]Borst P,Akkermans H,Top J.Engineering Ontologies,International Journal of Human-Computer Studies,1997,46(2-3):365-406. [6]Studer R,Benjamins V R,Fensel D.Know ledge Engineering:Principles and Methons,Data&Knowledge Engineering,1998,25(1-2):161-197. [7]A.G.Perez,V.R.Benjamins.Overview of Knowledge Sharing and Reuse Components:Ontologies and Problem-Solving Methons[C].In Proceedings of the IJCAI299 workshop on ontologies and Problem-Sovling Methons.deAgosto,Estocolmo,1999,1-15. [8]黄鑫.本体驱动的语义智能系统的研究[D].重庆师范大学,2009. [9]刘群,李素建.基于《知网》的词汇语义相似度计算[A].第三届汉语词汇语义学研讨会论文集[C].台北,2002:59-76. [10]魏凯斌,冉延平,余牛.语义相似度的计算方法研究与分析[J].计算机技术与发展,2010,20(7):102-105. Integrated Sim ilarity Calculation Method Based on Domain Ontology Mapping JIN Hai-tao,ZHANG Lin (College of Information Engineering,ShanghaiMaritime University,Shanghai 201306) Domain ontology plays a vital role in the sharing and reuse of knowledge.Ontologymapping is an effectiveway to solve semanticmapping between heterogeneous ontologies.Aiming at the disadvantages of the similarity calculation in ontology mapping,proposes a comprehensive similarity calculation method,which is based on the knowledge dictionary and considering the role of the word after the word,and calculates the similarity of the ontology element.Finally,designs two heterogeneous shipping ontologies and design experiments to verify the correctness and validity of the improved algorithm.Experiments show that the proposed method has higher accuracy. 金海涛(1992-),男,安徽淮南人,硕士研究生,研究方向为模式识别与智能信息处理 2017-02-16 2017-05-10 1007-1423(2017)14-0034-06 10.3969/j.issn.1007-1423.2017.14.007 张琳(1973-),女,博士,副教授,硕士生导师,研究方向为港航信息化技术、智能信息处理、信息检索、本体与知识工程等 Domain Ontology;Ontology Mapping;Ontology Heterogeneous;HowNet;Similarity Calculation3 实验及分析
4 结语