面向领域本体非分类关系的语义相关度计算方法
2016-12-26樊红杰
王 红 樊红杰 孙 康
(中国民航大学计算机科学与技术学院 天津 300300)
面向领域本体非分类关系的语义相关度计算方法
王 红 樊红杰 孙 康
(中国民航大学计算机科学与技术学院 天津 300300)
针对民航突发事件领域本体非分类关系的语义查询扩展问题,提出一种面向领域本体非分类关系的语义相关度计算方法。该方法在数据属性方面,提出基于属性类型和属性值的语义相关度计算方法;在对象属性方面,针对查询词与本体概念或实例存在多种对象属性问题,提出基于对象属性的语义相关度计算方法,并结合领域本体在民航突发事件案例的语义查询过程给出了该方法的实现效果分析。该方法不仅有效地提高了语义查询的准确率和查全率,也为民航突发事件的应急决策提供了更好的方法支持。
民航突发事件 领域本体 非分类关系 语义相关度
0 引 言
本体是共享概念模型的明确的规范说明[1]。领域本体是用于描述指定领域知识的一种专门本体,它将与特定领域相关的概念以及概念间的关系以形式化的说明进行了严格的规范,明确描述了概念的含义以及概念间语义的关系。民航突发事件领域本体是以民航突发事件应急救援计划、民航应急管理相关规定、民航突发事件应急救援预案,民航突发事件历史案例为基础,通过概念以及概念间关系的形式化描述,明确了领域中概念及概念间的语义关系。之前开展的基于领域本体的语义检索方法[2]是基于概念间的分类关系实现的,虽然有效解决了传统的基于关键词查询方法所存在的语义偏差和语义歧义等问题,但在查全率和查准率方面依然存在不足。非分类关系是指除分类关系以外的所有其他关系,是概念间语义关系的重要组成部分,影响着语义查询扩展的效率。因此,本文面向领域本体对基于非分类关系的语义相关度计算方法展开了研究。
目前,针对本体非分类关系的语义相关度计算方法的研究主要集中在数据属性[3-6]方面,在对象属性方面的研究[7,8]还比较少。本文结合民航突发事件应急救援的特殊性,通过深入分析已构建的民航突发事件领域本体[9,10]的特征,提出一种面向领域本体非分类关系的语义相关度计算方法。该方法不仅提高了语义查询的准确率和查全率,同时也为民航突发事件的应急决策与救援提供了辅助作用。
1 语义相关度
1.1 语义相关度定义
在本体领域,语义相关度是指概念间语义相互关联程度[11]。语义相关的两个概念可能不存在相似关系,但它们可以通过某些其他关系相关联形成相关关系。语义相似度是语义相关度的特例,通常情况下,相似概念一般是相关的,但相关概念却不一定相似。
本文依据语义相关度的一般定义和已构建的民航突发事件领域本体的特点,给出了以下基于民航突发事件领域本体的语义相关度的定义:
语义相关度是指本体中概念在非分类关系上的相关程度,记概念ci、cj之间的相关度为Sim(ci, cj),它需满足以下条件:
(1) 相关度的值是区间[0,1]内的一个实数,即Sim(ci, cj)⊆[0,1];
(2) 如果两个概念完全相似,则相关度值为1,即Sim(ci, cj)=1(当且仅当ci=cj);
(3) 如果两个概念之间不存在任何连通路径,则相关度值为0,即Sim(ci, cj)=0;
(4) 概念之间的相关度是对称的,即Sim(ci, cj)= Sim(cj, ci)。
1.2 语义相关度计算方法
在民航突发事件领域本体中,非分类关系分为数据属性关系和对象属性关系。本文通过对数据属性和对象属性语义相关度的研究,提出了一种基于非分类关系的语义相关度计算方法,并将其应用于领域本体中事故案例的语义查询扩展中,其实现模型如图1所示。
图1 面向领域本体非分类关系的语义相关度计算方法模型
图1中:
相关定义:负责语义相关度、数据属性权重和对象属性权重的定义。
相关度计算:实现查询词与本体概念、实例基于非分类关系的语义相关度计算。
相关度应用:将该基于非分类关系的语义相关度计算方法应用于民航突发事件领域本体中的事故案例语义查询扩展中。
2 领域本体数据属性的语义相关度计算
2.1 数据属性的权重
当民航突发事件发生时,救援指挥中心根据获取的各种事故信息和救援信息制定相应的救援方案并通知各救援部门实施及时、有效的救援。在突发事件的应急决策与救援中,突发事件案例对实现事故的及时、有效救援起到了重要的借鉴和指导作用。已构建的民航突发事件领域本体中与突发事件案例相关的数据属性如表1所示,这些数据属性实现了对突发事件案例的特征描述。
表1 领域本体中与突发事件案例相关的数据属性及取值
由于突发事件案例对事故的应急决策与救援具有重要的借鉴和指导作用,本文依据突发事件案例的各种信息在事故应急决策与救援中起到的重要程度,为上述数据属性分配了一定的权重。数据属性的权重越大,该数据属性越重要,越不可缺失。
对于各属性权重的具体取值,需要结合民航突发事件应急决策与救援的实际需求。由于Event_Level直接决定了应急救援响应等级,因此其权重应最大。Operation_Stage、Weather_Type、Event_Location对事故评估、救援实施具有重要作用,因此要为其分配次大的权重值。Plane_Type、Plane_Task和Event_Time对事故救援起到的辅助作用相比其他属性要弱一些,因此其权重值应较小。本文将上述各数据属性权重值限定在区间[0,1]内,并对其进行归一化处理,最终为各数据属性分配如表2所示的权重值。
表2 数据属性的权重
2.2 数据属性类型的语义相关度
在本体中,数据属性将本体概念与属性值类型、本体实例与具体属性值相关联,它实现了对本体概念和实例的特征描述,起到了语义标签的作用。
目前,基于数据属性的语义相关度计算方法中最经典且最常被引用的是Tversrvy[3]方法,其公式如下:
(1)
其中,f(ci, cj)表示本体概念ci、cj拥有的相同数据属性的数量,f(ci- cj)表示ci拥有但cj没有的数据属性数量,f(cj-ci)表示cj拥有但ci没有的数据属性数量。α是调节因子,它与ci、cj的深度有关,其取值如下:
(2)
该方法在语义相关度计算中将比较的两概念视为同等重要,但语义查询扩展是利用目标概念在本体中查询扩展出与其语义相似或相关的其他本体概念,上述方法削弱了目标概念的重要性。同时,该方法使用的是典型的特征匹配方法,忽略了属性值之间的语义相关度问题。因此,本节以目标概念具有的数据属性为基准,对概念在数据属性类型和数据属性值上的语义相关度分别进行了研究。
在数据属性类型方面,两概念拥有的相同属性类型的个数越多,它们越相关;反之,两概念拥有的相同属性类型的个数越少,它们越不相关[12]。以目标概念或实例具有的数据属性为基准,提出了以下基于数据属性类型的语义相关度计算:
(3)
(4)
其中,ci、cj是任意本体概念或实例,ci作为目标概念或实例,cj作为源概念或实例。cik表示ci的第k个数据属性;cjl表示cj的第l个数据属性。type(cik)表示ci的第k个数据属性的属性类型。Simtype(cik, cjl)表示数据属性cik、cjk基于属性类型的语义相关度。wk是数据属性cik的权重值。n、m分别表示ci、cj拥有的数据属性的个数。
2.3 数据属性值的语义相关度
在民航突发事件领域本体中,数据属性值有三种:有序枚举型属性值、无序枚举型属性值和混合枚举型属性值。数据属性值的类型不同,对属性值的语义相关度计算方法也应不同。因此,根据数据属性值的特点提出了三种基于属性值的语义相关度计算。
1) 有序枚举型属性值的语义相关度
有序枚举型属性值是指属性在给定的一个数据集中进行取值,该数据集中的数据存在有序关系,例如Event_Level的取值有1(特别重大)、2(重大)、3(较大)和4(一般)。
对于有序枚举型属性值,属性值相差越大,其语义相关度越小;反之,属性值相差越小,其语义相关度越大。在有序枚举型属性值的语义相关度计算方面,目前最常用的是海明距离法,其计算公式如下:
(5)
其中,Pi、Pj表示数据属性,xi、xj是Pi、Pj的数值型属性值。
该方法虽然解决了对有序枚举型属性值的语义相关度计算问题,但是计算结果受取值个数的影响较大。为了增强有序枚举型属性值之差对相关度的影响,进行了以下改进:
(6)
其中,ci、cj是任意本体实例,SimValue(cik, cjk)表示ci、cj在第k个数据属性上基于属性值的语义相关度。xk、yk分别表示ci和cj的第k个数据属性的数值型属性值。m是第k个数据属性的取值个数。
2) 无序枚举型属性值的语义相关度
无序枚举型属性值是指属性在给定的一个数据集中进行取值,该数据集中的所有数据之间无关联关系,例如数据属性Weather_Type的取值有“适航”、“台风”、“雷暴”、“冰雹”等。
无序枚举型属性值一般都是字符型,因此,对于该属性值的语义相关度计算使用字符匹配法,即:
(7)
其中,ci、cj是任意本体实例,SimValue(cik, cjk)表示ci、cj在第k个数据属性上基于无序枚举型属性值的语义相关度。xk、yk分别表示ci和cj的第k个数据属性的属性值。
3) 混合枚举型属性值的语义相关度
混合枚举型属性值是指属性在给定的多个数据集中进行取值,这些数据集之间存在分类关系,各数据集内部所有数据之间无关联关系。由于混合枚举型属性值通常是字符型,所以最常使用的方法是字符匹配法。但是该方法忽略了属性值之间的隐性语义关系,在一定程度上影响了语义相关度计算的准确度,因此本文依据该属性值的特点,提出了一种针对混合枚举型属性值的语义相关度计算方法。
对于混合枚举型属性值的语义相关度计算,在计算前先对属性的取值数据集进行有序编号。如数据属性Plane_Task的取值数据集有商用航空数据集和通用航空数据集,商用航空数据集包含“客运”、“货运”、“客货运”,通用航空数据集包含“工业航空”、“农业航空”、“航空科研和探险活动”等。商用航空数据集的序号为1,通用航空数据集的序号为2,Plane_Task的属性值“客运”、“货运”、“飞行训练”间的语义相关度关系为Sim(客运,客运)>Sim(客运,货运) > Sim(客运,飞行训练)。
依据混合枚举型属性值的特点,基于混合枚举型属性值的语义相关度计算如下:
(8)
其中,ci、cj是任意本体实例,SimValue(cik, cjk)表示ci、cj在第k个数据属性上基于混合枚举型属性值的语义相关度。Xk、Yk分别表示ci和cj的第k个数据属性的属性值所在数据集的序号,如Plane_Task的属性值“客运”所在数据集的序号为1,“飞行训练”所在数据集的序号为2。m是第k个数据属性的取值数据集的个数。xk、yk分别表示ci和cj的第k个数据属性的属性值。
2.4 基于数据属性的语义相关度计算
通过上述对属性类型的语义相关度和属性值的语义相关度的研究,提出了以下基于数据属性的语义相关度计算:
(9)
其中,ci、cj是任意本体概念或实例,ci作为目标概念或实例,cj作为源概念或实例。cik表示ci的第k个数据属性。SimDat(ci,cj)表示ci、cj基于数据属性的语义相关度。SimType(cik,cjl)表示cik、cjl在属性类型上的语义相关度。SimValue(cik,cjl)表示cik、cjl在属性值上的语义相关度。wk是属性cik的权重值。n、m分别是ci、cj拥有的数据属性的个数。
3 领域本体对象属性的语义相关度计算
3.1 对象属性的权重
本体中,对象属性将不同的概念、实例依据语义相关性关联在一起,构成了非分类关系。通常情况下,相似概念一般是相关的,但相关概念却不一定相似。
目前,通过对象属性计算语义相关度的方法主要依赖于概念间的语义距离来实现。许多研究者将基于词语距离的相似度计算方法引入了本体领域,成为了一种常用的基于对象属性的语义相关度计算方法,其计算公式如下:
(10)
其中,ci、cj是任意本体概念或实例,length(ci, cj)是ci、cj之间包含对象属性关系边的路径长度。α是调节参数。
后来一些研究者对概念间的对象属性通过关系权重进行了量化,进而产生了利用权重路径计算本体概念基于对象属性的语义相关度的方法,其中最常用的方法为:
(11)
其中,ci、cj是任意本体概念或实例,w(ei)是ci、cj之间包含对象属性关系边的路径中第ei条边的权重。
虽然该方法通过对象属性实现了语义相关度的计算,但是它仅考虑了本体概念或实例之间只存在一种对象属性的情况,对于本体概念或实例间拥有多种对象属性的情况并不适用。因此,本文基于民航突发事件领域本体对上述方法进行了改进。
在民航突发事件领域本体中,与突发事件案例相关的对象属性主要有PlanOwn、ActionOwn、RelatedCause、RelatedEffect、RelatedExperience、Keyfacor。由于突发事件案例对事故的应急决策与救援具有重要的借鉴和指导作用,本文依据突发事件案例的各种信息在事故应急决策与救援中的重要程度,为上述对象属性分配了一定的权重。对象属性的权重越大,该对象属性越重要,越不可缺失。
由于对象属性是将概念、实例进行语义相关联的一种非分类关系,所以对象属性的权重也与分类关系的权重相关。对于各对象属性权重的具体取值,需要结合民航突发事件应急决策与救援的实际需求、专家经验和下文改进的基于对象属性的语义相关度计算方法进行实验验证。实验中,将所有对象属性的权重初值设为0.1且取值范围为[0,1],同时以增值为0.1的方式对权重值进行递增,计算不同权重值下本体概念、实例基于对象属性的语义相关度。实验发现,当对象属性权重小于0.6时,会导致概念间的语义相关度值过小;当对象属性权重大于0.8时,会导致概念间的语义相关度值过大,与实际情况不符。最终,通过对不同对象属性权重下的实验结果的分析和对比,得到如表3所示的各对象属性的权重值。
表3 民航突发事件领域本体中对象属性权重值
3.2 基于对象属性的语义相关度计算
设集合R={r1,r2,…,rm}为对象属性非分类关系的集合,其中ri(i=1,2,…,m)是领域本体中已定义的某种对象属性非分类关系。
定义任意本体概念或实例ci和cj在对象属性非分类关系ri上的相关值Vri(ci, cj)为:
其中,weight(ri)是对象属性非分类关系ri的权重值。
在领域本体中,由于本体概念或实例之间可能存在多种对象属性非分类关系,因此定义ci和cj在对象属性非分类关系上的关系权重为:
(12)
其中,m为集合R中元素的个数。n为ci与cj间存在且不重复的对象属性非分类关系的个数。
将本体中通过对象属性相关联的概念或实例看成是由一条加权的非分类关系边直接相连,则基于式(12)的关系权重计算,ci和cj在对象属性上的语义相关度为:
(13)
其中,α、 β为调节参数。
4 实现过程与效果分析
4.1 实现过程
通过上述对基于数据属性和对象属性的语义相关度的研究,提出了以下面向领域本体非分类关系的语义相关度计算方法。该方法将数据属性和对象属性的语义相关度进行了结合,其计算方法如下:
Sim(ci,cj)=ϑ1SimDat(ci,cj)+ϑ2SimNl(ci,cj)
(14)
其中,ci、cj是任意本体概念或实例,ci作为目标概念或实例,cj作为源概念或实例,Sim (ci, cj)表示 ci、cj基于非分类关系的语义相关度。ϑ1、ϑ2是调节因子,且ϑ1+ϑ2=1。
在基于非分类关系的语义相关度计算方法中,通过设定一个阈值λ来限制查询结果集的大小,将领域本体中与目标查询词的语义相关度大于阈值λ的本体概念和实例加入查询结果集中,该方法的具体实现过程如图2所示。
图2 基于非分类关系的语义相关度算法
如图2所示,基于民航突发事件领域本体将关键词qk与本体概念、实例相匹配, 计算匹配的关键词qk与其他任意本体概念或实例cj在数据属性和对象属性上的语义相关度值。确定调节因子ϑ1、ϑ2的值,计算出关键词qk与cj基于非分类关系的总相关度值,将总相关度值大于阈值λ的本体概念或实例加入查询结果集OntoSet。
4.2 实现效果与分析
已构建的民航突发事件领域本体主要包含了与民航突发事件相关的应急预案、应急案例、应急救援处置方法等领域概念和实例,并对它们之间的各种语义关系进行了描述。图3是已构建的民航突发事件领域本体的一部分。
图3 领域本体中的数据属性和对象属性
图3中,椭圆表示本体概念或实例,矩形表示属性值,实线空箭头表示KindOf分类关系,实线实箭头表示InstanceOf分类关系,虚线空箭头表示数据属性非分类关系,虚线实箭头表示对象属性非分类关系,边上的权值是该关系边对应的关系权重。
对于参数α、β的取值,依据已构建的民航突发事件领域本体和基于对象属性的相关度计算方法,首先进行了多组相关实验。实验中将α、β的初值都设为0.5,并以增值为0.5的方式对α、β的值进行递增,计算不同的α、β值下本体概念、实例基于对象属性的语义相关度。通过对所有相关度计算结果的分析和对比,最终确定α值为0.5、β值为1时,结果最符合实际情况。
为了验证本文提出的方法的有效性,将传统的基于数据属性的相关度计算方法Tversky方法[3]和P.W方法[13]作为对比方法,展开了以下实验。
实验中,将数据属性和对象属性视为同等重要,因此参数ϑ1、ϑ2的取值分别为0.5、0.5。对于阈值λ的取值,需要考虑实际情况。如果λ值过大,会导致查询结果集过小,影响语义查询的查全率。如果λ 值过小,会将许多与查询词的语义相关度较小的本体概念和实例加入查询结果集中,影响语义查询的查准率。本文结合实际情况及需求,将阈值λ的取值设为0.38。基于已构建的民航突发事件领域本体,以“AF358号航班事故案例”为例,实验结果的部分对比情况如表4所示。
表4 AF358航班事故案例相关度计算实验结果对比
由于民航突发事件领域本体中,数据属性是根据概念或实例所具有的特征进行定义的,因此同类概念、实例的数据属性相关,不同类概念、实例的数据属性完全不相关。同时,由于领域本体中对象属性主要存在于不同类的概念、实例之间,因此通过对象属性相关联的概念或实例在数据属性上的相关性非常小,所以上述实验结果普遍偏小。
为验证方法的有效性,共做了10组查询对比实验。对得到的实验结果,使用信息检索最常用的两个基本评价指标—查全率Recall和查准率Precision进行评测。用N表示领域本体中所有相关概念和实例总数,A表示检索出的概念和实例总数,NC表示检索出的所有相关概念和实例总数,相关计算公式如下:
(15)
(16)
将本文提出的语义相关度计算方法与对比方法的查全率Recall和查准率Precision进行了对比,对比结果如表5所示。
表5 平均查全率和查准率对比
实验结果表明,Tversky方法通过将查询词与本体概念、实例的数据属性值进行字符匹配来计算它们间的语义相关度。该方法不仅忽略了属性值间的语义关系,同时也忽略了查询词与本体概念、实例间的对象属性,因此查全率和查准率都较低。P.W方法基于多路径长度计算查询词与本体概念、实例间的语义相关度,该方法忽略了它们在数据属性上的语义相关问题,因此查全率和查准率也较低。本文提出的方法在数据属性方面,既考虑了查询词与本体概念、实例在属性类型上的语义相关性,又考虑了它们在属性值上的语义相关性;在对象属性方面,其解决了查询词与本体概念或实例存在多种对象属性非分类关系时的语义相关度问题,在一定程度上提高了语义查询的查全率和查准率。
5 结 语
本文面向已构建的民航突发事件领域本体,提出了一种基于非分类关系的语义相关度计算方法。该方法在数据属性方面,提出了一种将数据属性类型与属性值相结合的语义相关度计算;该方法在对象属性方面,解决了查询词与本体概念或实例存在多种对象属性非分类关系时的语义相关度计算问题。实验结果表明,该方法不仅有效提高了语义查询的查全率和查准率,同时也为民航突发事件的应急决策与救援提供了辅助作用。但该方法仍存在不足,下一步的研究工作将针对查询关键词集与本体概念不匹配问题,进行相关概念推荐,进一步提高查询效率。
[1] Studer R, Benjamins V R, Fensel D.Knowledge Engineering Principles and Methods[J].Data and Knowledge Engineering,1998,25(1-2):161-197.
[2] 王红,肖志伟,李剪,等.基于民航机场应急资源语义检索方法的研究[J].计算机应用与软件,2014,31(1):73-76,153.
[3] Tversky A. Features of Similarity[J]. Psychological Review,1977,84(4):327-352.
[4] David Sánchez, Montserrat Batet, David Isern,et al. Ontology-based Semantic Similarity:A New Feature-based Approach[J].Expert Systems with Applications, 2012, 39(9):7718-7728.
[5] Amel Yessad, Catherine Faron-Zucker, Rose Dieng-Kuntz,et al. Ontology- based Semantic Relatedness for Detecting the Relevance of Learning Resources[J].Interactive Learning Environments, 2011,19(1):63-80.
[6] Cai Yingfang, Qiu Wanghua.Research on Retrieval of Multi-Attribute Instance Knowledge Based on Ontology[C]//Proceedings of International Conference on Uncertainty Reasoning and Knowledge Engineering, 2012:13-17.
[7] Huacheng Chen, Xuehui Du, Xingyuan Chen,et al.Query Expansion Model Based on Interest Ontology[C]//Proceedings of International Conference on Information Management, Innovation Management and Industrial Engineering, 2012:474-478.
[8] Neda Alipanah, Pallabi Parveen, Sheetal Menezes,et al.Ontology-driven Query Expansion Methods to Facilitate Federated Queries[C]//Proceedings of IEEE International Conference on Service-Oriented Computing and Applications, 2010:1-8.
[9] 王红,高斯婷,潘振杰,等.基于NNV关联规则的非分类关系提取方法及其应用研究[J].计算机应用研究, 2012,29(10):3665-3668.
[10] 王红,杨璇,王静,等.基于本体的民航应急决策知识表达与推理方法研究[J].计算机工程与科学, 2011, 33(4):129-133.
[11] 王旭阳,萧波.基于概念关联度的智能检索研究[J].计算机工程与设计, 2013,34(4):1415-1419.
[12] 刘宏哲,须德.基于本体的语义相似度和相关度计算研究综述[J].计算机科学, 2012,39(2):8-13.
[13] Paul Witherell, Sundar Krishnamurty, Ian Grosse,et al.A Meronomic Relatedness Measure for Domain Ontologies Using Concept Probability and Multiset Theory[C]//Proceedings of the 28th North American Fuzzy Information Processing Society Annual Conference, 2009:1-6.
SEMANTIC RELEVANCY CALCULATION METHOD FOR NON-CLASSIFICATION RELATIONSHIP OF DOMAIN ONTOLOGY
Wang Hong Fan Hongjie Sun Kang
(School of Computer Science and Technology, Civil Aviation University of China, Tianjin 300300, China)
Aiming at the problem of semantic query expansion in regard to non-classification relationships of civil aviation emergency domain ontology (CAEDO), we proposed a semantic relevancy calculation method for the non-classification relationships of domain ontology. In this method, on the aspect of data properties, we proposed a semantic relevancy calculation method which is based on the property type and property value; on the aspect of object properties, aiming at the problem that there are multiple object properties in query words and ontology concept or example, we proposed the object property-based semantic relevancy calculation method. Furthermore, in combination with the semantic query process of domain ontology in civil aviation emergency cases, we gave the analysis of the implementation effect of the method. The method not only effectively improves the precision and the recall of semantic query, it also provides better methods support for emergency decision-making in regard to civil aviation emergencies as well.
Civil aviation emergency Domain ontology Non-classification relationship Semantic relevancy
2015-05-31。国家自然科学基金委员会与中国民用航空总局联合基金项目(61079007);国家自然科学青年基金项目(61201414)。王红,教授,主研领域:本体技术,数据挖掘与智能信息处理。樊红杰,硕士生。孙康,硕士生。
TP391
A
10.3969/j.issn.1000-386x.2016.11.004