面向医学领域的概念语义本体相似度度量理论与方法研究
2014-05-16王凯
王 凯
(蚌埠医学院 信息技术教研室,安徽 蚌埠 233030)
在临床医学的研究与探索的过程中,知识总量正日益呈现出爆炸式增长,基于信息系统的领域知识由于自身所存在的异构等特征,限制了领域知识的共享与复用,相互间无法进行知识交互。客观上迫切地需要一种新的包含各种医疗诊断以及治疗信息的概念术语集,继而满足基于用户的智能化、自动化以及结构化的诊断需求。
本文首先介绍了基于二元关系的数据分析理论,并在此基础上通过分析概念节点的属性信息、层次结构信息以及对偶信息等维度,分别引入与之相关的变量因子,对概念对的语义距离通过上述变量因子进行语义加权,最终获取具有该概念对特征属性集的语义相似度矩阵。
1 基本理论概念
概念格[1](又称 Galois格)是由 Wille于 1982年初次提出,是将概念节点划分为基于对象和属性的形式概念层次结构,在知识管理、信息检索和规则提取等方面有着广泛的应用。概念格内的所有概念均是基于相同背景下的形式概念集合,概念的计算效率依赖于某些特定算法[2],概念节点间的关系能够清楚地反映出概念间的层次结构以及相互之间泛化与特化的关系。
概念节点通常将概念所包含的对象和属性转化成相应的外延特征(extent)与内涵特征(intent)。由于概念节点的形成依赖于一个概念背景,该背景需要包含外延集与内涵集,以及二者之间的某种二元关系,其中外延集为对象集合,内涵集为属性集合,此二元关系需要严格满足有且仅有一个对应偏序集,且此偏序集满足自反性、对偶性和传递性[3]。
形式背景可由如表1所示的二维数表来表示,G={1,2,3,4,5}表示属性,M={A,B,C,D}表示对象,交叉数值表示该对象具有此属性特征,反之则表示该对象与属性没有直接关联性。基于该形式背景可生成与之相对应的形式概念如表2所示。由概念间的继承关系可得如图1所示的Hasse图。
表1 概念格的形式背景示例Tab.1 Example for formal context of Galois
表2 概念格所生成的概念实例Tab.2 Concept example produced by Galois
图1 与表2相对的Hasse图Fig.1 Hasse map based on table 2
2 改进的语义相似度标注模型
传统意义上的语义概念包含的信息量取决于该概念节点所包含的实例对象的数量(或是其所占权重的大小)以及该节点的直接子类节点数量。根据概念格基本理论,子类概念的形成过程本质上是对其祖先概念特征的细化过程,必然包含了其祖先的所有特征信息[4]。
定义1 将概念节点所包含的实例对象的出现概率表示为F(c)=log(fc),而将概念外延节点所包含的直接子类节点数量记作o(c),
其中,d(anc12)是概念节点1、2子节点数量;d(fc)表示该形式背景所生成的概念格结构中各节点度的最大数值;表示两概念最近相同祖先所包含的语义实例信息量。
2.1 概念有向边标注
不同语义实体间关系的远近不仅取决于其自身所具有的共享内涵集的大小,还与差异化内涵集的最小蕴含集范围有关。其中,共享内涵集愈大,差异化内涵集愈小,概念间的语义关系就愈近,相似度就愈高。概念格内的节点之间,满足与本体内父子概念间的分类与继承关系,即子概念无条件地继承来自父类节点的特征集合,包含其众多祖先节点属性集合的交集[5]。对于一个格结构严格满足二元关系的形式背景而言,相邻节点间可用一个有向边表示分类与非分类关系集。
通常情况下,邻近节点之间的有向边长度取决于位于边的两端概念节点属性量的范围,即满足有向边的长度与节点属性量的正相关性。下面给出概念有向边的标注方法:若设c为本体概念,A(c)是概念节点所包含的属性量,F(c)是该概念可能存在于某概念集合中的概率,N(c)是反映概念出现的统计量,L(a→b)表示概念a到b的有向边长度。基于统计概率理论,则概念有向边的标注与格内节点之间的路径长度呈现正相关性,同时该相关性与其到最近最短相同祖先的长度有关。
为了更清晰地理解概念有向边的标注方法,将包含上述概念属性的语义变量关系表示为
式中的分子部分表示该有向边的长度与边节点的属性量差值有关,分母则表示了该路径中,任意两概念节点之间的最近最短相同祖先路径的取值。一般情况下,概念节点之间的有向边标注需要考虑节点间的语义距离,故为增加该标注的准确性,引入调节参数α、λ,对(2)式加以修正。
2.2 概念节点层次标注
概念节点层次主要利用概念格整体结构中所蕴含的领域形式背景知识,细化偏序集的概念层次二元关系。基于生物分类学的基本知识可知,在概念有向边距离相等的前提下,加权Hasse图中,概念节点位置愈靠近底层,表明概念的细化特征愈明显,语义相似度就愈大,即概念节点对的深度差愈小,概念内涵就愈具体。同时处于相同背景下的领域概念必存在相同或相近的语义特征,祖先节点间必存在交点,由此给出概念节点层次的语义标注。
定义2 在任意概念节点间语义距离相等时,概念对的节点深度和(差)越大(小),概念间的语义相似度就越大(小)。概念节点层次的语义标注为
其中,Depth(C)是概念节点层次的求解函数,η为用于调节节点深度差的数值。
概念格结构内各节点层次求解方程可以近似地用带参数的指数函数表示为
2.3 概念对非对偶标注
定义3 领域概念之间的语义距离一般可使用相似求解函数Sim来求解,若某概念对(A,B)满足条件Sim(A,B)=Sim(B,A),称在求解函数Sim的约束下,具有完全对偶性。
医学诊断知识库中,知识间往往存在某种程度的非对偶性,利用文献[6-7]提出的计算模型分别从不同角度计算该数据库中的任意概念,发现概念节点间的语义匹配具有方向性[8]。一般条件下,概念A与其父类节点B的相似度值大于其祖先B与其子节点A的值,即Sim(A,B)要小于Sim(B,A)。因此本文为使算法更具一般性,将概念节点间的非对偶性定义为
上述神话表明文字作为人类文明的划时代标志,它是文明与野蛮的区别。从空间上看,不同人群是否掌握了文字和书写能力,成为统治与被统治的一个工具,无文字的族群被贴上“野蛮人”或“落后”的标签。奇怪的事,神话叙事的主体是无文字民族,这似乎表明他们接受了无文字带来的后果,自责及接受“神授”安排的无奈。
因此可以将互为对偶的概念节点对之间的关系表示为
2.4 概念语义度量模型
概念语义度量是将概念之间的有向边赋予相应的权值,同时利用节点的层次信息,将节点深度对于相似度的影响量化,最后引入节点概念对的非对偶性特征,提高模型的使用范围。因此,利用概念属性的加权特征,将概念对的语义相似度表示为
其中的ε为权重因子,用以修正相似度结果大于1的情况。上述模型的结果是0到1范围内的数值,相似度越大,表明概念所蕴含的内在属性愈具有一致性。利用概念语义度量模型可以得出如下结论:相同概念的语义相似度为1;Hasse图结构中的属性共享范围越大,语义相似度也愈越大;节点位置越深,即属性特征愈细化,语义相似度也愈接近。
3 实例分析
本实例所包含的形式背景来源于高血压临床诊断知识库,对象集和属性集分别为基于临床诊断概念本体的基本概念。针对本文方法,分别设计并计算两组对比试验,并对实验结果进行分析比较。使用Protégé 3.4 beta本体构建工具描述本体所包含的概念及其关系(见图2,3)。
图2 实验本体1Fig.2 Test noumenon 1
图3 实验本体2Fig.3 Test noumenon 2
表4 相似度度量结果Tab.4 Results of similarity measurement
4 结语
本文提出了一种合理的领域本体概念相似度计算方法,并使用概念节点的深度、对偶性等信息量加权了概念实体的相似度度量结果,不仅在计算结果上更加趋近于真实的分类效果,而且综合考虑对象与其所包含的属性间的分类与非分类关系,使得不相关概念对的发生率出现显著降低。改进后的模型的概念,对为零的矩阵值相比于基于信息距离的模型,在样本抽样实验中降低了无关概念对的产生,提高了概念间相似度度量准确度。
(References)
[1]穆斌.语义Web中的语义度量与本体映射[J].合肥工业大学学报:自然科学版,2006,29(3):300-304.
[2]顾进广,黄屹,周毅.Mediator模式下基于语义映射的多本体融合机制研究[J].武汉大学学报:自然科学版,2006,52(1):81-86.
[3]强宇,刘宗田,林炜,等.模糊概念格在知识发现的应用及一种构造算法[J].电子学报,2005,33(2):350-353.
[4]CHO M,CHOI C.Comparing ontologies using entropy[C]//Washington DC Proc of International Conference on Convergence Information Technology.USA:IEEE Computer Society,2007.
[5]TVERSKY G.An approach based on hierarchies of concept[C]//Rival I Ordered Sets.Dordrecht: Reidel,1982.
[6]毛华,窦林立.基于矩阵列秩属性优先的概念格算法[J].河北大学学报:自然科学版 ,2009,29(2):130-132.
[7]吕刚,郑诚.改进的基于概念相似度的文本检索[J].计算机工程 ,2010,36(12):55-57.
[8]DOAN A H,MADHAVAN J,DOMINGOS P.Learning to map between ontologism on the semantic Web[C]//Proceedings of the 11th Intemational Conferenceon on World Wide Web.New York:ACM Press,2002.
[9]赖院根,王娜.概念语义相似度计算与参数估计[J].情报杂志,2009,28(8):148-152.
[10]夏天.汉语词语语义相似度计算研究[J].计算机工程,2007,33(6):191-193.