本体评价方法研究
2010-08-15张子振
张子振
(安徽财经大学 信息工程学院,安徽 蚌埠 233041)
本体评价方法研究
张子振
(安徽财经大学 信息工程学院,安徽 蚌埠 233041)
鉴于本体可以提供特定领域的概念及其关系,进而获取领域知识,本体在知识管理、信息检索以及语义Web等领域的应用越来越广泛.解决本体评价问题亦显得日益重要.本文根据要评价本体的类型和目的的不同,对多种常用本体评价的方法进行了对比分析.
本体;本体评价;评价方法
1 引言
本体是对知识进行概念化说明的重要结构,并且对于同一部分知识,我们通常构建多个本体对其进行概念化说明.所以,如果本体在语义网或者其他语义应用领域广泛的被应用时,本体评价就成了一个必须解决的重要问题.
根据要评价的本体类型和目的的不同,总的来说,多数本体评价方法属于以下范畴:(1)通过与“黄金标准”比较的方式评价本体[1];(2)在应用中使用本体并对结果进行评价的方式评价本体[2];(3)与覆盖本体领域的文集进行比较的方式评价本体[3];(4)通过人工评价本体满足预定义标准、准则、需求等的程度评价本体[4].本体是一个相当复杂的结构,经常是对本体的各个层次分别进行评价而不是将其作为一个整体直接评价.这对更好的自动评价而不是完全人工评价更有利.所以除了上述评价方法之外,我们可以基于如下的评价等级对本体评价方法进行分组:词汇、句法层;层次;其他语义关系;上下文环境和应用层;句法层;结构、体系和设计.本文针对这些评价等级,对分层本体评价方法进行了分析,最后提出了本体评价领域的下一步工作.
2 分层本体评价方法
2.1 词汇层的评价
一种可用于词汇层本体评价的方法的例子是由MAEDCHE和STAAB提出的.两词汇间的相似度利用Leven shtein距离测量,通过[0,1]间的数字规格化分数.两个词汇集的词汇匹配测量定义为,从第一个词汇集中取出每一个词在第二个词汇集中查找与该词最接近的词,并标上分值,最后计算第一个词汇集的平均值.要评价的本体中的词汇组成第一个词汇集,这些词汇与由“黄金标准”组成的词汇集进行比较.所谓“黄金标准”可以是另一个本体,也可以是从文集或领域专家统计出来的词汇.
本体的词汇内容也可以通过概念的精确度和回调来评价.本文中精确度指的是在本体中用到的作为标识的词汇这些词汇在“黄金标准”中也出现了,这些词汇占本体中词汇总量的百分比.回调指的是“黄金标准”中的词汇,这些词汇在也在本体中作为标识出现了,这些词汇占“黄金标准”词汇总量的百分比.一种获得更好匹配标准的方法是从Word-NET或其他相似资源中为词汇实体增加同义词,然后测试这两个含有同义词的集合而不是测试原集合.
2.2 分类和其他语义关系的评价
文献[3]给出了一个数据驱动的方法去评价本体和文集间结构的匹配度.(1)给定一个领域的文集,基于期望模型的聚类算法可以自动的给出隐藏主题的概率混合模型,所以可以将每个文档模型化.(2)本体中的每个概念用一系列术语表示,属于包括概念名称和同义词.(3)从聚类中获得的概率模型可以测量概念与主题的匹配程度,这些主题是利用聚类算法中识别出来的.(4)如果每个概念都在一定程度上与主题相匹配,我们就获得了对本体结构层的评价技术.因此主题相关的概念应在本体中具有较近的相关性.这也显示出本体的结构与隐藏主题的结构有较好的同盟关系.但此方法用来评价关系时的一个缺点是它很难将关系的意思考虑在内.
给定“黄金标准”也可以基于对准确度和回调的测量评价本体的关系层,此黄金标准可能由人提供也可能是一个统计术语列表.这种评价方法被SPYNS用来评价自动抽取的词汇集,如从自然语言中抽取出的三元组(术语1、规则、术语2).但黄金标准的准备是一件很费人力的工作.
文献[5]讨论了本体评价中一点不同之处.他们指出一些哲学概念能够帮助我们更好的理解本题中经常出现的不同类型语义关系的种类(能够帮助我们更好的理解关系类型所属的种类),并发现本体结构中可能出现的问题(如is-a关系经常被用来描述某些类的元层次特点,或被用来代替了部分关系,或被用来显示多意义的术语).这个方法的底层需要人类专家的干预,这些专家需要熟悉上面所提到的哲学概念,这些专家需要用适当的元数据标签对本体概念进行注释,这样就可以自动地对错误的关系类型进行核对了.
文献[1]提出了对两个本体关系层进行比较的测量方法.虽然这个方法有缺点,但它的优点是一旦给定黄金标准两个本体间的比较是完全自动的.术语C的语义在层次中表示为他的上位概念和下位概念的集合.给定两个层次H 1和H 2,术语t可以描述H 1层的C 1和H 2层的C 2.我们对以下两个集合进行计算,在H 2层上从C 1的角度对概念进行描述的术语集,和在H 1层上从C 2的角度对概念描述的术语集.两个集合的交际可以被用来测量术语t在两个层次上规则的相似度.将两个层次上所有术语进行平均,这可以测量H 1和H 2层的相似性.
2.3 上下文环境的评价
有时本体是一个本体集的一部分,它会引用该本体集的其他本体(一个本体使用另一个本体中声明的概念或类),如web或本体库.这时本体所处的环境能够利用多种方式对本体进行评价.如Swoogle搜索引擎使用交叉引用(利用语义网文档定义的图和在行为方式上计算每个本体与Page Rank相似性的分值的交叉).
评价用的环境可有专家提供,如文献[6]提出使用元数据能够增强本体例如它的设计方针,它将如何被用户使用,同样本体的使用者提供“同行评论”.一个合适的搜索引擎将在元数据上进行查询,并帮助使用者决定在若干本体中挑选一个合适本体.
2.4 基于应用的评价
本体将被用于某些类型的应用或任务.应用的输出,或本体在任务中的表现的好坏部分的依赖于所使用的本体.所以好的本体是一个可以帮助应用获得好结果的本体.本体可以被应用到任务中根据结果去评价.这种方法的最好好处是直观.
基于应用的评价方法也有若干缺点:(1)我们可以看到本体在特定应用中的好坏,但对观察进行归纳是很难得.(2)本体仅是应用的一个小组件,它的作用可能是非常小或非直接.(3)只能将不同本体放到相同的应用中去比较.
2.5 数据驱动的评价
本体也可以通过与所评价本体相关领域的数据进行比较得到评价结果.PATEL给出如何确定本体是否与特定主题相关,和将本体分类到主题目录:从本体中抽取原文数据,然后将其做为文本分类模型的输入(使用标准的机器学习算法进行训练).
文献[1]从文档集中使用潜在的语义分析抽取出了领域相关的术语集.领域中的术语和本体中出现的术语的交集可以测量本体和文集间的匹配程度.
在本体合并实际信息的时候,文档也应当被当作是外部世界的事实,并且评价要检查这些文档是否也能够从本体中得到.文档也是现实世界的事实,本体是用来表示现实世界事实的工具,因此评价应当也检查本体是否也包含这些描述事实的文档.
3 多标准本体评价方法
另一个从众多本体中选择好本体的(或初选可行本体)评价方法是多标准方法,该方法将评价问题看成是制定决策的问题(选用何标准、本体如何根据标准打分).我们可以基于多标准和属性帮助我们评价本体;本体针对每一个标准进行评价并给出分值.然后根据权重将每个标准的分值进行加权平均.相似的策略已在其他环境中被用来挑选候选人了.本方法的缺点是需要大量的专家的参与.实际上这种方法是将评价问题转化成如何针对美国标准去评价本体了(将大的评价问题转化成了若干小的评价问题).本方法的好处是第二部分表中所列的所有层次的标准可以联合起来评价本体.
文献[7]提出了这种类型的评价方法,它使用了十个标准:合法性(语法错误的频率)、丰富性(本体的形式化语言中多少语法特征可用)、注释(本题中的术语是Word NET中的术语)、一致性(本体中多少概念是一致的)、无二义性(本题中的术语在Word NET中语义唯一)、全面、精确性(本题中错误声明的比例)、适当(对用户来说声明的语法是可读的)、权威性(有多少本体引用了该本体)、历史(该本体被访问了多少次)
文献[8]提出了另一系列标准他用到了更多的评价手册.文献[9]则提出了更多的含有117条标准.
4 小结
在本体支持计算和语义网方面本体评价仍存在着这样一个问题.对于本体评价来说没有一个最好的或首选的方法;最合适评价方法的选择依赖于评价的目的,本体所应用的任务,我们想要评价本体哪方面的内容.此领域下一步的工作应当关注于本体的自动评价,这是健康发展自动本体处理技术的必要前提,本体自动处理技术包括本体学习、本体仲裁、本体匹配等.
〔1〕MAEDCHE,A.,STAAB,S.,Measuring similarity between ontologies.Proc.CIKM 2002.LNAI vol.2473.
〔2〕PORZEL,R.,MALAKA,R.,A task-based approach for ontology evaluation.ECAI 2004 Workshop Ont.Learning and Population.
〔3〕BREWSTER,C.et al.Data driven ontology evaluation.Proceedings of Int.Conf.on Language Resources and Evaluation,Lisbon,2004.
〔4〕LOZANO-TELLO,A.,GóMEZ-PéREZ,A.,Ontometric:A method to choose the appropriate ontology.J.Datab.Mgmt.,15(2):1–18(2004).
〔5〕GUARINO,N.,WELTY,C.,Evaluating ontological decisions with OntoClean.Comm.of the ACM,45(2):61–65,February 2002.
〔6〕SUPEKAR,K.A peer-review approach for ontology evaluation.Proc.8th Intl.Protégé Conference,Madrid,Spain,July 18–21,2005.
〔7〕BURTON-JONES,A.,et al.,A semiotic metrics suite for assessing the quality of ontologies.Data and Knowledge Engineering(2004).
〔8〕FOX,M.S.,et al.,An organization ontology for enterprise modelling.In:M.Prietula et al.,Simulating organizations,MIT Press,1998.
〔9〕LOZANO-TELLO,A.,GóMEZ-PéREZ,A.,Ontometric:A method to choose the appropriate ontology.J.Datab.Mgmt.,15(2):1–18(2004).
TP 399
A
1673-260X(2010)12-0027-02