基于本体的课程资源语义检索系统
2016-11-09俞婷郑轲
俞婷 郑轲
摘 要:构建了基于本体的课程资源语义检索模型,并设计实现了相应的语义检索原型。在综合分析相关课程资源后,建立了课程资源本体。在构建基于本体的课程资源语义检索模型过程中,研究已有的语义关联度计算方法,结合用户检索敏感度提出了查询词权重度量元。通过实例对语义检索原型进行了验证,结果表明,相比于基于关键字的检索方法,该语义检索系统在查全率和查准率上都有明显的优势。
关键词:课程资源;相似度算法;语义关系;检索意图
中图分类号:TP391.3 文献标识码:A DOI:10.15913/j.cnki.kjycx.2016.19.035
信息的增长速度的数量级为每年亿级,信息检索的难度随之增长。目前的检索方式主要是基于关键字的检索,这类检索方式忽略了词语之间的语义关系以及用户真实的检索意图,返回的信息多是无用的,无法为用户提供精准的资源。
近年来,建立在语义网基础上的本体语义检索技术得到了人们的广泛关注。相比于传统的检索技术,其在检索精度和覆盖率上都有明显的优势。本体论最早起源于哲学领域,古希腊的亚里士多德通过对事物存在的本质进行了研究,得出了本体的概念。在较早时期,本体没有一个统一的定义,Studer等人对本体进行了一系列的深入研究后,提出了一个在当今被广泛采用的定义。对于共享概念模型而言,本体就是一种明确的形式化规范的说明。
1 课程资源本体构建
传统的基于关键字的搜索方法由于缺少语义,常造成检索信息的错检和漏检。由于受到了本体库的支持,基于语义的检索能很好地弥补这一缺陷。如果要进行基于本体的语义搜索,首先要构建规范的课程资源知识库本体。
本文以课程资源知识点作为领域本体进行构建。课程资源知识点本体的构建主要分为两点,即确定规范和基于规范构建本体。以计算机网络课程为例,本体存储的是相关知识点,其中包括计算机网络性能、因特网、计算机网络体系结构、计算机网络类别、网络安全五大类。这五大类的子类分别有:①计算机网络性能。速率、宽带、吞吐率、往返率、可扩展性、时延、利用率、可靠性。②因特网。因特网发展阶段、因特网组成、下一代因特网。③计算机网络体系结构。五层协议体系结构、TCP/IP体系结构、OSI体系结构。④计算机网络类别。广域网、城域网、局域网、接入网。⑤网络安全。数字签名、密码体制、安全协议、防火墙。
课程本体所包含的对象属性有蕴含关系、依赖关系、兄弟关系、平行关系、参考关系和游离关系。在构建完本体之后,本文采用MySQL数据库对本体文件进行存储,达到持久化。
2 语义关联度算法
用户在输入相关查询词进行检索后,语义检索系统对查询词进行形式化处理,并对形式化后的查询词进行语义关联度计算。语义关联度包括语义相似度和语义相关度。
2.1 语义相似度
本文提出元概念的定义,指在领域本体中存在的概念集合C,设其中任一概念为Cx,如果集合Q中存在可以与概念C中的Cx匹配的查询词,则称为Cx为元概念,即将元概念作为查询映射到的概念来进行资源查询。
本文以知识点为单位构建教育资源本体,所以,从知识点的角度扩展了语义。知识点之间的关系有同义、平行、包含等,本节对本体概念之间的相似度所考虑的因素主要有以下6个。
2.1.1 语义距离
语义距离对语义相似度的影响可以表示成:
/* MERGEFORMAT. (1)
概念节点之间的距离表示为len(ei),是彼此之间相连的通路边所有对应的距离,比如父类和子类之间的距离为1.
2.1.2 语义重合度
语义重合度对于语义相似度的影响主要表示为:
/* MERGEFORMAT. (2)
式(2)中:NodeSet(X)为节点到根节点经过的节点数目的几盒;NodeSet(X) NodeSet(Y)为X节点到根节点经过的节点数和Y节点数到根节点经过的节点数之间的交集;NodeSet(X) NodeSet(Y)为X节点到根节点经过的节点数和Y节点到根节点经过的节点数之间的并集。
2.1.3 节点密度
节点密度对于语义相似度的影响可以表示为:
/* MERGEFORMAT. (3)
式(3)中:degree(P)为概念节点X与概念节点Y之间最近的公共祖先P的度;degree(T)为概念树的度。
2.1.4 节点深度
两个节点X与Y之间的概念深度对于语义相似度的影响可以表示成为:
/* MERGEFORMAT. (4)
式(4)中:dep(X)和dep(Y)分别为概念X和概念Y的深度。
2.1.5 层次顺序
层次的顺序对概念相似度的影响为:
/* MERGEFORMAT. (5)
式(5)中:lyr(X)和lyr(Y)分别为X和Y节点所在的层次,根节点的层次为1;lyr(G)为领域本体中层次的最底层。
2.1.6 查询词权重
在进行最后的语义相似度阶段计算时,对概念之间相似度的计算是受查询词权重的影响。领域本体之间的概念与概念节点之间的相似度的计算公式如下:
/* MERGEFORMAT.(6)
2.2 语义相关度
语义的相关度指的是词语与词语之间的相互有联系的程度,它是一个随主观意愿变动比较强的概念。相关度的取值也在0~1,一般是两个词语在相同语境之中能够替换的程度。领域本体概念之间的相关度公式如下:
/* MERGEFORMAT. (7)
式(7)中:rel(ei)为概念与概念之间相连的关系边所对应的权值。
本文中概念与概念之间的相关度定义如表1所示。
综上所述,得出概念之间的关联度的计算公式如下:
/* MERGEFORMAT. (7)
3 语义检索模型
本文以教育资源的知识点为基础,对基于本体的教学资源的语义检索系统建立了原型。本文构建的语义检索是对教育资源进行本体推理来实现教育资源的语义检索,其中,还对向量空间模型进行了结合。语义检索主要包含了两个核心,即语义查询扩展和语义数据的检索算法。
图1为语义检索的模型图。
系统采用VPN、SNMP等词语进行测试,求得基于本体教学资源语义检索算法的查全率和查准率。同时,计算基于关键字的检索系统的查全率和查准率,结果如表2所示。
4 结束语
本文提出并研究了基于本体的课程资源信息语义检索问题。文中通过课程资源知识库本体的构建、本体相似度计算的研究,建立了基于课程资源的语义检索系统的原型,在一定程度上提高了对课程资源信息检索的查全率和查准率。下一步工作为课程资源本体的完善、探索更加精确的语义相似度计算方法,以提供给用户更好的检索支持。
参考文献
[1]代晓宇.基于本体的教学资源语义检索应用研究[D].哈尔滨:哈尔滨工程大学,2012.
[2]花开明,陈家训,杨洪山,等.基于本体与元数据的语义检索[J].计算机工程,2007,33(24).
[3]栾艳,丁二玉,骆斌.基于Ontology的语义检索技术[J].计算机工程与应用,2005,41(28).
[4]Studer R,Benjamins V R,Fensel D.Knowledge engineering:Principles and methods[J].Data & Knowledge Engineering,1998,25(02).
[5]张功杰,赵向军,陈克建,等.面向本体的语义相似度计算及在检索中的应用[J].计算机工程与应用,2010,46(29).
〔编辑:张思楠〕