APP下载

语义网格本体论技术在网络精确搜索方法探析

2012-12-21黄丽芬

装备制造技术 2012年6期
关键词:路由表本体论哈希

黄丽芬

(广西工业职业技术学院建筑工程系,广西 南宁 530001)

信息技术的飞速发展,为人们提供了广阔的共享平台,网络检索已经成为人们获取信息的常用渠道,人们通过信息检索工具来检索相关的信息,这在一定程度上解决了资源的分类和检索问题。然而,传统的基于关键词的检索方式,由于忽视了关键词本身所蕴含的语义信息,而得到较低的查全率和查准率,变得越来越不适应检索的要求。

语义网格本体论技术,为信息检索提供了一种新的方法。本文结合Ontology技术,利用节点逻辑构造及节点间语用关系变换的相关语义网格本体论方法对网络信息的精确、智能检索方式进行研究,实现快速为海量文本信息建立分类目录有效地组织网上海量信息,在检系统中扩展用户的检索需求以理解用户真正的检索意图,在语义网格平台上,把检索需求定位到合适的数据源中执行检索服务,从而进一步提高查准率与查全率,以实现网格资源精确搜索,有效利用网络信息资源,消除资源孤岛。

1 相关技术

1.1 语义本体论

语义本体论,是语义网格理论的基础,即编制者把一整套对某一领域中的表述的词和术语组成等级条目,同时规定条目的特性及其之间的关系,这些词和术语被称为元数据,语义本体也可以看作是计算机机器用于识别语义的词典或辞海。语义网格使用元数据来描述网格中的信息,对信息和服务进行了很好的定义,可以更好地让计算机和人们协同工作,其关键之处,就是把所有的资源,包括服务,都用一种机器可处理的方式来描述,其目标是实现语义与机器智能的互操作性。

1.2 Gnutella协议

Gnutella协议是一份关于发布检索的P2P协议,用于完全分散化的资源搜索,该协议定义了客户机通过网络通讯的方式,包括通过客户机进行数据通讯的描述符号集和内部客户机相互交互的一些规则。虽然Gnutella协议也支持传统的客户端/中心服务器的检索规范,但Gnutella协议更主要是支持点对点的,没有中心的检索,每一台Gnutella客户机正常情况下即能执行服务器任务,为客户端提供服务器接口,使用户可以向服务器发出查询请求和看检索结果;同时自身也能接收来自其他客户机的请求,检查他们与自己的数据中匹配的部分,查询检索可用的结果。执行Gnutella协议的网络能高度容错,即当任何客户机离线时,网络服务都不会被中断。

1.3 Gnutella-Flooding搜索技术

Gnutella-Flooding搜索技术比较简单,不用对维护网络的拓扑结构和相关的路由进行计算,仅要求将接收到信息的节点以广播方式转发到各数据包。例如,源节点希望发送一段数据给目标节点,源节点首先通过网络将数据副本传送给其每个邻居节点,每个邻居节点再将数据传送给各自的除发送数据来的节点之外的其他。如此继续下去,直到数据传送目标节点或者数据设定的生存期限为0为止。

Gnutella-Flooding搜索技术的特点是:

(1)简单,无需维护,局部节点失效不影响系统性能;

(2)效率高,延时小,总是走最短最快的路径;

(3)基本操作是Flooding式广播,P2P直接通信;

(4)缺点是存在大量富余联接,增加网络交通流量,大量消耗网络宽带,直接影响并限制了网络的可扩展性能。

所有的P2P系统的查询技术,包括Gnutella的flooding技术及其改进方法,都是基于“关键字”的搜索技术,无法解决用户查询时出现毫不相关的“结果”的问题。

如何高效而精确地在Internet上找到用户真正需要的答案,只有通过使用语义本体论才能最终解决问题。

2 语义本体论搜索方法

本文中的语义本体论搜索方法,是通过对P2P网络系统中Gnutella协议的Flooding方法进行简单改造,利用基于节点的局部语义本体论技术,改善Gnutella-flooding方法存在的缺陷,达到用户精确查询的目的。

2.1 方法的节点逻辑结构

语义本体论搜索方法认为,网络资源是人们用来解决某个具体问题的信息集合体,巨大的网络集群中,包括足够解决任何问题的资源,而语义本体论是用来实现查找这些资源的组织方法;而且这种组织方法,是根据中国人的思维习惯及认知过程进行设计的方法,即语义本体论(库)深刻揭示了网络资源之间的内在联系。

本文在原有P2P网络关键字搜索方式的逻辑结构的基础上进行改造,设计出如图1所示的语义本体论搜索逻辑结构图。

图1 语义本体论搜索逻辑结构图

如图1所示的语义本体论搜索方法定义的节点逻辑里,保持原有P2P方式下关键字查询方式节点的共享资源库不变,把原有接受查询的关键字处理模块替换为语义本体论模块,本文中具体语义本体库采用一种目前已经编好的语义本体语义本体论——源描述框架(Resource Description Framework,RDF),同时添加语义哈希资源表,修改哈希路由表。

哈希路由表仍然包括原有P2P关键字查询方式节点的IP、Port以及具体的共享资源,只不过新引入了目前已经被成熟使用的一种语义本体论(库)及语义希哈共享资源表,而资源表是用“问题—答案”方式的自然语义表达的,而且其中每一个答案与问题搜索路径中的上一个问题,有明确的被包含关系。

2.2 语义哈希路由表

语义搜索网络中大量使用语义哈希表,因为语义网络资源中“问题—答案”的查询过程,是利用语义哈希表的用户节点中所包含语义本体论具体解决问题的答案来实现,语义搜索网络“查询问题论”的语义哈希路由表结构如表1所示。

表1 语义哈希路由表结构表

表1是一个(问题,通信方式,节点)映射对应表,并且设计有对回答的问题性能评价的判断,其中节点包含IP、Pot以及具体的共享资源描述等信息。也就是说,每一个节点就是引用本体库中某一个详细答案的地址及信息,是具有精确地解决某一问题的能力的;通信方式有明码及加密两种方式,可以根据节点要求提供的加密方法,如上表中与节点i的通信要求MD5加密,可能是因为该问题是具有保密价值,要保护其通信内容不被物理链路或传输层侦听到。

哈希路由表的管理,包括表的增加与删除。

(1)路由表的增加。当逻辑节点中收到带有节点能力描述的Ping指令时,就发一个pong指令回答,并查询其沟通通信方式是否需要加密以及加密方式等,然后检查其是否真正具有其所申明的节点能力,检查通过后,就加入路由表,同时向所有的其他邻居节点立即发能力增强通知(也可以后通知)。

(2)路由表的删除。基本上用时间策略,即长期不用的,或长期联系不上的,或确信不再需要其能力的,就可以删除,但为了维持节点能力的稳定性,节点哈希路由表不应当频繁变化。

2.3 搜索方式对Gnutella-flooding协议的改进

P2P网络中Gnutella-flooding协议中因机器和网络性能的原因,不能维护容量很大的路由表,否则flooding消息会很多,会造成大量的搜索冗余,同时没有判断搜索答案与问题之间关系的功能。

语义本体论搜索利用Gnutella-flooding协议的查询方式,通过把其路由表改进成为哈希路由表,引入语义本体库,形成一个可以维护尽可能大而有效的路由表,以维持自己的足够强大的查询能力,且不存在flooding消息泛滥问题。因为每个节点是在庞大的路由表中环环相扣选择路由的,真正发出查询消息的可能就一条,就可以在路由表中选择出与之相匹配的答案。

节点语义本体论把对节点能力的查询,即Query,通过哈希路由表传递给下一节点,即Queryi+1,实现了问题在网络中的遍历查询,Query的遍历过程,也是问题的求精过程,用户将获得逐步精确的答案,从而解决用户的一系列由浅入深的领域相关问题。

3 结束语

本文在P2P网络Gnutella-flooding搜索技术的基础上,利用语义本体论搜索方法的理论,通过采用目前已经较成熟运用的语义本体库——资源描述框架,结合语义哈希路由表技术,通过问题在网络中的遍历查询,从路由表提供的节点从共享资源库搜索出精确答案,实现本体论及Petri网络相互结合达到有效地组织网上海量信息,在检系统中扩展用户的检索需求以理解用户真正的检索意图,实现精确搜索的目的。

[1]Can F,Nuray R,Sevdik A B.Automatic performance evaluation of Web search engines[J].Information Processing Management,2004,(3):42-43.

[2]LU Shi-yong,DONG Ming,Farshad Fotouh I.The Semantic Web:Opportunities and challenges for next-generation Web applications[J].International Journal of Information Research,2002,(4):87-89.

[3]中国互联网络信息中心.第十四次中国互联网络发展状况统计报告[R].2004,7//http:llwww.cnnic.net.cn

[4]吴 丹.搜索引擎的智能化研究[J].情报理论与实践,2002,(4):293-295.

猜你喜欢

路由表本体论哈希
基于特征选择的局部敏感哈希位选择算法
哈希值处理 功能全面更易用
文件哈希值处理一条龙
基于OSPF特殊区域和LSA的教学设计与实践
研究路由表的查找过程
CP论题能为本体论论证提供辩护吗?
张栻的本体论建构及其体用逻辑探析
本体论还是非本体论
——围绕《马克思的自然概念》的若干争论
微电影本体论辨析
巧用哈希数值传递文件