基于P2P技术的网络信息检索探讨
2014-05-13郑艺芳
郑艺芳
摘 要:随着计算机网络的飞速发展,计算机技术也从传统的单机运行发展到网络、网格化发展,当前计算机网络发展模式主要为:客户端/服务器, 浏览器/服务器模式,这两种模式都存在着对服务器要求非常高,海量信息调度、检索存在着耗时高等问题,而peer-to-peer(P2P)正是针对此问题二提出的分布式计算模式。此种模式具有存储内容集中、检索方便、系统组织协调能力优良等特点。
关键词:P2P技术;网络信息检索;研究
1 P2P技术概述
1.1 P2P定义
P2P是Peer-to-Peer(对等网络,对等计算)的简称,中文译名为对等互联或者点对点技术,在P2P网络中各个节点被称为peer(对等体)。P2P是一种网络模型,在这种网络中所有的节点是对等的(称为对等点),各节点无主从之分,具有相同的责任与能力并协同完成任务。对等点之间通过直接互连共享信息资源、处理器资源、存储资源甚至高速缓存资源等,无需依赖集中式服务器或资源就可完成。
P2P网络并不是一种专门的新兴技术,而是假设在互联网络中的结构基础。互联网最基本的协议TCP/IP并没有客户机和服务器的概念,所有的设备都是通讯的平等的一端。在十年之前,所有的互联网上的系统都同时具有服务器和客户机的功能。当然,后来发展的那些架构在TCP/IP之上的软件的确采用了客户机/服务器的结构:浏览器和Web服务器,邮件客户端和邮件服务器。但是,对于服务器来说,它们之间仍然是对等联网的。以email为例,互联网上并没有一个巨大的、唯一的邮件服务器来处理所有的email,而是对等联网的邮件服务器相互协作把email传送到相应的服务器上去。另外用户之间email则一直对等的联络渠道。
1.2 P2P发展的影响
由于各种信息资源的发展和不断壮大,通过共享资源的方式来提升数据的传送、文件共享的功能要求将会越来越高,而当前的应用系统采用的方式大都是用服务器共享的方式,这已经开始严重制约着信息传递的数据,因而P2P作为一种新的共享方式出现,成为了时代的宠儿,它为文件共享、分布式计算机和信息交流提供了一种更加灵活和高效的模式,也为信息安全带来了新的挑战。
2 基于P2P技术的网络信息检索
2.1 基于P2P技术的网络信息检索的提出
传统的信息检索基于C/S模式,在该模式中,数据的分发采用专门的服务器,多个客户端都从此服务器获取数据。这种模式的优点是:数据的一致性容易控制,系统也容易管理,但这种模式对于大规模网络的环境容易造成性能瓶颈。在网络边缘信息不断丰富的今天,我们必须在互联网上设置拥有强大处理能力和高宽带的高性能计算机,配合高档的服务器软件,再将大量的数据集中存放在上面。这种架构使我们对服务端的投入巨大,因此服务器的个数只能是有限的,这就使系统容易出现单一失效点。同时C/S模式使得互联网中无论是信息还是资源均向同一方向集中,它的网络优势往往被局限于企业内部,制约了企业间的信息交流,而且网络安全性较差也是一个不容忽视的问题。从目前公布的数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的40%左右。传统的集中式引擎无法胜任实时性强的海量信息检索,P2P技术的蓬勃发展却为信息检索提供了全新的思路。在P2P网络中,每个参与网络的主机既是内容的消费者,又是内容的提供者,各个结点各自对自己本机上存储的信息做索引,所有信息提供者一起构成一个庞大的分布式数据库以供检索,这可以有效解决动态网页信息检索的问题,同时P2P网络中的每一个企业的信息点都是一个独立的Peer节点,每个Peer节点之间进行对等通讯,避免了传统C/S结构的低效和高成本,数据的集中处理又避免了P2P带来的数据分散。
2.2 基于P2P技术的网络信息检索的原理
在P2P网络中,每个参与的节点既是服务器又是客户端,既是信息的提供者又是信息的消费者。P2P信息检索的目的就是网络中的任意节点都可以提交检索的请求,然后这些检索通过某种路由机制被路由到和检索相关的节点上去,存储有和该检索相关信息的节点将会回应请求,把本地相关的内容以对等的形式直接传送到请求节点上,示意图见图1。
图中的检索过程分为以下几个阶段:
每个节点在加入网络的时候,会对存储在本节点上的内容进行索引,以满足本地内容检索的目的。然后按某种预定的规则选择一些节点作为自己的邻居,加入到P2P网络当中。
(1)发起者P提出检索请求q,并将q发送给自己的邻居。
(2)P的邻居收到q后,再按照某种策略转发给它在网络中的其它邻居节点。这样,q就在整个网络中传播开来。
(3)收到请求q的节点如果存储有相应内容信息,则将对应的内容返回。
2.3 基于P2P技术的网络信息检索的主要分类
P2P检索主要分成3种类型:结构化的P2P、网络的搜索技术以及针对这2种类型的改进技术。前出现的P2P系统具备足够的语义,能够处理复杂查询,以称为新一代的P2P检索技术。
P2P信息检索主要是要提高交互式作业方式、用户透明度,拓宽信息检索空间、提高信息检索的准确性。
2.4 P2P检索技术的方法
P2P查询的关键技术包含比较广泛,核心技术包括索引构造技术、路由策略及查询优化等,下面将分别对它们进行介绍。
2.4.1 索引构造技术
索引构造技术直接影响P2P系统的路由策略以及系统的查询效率,因此,构造具有丰富语义和高效的索引对于P2P系统是非常关键的,一般索引构造技术分成基于模式的索引和实例索引,模式索引为PDMS所特有,考虑了语义异构问题。实例索引包括:①通过散列将原始数据标识符映射到ID集合,再将ID集合映射到负责该ID的peer,可以具有多种拓扑形态的散列索引;②把数据库中B+树思想在P2P环境下进行扩展产生的树形索引。实例索引有多种分布方法:本地分布、集中式分布和分布式分布。本地索引中各peer只维持对自己的数据的引用,而不管其他节点上的数据的信息;集中式索引需单个服务器上保存许多peer上数据的引用,索引是集中的,但数据是分布的;分布式索引指向目标的指针存放在多个peer上,可有效分散查询负载和索引的存储负载,具有更强的健壮性和可扩展性。
2.4.2 查询优化
由于P2P网络动态的特性,不能假定具备数据分布的全局视图,也不能在这些网络中采用静态的拓扑和查询计划,使得提交的查询不太可能在整个查询处理过程中都保持原来的性质。为此,对查询进行优化变得非常重要,这样可以加快查询执行的效率,同时减少网络流量。
2.5 基于P2P技术的网络信息检索的特点
P2P系统具有自组织性、对称性、可扩展性以及分布控制等优良特性。随着P2P系统的广泛应用,该系统被认为是未来分布式计算的关键技术,可以应用于数据共享、CPU周期共享、及时信息传输以及协同工作组件等方面,同时在搜索引擎、数据流管理、语义网、协作信息过滤等领域具有广阔的应用前景。对P2P的研究主要集中在搜索、存储、安全和应用4个方面,而搜索是P2P技术的核心。
P2P信息检索通过分布式存储和处理能力为大范围的Web文件搜索提供可能,传统式的搜索引擎对于数据的更新缓慢不能满足用户实时性要求。受网络爬虫采集信息能力的限制,传统的搜索引擎很难进行深度采集深层次的网页信息。与传统的检索技术相比较,基于P2P信息检索技术有以下优点:(1)P2P信息检索充分利用以大规模分布形式存在的信息。(2)弥补传统搜索引擎无力深度挖掘网站信息的弱点。(3)挖掘移动终端的信息。(4)构建人性化的信息终端。
传统的信息检索,必须借助网络检索工具Internet上的信息极其丰富,这些信息分布在全世界不同的计算机主机上,基于超文本结构在Internet上,基于WWW的信息组织采用了超文本方式。基于P2P技术的信息检索技术以人为本的理念使客户使用起来更加方便、容易,检索的更加彻底和透明。未来的P2P检索技术主要是和3G技术,移动智能技术结合起来,使用户深切感受到21世纪网络时代的方便。
3 基于P2P技术的研究
3.1 基于P2P的网络信息资源的检索-搜索引擎的研究
3.1.1 Caching技术
在对等网络中,索引信息的扩散是通过查询来驱动的,成功的查询结果被缓存下来,使得索引信息可以再网络扩散开来。资源搜索效率可否再次成百倍地提高,即在用户未提出问题时就为他准备好答案,Caching技术可以使资源效率达到10-100。尽管网络资源无限爆炸,但每一个成员及其每一次查询,所涉及到的回答域都是有限的,并且基本保持固定不变,这就是局部性原理。计算机体系结构中关键技术指令和数据在不久的将来可能被再次访问,即下一程序指令在前条指令的概率非常大,因此,实践局部性往往会引起对最近使用区域的集中访问;空间局部性指的是一个进程访问的各项进程彼此很近,即下一次程序指令在前条指令附近的概率非常大。前者就是程序Cache,后者就是数据Cache的理论依据。
3.1.2 分布式的Gnutella搜索机制
在Gnutella中,每个节点共享一些文件,并提供基于文件名的本地查询操作。它使用消费洪泛的方式搜索其他节点上的文件。发起搜索操作的节点向所有邻居节点发送Query消息,而接到Query消息的节点进行本地查询,并把查询进一步转发给自己的所有邻居。为避免无穷递归,每个搜索消息都有一个TTL域,它随着转发的进行而递减,TTL为零的消息则不再被转发。每个请求都有一个准一的标识号。已收到请求的节点如发现已处理过,则丢弃该请求。
Gnutella的搜索机制可以看出,个别节点失效对查询结果影响较小,能动态适应网络拓扑变化,允许节点动态加入或退出。
4 结束语
基于P2P对等检索技术的发展将会为互联网信息搜索技术提供出了全新的解决方案,它让Internet上的共享方式提升到了一个新的水平,让人们能够以更方便、快捷的方式参与到网络交互中去,让人们能够更好的体验到数据共享、数据应用。
参考文献
[1]刘化君.计算机网络与通信[M].北京:高等教育出版社,2007.11.
[2]James F.Kurose,Keith W.Ross.Computer NetworkingATop-DownApproach.Chenming.第四版.机械工业出版社,2008.12.
[3]田口美帆.互联网技术[M].科学出版社,2004.
[4]傅向华,冯博琴.主题驱动的P2P分布式信息搜索机制研究[J].小型微型计算机系统,2006.
[5]徐光明,沈云付.基于语义网的节点关联的P2P搜索[Z].
[6]周晋,路海明,李衍达.用Small2World设计无组织P2P系统的路由算法[J].软件学报,2004.
[7]凌波,陆志国,黄维维,等.PeerIS:基于Peer2to2Peer的信息检索系统[J].软件学报,2004.
[8]冯国富,毛莺池,陆桑璐,等.PeerRank.一种无结构P2P资源发现策略[J].软件学报,2006.
[9]何盈捷,王珊,杜小勇.纯PeertoPeer环境下有效的Top2k查询[J].软件学报,2005.
[10]李治军,廖明宏.基于信任的P2P真实性查询及副本管理算法[J].软件学报,2006.