APP下载

隐蔽网络资源探析

2008-12-29

中小学信息技术教育 2008年12期

  一、隐蔽网络 成因复杂
  
  隐蔽网络又称“深网”或“隐形网络”。美国互联网专家、图书馆员Chri Sherman和Price将其定义为:“在互联网上可获得的,但常规搜索引擎由于技术限制,不能或经过慎重考虑后不愿意作索引的那些网页、文件,或其他高质量、权威的信息。”它是针对表层网络,即常规搜索引擎能够检索到的网络资源提出来的。隐蔽网络的形成原因复杂,既有技术方面的原因(如搜索引擎无法索引动态网页、无法访问网络数据库和注册站点),又有非技术原因(如知识产权保护的负面影响、搜索引擎的成本限制等)。这些因素造成了隐蔽网络资源的多样性,包括网络数据库、档案资料、联机书目、交互式工具,如计算器、字典以及实时信息等。
  
  二、隐蔽网络 类型稀罕
  
  按照隐蔽网络形成原因可以分为不透明网、专有网、私人网和真正的隐蔽网。
  第一,不透明网。总体来说,搜索引擎可以索引,但没有索引的网页就是不透明网页,具体包括spider爬行以外的网页、链接中断的网页以及未被链接的网页,因为搜索引擎的搜索范围是受到一定限制的,这就使常规搜索引擎无法索引互联网上的所有信息,并且有的网页也没有接受任何其他网页的链接,搜索引擎无法将其索引,这些网页就构成了不透明网页。
  第二,专有网。现在互联网上有大量的网页需要用户注册,再输入用户名和密码才能浏览、使用其中的资源。有些网页更是需要用户有会员权限才能访问,机械式的搜索引擎无法完成输入用户名和密码的操作,当然也就无法索引,专有网页就不可避免地形成了。
  第三,私人网。为保护商业秘密或者个人隐私,有些网页主人不愿意他们的网页被搜索引擎索引,他们对网页加入口令保护或者禁止索引的网站标记,因此这些网页对spider来说也是看不见的,于是形成了大量的私人网页。
  第四,真正的隐蔽网。真正的隐蔽网是隐蔽网络的主要组成部分。有三种类型:一是文件格式为PDF、Postscript、ShockWave、Flash、执行文件(程序)、压缩文件、Office文档(Word、Excel、Powerpoint)等文件格式难以被索引,主要是搜索引擎不愿索引该类文件。二是动态产生的网页和实时信息。除了回答搜索提问时自动产生的动态网页外,还有实时信息服务所产生的信息,如不断更新的新闻、财政信息、天气信息等。实时信息发送完毕后,虽然它仍存在,但用户无法通过常规手段将其召回(除非在开始发送时将其存储到磁盘上)。为了避免网络蜘蛛陷阱,搜索引擎通常不去搜索动态网页。对于新产生的网页,spider要在一定的时间之后才能找到它们。三是数据库。数据库在设计、数据结构、检索工具等方面不尽相同,因为spider不懂数据结构语言,无法获得数据库中的信息。数据库中的信息是隐蔽网络的核心。到目前为止,大部分搜索引擎能够收集索引的还是HTML等语言编写的常规网页,再就是以数据库为后台的动态网页了。spider一方面不敢陷进无休止的圈子,更主要的是它不能填写查询表单,自然也爬不进数据库。
  
  三、隐蔽网络 挖掘专深
  
  互联网上的信息早已处于“信息泛滥”、“信息爆炸”的状态,为什么还重视隐蔽网络的开发? BrightPlanet公司于2000年对隐蔽网络所作的一项研究显示:隐蔽网络中的公共信息是表层网的400~550倍;隐蔽网络的容量有7500TB,而表层网只有19TB;隐蔽网络有近5500亿个独立文件,而表层网只有10亿;目前存在的隐蔽网络网站已经突破20万个;60个最大的隐蔽网络网站共包含750TB的信息,比表层网信息的40倍还多;隐蔽网络的月流量通常比表层网要多出50%,并且更容易被链接;在内容上,隐蔽网络网站比表层网站要更专、更深;隐蔽网络内容的全部价值是表层网的1000~2000倍;隐蔽网络的信息内容与所有的信息需求、市场和领域高度相关;一半以上的隐蔽网络内容存贮在专题数据库中;95%的隐蔽网络信息可以公共获取而无需付费或订阅。因此隐蔽网络所具有信息资源不但数量巨大,而且内容质量好、价值高(专业性更强)。它为我们深层次地挖掘网络信息资源提供了指引。
  四、隐蔽网络 获取特异
  隐蔽网络不可见是指一般情况下用常规搜索引擎难以搜索,可以说这些网络资源不可见是相对的。随着相关学者对隐蔽网络的日益重视,现在已经可以通过多种策略获取其中的资源。
  第一,利用专业搜索引擎。对于隐蔽网络资源中的核心内容——网上可供查询的专业数据库中的珍贵信息资源,不能被常规引擎标识和检索,但使用专业的搜索界面却可以检索到。我们称这些搜索界面为专业搜索引擎,例如scirus(http://www.scirus.com)、Business Research(http://business.exploritnow.com)、Science Research(http://www.scienceresearch.com/search)、LexiBot(由BrightPlant公司开发的功能强大的专业搜索软件)、Profusion(http://www.profusion.com)等。
  第二,利用常规搜索引擎。在一般情况下,存储在数据库中的信息可能不被常规搜索引擎所发现,但许多由简单的HTML页面构成的Web界面,则完全能够被搜索引擎的spider搜索到。一旦spider发现了一个入口,就有可能用数据库内部提供的检索服务技术,全面涉足它里面的丰富内容。要发现这个入口,难度是比较大的,这时可以在常规搜索引擎中用检索术语。在这一方面,Google等已经走在了前面,它们可以搜索多种格式的文档,具体说来Google可以搜索图片、新闻、地址簿以及pdf、ps、excel、ppt、word等格式的文档,但是不可以搜索音频和视频文件。Altavista则可以搜索图片、新闻、地址簿、音频、视频以及pdf格式的文档。如在Google中输入“关键词+filetype:pdf”便可找出PDF文档,输入“education database”就能查到教育学方面的数据库。
  第三,使用专业搜索目录。专业搜索目录其实也就是主题指南,它提供的是关于网站地址的分类目录。隐蔽网络资源中比较丰富、权威的目录有: Direct Search(http://www.freepint.Com/gary/direct.htm)、The Invisible Web Catalog(http://www.invisibleweb.com)、CompletePlanet(http://www. completeplanet.com)、北大天网(http://e.pku.edu.cn)等。
  第四,发挥人工智力网络的功能。互联网用户中有一群人,他们通过特殊的“早期预报系统”来告示新的隐蔽信息。他们在网上参加谈论栏目,第一个发布有趣的或有用的新站点的消息,以便与同行们共享。由他们所构成的人工信息网,为隐蔽信息的查找提供了入口。这种检索策略有点像淘金,需要始终保持高度的注意力,不断发掘新资源。目前,一般网上没有关于隐蔽Web的精华站点,但可以使用一些主题列表,如Directory of Schoolarly and Professional E-Conferences(http://www. n2h2. com/kovas),其最新版允许关键词查询和浏览查询;Topica(http://www.topica.com)提供一系列服务,并且提供了预订指南和管理工具。同时,一些由图书馆管理员主导的讨论区对于发现隐蔽信息也很有帮助,如Govdoc-L(Goverment Documents)、Buslib(Bussiness Librarianship)、Newslib(News and Media Librarianship)等。另外,还有一些较好的讨论列表。如CARR-L(Computer Assisted Reporting)是一系列以万维网和隐蔽Web作为研究的基础资源的报告,其中常包含有新资源的讨论,对于隐蔽信息的查找十分有用。
  
  参考文献
  [1]孔为民.超越Google的大学图书馆无形网站.现代情报[J].2005(5).
  [2]乔晓东、王立双.如何理解看不见的网站.数字图书馆论坛[J].2005(6).
  [3]刘宏军、李胜.信息导航系统中隐蔽网络资源的采集与整合[J].现代情报,2007(4).
  [4]张蕾.隐蔽网络资源的检索工具.中国信息导报[J].2006(12).
  [5]http://www.invisibleweb.com.
  [6]http://www.completeplanet.com.