隐蔽网络资源探析

2008-12-29陈雯

中小学信息技术教育 2008年12期

　　一、隐蔽网络成因复杂
　　
　　隐蔽网络又称“深网”或“隐形网络”。美国互联网专家、图书馆员Chri Sherman和Price将其定义为：“在互联网上可获得的，但常规搜索引擎由于技术限制，不能或经过慎重考虑后不愿意作索引的那些网页、文件，或其他高质量、权威的信息。”它是针对表层网络，即常规搜索引擎能够检索到的网络资源提出来的。隐蔽网络的形成原因复杂，既有技术方面的原因（如搜索引擎无法索引动态网页、无法访问网络数据库和注册站点），又有非技术原因（如知识产权保护的负面影响、搜索引擎的成本限制等）。这些因素造成了隐蔽网络资源的多样性，包括网络数据库、档案资料、联机书目、交互式工具，如计算器、字典以及实时信息等。
　　
　　二、隐蔽网络类型稀罕
　　
　　按照隐蔽网络形成原因可以分为不透明网、专有网、私人网和真正的隐蔽网。
　　第一，不透明网。总体来说，搜索引擎可以索引，但没有索引的网页就是不透明网页，具体包括spider爬行以外的网页、链接中断的网页以及未被链接的网页，因为搜索引擎的搜索范围是受到一定限制的，这就使常规搜索引擎无法索引互联网上的所有信息，并且有的网页也没有接受任何其他网页的链接，搜索引擎无法将其索引，这些网页就构成了不透明网页。
　　第二，专有网。现在互联网上有大量的网页需要用户注册，再输入用户名和密码才能浏览、使用其中的资源。有些网页更是需要用户有会员权限才能访问，机械式的搜索引擎无法完成输入用户名和密码的操作，当然也就无法索引，专有网页就不可避免地形成了。
　　第三，私人网。为保护商业秘密或者个人隐私，有些网页主人不愿意他们的网页被搜索引擎索引，他们对网页加入口令保护或者禁止索引的网站标记，因此这些网页对spider来说也是看不见的，于是形成了大量的私人网页。
　　第四，真正的隐蔽网。真正的隐蔽网是隐蔽网络的主要组成部分。有三种类型：一是文件格式为PDF、Postscript、ShockWave、Flash、执行文件（程序）、压缩文件、Office文档（Word、Excel、Powerpoint）等文件格式难以被索引，主要是搜索引擎不愿索引该类文件。二是动态产生的网页和实时信息。除了回答搜索提问时自动产生的动态网页外，还有实时信息服务所产生的信息，如不断更新的新闻、财政信息、天气信息等。实时信息发送完毕后，虽然它仍存在，但用户无法通过常规手段将其召回（除非在开始发送时将其存储到磁盘上）。为了避免网络蜘蛛陷阱，搜索引擎通常不去搜索动态网页。对于新产生的网页，spider要在一定的时间之后才能找到它们。三是数据库。数据库在设计、数据结构、检索工具等方面不尽相同，因为spider不懂数据结构语言，无法获得数据库中的信息。数据库中的信息是隐蔽网络的核心。到目前为止，大部分搜索引擎能够收集索引的还是HTML等语言编写的常规网页，再就是以数据库为后台的动态网页了。spider一方面不敢陷进无休止的圈子，更主要的是它不能填写查询表单，自然也爬不进数据库。
　　
　　三、隐蔽网络挖掘专深
　　
　　互联网上的信息早已处于“信息泛滥”、“信息爆炸”的状态，为什么还重视隐蔽网络的开发？ BrightPlanet公司于2000年对隐蔽网络所作的一项研究显示：隐蔽网络中的公共信息是表层网的400～550倍；隐蔽网络的容量有7500TB，而表层网只有19TB；隐蔽网络有近5500亿个独立文件，而表层网只有10亿；目前存在的隐蔽网络网站已经突破20万个；60个最大的隐蔽网络网站共包含750TB的信息，比表层网信息的40倍还多；隐蔽网络的月流量通常比表层网要多出50%，并且更容易被链接；在内容上，隐蔽网络网站比表层网站要更专、更深；隐蔽网络内容的全部价值是表层网的1000～2000倍；隐蔽网络的信息内容与所有的信息需求、市场和领域高度相关；一半以上的隐蔽网络内容存贮在专题数据库中；95%的隐蔽网络信息可以公共获取而无需付费或订阅。因此隐蔽网络所具有信息资源不但数量巨大，而且内容质量好、价值高（专业性更强）。它为我们深层次地挖掘网络信息资源提供了指引。
　　四、隐蔽网络获取特异
　　隐蔽网络不可见是指一般情况下用常规搜索引擎难以搜索，可以说这些网络资源不可见是相对的。随着相关学者对隐蔽网络的日益重视，现在已经可以通过多种策略获取其中的资源。
　　第一，利用专业搜索引擎。对于隐蔽网络资源中的核心内容——网上可供查询的专业数据库中的珍贵信息资源，不能被常规引擎标识和检索，但使用专业的搜索界面却可以检索到。我们称这些搜索界面为专业搜索引擎，例如scirus（http：//www.scirus.com）、Business Research（http：//business.exploritnow.com）、Science Research（http：//www.scienceresearch.com/search）、LexiBot（由BrightPlant公司开发的功能强大的专业搜索软件）、Profusion（http：//www.profusion.com）等。
　　第二，利用常规搜索引擎。在一般情况下，存储在数据库中的信息可能不被常规搜索引擎所发现，但许多由简单的HTML页面构成的Web界面，则完全能够被搜索引擎的spider搜索到。一旦spider发现了一个入口，就有可能用数据库内部提供的检索服务技术，全面涉足它里面的丰富内容。要发现这个入口，难度是比较大的，这时可以在常规搜索引擎中用检索术语。在这一方面，Google等已经走在了前面，它们可以搜索多种格式的文档，具体说来Google可以搜索图片、新闻、地址簿以及pdf、ps、excel、ppt、word等格式的文档，但是不可以搜索音频和视频文件。Altavista则可以搜索图片、新闻、地址簿、音频、视频以及pdf格式的文档。如在Google中输入“关键词+filetype：pdf”便可找出PDF文档，输入“education database”就能查到教育学方面的数据库。
　　第三，使用专业搜索目录。专业搜索目录其实也就是主题指南，它提供的是关于网站地址的分类目录。隐蔽网络资源中比较丰富、权威的目录有： Direct Search（http：//www.freepint.Com/gary/direct.htm）、The Invisible Web Catalog（http：//www.invisibleweb.com）、CompletePlanet（http：//www. completeplanet.com）、北大天网（http：//e.pku.edu.cn）等。
　　第四，发挥人工智力网络的功能。互联网用户中有一群人，他们通过特殊的“早期预报系统”来告示新的隐蔽信息。他们在网上参加谈论栏目，第一个发布有趣的或有用的新站点的消息，以便与同行们共享。由他们所构成的人工信息网，为隐蔽信息的查找提供了入口。这种检索策略有点像淘金，需要始终保持高度的注意力，不断发掘新资源。目前，一般网上没有关于隐蔽Web的精华站点，但可以使用一些主题列表，如Directory of Schoolarly and Professional E-Conferences（http：//www. n2h2. com/kovas），其最新版允许关键词查询和浏览查询；Topica（http：//www.topica.com）提供一系列服务，并且提供了预订指南和管理工具。同时，一些由图书馆管理员主导的讨论区对于发现隐蔽信息也很有帮助，如Govdoc-L（Goverment Documents）、Buslib（Bussiness Librarianship）、Newslib（News and Media Librarianship）等。另外，还有一些较好的讨论列表。如CARR-L（Computer Assisted Reporting）是一系列以万维网和隐蔽Web作为研究的基础资源的报告，其中常包含有新资源的讨论，对于隐蔽信息的查找十分有用。
　　
　　参考文献
　　[1]孔为民．超越Google的大学图书馆无形网站．现代情报[J].2005（5）．
　　[2]乔晓东、王立双．如何理解看不见的网站．数字图书馆论坛[J].2005（6）．
　　[3]刘宏军、李胜．信息导航系统中隐蔽网络资源的采集与整合[J].现代情报，2007（4）．
　　[4]张蕾．隐蔽网络资源的检索工具．中国信息导报[J].2006（12）．
　　[5]http://www.invisibleweb.com.
　　[6]http://www.completeplanet.com.

中小学信息技术教育

2008年12期

隐蔽网络资源探析

杂志排行

中小学信息技术教育的其它文章