APP下载

图书馆应对隐蔽网络策略探究

2019-03-18杜小丹

卷宗 2019年4期
关键词:搜索引擎图书馆

杜小丹

摘 要:文章阐述了隐蔽网络的定义,介绍了隐蔽网络形成的原因,根据隐蔽网络形成的原因进行了归类。着重分析了图书馆应对隐蔽网络信息资源的重要意义,介绍了图书馆应对隐蔽网络的几种方式。

关键词:隐蔽网络;搜索引擎;图书馆

认为利用常规性的方式搜索出的表面层网络信息资源占整个网络信息资源的16%,而余下的都是深层次的网络信息资源,占比高达84%。据Bright Plant 公司研究数据表明,互联网上有大于5500亿份文件,其中隐形内容的文档大约有5000亿个,排除格式与数据类型不同所造成的差异,也可以看出有形内容远远少于隐形内容。隐形网络资源不仅数量巨大而且增长迅速。隐形网络的信息质量比较高,但是一般的搜索引擎难以搜索到这些高质量的隐蔽网络信息资源。特别是受到学者、学生、研究者等青睐的学术隐蔽网络信息资源,更是难以获取。如何有效应对隐蔽网络信息资源是一个值得研究的课题。

1 隐蔽网络概述

1.1 隐蔽网络定义

1994年Dr.Jill Ellsworth 第一次在互联网领域使用Invisible Web这个概念,它指的是那些使用常规搜索引擎很难发现的信息内容[1]。2001年,Gary Price 、Christ Sherman合著了《隐蔽网络:揭开搜索引擎看不到的信息源》,书中他们把隐蔽网络定义为:通过互联网能够获取,但由于技术原因普通搜索引擎不能夠获取,或者是不作为索引的那部分文件、文本页又或者是其他权威性、高质量的信息[2]。在国外Invisible Web又有Dark Matter、Deep Web或者Dark Net等等说法,译成中文就是“深层网络”、“隐蔽网络”、“看不见的网络”、“黑色网络”或者“深网”。

1.2 隐蔽网络的形成原因及类型

Garry Price, Chris Sherman把隐蔽网络分为四类,分别是私人网络、不透明网络、专有网络和真正的不透明网络。

1.2.1 形成原因

1)技术原因。网络内容采用HTML的互联网发展初期,网络结构为树型目录式,使用者通过点击超链接的方式访问网页。这种实现网上数据搜集的方式是通过“蜘蛛spiders”、“爬行者crawlers”等自动化软件进入网站、找到那些新建网页。随着技术的进步,目前的网站运用新的技术,网络内容除了HTML外还有声像、图片等。常规搜索引擎对于声像、图片等的索引能力有限,不能处理特殊格式的文件,对于个性化的知识、区域性的知识及专业性的知识也就更无能为力。当网站注册哪个搜索引擎的时候,这个网站会被这个搜索引擎搜到。但如果这个网站含有当地数据库的很多信息会限制搜索引擎的搜索功能。数据库和基于数据库的网站含有非文本信息、数据库文档等,这些文件需要特殊的命令才能够检索到,所以这是隐蔽网络信息形成的最大的技术障碍。隐蔽网络的核心部分是数据库内容,一般搜索引擎很难跨过数据库入口设置的账号、密码等的提问。一些存在数据库的站点也会阻碍网络蜘蛛在动态网页中的行动。

2)非技术原因。首先网页中有复杂的信息,有用的、无用的、;科学的、随意的,那些未经过论证不知真伪的信息被搜索者检索到会有一定的误导作用。对于这些繁杂的信息,多数搜索引擎会采取一定措施进行管理,这种管理有时候也会剔除有用的信息,那些有用信息就会变成隐蔽信息。其次,如若要求搜索引擎对网络中网页有较高的索引率,则需要高的成本去进行开发和维护。一般的网络公司并不想要索引这些非HTML格式的文件,因为这些文件搜索时要么需要跟进实时信息占用很多搜索引擎,要么花费很多。目前,只有极少数的搜索引擎能够有财力、物力去维持网页覆盖率,这也造成隐蔽网络信息的产生。再者,一些经营网站的人,把大多数的内容封闭起来,只对公司内部员工或者注册的用户开放。这种情况下,即使是最好的搜索引擎也无法透过注册过程进行搜索[3]。

1.2.2 类型

隐蔽网络的形成除了技术原因、经济原因外,还有知识产权方面的原因。根据隐蔽网络形成的原因,本文将隐蔽网络以下七种:需密码或者是注册的网站、网上可检索的数据库、实时数据、未被链接的网页、动态生成的网页、部分非HTML格式文件和其他难搜索的信息。

2 图书馆开发隐蔽网络信息资源的意义

图书馆的主要工作是为检索者提供高质量的学术信息,隐蔽网络信息资源数量大、发展快、质量高、专业性强而且成本低廉,这些刚好符合图书馆对网络信息资源的要求。所以有必要对隐蔽网络信息进行开发利用。图书馆开发隐蔽网络资源可以提高其资源的供给能力。自建数据库与商业数据库是目前图书馆两种主要的馆藏资源,商业数据库的使用需要向数据库提供商缴纳巨额费用。图书馆的经费有限,一般情况下只能购买有限的数据库使用权和有限的用户使用额度,特别是外文数据库,只够几个人同时在线运用,而且查找的内容往往只有文摘部分。图书馆的自建数据库常常是针对某一个主题进行的,数量少、建设时间长。这两种主要的资源并不能满足检索者对资源的需求。不过隐蔽网络信息资源中的大部分数据库是免费的,并且信息专业性强,图书馆如果应对得当,可以扩充馆里面的馆藏资源,提升信息资源的供给能力,同时也不用付出高昂的建设费或者使用费,也可以向读者提供更多更高质量的信息资源。图书馆应对隐蔽网络信息资源可以满足读者对信息资源的深层次需求。读者的学习及科研逐步依赖于网络信息资源,要求高质量的信息资源、有深度的信息内容、针对问题的全面信息、专业性强且要有相关性,这些都是传统的搜索引擎无法达到的。某些隐蔽网络信息资源的专业性强的特点可以满足读者的一些需求,问题是一些读者并不知道隐蔽网络资源的存在,依旧依赖于传统搜索引擎,再者读者即使知道也没有时间和精力去专门搜索。因此图书馆有责任通过对隐蔽网络的信息资源的说明和索引让读者重新认识网络信息资源,为其缩短检索时间,提高读者的检索质量,从而使读者获取更深层次的资源信息。图书馆应对隐蔽网络信息可以发挥馆的优势,满足自身的发展需求。在网络的时代,信息蕴藏着商机,网络信息资源的开发利用为传统信息服务业注入新的活力。图书馆在信息的组织、检查、建设数据库方面具有优势,特别是信息资源的再开发重组等方面,因此,发掘出隐蔽网络中质量高但还没有引起多数人重视的信息资源可以使图书馆资源更具价值与特色[4]。

3 图书馆应对策略

图书馆作为信息资源的提供者与利用者,以及信息时代下网络信息资源的组织导航者,已然意识到隐蔽网络信息资源的价值与潜力。图书馆可以从以下几个方面考虑应对隐蔽网络信息资源。

3.1 图书馆网站信息结构尽可能平面化

搜索引擎的搜索深度有限,深层次的网络页面存在于隐蔽网络中不为读者知道。因此,图书馆网站信息可以采用平面化的结构,尽可能的把网络做小。如若内容太多,可以通过建立姐妹站点的分布式方式来容纳资源。

3.2 图书馆网络信息资源尽可能文本化

网络信息资源的非文本化是隐蔽网络形成的原因之一。目前多媒体技术尚不够成熟,如要避免使网站中的信息成为隐蔽网络信息,最好是将非文本资源文本化:在非文本元素的代码中运用包含关键词的Alt属性标签说明、尽量少用Flash、减少纯图像网页、在URL中列出非文本元素链接的文本描述。

3.3 建立学科信息资源指引库或者隐蔽网络的导航

图书馆可以组织馆员根据一些重点学科或者专业,多角度、多途径的筛选、过滤、重组分散于某一些学科中的學术隐蔽网络资源,从而建立出相应的学科信息资源指引库或者是隐蔽网络导航,把它放在图书馆主页上面,力图做到具有专业性与特色性。

3.4 将隐蔽网络作为读者教育的一个内容

美国兰格地亚社区学院图书馆曾把隐蔽网络当作“图书馆研究指南”讲座的开声白;加州大学开设了隐蔽网络教程。这样做不仅能激发读者探索网络的好奇心更能提高其网络信息搜搜能力。教育的方式多种多样,可以在教学过程中进行,也可以结合一些培训课程,在实际操作过程中讲解检索的技巧。图书馆的教育活动除了以讲座、报告、学术活动进行以外,还可以用电子邮件、网页留言等方式主动向读者、科研人员推送。

3.5 提高图书馆电子资源的可见度

可以通过组织统一检索平台或者元搜索引擎实现,具体方法可以有:整合电子资源与OPAC、通过OPAC检索其他图书馆信息。美国的Texas大学,利用Z39.50协议连接了二十五所高校图书馆、六十所公共图书馆[5]。

3.6 提供一些网络指南

搜索引擎对于专业数据库无能为力,检索者可以“迂回”查找隐蔽网络资源,著名搜索引擎比如Google、Yahoo!等提供了查找数据库的功能[6]。检索者如要查找某个主题的信息内容,运用Google、Yahoo!等先找到有关于这个主题的数据库网址,检索者再根据这些数据库网址进入相应的主页,进而获取深层次的隐蔽网络信息。这主要是通过搜索主题词加database进行查找,但这种方式比较费用费力,搜到的信息可能并不全面。

3.7 建立隐蔽网络专门目录

有很多的公司和网站已经开始建立新的搜索工具,用来查找专业数据库中的深层信息,致力于发掘高价值信息。Http://lii.org/包含可见资源与不可见资源、一万四千多个网站的有评注的主题目录,经过图书馆员筛选值得信赖。Garry Price, Chris Sherman创办的Http://www.invisible-web.net/用于检索Invisible Web资源,该网站价值高、资源广博。Http://www.freepint.com/gary/direct.htm拥有庞大数据的Invisible Web资源链接,用于检索隐蔽网络的权威网站。Http://www.academicinfo.net是一个学术资源主题指南,提供大学生研究论文、教授学习计划的素材。除此之外,FindLaw,Profusion,InfoMine等等都是检索Invisible Web的指南工具[7]。

受研究局限性所限,图书馆应对隐蔽网络信息资源的方法还有待补充完善,图书馆从自身层面做出应对网络隐蔽信息的努力,不过有效的信息资源控制是全面的,从人类整体利益来看网络信息管理应该和图书馆的事业一样,实行终身制,这个只有政府能够长久维持。单个组织或个人不能够很好的解决这一问题,应从更高的层面着手。

参考文献

[1]梁平,陈红勤.网络信息资源理论与实践研究[M].北京:中国书籍出版社,2012.

[2]]刘宏军,李胜.隐蔽网络资源的采集与整合[J].情报资料工作,2007,(1).

[3]梁焕平.隐蔽网络及其检索策略研究[J].情报杂志,2004,(7).

[4]王子熙.高校图书馆隐蔽网络资源的开发利用[J].新世纪图书馆,2007,(2).

[5]沈健,李文波.隐形网络:图书馆应用现状及开发策略[J].图书馆论坛,2006(5):125-127.

[6]Gary Price,Chris Sherman[J].Exploring the invisible Web.On-line,2001,25(4):32-34.

[7]刘雅晴.隐蔽网络及其资源检索策略研究[J].情报科学,2006,(5).

猜你喜欢

搜索引擎图书馆
图书馆
网络搜索引擎亟待规范
Nutch搜索引擎在网络舆情管控中的应用
基于Nutch的医疗搜索引擎的研究与开发
广告主与搜索引擎的双向博弈分析
基于Lucene搜索引擎的研究
搜索引擎,不止有百度与谷歌