学术隐蔽网络数据库查找探析
2010-09-17张海游
张海游
(天津商业大学,300134)
1 隐蔽网络,学术隐蔽网络及数据库
随着万维网在上个世纪90年代的突起,网络资源得到飞速增长,但有搜索引擎和网络目录能搜索到的信息只占整个互联网信息资源的很小部分,大约只占网络信息资源的16%,其余84%的资源对于这些搜索工具是不可见的,成为隐蔽网络“Invisible Web”。美国知名图书馆员和信息专家Sherman和Price将隐蔽网络定义为:在万维网上可获得的资源,但由于技术限制,或是由于特定选择而不能或未被纳入通用搜索引擎网页索引中的文本网页、文件或其他高质量的权威信息资源,有时也被称为“深层网络”、“看不见的网络”等。[1]
在过去的十年中,隐蔽网络的存在极大地激发了检索人员、图书馆员和信息专业人士的探索精神,很多研究者将隐蔽网络比喻为“理想的黄金国”,其内容之丰富远在一般搜索引擎之上。它能够提供相关科学过程的学术信息资源,包括:文献如论文、学位论文、报告、图书等;数据如调查数据;纯网络内容如开放存取Americal Memory(memory.loc.gov/ammem/index.html);Babel fish(babelfish.yahoo.com)(提供多种语言翻译的网站);Find Articles(findarticles.com)(提供论文检索下载服务);Library of Congress Catalog (catalog.loc.gov) 和Universal Currency Converter(www.xe.com/uc)(提供最新货币兑换数据)。
关于隐蔽网络的规模学界多引用Berman于2001年 发 表的 论 文 “The Deep Web:Surfacing Hidden Value”。在这篇文章中Berman对主要隐蔽网络进行重叠分析,认为大约有10万个隐蔽网络数据库,但要去掉只包括原始数据的数据库,学术内容的比例就缩小到4%,因为隐蔽网络的主要部分是原始数据(rawdata),大多为图片,如地球卫星图片,这些数据的存储空间远远大于文本数据库。[2]德国杜塞尔多夫大学的Dirk Lewandowski给学术隐蔽网络(Academic Ivisble Web)下的定义是:包含所有数据库和相关学术收藏但不被普通搜索引擎所检索的那部分资源。[3]
一般搜索引擎爬行器可以查找和标引数据库的地址,最大的技术障碍来自于数据库及数据库的网站。数据库里的信息是学术隐蔽网络的核心,但大多数据库中的信息资源由于通常要通过人机交互才能查询,如数据库入口处设置的账号、密码等提问,是机械化搜索引擎难以跨越的障碍,所以引擎不能直接查找数据库里具体的内容。此外,基于数据库的站点也会使搜索引擎爬行器在动态网站中受阻。世界上销售量最大的书店亚马逊电子书店(amazon.com)就是一个基于数据库的网站,在该网站中,大部分有关书、作者、评论等的信息都储存在数据库中,只有当用户查询时才会在网页上显示出来。因此想要检索某数据库,就必须使用数据库本身所提供的强大的搜索和检索工具。这种方法的优点在于可以使用专门用在数据库中检索最佳结果的检索工具,而其不足则在于必须首先找到这个数据库。[4]
因此,如何找到相关隐蔽网络数据库,是检索学术隐蔽网络的关键,如果图书馆能有针对性地将某一学科的相关隐蔽网站尽可能地收入囊中并对其进行二次加工,不仅能有效扩大馆藏,而且能够提升图书馆的特色。查找的手段分为直接查找和间接查找。直接查找包括自动利用专业搜索引擎发现隐形网页资源和构建面向隐形Web资源的网络爬行器等;间接查找,即使用某些查找工具,如通用搜索引擎,网络目录,隐蔽网络专门工具,及学术搜索引擎等进行辅助查找。[5]本文将重点探讨间接查找,为具体操作提供查找框架和方法以改善用户个人搜索策略。
2 隐蔽网络数据库的查找手段
2.1 使用学术搜索引擎(academic and scholar search engines)
文章[3]介绍了四种免费综合性学术搜索引擎:Google Scholar、Sirus、Base和 Vascoda。Google学术搜索(http://scholar.google.com)和 Scirus科学搜索引擎(http://www.scirus.com)均由商业机构创办,资源来源于学术著作出版社提供的知识库以及开放存取的内容;Base(Bielefeld Academic Search Engine)和 Vascode(http://www.vascoda.de)是图书馆和信息机构开放其收藏的非赢利性学术计划,主要是学术参考数据库、图书馆目录及免费的优质文件。以上4种系统的共同点是都关注隐蔽网络学术信息,但目录学术搜索引擎还处于起步阶段,存在一些问题,如标引和检索词未受控,易造成漏检;学术资源在不同的数据库中重复存储;一些搜索引擎只提供按相关性排序检索结果,引文作为相关性的重要指标,但由于引文存在滞后性和动机不同,会导致内容不相关资源获得较高的相关排序,掩盖真正相关资源;免费学术搜索引擎一般没有严格的质量控制机制,检索结果中可能会存在很多低质量资源。[6]因此用户在使用时应小心分辨,特别是学术分辨和学术能力相对较弱的用户不要盲目相信某一固定的检索来源,应综合利用多种检索工具,养成良好的学术检索习惯。
2.2 使用隐蔽网络专门目录(deep web directories)
相对其他搜索工具,隐蔽网络目录最大的优点是经过人工挑选,学术资源质量较高,得到学术研究团体比较广泛的认可。我国很多高校图书馆网页上都列出了相关隐蔽网络专门目录供师生查阅使用,如兰州大学图书馆就在最新免费数据库资源一栏中推荐使用专门目录查询深网资源。以下列出的是几个比较知名的目录:
Complete Planet www.completeplanet.com
Direct Search www.freepint.com/gary/direct.htm Informine http://informine.ucr.edu/Geniusfind http://geniusfind.com
Resource DiscoveryNetwork www.rdn.ac.uk/
Search EngineColossuswww.searchenginecolossus.com/
Search Engine Guide www.search engineguide.com/searchines
Complete Planet是现今为止最大的网络目录之一,是Bright Planet公司拥有的网络站点,包括7万个可以检索的数据库及专用搜索引擎,以前只作商用,现在对公众开放。Price是乔治华盛顿大学图书馆的馆员,同时也是隐蔽网络研究和Direct Search网站的开创者,Direct Search包括专题目录集合和新增加到目录里新的数据库的通告,被认为是最具权威的用于检索隐蔽网络的网站。Informine是由加州大学、底特律大学等多个高校参与建设的数据库,主要服务于高校师生和研究人员。http://lii.org/是由公共资助,加州图书组织建设的网站,服务于加州、美国和世界,每周四会发布免费的时事资讯,提供一些由馆员经过仔细挑选的高质量网站。
以上很多指南都提供网内检索服务,用户可以查询相关数据库 但由于专门目录和下面将要提到的通用网络目录在查询时都存在不完全或忽略良好匹配的问题,笔者建议暂不使用该查询功能,而是浏览其相关主题分类目录,然后点击该目录,一级一级地向下寻找并记录下有用的相关数据库。虽然隐蔽网络目录可以检索很小部分的数据库,也许以后网络目录的覆盖面会提高,但现在我们还必须使用Google等一般搜索引擎寻找数据库的范围。
表1 数据库经常使用的名称
2.3 使用主要搜索引擎
使用通用搜索引擎查找数据库,通常是在搜索栏中输入主题词,在主题词后面加上类似于“searchable database”或者“interactive tool”等词语。Google等搜索引擎能够检索到有以上查询形式的数据库,然后再利用数据库自带的查询系统检索该数据库的内容。很多学者都建议采用这种基本方法发掘隐蔽网络。在检索某一主题时首先要考虑该主题所属的更宽泛的分类,即上一级的分类,这样可以避免由于题目过于狭窄或者必须人机交互找不到合适的数据库,并有助于扩大查询范围。譬如,The Battle ofGettysburg(匹斯堡战役),应该属于the Americal Vivil War(美国内战)的范畴。
输入关键词“civil war”+“database”或者与database类似的词,可以找到关于美国内战的隐蔽网络数据库,然后再用数据库自带的检索工具查询有关Gettysburg战役的记录,文章或者图片等。
这种方法被称为“错层检索”(split-leval searching),即检索人员首先使用Google检索,将结果限制在专门的数据库和引擎上,然后再利用这些工具查找某一特定的题目。[7]这个过程犹如使用OPAC检索某百科全书,确定其在书架上的位置后,找到它,再利用书里的内容目录和索引寻找仅使用OPAC不能查到的具体的信息。在具体的操作中,应该考虑以下几个问题:
(1)通常我们检索隐蔽网络时需要在关键词后面加上“database”,但有些数据库的创建人使用的可能是其他词语,[8]见表1。文章[8]指出一般关于历史的隐蔽网络数据库倾向于使用“digital archive”或者“online collection”,商业数据库一般使用“inventory”,艺术类的数据库经常以“online gallery”命名。科学界喜欢用“information system”,而“directory”多出现在表示交易和地理位置列表的数据库中。一般搜索引擎像“Google”或者“AltaVista”允许用户在单次查询使用多个近义词,具体方法是使用大写“OR”运算符号和括号,如:
+ “civil war”(database 0R “search engine”0R“online collection”OR“digital archiye”)
(2)简单的输入 +“civilwar”+database,会出现关于这个主题数目庞杂的数据库,如果用户需要的只是一些文献、日记、回忆录等原始资料时,需要对检索词进行限制,如:
+“Civil war”+database(“primary sources”0R diarieS0R documents 0R memoirs)
或者使用通配符*进行限定,也可以找到相关度高的数据库:
如“primary*database”该检索可以找到primary source database,primary material database, primary document database等所有关于原始内容的数据库。
(3) 有些情况下,在检索框中输入“search form”能更好的限制检索结果。一般来说,数据库会有一种查询形式,输入以下检索式可以将检索集中到具有查询形式的数据库:
+transportatiOn+database+“search form”
其次,将主题词和经常出现在检索页面里的像“submitquery”,“quicksearch”或者“advanced search”等短语组合,可以有效过滤掉仅仅含有“database”这个词但并不是真正的数据库。与上述相似的另一个方法也可以检索到比较理想的结果,如:
+transportation+database inurl:search
注意inurl:和search之间不空格,该检索表达式可以找到正文中含有 “transportation”和“database”,以及在在网址中出现“search”的相关站点(许多数据库创始人会在网站检索页的地址中使用“search”这个词)。
(4)检索隐蔽网络数据库还应该考虑过滤商业数据库。在Google检索框中输入“database”会出现大量的受权限访问的,只对本馆或付费用户开放的电子资源。
举例来说,查找社会学数据库时,我们可以通过调整检索表达式过滤收费数据库:
+database+sociology-ebscohost-proquestinfotrac-“SOCiOlogicai abstracts”-subscriptiOn-fee
2.4 使用网络目录的主题分类
2.4.1使用雅虎等网络目录
综合性的主题分类树体系的网络资源指南受到用户的欢迎。其主要特点是根据网络信息的主题内容进行分类,并以等级目录的形式组织和表现。通过网络目录,像著名的雅虎目录,计算机驱动的新型目录和OCLC Worldcat全球目录等都可以帮助检索人员寻找到免费的在线数据库。在Google检索框中输入主题词检索的数据库往往只是提到“数据库”,并非真正的数据库,而许多的通用网络目录会直接将带有“database”标题的网站与实际的数据库链接,可以大大提高检索的准确度。Yahoo是迄今为止使用最广泛的网络目录之一,其发达的分类目录是检索隐蔽网络的门户。
虽然大多数通用目录都具备查询功能,但是网站目录仅仅由链接和注解组成,使用网站目录的检索功能是检索构成这些链接和注解的词,而不是他们所指向的网络文件全文,因此,检索结果可能会不完全或忽略了潜在的良好的匹配。[7]还有,由于初次使用我们可能并不清楚所查询的数据库对应哪一主题分类,检索往往会受限。因此,在使用上述方法时,笔者认为要遵循以下几个步骤:
首先在Google或者Yahoo的主检索页进行正常的主题词+database检索,找到一个数据库,在雅虎目录中检索该数据库的标题,检查该数据库的所属分类,看它是否包含“database”或者类似的词,如果有,点击该类别查看其他专门数据库。
譬如,利用Yahoo进行关键词查询生物学数据库可以找到以下优质数据库:
Integrated TaxonomiCInformatiOn System
然后在雅虎目录输入该数据库的名称(在yahoo.com主页检索框上方点击more,在more的下拉菜单中找到directory,进入雅虎目录),在查询结果页面显示的类别中找到包含有“taxonomic databases”标题的那类,点击该分类就可以找到其他的同类数据库。利用雅虎等网络目录既可以受益于其包罗万象的丰富内容,又能通过其分类将检索细化。但Yahoo和大多数的网络目录(如open directoryprojec)只能够标引关于某一主题的部分数据库或相关工具,并且擅长的领域不同,譬如Yahoo目录在自然领域和 “peoplefinders”、“image searchengines”和“searchable archive”等方面表现优异,可以找到很多相关的专业资源。读者可以尝试在目录中输入常用的数据库或工具检索,检查结果看其是否能够提供包含多个数据库的分类链接。鉴于此,用户在使用时要尽量查询多个门户以保证获得全面的检索结果。
2.4.2利用新型搜索引擎
由于通用网络目录只会给部分数据库加上小标题,检索人员应当多尝试利用新的搜索引擎,如Gigablast(www.gablast.com) 和 ViviSimo(www.vivisimo.com)。它们可以自动给多个主题领域内的数据库生成小标题,用户可以先使用主题词检索,然后网站的相关工具会对检索结果进行分类,最终展现给用户的是某一题目下定制的多个小标题列表。隐蔽网络检索人员可以利用该功能筛掉仅仅提到“database”或者“search engine”的伪数据库。如在Gigablast检索:
database+“baseball cards”
在页面左上方系统自动生成的主题树结构中查找含有“database”的小标题,点击标题确认只含有“database”单词的网页已被过滤,则这个标题下的站点就很有可能是真正可以检索的数据库,这种标题生成机制会使检索更加精确。或者在ViVisimo中检索Movic database,我们可以看到在页面左侧的主题树结构里排列着各式各样的电影数据库分类,这种结构可以方便隐蔽网络检索人员快速地从中筛选出合适的主题数据库。
2.4.3使用OCLCWorldcat
除网络目录外,OCLCWorldcat(全球目录)也充当着隐蔽网络目录的作用,原因是现在很多图书馆都开始对网站进行编目,其高级检索界面允许检索者将检索范围扩展到互联网,通过使用“database”或者类似的词语作为标题,检索人员可以将检索集中在已被其他图书馆挑选出来的隐蔽网络资源。
2.5 评价查找结果
完成检索数据库的工作后,要重新审视已找到的数据库,确定它是否能提供独一无二的高质量的内容,是否可以通过Google查到。如果它能提供高质量的资源而且不能被Google检索到,那就很有可能找到了宝藏。值得注意的是有些专门数据库会全部或部分被Google索引,有的则对搜索引擎完全不可见。因此读者可以先在某数据库里检索,然后再用Google检索看能否直接找到上述查找内容来确定Google是否标引了该数据库的内容。
另外,将找到的隐蔽网络资源和图书馆购买的商业数据库进行比较,特别是那些能够弥补馆藏资源建设薄弱或者缺乏的资源。即便有的数据库的内容同馆藏部分资源重复,在做取舍的时候也要衡量这些专门的数据库是否提供更先进的限制检索的方法或者提供比其他资源更快捷的检索服务等。
3 结论
对隐蔽网络资源进行收集、评价与管理是当今图书馆馆藏建设的重要业务之一,既能满足用户对信息的需求,又能提升图书馆的服务,同时也是凸显馆员专业水平的绝佳机会。因此,很多学者都建议教师在文献检索课上介绍隐蔽网络,实验证明它能够极大的激发学生的求知欲和对文献检索的兴趣,每个馆员都应该了解并在工作中利用隐蔽网络服务于读者。[9]本文描述的深网查询方法和策略可能并不全面,对深网的研究是一个漫长渐进的过程。同时我们应该认识到,Internet上的信息资源正以无法估量的速度增长,而搜索引擎更新的速度远远跟不上资源的增长速度,隐蔽网络问题可能永远得不到解决。但无论如何我们应该像Price在书中所倡议的那样“大胆地进入搜索引擎未曾进入的领域。……享受只有在世界地区远征地早期探索者才能感受到的快乐和满足。”[10]
[1][4][10]Gary Price,Chris sherman.马费成等译.看不见的网站-Internet专业信息检索指南[M].沈阳:辽宁科学技术出版社,2003.47-48,51.
[2]Michael K.Berman0The Deep Web:SurfaeingHidden Value0 2009-06-04.
[3]Dirk Lewandowski,Philipp Mayr.ExplOrlngthe AcademiCInvisible Web.LibraryHi Tech.http://www.emeraldinsight.com/0737-8831.btm.2009-05-20.
[5]刘雅晴.隐蔽网络及其资源检索策略研究[J].情报科学,2006,(5):714-715.
[6]常唯.综合性学术搜索引擎研究[J].大学图书馆学报,2007(2):75-76.
[7]R.Kay.Deep Web[J].Computerworld,2005,39(51):28.
[8]Brett Spencer.HarnesSlng the Deep Web:a practical plan for locatlng free specialty databaseOn the web.Reference Services RevieW.http://www.emeraldinsight.com/0090-7324.htm.2009-05-28.
[9]Jane Devine,Francine Egger-sider.Beyond 600gle:the lnvisble Web in the AcademiC Library[J].The Journal OfAcademiCLibrarianship,2004,(5),265-269.