虚拟图书馆的信息采集和组织管理

2010-04-11欧阳彩新

河南图书馆学刊 2010年2期

欧阳彩新

（南华大学图书馆，湖南衡阳 421001）

1 虚拟图书馆的定义和特点

“虚拟图书馆”又称“无墙图书馆”、“无纸图书馆”,它实际上是一种基本摒弃了纸质印刷信息体而通过各种网络获得信息的图书馆。虚拟图书馆是信息时代馆际之间实施协调合作的一种形式，由若干有着共同目标的图书馆结成网络联盟，为共同开展服务、共同开发信息市场而实施全方位合作的一种虚拟运作模式。Internet的出现对图书馆的发展产生了深刻的影响,使“虚拟图书馆”的理想成为现实。图书馆业务发展至今，配合电子技术、多媒体以及网际网络的结合而形成虚拟图书馆。虚拟图书馆是更具特定的目标，选定信息资源的学科领域，对有关的网站网页进行搜集和整理，加以鉴定核实，并对核实后的网址进行合理组织，为有关网址进行特征描述，编制或采用一定的软件以供信息存储与检索，并实现对网页网站的链接，对数据的不断维护与更新，使之能够提供检索、浏览和链接的信息集合。虚拟图书馆从本质上讲是一个专业性的搜索引擎，一般是采用人工著录的方法。它将互联网上某一特定领域中的网页收集起来，作为一次文献，然后对其进行标引和著录，著录的结果形成以款目的形式构成的中央数据库，在中央数据库的基础上抽取有关著录项目形成相应的倒排挡。用户检索时，输入检索式，在相应的倒排档中进行匹配，根据匹配后的结果调出中央数据库中相关款目，显示在计算机屏幕上，供用户进一步浏览一次文献。

虚拟图书馆的出现改变了藏书建设的概念、理论和方法;改变了图书馆藏书建设体系结构与内容;拓展了图书馆信息资源的空间和服务模式，使多馆协作、资源共享不再是空想;使图书馆成为信息高速公路上的重要节点。

与传统图书馆相比，虚拟图书馆具有以下特点：信息资源数字化。所有聚合在虚拟图书馆的信息资源不管它是图书、文献，还是图片、音像资料，都必须经过数字化存储在一定的载体上;传递网络化。虚拟图书馆的信息资源都要通过国际互联网——局域网——单位或个人计算机这样一种网络通道的传递，才能完成存取、检索与下载的过程;存取自由化。网络用户都可以自由存取网上资源，而不受时间、条件与数量的限制;操作计算机化。虚拟图书馆信息资源的传递、存取、检索、咨询与复制都是通过计算机实现;资源共享化。凡是网络用户，不分国家、地区、部门和单位，都可以共同使用网络信息资源，实现资源共享。

2 虚拟图书馆信息资源的采集和收录

虚拟图书馆是伴随着因特网的产生而出现的概念，其完成的主要功能是将某一学科或领域的相关网络资源的线索汇集之后,以主题树或数据库方式结合超文本链接提供给网页浏览者。因而对于虚拟图书馆，信息的采集和收录尤为重要。虚拟图书馆的信息采集和收录可分为选定专题和搜集网站网页两个步骤。

2.1 虚拟图书馆的选题

虚拟图书馆选题的基本依据是用户的需求与因特网上信息资源的现状相结合，用户需求是推动虚拟图书馆建设的原动力。纵观因特网上存在的虚拟图书馆，每一个都是用户需求驱动的直接结果。另外，因特网上所选专题信息资源的多寡构成了虚拟图书馆选题的另一个依据。如果信息资源过少，就失去了建立所选专题的虚拟图书馆的必要性。从选题内容角度来讲，虚拟图书馆都是以学科专业或专题作为选题对象的。与其他网络二次信息系统(如搜索引擎)相比，虚拟图书馆的选题内容都比较狭窄。从选题来源来讲，虚拟图书馆的选题来源一般有两种：其一是单位机构的信息资料中心(图书馆、资料室等)选题，这在大学图书馆的网站中比较普遍。许多大学图书馆选择本校的重点学科专业、特色学科专业以及重大课题项目建立虚拟图书馆，以满足有关用户的信息需求。其二是专家学者个人选题，以此来构建虚拟图书馆，上传到因特网上的WEB服务器，供广大网络用户使用。

2.2 从网站、网页上采集和收录

2.2.1 收集方式

目前虚拟图书馆常用的收集方式有以下三种：（1）利用搜索引擎：搜索引擎俗称“网络门户”，是搜集网络信息资源最方便的入手工具。据统计，至少85%的网上用户使用搜索引擎来查找信息。目前在因特网上已有数千个搜索引擎，中文搜索引擎也有100多种。按照基本的技术原理可以将搜索引擎分为基于Robot的搜索引擎、基于目录的搜索引擎和建立在独立搜索引擎之上的多元搜索引擎 (Meta-Search Engine)。三种类型搜索引擎的工作原理各不相同，检索效果也各有差异。（2）手工采集：尽管搜索引擎是目前因特网上查询信息的首要途径，但是由于因特网上信息量庞大，任何搜索引擎都无法全面涵盖所有的信息。实际上，目前最出色的搜索引擎也仅仅覆盖了因特网信息量的16%。如果片面地只依靠搜索引擎来检索网上的信息资源，将会产生重大遗漏，因而必须广泛借助其他途径和手段来查询网上信息。对于数量巨大、纷繁复杂的网络信息资源，手工搜集看似大海捞针，但在自动搜集走向智能化之前，手工搜集仍然是必不可少的一个环节。（3）自动搜集：自动搜集就是指被称为机器人（ROBORT）、蜘蛛（SPIDER）等的计算机程序定期或不定期拷贝所访问的互联网主机，绝大多数是万维网的服务器的部份或是全部内容然后由提供检索服务的公司或单位对之标引和组织，虚拟图书馆要根据本学科、本专题的特点编制适合于本学科专业信息收集的自动搜集软件。具备自动搜集功能是一个优秀的虚拟图书馆必须具备的基本条件，否则就难以对互联网上的日益增长的信息进行追踪。

2.2.2 收集内容

与其他网络二次信息系统相比，虚拟图书馆所收录的网页网站都具有学科专业及专题性的特点。从内容上讲，虽然不同的虚拟图书馆收录的网页网站存在着较大差异，但除了与所选学科专业专题相关的特殊问题的信息资源外，一个虚拟图书馆，无论是什么专题，如果有网络信息资源保障的话，都应该收录下述类型的网页网站：（1）网络图书：它是因特网上一种常见的信息资源，具有出版发行周期短、“修订”及时、内容相对系统全面、成熟可靠等特点。网络图书的来源有三种：现有图书数字化后上网、原有的封装型电子图书(如软盘图书、CD－ROM图书等)上网和直接在网上出版发行的图书。（2）网络期刊：大致可分为两类：其一是传统期刊的网络版，其二是纯网络型期刊。前者大多为商业性的，而后者目前基本是免费的。网络期刊及其预印本出版周期短，报道速度快，刊载的多是一些学术性较强的论文，因而成为虚拟图书馆重点收录的对象。（3）会议论文：它的学术性较强，内容新颖，往往反映了某一学术领域国内外的最新发展状态，利用价值较高。（4）组织机构：包括从事虚拟图书馆所选领域的研究机构、实验室、教育机构、学术团体(学会、协会等)及产品的推广机构等。实际上每一个学科领域或专题都有相应的研究机构，绝大多数领域或专题都有相应的教育机构和学术团体。这些组织机构在进行教学、科学研究、组织学术交流以及其他日常活动中，产生了大量的原始信息。通过访问它们的网站，可以得到大量的技术报告、学位论文及教育教学信息等。

3 虚拟图书馆的组织管理

3.1 虚拟图书馆的组织原则

由于数字化信息易于生成、复制与传播，信息的质量与价值参差不齐，这就要求虚拟图书馆在采集和组织信息资源时进行有效地评价和筛选，只有有价值的信息才可能被有效组织。因此，信息的选择是虚拟图书馆信息资源组织的重要内容。

3.1.1 针对性原则

网络信息资源浩如烟海，任何用户和信息机构都不可能，也没有必要对网络上的所有信息进行开发利用。图书馆web站点信息资源的组织应始终以“用户为中心”，针对图书馆用户的信息需求，有目的、有重点、有选择地组织利用价值大、适合主要用户群的信息，准确定位上网信息的范围，做到有的放矢。“让用户以最小的代价，最短的时间，获得最满意的结果”。同时，在设计页面时也应站在用户的角度，对自建的数据库，在设计检索功能时，提供尽量多的检索方式和途径，多角度地揭示文献信息，如全文检索、联库检索、渐近检索、策略式检索等，从而提高信息检索与信息利用的效率。同时为了进一步完善网站功能和方便用户，还应提供交互工具，如站内检索、网上书店、留言板、读者论坛等，为网上用户提供一个集订阅、交流、信息反馈于一体的综合的、动态的交互环境，帮助用户更好的针对个人需求发掘和获取站内信息资源。

3.1.2 科学性原则

虚拟图书馆信息资源组织应重点突出图书馆作为文献信息资源集散地的特点，以信息传递和资源检索为主，建立起一个有明确主题的收藏体系。因此，馆藏资源的数字化和网络虚拟资源的建设尤其要遵循科学性原则。一是必须以科学的态度对杂乱无章的信息资源加以鉴别，“过滤”、“挤掉”其虚假成分，从中筛选出有价值的信息提供给用户；二是必须用科学的方法来研究网络信息的分布规律，能从大量同类资源中查找和选择出相关资源并对其进行辨识。

3.1.3 系统性原则

对高水平的学术信息或特色资源的收集，只有系统地、连续地加以采集和积累，才能有所选择、有所比较、有所分析、产生有效的信息流，才能充分发挥信息资源的效用。特别是网络上承载的大量信息，电子地址更改频繁，其资源的不稳定性对web站点资源的组织利用造成极为被动的局面。因此，人们不仅要善于敏锐地捕捉到用户需求的最新信息，还要放眼未来，制定出长远规划，脚踏实地地对有价值的网络信息资源做好积累贮存工作，保证信息资源系统、连贯和完整。

3.2 虚拟图书馆的组织方式

虚拟图书馆是伴随着因特网的产生而出现的概念，其完成的主要功能是将某一学科或领域的相关网络资源线索汇集之后,以主题树或数据库方式结合超文本链接提供给网页浏览，所以虚拟图书馆通常采用主题树和数据库这两种方式来组织信息。

3.2.1 主题树方式

所谓主题树方式，就是将虚拟图书馆所选定学科领域的所有已获得的信息资源按照某种事先确定的概念体系结构，分门别类地逐层地加以组织，用户通过浏览的方式逐层加以选择，层层遍历，直到找到所需要的信息线索(即相关网页链接)，进而通过信息线索找到相应的网络信息资源。

3.2.2 数据库方式

即将虚拟图书馆所包含的这一学科或领域所有已获得的网络信息资源以固定的记录格式存储，并提供一些检索入口，就可以找到所需要的信息线索，进而通过信息线索直接链接到相应的网页。这种方式的前提是关键词标引，从而形成关键词倒排档。这种组织方式通过对信息进行规范化和优化处理，大大提高了数据操作的灵活性，因而成为应用广泛的网络信息组织方式。它对用户也提出了较高的要求，要求用户掌握一定的检索技巧，包括关键词及其组配方法的选择，等等。实际上，虚拟图书馆的信息组织往往是上述两种方式的结合，既有主题树，为用户提供分类检索，又有数据库，为用户提供主题检索。