图书馆跨库检索背景下的资源整合与优化

2020-01-03韦卫

图书馆学刊 2019年12期

韦卫

（上海浦东图书馆，上海 200120）

1 引言

随着互联网时代的到来，各大图书馆越来越重视数字资源的建设，不但对馆藏的电子资源进行了系统化整理，还大量引进专业数据库来满足不同读者的需求。图书馆通过集成各种数字化资源，虽然为用户带来了极大的方便，但是用户在使用众多资源时也面临着一些困扰。在此基础上，基于多种异构文献数据库的跨库检索系统应运而生，成为解决用户面向海量资源困扰问题的关键。一般来说，图书馆跨库检索系统只需要为读者提供单一的检索界面，但是对于用户的检索请求，则可以在多个数据库中进行相关资源的检索，所以也被称为统一检索平台[1]。统一检索平台可以将位于不同网络、环境和数据库中的数据检索出来，并集成检索结果，在单一的用户检索界面上显示集成结果。随着数字化和互联网时代的到来，文献资源数据呈现指数级增长，通过跨库检索系统，用户可以对所需资源进行整合，并获得与需求相适应的反馈结果[2]。图书馆跨库检索具有单次登录即可实现全库文献检索的优势，可以有效解决在不同文献数据库中频繁登录和切换的缺陷。

在现有的图书馆跨库检索背景下，当前实现资源整合与优化主要有两种方式。一种是在用户单一检索界面中实现资源整合，也就是将所有跨库系统的数据库入口都统一存放于单个界面上[3]。这种方式虽然简单且具有较强的便利性，但是几乎没有联合检索能力，只是简单的数据库堆砌，因此检索效率低下，并且对底层数据源毫无控制力。另一种方式则是对数字资源信息系统进行整合，通过分布式异构系统实现多个数据源之间的整合[4]。这种方式可以通过异构性管理算法，实现对检索信息的整合，使得用户检索需求的效率得到极大的提升。然而，这种方式的算法同时分布在数据底层、逻辑层和业务层，因此操作较为复杂，不利于非理工科专业背景的用户使用。为了解决现有资源整合与优化方式现存的问题，笔者在现有的图书馆跨库检索背景下，分别进行了跨库检索模型与实现方法的分析，资源整合与优化方案的探讨，以及资源整合与优化策略的研究。

2 图书馆跨库检索模型与实现方法

2.1 元数据检索模型

用户与文献之间的相关性具有较强的不确定性和随机性[5]。因此，图书馆馆藏中的文献与不同用户的需求之间具有较强的随机性，但是二者之间的随机关系发生的概率与其相关性的表达有关。所以，我们可以通过计算的方式获得二者之间的随机关系发生概率，从而解除读者与文献之间的不确定性。在解除相关性基础上，可以为图书馆跨库检索构建基于元数据的检索模型，该模型从不同角度理解相关性，相应地获得不同角度的元数据检索模型，并能够导出不同的跨库检索实现方法。当图书馆跨库检索采用元数据检索模型时，其相应的核心理论为相关性原则和排序原则，其中的技术难点主要包括计算跨库检索的数据源，以及实际计算跨库检索元数据的方法。

2.2 向量检索模型

采用元数据计算模型的图书馆跨库检索系统，容易产生数据源上的极限值，无法完美地应对用户不同的需求。因此，为了将符合需求的检索结果反馈给不同的用户，图书馆跨库检索还可以构建出基于需求的向量检索模型。该模型不再通过计算概率精确匹配用户需求的文献，而是在用户查询结果和文献之间定义好检索方法，满足用户需求的同时，能够给用户方便的文献选择。向量检索模型[6]源于上世纪60年代，在文献数据库和用户需求表达的基础上，能够给出检索项的向量空间，计算向量空间的相关性，并对检索结果进行排序和分类，能够更精确地定位不同用户的需求，给与针对性的排序和需求应答。

2.3 跨库检索的实现

实现图书馆跨库检索，分别基于元数据检索模型和向量检索模型，实现检索过程。在基于元数据的跨库检索中，只需要将各个图书馆数据库中的数字资源以元数据的形式提取出来，并采用统一的数据描述标准，构建元数据库。元数据库具有统一的核心元数据标准，在此基础上构建的配套检索系统，能够对所有数据类型形成统一的检索过程。在实际运行过程中，检索以元数据的形式统一进行，对用户是不透明的，用户只需要接触与其数字资源类型相适应的检索结果。图1给出了基于元数据的跨库检索模型。在该模型中，当分散的数字资源出现时，元数据库能够保证数字资源的同步性。元数据检索模型会造成较大的数据库负荷，因此成本较高，所以笔者选择构建基于向量的图书馆跨库检索模型。

图1 基于元数据的图书馆跨库检索模型

基于向量的图书馆跨库检索模型，在不同数字资源中间构建了一个中介平台，能够接收和分发不同用户的检索需求。如图2所示，向量检索模型的中介平台能够将不同用户的检索条件自动保存，并分发给多个资源数据库，接到请求的资源数据库对资源进行检索，将获取的检索结果反馈给联合检索系统，联合检索系统再将检索结果反馈给相应的用户。基于向量的方法可以有效保证用户的不同检索请求，得到准确、有效的反馈，且反馈过程中具有精准的资源检索数据库。因此，该模型对计算资源要求较低，且实现难度较低，适合如今的个性化用户需求构建跨库资源检索。

图2 基于向量的图书馆跨库检索模型

3 图书馆跨库检索的资源整合与优化方案

图书馆跨库检索的资源整合与优化方案，分别包括无信息层次、单信息层次和双信息层次的资源整合与优化。

3.1 无信息层次的资源整合与优化方案

在数字图书馆的文献资源中，无信息层次的文献一般称为灰色文献，这类文献处于白色文献与保密文献之间。不同于白色文献的直接公开和保密文献的不公开，灰色文献虽然不能公开发行，但是完全不保密。灰色文献常见于政府报告、科技报告、教师和学生论文以及调查报告等形式。无信息层次的资源具有较强的专业性，且文献内容的质量较高，通常都与时事政治相关，涉及的知识层面较广、信息量较大。

然而，无信息层次的资源也具有明显的缺点，那就是用户的范围较小，且文献的透明度也较低。实际上，无信息层次的灰色文献资源是现代化进程中不可或缺的重要信息资源，能够体现出我国现代化的科研水平和国家战略发展的现状，是图书馆跨库检索资源整合与优化中不可或缺的一部分。因此，针对无信息层次的资源整合与优化，应该精确地对这类资源进行文献分类，随后通过深层次的开发和利用，构建出无信息层次的资源文献数据库。对于构建好的数据库，应该开放远程查询请求功能，使得该层次的资源整合与优化能够投入到网络中使用，开放给有这方面需求的用户使用。

3.2 单信息层次的资源整合与优化方案

与无信息层次的资源不同，单信息层次的资源指的是经过了一次加工的信息资源，并且该类资源经过加工以后将会加入互联网中，成为电子信息化的一部分。单信息层次的资源经过粗加工以后，其信息来源较为广泛，拥有丰富的信息源和具有用户个性化的信息内容。然而，单信息层次的资源却有种类杂乱无章以及内容参差不齐等缺点。鉴于该类资源的上述特点，在资源整合与优化过程中，应该将无用的信息屏蔽掉，选择信息来源更为可靠、信息质量更高的信息源，并在整合与优化过程中添加精细加工。

单信息层次的整合与优化具有多种精细加工方式，包括文本、超文本以及主页等方式。不同的资源类型适用于不同的加工方式，其中文本方式主要用于构建全文数据库，通过将所采集的有关联信息组织在一起，输入网络中形成全文资源，存入全文数据库中；超文本方式则是将网络上具有上下文关联的资源，通过有机的方式组织在一起，用户根据不同的需求可以从不同角度完成资源的查询和下载；主页方式也叫档案组织方式，通过档案管理的方法，将组织或者个人的相关信息组成结构化数据，在访问过程中，可以根据档案节点快速完成相应信息的查询，效率较高。实际上，该方式更适用于网络上具有结构化的资源。到目前为止，最常使用的方式为超文本方式，该方式能够最大化应对不同用户的个性化需求。

3.3 双信息层次的资源整合与优化方案

单信息层次的资源经过加工、提炼和浓缩3个步骤以后，就可形成双信息层次资源。实际上，双信息层次的资源属于工具性文献，是对现有文献的总结与管理后形成的积累结果。目前的双信息层次资源的检索，主要以搜索引擎为主要组织方式。Web服务器中的搜索引擎通过在互联网中进行全文检索，获取资源站点的页面文字及其内容，然后建立检索内容的索引，并将索引存储至资源数据库中。当用户需求接入时，只需要通过资源数据库中的索引，即可快速寻找到所需的资源。与此同时，对于双信息层次的资源，还应该提供多个侧面和多个角度的附加内容检索，使检索结果具有较大的综合利用价值。

在对双信息层次的资源进行整合与优化时，需要对Web服务器中的全文检索系统进行全方位的整合与优化，主要包括是否能够全面、准确和快速地整合与重组双信息层次资源。首先，需要对互联网中的文献进行针对性的分析与下载，对于每个文献给出简要的学术价值和内容评价。其次，对于相似的文献构建统一的文献目录，在目录中收罗具有组织链接的相关知识点和文献，经过转化与引导，生成用户能够便捷使用的网页形式。再者，对于精选文献的国内外数据库，图书馆应该构建相应的镜像数据库，使得用户能够及时获得最新文献。最后，对于双信息层次的资源，用户的个性化使用差异较大，要求在资源整合过程中做好用户的行为跟踪与分析。

4 图书馆跨库检索背景下的资源整合与优化策略

4.1 加强跨界合作以完善空间主体数据库

一般来说，跨界合作指的是两个不同领域、行业或者文化，通过资源交互的方式产生全新的领域或行业。图书馆作为社会公益服务单位，一般都是自建文献数据库或通过签订协议使用商业文献数据库。随着时间的推移，图书馆的数据库类型将会越来越多，数据资源的规模日渐庞大，复杂多样的数据类型和内容导致检索不便，所以需要进行资源的整合与优化。为了更好地解决文献数据库类型的兼容问题，其主要突破口就是加强跨界合作。图书馆对接中大型数据企业，不但可以加强数字资源上的合作，还能够通过企业专业人才团队对数据资源完成整合。专业数据团队可以利用数据整合技术，将多种类型、数量庞大且结构复杂的数据资源整合为以空间为主体的数据库。

如图3所示，采用以空间为主体的数据库，更适合社会公益服务单位与企业商用文献数据库的整合，双方都能够发挥各自的优势与特点，以最短的时间消耗获取最好的整合效果。此外，从数据融合、资源整合的角度来看，这种方式不但具有很强的可行性和有效性，而且是公益单位与企业单位合作的必然趋势。跨界合作是提升图书馆建设水平与服务能力的有效方式，依托于合作双方的互补性，将会收到事半功倍的效率。

图3 以空间为主体的跨库检索数据库

4.2 扩展跨库渠道以树立图书馆新型服务意识

当前我国图书馆的跨库检索服务模式还处于起步阶段，建立跨库系统的也只有超星和方正等少数几家，并且其产品获取的方式较为单一，很大程度上依赖于经销商提供的资源。我国图书馆的跨库检索建设，首先需要借鉴国外成功的跨库检索服务经验，来拓展图书馆跨库检索服务的思路与渠道。其次，在数字化阅读时代，图书馆管理方需要加强宣传，为读者的科研、学习和交流做好服务工作。图书馆还需要加强在内网中的全方位和多角度的资源整合宣传，通过举办各种资源整合与优化的专题讲座，正确引导读者熟悉图书馆跨库检索功能和使用数字资源。

同时，图书馆还应该重视跨库检索建设和服务的评价，主要评价跨库检索系统的成效、价值和在用户中的影响力，及时解决跨库检索系统在项目建设和服务体系中出现的问题，尽快完成对重大问题的修复，及时迭代出适合普通用户的跨库检索系统。此外在个性化需求时代，不同的用户具有不同的需求，及时跟踪个性化用户的需求也是图书馆的重要任务。图书馆跨库检索系统不但需要快速迭代系统，解决用户反馈的问题，还应该跟踪用户的个性化需求，提升数字化图书馆的服务水准。

4.3 提升探索图书馆发展理论与实践的积极性

当前我国图书馆的跨库检索服务水平尚落后于国际先进水平，随着“中国制造2025 计划”的全面展开，相应地要求图书馆追赶发达国家的服务水平，因此，及时、准确地对接国际领先的数字信息资源服务是当务之急。首先，需要加强图书馆专业团队的业务培训，加强馆员对于数字化和跨库检索的认知能力；其次，还需要强化对图书馆跨库检索的理论与实践研究，虚心学习国际领先的图书馆服务经验，以开放的心态转变传统图书馆的思维，积极探索图书馆前沿理论与实践。通过树立先进的资源共享和跨库检索图书馆思维模式，从根本上提升图书馆的资源建设和服务水平。最后，由于传统图书馆管理团队对数字化和互联网掌握有限，所以应该积极引进信息技术平台，帮助图书馆完成朝着互联网和数字化方向的改革与转型。同时，作为图书馆员，也需要及时关注和了解图书馆的未来发展方向，挖掘图书馆内在的业务需求，并寻找适合业务的IT 解决方案。通过深入分析图书馆在互联网和数字化方向发展的需求和关注点，为图书馆制定清晰明确的战略规划，在实现图书馆资源整合与优化的同时，完善跨库检索功能与服务。

4.4 培养图书馆跨库检索的人才团队

在传统图书馆中，人才团队主要以管理人员为主，虽然对于馆藏的文献资源具有较强的管理能力，但是在信息检索和数字化技术上的能力较为薄弱。因此，在图书馆构建跨库检索系统以及资源整合与优化的过程中，还应该为跨库检索和资源优化配备专业的人才团队，以满足数据海量增加时进行的数据挖掘和分布式计算等需要。实际上，在图书馆解决跨库检索的资源整合与优化过程中，无论采用何种检索模型，依然可能出现各种错综复杂的数据类型和数据传输问题，而仅仅依靠传统文献资源数据库和服务器无法从根本上解决这些问题。因此，图书馆需要自己培养跨库检索和数字资源的人才团队，以应对各种突发的数据检索问题。在培育人才团队的过程中，一方面，图书馆可以将学习能力较强的管理员作为培养对象，使其快速掌握互联网和数字化技术，逐渐发展成为具有互联网和数字化背景的管理人员。此外还可以邀请专家进行技术方面的讲座，开展信息技术专业竞赛，组织馆员积极参与其中，提升图书馆内对于信息技术的学习风气和热情。另一方面，图书馆还应该大力引进人才，通过招聘技术人员，完善图书馆的信息化和跨库检索技术团队建设。如今，快速发展的信息化和互联网对传统图书馆产生了较大的冲击，图书馆的未来发展方向将越来越信息化、智能化。因此，尽早培养专业的技术团队，能够在数字化和跨库检索背景下更好地完成资源整合与优化工作。