APP下载

基于跨库检索的数字图书馆资源整合方式研究

2016-05-30南晓凡辽宁省图书馆辽宁沈阳110167

图书馆学刊 2016年1期
关键词:资源整合检索数据库

南晓凡(辽宁省图书馆,辽宁沈阳110167)



基于跨库检索的数字图书馆资源整合方式研究

南晓凡
(辽宁省图书馆,辽宁沈阳110167)

[摘要]阐述数字图书馆资源整合的必要性,介绍了数字图书馆中两种主要的跨库检索模型:概率检索模型、向量检索模型。探讨了数字图书馆资源整合内容方案,包括零次信息的重组与整合、一次信息的重组与整合和二次信息的重组与整合方案。最后根据上述内容,构建了基于跨库检索的馆藏资源整合平台。

[关键词]跨库检索数字图书馆资源整合

[分类号]G250.73

跨库检索平台是指在呈现给读者的一个检索系统界面中,对存在于多个数据库中的所需资源进行相关搜索,所以也称为统一检索平台,可以完成统一数据搜索,把在不同网络、环境、数据库存储系统以及操作系统中分布的数据检索出来,并集成检索结果,在用户操作界面上进行展示[1]。在目前的数字化时代,信息资源数量剧增,用户在对所需资源进行定位时可以在跨库搜索的基础上利用信息资源整合系统来实现,并且检索结果还能反馈到用户的使用界面上。跨库检索的优点是用户只需要登录一次就可以实现在全库范围内搜索资源,免去了不必要的重复登录[2]。

目前的跨库检索平台中,常用的整合信息资源的系统包括两个部分:首先是整合检索界面,主要是整合在信息资源系统中的所有库的界面,虽然有便利性的优点[3],但是其检索效率低下的缺点同样不可忽视,对底层数据源的控制并不能得到很好的实现;其次是要对数字资源信息系统间进行整合,这部分整合方式的实现主要是针对系统的分布式异构,利用分布式异构性管理中的算法,实现信息的整合检索,其优点是用户检索的效率能得到极大提高,但存在操作麻烦的缺点。在跨库检索基础上的资源整合在目前数字图书馆检索研究中无疑已经成为热点之一。

1 数字图书馆资源整合的必要性

在管理数字图书馆的日常工作过程中,通常会出现无法有效管理文献资料及数据资源的情况,而且存在这种情况的文献资源还为数不少,导致查询时耗费了大量的人力、物力和时间;面对图书馆中关系类型的数据库,对其中的信息资源无法高效地进行全文搜索;在图书馆的数字化进程中,要相应地把文件及资料也电子化,还涉及电子版发布的问题,所以必须以整合化来进行信息资源的建设。不难预料,随着图书馆的发展,图书馆馆藏管理的研究方向逐渐向信息资源的整合调整,在整合时必然要采用现代化的信息技术,这也是社会发展的必然要求。评价图书馆的信息资源体系时,其中关键的评价因素包含信息资源的整合能力及整合程度[4]。

1.1信息完整性、知识体系化的要求

信息技术和电子技术在不断发展,数字图书馆也随之拥有了越来越多的信息资源种类和数量。在信息资源中,以书目、索引和独立数据库等形式存在的大量异构资源在查看时只能给出资源链接和出处说明,用户在资源的使用时只能对资源分别获取,不能展现出资源与资源之间的联系。而在数字图书馆中,整合信息资源能建立不同载体和类型信息资源之间的联系,能有效地沟通信息和资源,知识结构愈加完整。

1.2用户使用的要求

公众性和开放性是数字图书馆的本质所在,也即是说在数字图书馆中无论信息资源的形式是什么,其目的无外乎是方便用户的使用和查询,所以必须要保证信息资源能被用户有效利用,但通常来说图书馆面对着差别较大的用户类型,检索对象包含不同文化程度和年龄层的用户,所以有必要整合数字图书馆的信息资源,确保用户只需要从一个检索入口查到的结果就是非常全面的,使检索效率和资源利用率都得到有效的提高。

1.3数字图书馆建设的要求

数字图书馆大多拥有数量较大、种类繁多的信息资源,在信息录入时,也容易出现重复的情况,不仅造成大量的人力物力消耗,还会导致数字图书馆中出现数量较多的冗余资源[5]。为了避免信息资源重复建设,使信息资源建设的质量得到有效提高,必须整合和重组现有信息资源,保证信息资源的健康发展,使信息资源保持可持续发展的状态。从数字图书馆的角度来说,其创新和科研能力也都得以进一步提升。

2 数字图书馆中的跨库检索模型

2.1概率检索模型

众所周知,判断系统用户与图书馆文献相关性,具有不确定性和随机性。图书馆馆藏文献与用户需求相关的可能性是随机的,这种随机事件发生的概率是文献与用户需求相关性的隐蔽性表达。通过计算或者估计随机事件的概率,文献相关的不确定性得以解除。

基于相关性理论构建的概率检索模型,是在对相关性不同理解方式的基础上,构建出的概率检索模型也有所不同,而且由此导出的排序原则也都是不同的。也可以认为概率检索模型的理论核心就是相关性原理及排序原理,而其技术难点在于数据来源以及有关概率的计算[7]。

2.2向量检索模型

为了把符合用户需求的检索结果反馈给用户,人们建立了一种向量检索模型,该模型多应用在查询请求较长时。该模型并不要求精确匹配查询请求和文档,只需要在查询请求和文档之间对检索方法进行定义,使其相似度符合即可,并且根据两者之间的相似程度排序所有的检索结果呈现给用户,便于用户对所需文档更方便地选择。

在20世纪60年代就提出了向量空间模型,与布尔模型不同的是,该模型囊括了线性代数的知识,在数据库文档以及用户检索请求的表达时使用了检索项的向量空间,并且对向量空间的相关性进行计算,对所有检索结果进行分类和排序提供给用户,便于用户对所需信息更好地定位。

3 数字图书馆信息资源整合内容方案

3.1零次信息的重组与整合方案

在数字图书馆中,零次信息也可称为灰色文献,字面上理解就是处在白色文献和保密文献之间的文献。白色文献是可公开发行的,保密文献是不公开发行的,灰色文献虽然不是保密的,但是也不公开发行。这类文献一般为政府的行政和科技报告、科研院内刊、高校学生的学生论文、学术会议相关资料、专家手稿以及调查报告等。其特点为具有较强的专业性、文献质量较高、与最新的科研动态接轨、涉及面较广以及种类繁多、包含的信息量较大等优点。但也有不可忽视的缺点:文献透明度较低以及读者范围狭窄等。从文献意义上来说,灰色文献是我国现代化发展进程中的重要信息资源,能把最新的科研水平和发展趋势展现出来,在文献信息资源中灰色文献已经成为不容忽视的一部分。因此,应该对这类文献分类,然后更深层次地开发和利用,构建完成零次文献数据库,并接受远程查询请求,使该信息资源可通过计算机网络在网上利用。

3.2一次信息的重组与整合方案

与零次信息不同的是,一次信息是经过加工的信息资源,并将其加入网络的电子化信息之中。一次信息的优点是有较广泛的信息来源,而且拥有繁多的种类以及丰富的内容;其缺点是内容优劣不等,零散杂乱。其优缺点决定了我们在进行信息的选取时,要把无用的信息摒弃掉,选择质量较高、来源可靠、实用的精加工过的信息资源。组织一次信息时,有多样化的方式,包括自有文本、超文本以及主页方式。其中自有文本方式多用来构建全文数据库,把采集的网外全文信息组织在一起,输入网络;超文本方式是有机地组织网络上相关文本的信息,用户可以从不同角度从任意节点对信息进行浏览和查询;主页方式与档案组织法较为类似,多用于组织个人和有关机构的信息。目前在互联网上,超文本方式是大部分一次信息的组织方式。

3.3二次信息的重组与整合方案

加工、提炼和浓缩一次信息之后可以得到二次信息,其是一种工具性文献,是为了便于对一次文献管理和利用而累积起来的。目前在网内具有海量的一次信息资源,并且其数量还在不断地迅速增长,但互联网并不具备情报功能,不能把一次信息与用户所需信息进行自动转换,这就需要我们借助情报学有关知识,基于相关理论和分析方法,进行“信息资源链”的组织,构建出信息搜索工具,对网上一次信息资源进行管理和控制。目前,二次信息主要以搜索引擎为组织方式,作为互联网上的一类网站,搜索引擎要从Web服务器中自动搜寻信息,并且分类搜寻到的信息,之后把建立的索引内容存放到数据库中。全文搜索引擎是搜索引擎研究的一个主要的发展方向,主要是全面检索站点页面文字内容,提供的检索功能相当强大,在直接搜索文献内容的同时,还支持多侧面和多角度的综合利用。在信息的发现、分析、过滤、代理和安全控制方面全文搜索技术是应用的基础所在。搜索引擎的核心就是全文检索,目前已经成为当今时代的主流之一。对全文检索系统评价的关键指标是全面、准确和快速,整合和重组二次信息,首先要从网上对所需文献进行有针对性的选择、分析和下载,并且简要地介绍和评价文献资源的内容特色和学术价值。然后在文献目录中按照统一格式组织链接相关知识点和文章。其次,要进行软件的开发,要具有自动转换网页文件、搜索、关键词的搜索以及著录等功能,并且经过自动的整理之后传递给用户便捷的网页形式。再次,进行数据库镜像的设立,对国内外源数据库进行定期精选,并将镜像复制到本地服务器上,使用户能对最新的文献资源进行及时的利用。最后,要开发出图书馆与用户交互的功能,用户使用后进行意见的反馈,对用户个性化需求进行分析和跟踪,同时图书馆还能以邮件的方式将检索到的文献资源及时提供给用户。

4 基于跨库检索的馆藏资源整合平台的构建

4.1跨库检索统一平台设计

跨库检索中,设计统一平台的目的是接受用户的查询请求并把检索到的结果按照统一格式反馈给用户,同时用户接口管理模块还要负责身份认证等;面对返回的数据,统一平台中的信息处理程序的功能是执行排序、合并、去重、转换格式等操作;数据接口模块的主要任务是通过连接数据库及各异构数据源,进行资源的选择,并根据检索服务的不同传递相应的查询结果,结构如图1所示。

图1 跨库检索统一平台结构

4.2跨库检索平台的实现

目前有很多方法都可以实现跨库检索,比如利用数据库接口软件能直接连接不同的数据库,但是最常用的方式是中间件的使用,异构数据库通过中间件实现跨库检索可分为以下几个部分,具体实现原理如图2所示。

图2 跨库检索系统实现框架

首先是统一检索界面,该部分设置的功能包括:读者身份验证时采用用户名和密码进行网页登陆的方式;用户输入检索请求;用户选择所需的数据库及检索结果的排序方式;帮助模块;返回跨库检索查询并处理排序后的结果。

其次是数据处理系统,该部分设置的功能包括:按照检索系统的要求以统一的规范对用户的输入词进行转换,并且把转换后的检索请求发送到中间件;中间件对各异构数据库进行查询之后反馈检索结果,数据处理系统进行数据的合并和排序等操作,同时参考用户在检索界面中设置好的排序方法进行数据的排序显示。

最后是中间件,这是一种重要的工具,支持着网络分布式应用系统的构建,该部分设置的主要功能是在网络分布计算机环境下解决相关异构数据源的共享与互联,同时还协调提供多种应用软件的使用。用户输入检索关键词之后,数据处理系统把检索关键词按照统一的格式进行关键词的转换,使之适应各数据库的查询格式要求,中间件再把处理后的检索词提交给各异构数据库进行信息检索;中间件获取检索后,转换检索结果为统一检索平台支持的格式并提供给数据处理系统。

5 结语

跨库检索技术应用在数字化图书馆资源整合中,能充分利用馆藏资源,最大限度地共享网络资源,为数字图书馆的进一步发展提供更好的技术支持。相信未来随着跨库检索技术的不断发展,图书馆资源整合会更加合理和完善。

参考文献:

[1]黄传慧,李娟.我国图书馆数字资源整合研究[J].图书与情报,2009(4):66-69.

[2]夏明春,强切云.我国高校图书馆资源整合的现状:调查与建议[J].大学图书馆学报,2008(1):39-44.

[3]谢宝义.高校图书馆数字资源整合模式研究与实践——以石家庄铁道大学图书馆为例[J].图书馆建设,2011(2):33-35.

[4]栾芳芳,韩全惜.图书馆数字资源整合方式比较调查分析[J].现代情报,2007(12):94-98.

[5]张云秋.国内外跨库检索系统功能的比较研究[J].图书情报工作,2006(8):114-116.

[6]翟姗姗,陈卓群,夏立新.基于OGSA的数字图书馆跨库检索平台构建[J].情报科学,2011(2):292-297.

[7]王轶珺.基于本体的跨库检索集成系统框架研究[J].现代情报,2008(1):170-175.

南晓凡男,1978年生。本科学历,副研究馆员。研究方向:数字图书馆。

·文献考略·

收稿日期:(2015-10-12;责编:张欣。)

猜你喜欢

资源整合检索数据库
少先队活动与校外资源整合的实践与探索
“五育并举”下家校社资源整合的价值意义
海外并购中的人力资源整合之道
2019年第4-6期便捷检索目录
智慧高速资源整合方式实践
数据库
数据库
专利检索中“语义”的表现
数据库
数据库