APP下载

馆藏数字资源整合系统构建探究

2012-04-12陈锦波

河南图书馆学刊 2012年1期
关键词:资源整合馆藏检索

陈锦波

(广东药学院图书馆,广东 广州 510006)

1 前言

当前,国内图书馆已基本进入数字化时代,许多图书馆都加大对数字资源的建设和利用,比如创建馆藏文献书目数据库、自建各种特色数据库和购买各类型文献数据库等。这些数据库由于来源不同,系统之间彼此独立、数据存储结构、信息组织方式和查询方式等都各不相同,用户若要查找、利用馆藏数字资源,必须分别进入各个数据库系统,在熟悉每个数据库的检索方式下才能获得所需要的数字资源,这给用户利用信息造成一定程度的困难;为了使用户能快速地利用图书馆数字资源,有必要对馆藏数字资源进行整合,建立图书馆馆藏数字资源整合系统。

馆藏数字资源整合,是指依据一定原则与规定,借助数字资源无缝链接等技术,把不同来源和不同通信协议的信息系统相互兼容,使不同类型、不同格式的数字资源实现无缝链接[1]。馆藏数字资源整合系统是一个跨平台、跨数据库、跨内容、多层次的数字资源体系。

2 馆藏数字资源整合的必要性

2.1 馆藏数据库资源存储格式不同,给用户利用馆藏资源带来不便

当前我国对数字资源的存储格式没有统一规定,数字资源的存储格式由数字资源研制机构自己决定,比如,图像文件可选择JPEG格式、GIF格式或TIFF格式[2];文本文件可选择PDF格式、TXT格式、SGML格式、HTML格式或XML格式;音频或视频文件可选择AVI格式、MPEG格式、WAV格式或MIDI格式。这些不同的存储格式,决定了各个数据库拥有相对独立的管理系统、检索界面和检索方式;由于各个数据库的检索设计规则和检索字符等互不相同,用户必须先后进入各个数据库中进行信息检索才能从各个数据库中获取所需要的信息,这给用户利用馆藏数字资源带来了很大的不便。

2.2 馆藏数据库的内容存在着一定程度的交叉重复,降低了用户对信息的查准率

馆藏文献数据库内容重复使用户必须花费大量的时间和精力对数据进行筛选,从而降低用户对信息的查准率。比如中国期刊数据库、维普中文期刊数据库,它们都是收录国内的期刊论文、会议论文和学位论文;一篇普通的论文,既被中国期刊数据库收录,又被维普中文期刊数据库收录,从而造成中国期刊数据库和维普中文期刊数据库的收录内容交叉重复。超生电子图书数据库和书生电子图书数据库,它们收录的对象都是国内出版的图书,这使它们所收录的图书数据,有很多条目的内容是相同的;这些相同的信息,不仅增加图书馆的收藏成本和运行成本,还增加用户对馆藏资源利用的时间成本,从而降低用户对馆藏数字资源的利用效率。

2.3 检索途径与检索界面不同

各种数据库对信息资源采用不同的描述方式和组织架构,使它们的检索途径各有特色,从而导致它们的检索界面迥然不同[3];此外,各种数据库中还存在着大量的附件,它们以DOC、PPT、PDF等文件形式存储在服务器上,仅仅在检索界面上保留了附件的标题、年份、作者等信息,用户难以通过简单的标题、年份、作者等信息来辨认该条信息的具体内容。

2.4 网站代理登录

网站代理登录系统是指图书馆在购买商业数据库的使用权后,在图书馆的网站建立该商业数据库的登录链接。由于商业数据库网站创建的时间和采用的技术不同,其检索方式也存在着差异;用户若需要利用这些数据库资源,必须不断游走于各个数据库网站,从而降低用户对信息的利用效率。

为解决馆藏数字资源因数据描述方法和组织方式不同、信息存储格式差异和数据库内容交叉重复,方便用户对馆藏数字资源的利用,有必要在图书馆构建数字资源整合系统。

3 馆藏数字资源整合系统的构建

3.1 馆藏数字资源的整合方法

在馆藏数据库中,既有数据组织方式和通讯协议不相同,又有数据收录内容交叉重复;既有自建数据库,又有购买商业数据库;因此,针对不同类型的数据库,分别采用协议标准整合方法、主题图整合方法和网络爬虫与搜索引擎相结合的方法。

3.1.1 协议标准整合方法

对数据组织方式和通信协议不相同的数据库,需采用协议标准整合方法。协议标准整合方法是通过借助中间件技术手段,比如OAI-PMH(Open Archives Initiative Protocol for Metadata Harvesting)协议[4],对采用不同数据组织方式和不同通信协议的数据库在同一界面内实现整合检索,从而实现数字资源整合目的。

3.1.2 主题图整合方法

针对数据库收录内容交叉重复的数字资源,易采用主题图整合方法。主题图整合方法是将数字资源之间的关系通过“主题、资源出处和关联关系”的形式,将一定领域内的知识结构和它们之间的语义关系具体化。主题图整合方法是一种操作简单且具有成效的解决方法。[5]

3.1.3 网络爬虫与搜索引擎相结合的方法

图书馆购买商业数据库的使用权,用户若需要利用这些数据资源,必须先登录各个商业数据库网页,这难免给用户带来麻烦,而采用网络爬虫与搜索引擎相结合的方法,则能为用户减少这些麻烦。网络爬虫是一个自动提取网页的程序,它与搜索引擎相结合,从万维网上下载网页;网络爬虫与搜索引擎相结合,使馆藏数字资源整合系统能根据一定的搜索策略从各商业数据库中选择需要抓取的网页URL(Universal Resource Locator),所有被抓取的网页,经分析、过滤、存贮,供用户查询和检索。

3.2 馆藏数字资源的整合步骤

3.2.1 针对数据组织方式和通信协议不同的数据库的整合步骤

利用OAI-PMH协议,储存整合对象的数据库系统,其中包含可使用撷取协定进行检索的诠释资料;这些诠释资料经过都柏林(Dublin Core)元素集(Element Set)编码记录后,以XML的编码格式传回。OAI-PMH还支持Perl、Java和C++等程序语言,它能从不同的数据组织方式和通信协议的数据库中获得诠释资料,依据诠释资料制作索引作为搜寻线索,以达到搜寻全文信息的目的。此外,还需要建立新的框架体系结构,来解决馆藏数字资源整合系统与各数据库系统之间的互操作性问题。比如,采用OAI-PMH建立典型的元数据采集框架,实现元数据的互操作,实现馆藏数字资源整合系统与各数据库系统之间的互操作。利用OAI-PMH协议标准整合数据资源,实现馆藏数字资源整合系统与各数据库系统之间的互操作是数字图书馆发展的新趋势。

3.2.2 馆藏数据库收录内容交叉重复的整合步骤

对馆藏数据库收录内容交叉重复的整合,必须采用主题图整合方法。主题图起源于传统的图书馆查询辅助工具,比如书后索引、术语表和叙词表等,它吸收了传统索引和图书馆学科等优点,它用来描述庞大复杂的信息结构。主题图能够为馆藏数据库整合提供一个语义接口,为用户提供语义层面的检索功能,克服基于关键词匹配查找效率低的缺点。利用主题图整合方法的步骤是将每一个主题作为一个结点,通过主题关联关系将各个结点相互联系起来;通过资源出处,在资源域和主题域之间建立映射关系。资源域既包括结构化数据,也包括文本文档、XML文档等非结构化数据,可实现对分布式资源的多重索引;主题域则是在资源域之上建立起来的概念地图,它为主题图提供有效的信息组织和导航方法,减轻用户使用信息资源时的信息迷航。资源域和主题域相互分离,使相同的主题可以覆盖不同的资源域,不同的主题也可以覆盖相同的资源域,这种机制为用户提供不同角度的视图,它迎合用户使用习惯,更能满足用户对数字信息的需求。

3.2.3 商业数据库的整合步骤

对商业数据库的整合,必须采用网络爬虫与搜索引擎相结合的方法。它的整合步骤是:先创建采集对象,读取爬虫程序的配置文件;根据配置文件创建采集线程;根据预先设定好的语义,读取所有数据库,判断该数据库是否需要登录;如果需要登录,则系统会自动跳转到登录处,并利用预先设定的字符、字段抽取信息列表中的URL,放入采集队列中;重复以上步骤,直到信息列表中的URL全部被获取,并编入采集队列;循环以上采集队列,访问数字资源的详细页面,利用抽取规则获取页面HTML文件,诸如标题、作者、摘要等字段内容,将获取的内容存入相关表中,完成本次采集。爬虫程序既采集页面上的信息,也采集存储于商业数据库的附件文件,从而保证整合系统信息资源的完整性[6]。

3.3 数据清理

为了保证用户在资源整合系统中使用标准的检索词进行检索,准确获取检索结果,需要对上述三种形式获取的数据进行必要的数据清理。具体的方法是在系统中设定机构、作者、年份和叙词表,以保证系统中指定字段的标准记录;设计去重的标识字段,让整合程序首先运用去重标识字段对入库数据进行扫描,先剔除相同的记录,再使用相似度比对方法,对数据库的题录信息进行比较,若比较结果大于相似阀值,则作为相似记录处理,录入备用表中;利用已创建机构、作者、年份、叙词表,结合字符串比对方式对部分字段中的数据进行格式转换和数据清理,并为馆藏数字资源整合系统建立标准的数据格式。

3.4 标引模块

标引模块的主要任务是构建一个分类体系,建立类与类之间的层级关系。利用分类标引方法,在馆藏数字资源整合系统中建立各种分类标引模块,使用户能借助分类标引模块接口对馆藏数字资源进行导航和检索。为保证用户从每个类目入口都可以检索到与之相关的信息,馆藏数字资源整合系统必须采用可叠加的分类标引,即可对单条记录进行多次标引。

3.5 检索模块

以题名、作者、出版年、主题词和关键词等条目作为索引导向,创建可提供用户信息检索的模块称检索模块。检索模块包括跨库检索、高级检索、布尔逻辑检索、机构导航和分类导航等。跨库检索是用户可同时选中多个异构数据系统,进行一键式检索。高级检索是用户无需在检索界面上输入逻辑算符、语种和年代限制等符号,只需在系统提供的“Search For”检索对话框中输入检索词,选择所需的逻辑算符、语种、年代和文献类型等以及相应的限制字段,即可执行检索。布尔逻辑检索是高级检索的组成部分,它提供检索生成器,用户只需在生成器中通过选择字段和操作符,利用检索式之间的逻辑关系建一个树形结构,系统就会自动生成一个布尔表达式;通过这种方式,用户可构建一个复杂的检索式。机构导航和分类导航,是指用户选择相关机构或分类,通过链接方式找到需要的资源。检索模块所检索出来的信息,按相关度正序或时间倒序排列,用户只要选择其中任何一条信息,就会得到该信息的位置和详细内容。[7]

3.6 全文数据管理模块

馆藏数字资源整合系统中的所有数据,还是存在于各个数据库中,这就需要在馆藏数字资源整合系统中建立全文数据管理模块。全文数据管理模块是判断用户检索信息的数据库来源,通过系统设定的路径,自动转向该信息所在的数据库,直到打开相关文件信息。全文数据管理模块的工作方式分为两种。第一种,对于开放链接的数据库,可直接通过访问数据库的URL获取全文信息;具体操作是用户将索引库中保存的原文地址或附件地址打开,根据系统提示浏览或保存所需要获取的信息。[8]第二种,对于不支持开放链接的数据库,则需要登录相关数据库才能获取全文;具体操作是用户选择记录在索引表中的数据库信息,整合系统凭借该信息指定的数据源,根据预设的策略,在信息来源数据库中用指定的检索词进行检索,并将检索结果返回用户界面。

4 结语

图书馆馆藏数字资源整合系统的构建是数字资源整合理论在数字图书馆工作上的实践运用,但不同性质和规模的图书馆还是要结合自身情况、用户对数字资源的需求情况,合理构建馆藏数字资源整合系统。馆藏数字资源整合系统能支持用户利用信息、提炼知识和解决问题,真正为用户提供一站式服务,真正为用户创造一个良好的数字资源学习和运用环境。

[1]吴丽娜.高校图书馆数字资源整合研究[J].图书馆学刊,2010(4):52-54.

[2]王军.保存型元数据研究[J].图书馆理论与实践,2006(5):30-32.

[3]刘罡.图书馆数字资源的整合方式[J].情报探索,2009(8):61-62.

[4]郭少友.基于OAI-PMH的信息资源整合[J].大学图书馆学报,2005(3):16-18.

[5]张玉涛,夏立新.基于主题图的电子政务信息资源整合模型研究[J].情报杂志,2009(7):161-165.

[6]谷俊,严明.企业数字资源整合系统的设计与实现[J].情报杂志,2010(5):183-187.

[7]胡朝明,黄志强.模块化整合图书馆数字资源的方法和策略[J].图书情报工作,2010(4):34-38.

[8]姜爱蓉,黄美君,窦天芳.数字资源整合与信息门户建设——清华大学图书馆的探索与实践[J].现代图书情报技术,2006(11):2-6.

猜你喜欢

资源整合馆藏检索
馆藏
少先队活动与校外资源整合的实践与探索
“五育并举”下家校社资源整合的价值意义
博物馆的生存之道:馆藏能否变卖?
海外并购中的人力资源整合之道
知还印馆藏印选——古印篇
智慧高速资源整合方式实践
专利检索中“语义”的表现
介绍两件馆藏青铜器
国际标准检索