论图书馆数字文献资源采集和检索模式
2009-05-31郑红京
郑红京
关键词:图书馆数字文献资源;采集;检索
摘 要:随着信息技术的发展和广泛应用,图书馆数字资源得到了迅猛发展。本文在系统介绍数字资源类型和来源的基础上,重点论述了数字文献资源采集中存在的问题及其检索的模式方法。
中图分类号:G250 文献标识码:A 文章编号:1003-1588(2009)06-0078-03
1 数字资源的类型和来源
1.1 数字资源的类型
数字资源的类型包括:由未公开出版的著作、教材、学位论文、管理文件、科技报告、学报等“灰色文献”形成的原生数字资源;由图书馆外购的馆藏文献所形成的馆藏书目数据;由本地区或本院校学科专有文献形成的特色数字资源;由专业特色资源加工的专题数字资源;由电子教案、网络课件、电子教材、试题库、教学参考资料等其他学科专业信息组成的数字资源;还有用通用性较强的图书、报刊、图片、声像、缩微资料等加工后形成的数字资源。这些数字资源,按信息的表达方式分,有题录、索引、文摘、全文以及图画、声音、动画、电影等形式,几乎涵盖包括马列、哲学、社会科学、自然科学和综合性等所有的学科;按信息使用范围分,包括通用信息,系统使用信息,专业信息,专题信息等方面,其载体形态包括网络数据库,电子图书,电子报刊,WEB资源,文本文档,图形图像,声频、视频等,由此构成一个由信息内容、表达方式和信息载体组成的三维立体结构。数字资源是一个发展着的有机体,数字资源的类型也不是一成不变的,而应是动态发展的。数字资源类型体系应及时吸纳、涵盖这些新兴类型。另外,随着数字资源内涵与外延的深化,拓展,数字资源的分类标准与分类方法也可能发生变化,数字资源类型体系亦应及时地予以调整,以保持数字资源类型与其定义的一致性。
1.2 数字资源的来源
(1)自建的数据库。自建数据库,是根据信息需求建立的具有较强特色和针对性的各种专题数据库。包括中外文馆藏书目数据库,学位论文和会议论文数据库,教学参考书数据库以及各类全文数据库等。(2)引进的资源库。根据本单位的实际需求,从国内外数据商购买的联机数据库或网络数据库,光盘数据库,声像数字资源产品等。国外联机数据库,类型包括题录、文摘和全文数据库。如OCLC、First、seard、EI、scI等;国内联机数据库如中国期刊网,万方数据资源系统国研报告,中经专网等;光盘数据库,包括网络光盘数据库和单机光盘数据库。如邓小平理论研究、江泽民论著、人民日报、解放军报、参考消息、中国大百科全书、四部丛刊、人大报刊复印资料等光盘数据库、超星电子图书、方正电子图书、书生电子图书、清华同方光盘、CNKI系列数据库、万方数据库、重庆维普期刊全文数据库等光盘数据。(3)因特网上下载或虚拟连接的信息资源。对利用率高的因特网上的信息资源,用代理服务器方式,通过虚拟连接,所建立的学术导航库,根据用户需求,有计划地下载、重组的信息资源库。
2 数字资源建设中存在的问题
2.1 数字化信息存储载体寿命有限,依赖于其物理存储载体的寿命。机读磁带、唱片、硬盘驱动器的寿命为十年至几十年,其中磁带的寿命约为15~20年,即使是最耐用的CD-ROM,其寿命也不过30年。只有不断重新复制,才能保持已存储信息的稳定性。人们最爱用的信息存储载体的实际寿命远不及经过特殊防腐处理的纸张和缩微胶卷。计算机专家习惯于考虑的问题是怎样使电脑的记忆更丰富,运算更快,很少想到长期保存的问题。
2.2 版权问题。文字、图像等作品在转换成数字化作品后,通过计算机网络进行传递。因此,各类作品之间界限模糊、相互渗透,而且使得作品复制的容易程度和速度,复制品质量、处理和修改作品的能力,复制品向公众传播的速度都会大为改观,给侵权行为打开方便之门。一方面有版权的作品以数字化形式存储后,就难以甚至不可能对侵权行为加以控制,这样版权保护就成了一句空话。另一方面,数字化作品通过网络在国际间传递,使版权问题更加复杂。
2.3 缺少统一的标准和规范。数字图书馆从概念的提出到实际的建设,时间很短,数字信息资源从技术开发、产品化到组织、使用和管理的一系列过程,缺乏有效的协调机制,没有一套可供遵循的标准和规范。数字图书馆标准规范体系包括数字资源建设标准规范、数字图书馆应用服务标准规范、版权保护与权利描述标准规范、电子商务标准规范等。就数字资源建设和应用服务系统而言,涉及的标准规范包括:一是数字的加工、描述、组织、存储、检索和服务的标准规范;二是元数据统一结构框架和相应的元数据描述与加工处理、转换、检索的标准规范;三是网上资源搜集、筛选、编目、加工和使用方法的标准规范;四是统一的描述机制、统一的资源命名规则和惟一标识;五是开放的、可互操作的数字资源组织与管理标准规范;六是可互操作的数字对象调度机制等。由于没有统一的标准和规范,同时加上经济利益的竞争和冲突,不同企业在研究开发机制上缺少开放性,无形中强化了相互间的技术壁垒:其所形成的独立的数据库、检索系统和发布系统,与其他企业在平台、协议、体系结构上各不相同,各个数据源没有统一的数据接口,无法通用共享,从而加大了数字图书馆的建设成本,降低了资源的使用效率。
2.4 存在着严重的异构现象。图书馆从各商家引进大量的数字资源后,就遇到大量的异构现象。数字资源的异构现象主要表现在两个方面:(1)系统异构。就是信息资源数字化的加工、发布和管理所采用的资源加工系统、数据库管理系统乃至操作系统的不同,构成了系统的异构。如,操作系统有UNIX、DOS、WIN等。数据的存储,可能包括关系模式、对象模式、对象关系模式和文档嵌套模式等几种,有时,即便是同一类存储模式,它们的模式结构也可能存在着差异。不同的数据库使用不同的检索软件,其检索界面的风格也迥然不同,具有很大的差异性。(2)资源异构。就是数字资源系统所采用的编码结构、表达方式、数据格式以及描述和组织标准不同,检索途径和方法不同。目前的数据类型就是多种多样的,如MS、Notes、DB2、Server,Foxpro,还有XML,CNMARC等格式。在信息资源的数字化建设过程中,不同的数据格式,不同的数据结构,不同的存储方式,不相同的管理系统,构成了数字图书馆的异构数据源,造成了信息源数据难以融合。
2.5 读者不能方便检索。异构资源虽然能够满足本地数据存储和管理要求,却无法满足用户的一致性访问需求,给读者检索和利用资源造成了许多困难和不便。(1)读者在查询多个数据库时,需要重复地登陆数据库,重复地输入关键词。当所要查找的信息可能包含在多种数字资源中时,只能分别检索,同样的查询题目需要用相同的或不同的检索方法,在不同的数据系统中重复查找。(2)读者可以通过计算机上网检索一个书目数据系统的数据,但是不能就有关的课题同时检索其中多个系统。有的图书馆购置了数十万册电子图书,但许多书目系统不能直接检索这些电子图书的信息,只能先在书目系统中检索到有关著作信息,然后退出该系统再进入电子图书系统浏览此书。(3)有的图书馆虽然引进了大量的国内外期刊全文数据库,但大多没有被包含在图书馆的馆藏期刊检索系统中。另外,一些重要的学科期刊论文,只提供索引或摘要数据库,不提供与这些全文资源的直接链接。读者在这些索引数据库中找到所需的期刊论文的篇名信息后,还须再退出来重新进入全文数据库查找原文。(4)检索一种数字资源时,由于所需资源是连续出版物,存储在多张光盘中,读者要在这些数据库中就同一课题检索时,必须重复操作几十次。数字资源的异构现象,给使用者带来诸多不便,影响着数字资源的有效利用,也延缓了数字图书馆的发展。从某种意义上讲,数字资源量越大,给用户造成的负担也就越重。
3 数字资源统一检索的基本方法
3.1 基于本网站异构资源重组性统一检索。对于自建、引索和网上下载的各种资源,最理想的途径是开发或引进一个易用、高效、功能齐全的资源加工和整合系统,对异构资源重新进行分解组织,封装整合,链接和统一管理,用户从开始检索不同来源不同性质的数据,到最终获得原文,都在统一界面中进行,使用户感觉如同只在一种信息资源系统中操作。其重组的方式是:(1)利用统一平台,对馆藏文献资源按统一的格式进行数字化加工和流程管理,对电子教案、教材、研究生论文等原出数字化文献,直接通过网络进行提交,检查校验和发布。(2)利用资源加工系统对各种格式电子文档、光盘数据、结构化数据产品、关系数据库数据和高视频文件等各种数据,包括数据存储格式、访问模式进行一致化处理。在统一的环境上进行转换、导入和发布。(3)利用资源整合系统对各种不同结构数据库的数据进行迁移、转换,通过关系数据库网关数据整合,实现数据从关系数据库到全文数据库的数据迁移式构成联合的数据存储机制,从而为用户提供分类导航和全文检索的统一入口。
3.2 基于分布式异构资源集成性统一检索。数字图书馆是分布式信息资源的组织模式,必须能够融合大量的信息源和信息服务,为读者提供深层次的信息资源。建立一个统一的、互操作的、可伸缩的信息集成服务体系,将分布互连的异构资源集成为一个整体,屏蔽各信息资源的差异,在此基础上提供统一的服务接口,语义化检索,智能代理等高质量的信息服务。这是实现统一检索的基本途径。分布式异构资源集成性统一检索,也称一站式检索,其实现方式有:(1)采用Z39.50协议对书目信息统一检索。Z39.50协议广泛采纳基于MARC标准,良好的互操作性,屏蔽了不同数据库间的异构性,使用户能够以统一的接口查询所有的Z39.50服务器,实现了联机编目。通过Z39.50协议,用户可以在一个OPAC系统界面,对相关图书馆不同平台上的OPAC书目数据进行分布式检索,显示各馆符合检索条件的命中记录,不需要在各个图书馆不同的OPAC界面间来回切换。不过这种方式只是解决了书目信息的统一检索,目前有的单位,通过SOAP协议与Z39.50协议的结合,实现了对全文的浏览。SOPA是用在分散或分布的环境中交换信息的简单的协议,以XML格式发送消息,可以很好地与各种其他协议结合使用,在广域网的包装中,能够确保互用性等。将SOAP协议与Z39.50协议相结合,以增强互操作性的功能。有的图书馆把书目数据套录和转换成标准的CN-MARC数据,并与各类管理系统的全文数字资源实现成功对接。用户通过Z39.50协议,既可以完成书目数据的检索,也可以直接链接数字资源,实现在线全文浏览。(2)采用OAI协议对PC元数据的统一采集和检索。OAI协议是一个元数据采集标准,通过OAI简单开放机制搜寻和集成数据提供方提供的基础性元数据信息和读取功能。建立元数据库,数据提供方不提供一次文献,用户可以通过统一的界面用集中检索模式查询元数据,需要读取数字对象则通过数据提供方检索使用各种媒体的数字资源。与此种联合检索方式相似的检索,还有基于编目中心思想的检索。这种检索就是将分布在各个地方的数字图书馆的元数据集中到一起,用户检索时先对元数据中心库进行检索,选中一个检索结果后,通过数字图书馆建立的协议和组件编码库,到相应的数字图书馆中打开相应的对象数据的内容,读者可以通过一个检索门户对网络上所有的数字图书馆进行检索。元数据中心的设立有三种方案:一种是设立全网性元数据中心。就是将网上所有数字图书馆的元数据都存在一个中心;第二种是在每一个数字图书馆都设一个全网性元数据库。元数据库通过网络可以同步修改更新;第三种是按地域设立多个全网性元数据中心,用户可以根据网络情况就近或灵活连接最好的元数据中心,对元数据和对象数据进行检索和调用。(3)采用多线程搜索技术对网络资源实时采集和检索。多线程搜索系统是一个网络资源自动采集系统,通过这个系统能够将用户需要的目标站点、网络资源库中的内容实时地进行搜索,自动过滤,去重,对内容自动分类,标引,并自动导入本地指定的数据库中,不再受原网站环境和数据格式的影响。(4)采用对象请求代理(ORB)和基于成本优化的查询算法对多个网络异构数据库进行并行检索。对象请求代理(ORB)是一种中间件,核心思想是分层,通过在操作系统与应用系统之间增加一层独立的系统软件或软件平台,屏蔽应用系统复杂的技术细节,实现对应用系统的透明访问。目前,通过对象请求代理体系结构CORBA/IIOP已成为网上实现对象互访的技术标准,IIOP已成为解决异构平台,集成已有系统的基本协议,ORB也已经成为构建网络分布式应用系统的重要支撑工具。其主要功能是能够解决网络分布计算机环境中多种异构数据资源的互联资源共享,协同工作和互操作问题,实现了各种应用软件的协同工作和多个目标系统之间的无缝连接。中间件技术与基于成本优化的查询算法和多库并行检索技术的结合,使用户可以通过一个统一用户界面同时跨越不同的网络,不同的机器和不同的操作系统,对多个分布的网络数据库进行检索,并根据检索结果返回的速度分别显示。
上述解决数字资源统一检索的方式,在类似问题上已经有成功的实例,在国内数字图书馆的建设过程中发挥了作用。它改变了人们观察和创建数字资源的方法,为用户提供了多样化多层次多媒体的信息检索服务。
参考文献:
[1] 马文峰.数字资源整合研究[J].中国图书馆学报,2002,(4).
[2] 张海涛等.数字图书馆的互操作研究:Z39.50和OAI协议的比较[J].现代图书情报技术,2003,(2).
[3] 王善平.论数字信息资源的整合与标准化[J].情报资料工作,2002,(6).
[4] 李秀.数字图书馆的互操作与分布式构件技术 [J]现代图书情报技术,2002,(1).
[5] 代根兴,周晓燕.信息资源类型研究[J].中国图书馆学报,2000,(3).