APP下载

图书馆数字资源长期保存及安全管理问题

2019-10-16

中国现代教育装备 2019年17期
关键词:数字信息检索图书馆

龚 芳

荆楚理工学院图书馆 湖北荆门 448000

图书馆作为信息资源储存地,长期承担着信息资源保存及利用功能,随着互联网技术的不断发展,人们对数字资源的依赖越来越强,如何将数字资源长久保存,让人们能够随时随地调取及安全使用,成为图书馆发展的一个重要课题,因此只有充分了解了数字资源的定义、特性、存储形式等方面的内容,才能长久地保存信息资源,更好地服务广大读者。

1 数字资源

数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。它是可识别的、抽象的符号。信息与数据既有联系,又有区别。数据是信息的表现形式和载体,可以是符号、文字、数字、语音、图像、视频等。而信息是数据的内涵,信息加载于数据之上,对数据做具有含义的解释。数据和信息是不可分离的,信息依赖数据来表达,数据则生动具体表达出信息。

数字资源是文献信息的表现形式之一,是将计算机技术、通信技术及多媒体技术相互融合而形成的以数字形式发布、存取、利用的信息资源总和。

商业化的数据库、机构或个人建立的数据库、各种网络免费资源等都属于数字资源,例如百度文库。

2 计算机时代图书馆的数字资源革命

图书馆作为人类文明保存地,一直是人们查阅资料获取知识的重要阵地,但随着互联网技术不断发展,人们越来越习惯利用网络平台获取自己所需要的信息资源,人们不再单纯地依赖传统图书馆去查找自己所需要的文献信息,信息资源存取的自由化、共享化、数字资源在获取资料上的便利性以及检索的快捷性、全面性等特性,成为吸引大众利用数字资源的主要原因,数字图书馆在短时期内迅猛发展起来,世界各国对数字资源的开发也非常重视,美国、日本、加拿大、英国、法国等发达国家在数字图书馆的开发利用方面取得很大进展,形成了国际通用的数据模式标准,如都柏林核心元数据(DC)、编码文档描述(EAD)等十多种重要元数据标准格式。我国也开发了许多元数据标准,如中国机读目录格式(CNMARC),这样就出现许许多多元数据模型,如何使其进行对接,让不同的资源在同一环境中被充分利用,成为图书馆同行努力的终极目标和理想追求,不同的开发商开发利用不同的技术平台,开发出了多种多样的信息资源和不同的元数据,这样就形成了技术壁垒,信息资源的利用变得复杂起来,信息资源的存储安全和使用安全受到威胁。目前世界各国都在数字资源的保存安全方面做了许多有益的尝试。在数字资源发展的过程中,如果对新时代的计算机技术、通信技术及多媒体技术相互融合形成的信息资源没有了解,必然会被时代淘汰。如广州图书馆,已经建立了他们自己的数字资源网站,如图1所示。

图1 广州图书馆的数字资源网站

3 数字资源的特性

要想使数字资源得以长期保存,首先必须了解数字资源的特性。

3.1 数字资源的依赖性问题[1]

3.1.1 数据对存储介质的依赖

由于数字资源是虚拟的,如果没有存储介质和读取它的网络平台和计算机软硬件环境,它就成为一种看不见摸不着的东西,因此它对存储介质(物理媒介)具有依赖性,随着计算机技术的不断革新,数字信息网络环境也在不断变化,相应的数字信息的存储介质也在不停变化,它的存取方式、格式转换都会产生相应的变化,必然会给数字资源的保存带来一系列的问题。

3.1.2 数据对元数据的依赖

人们获取数据的方式,是通过各种检索形式搜索得到,如某个关键词、某个内容信息及特征。元数据是用来揭示各类型数字信息的内容和特性,进而对各类型的数字信息组织、标引、分类、索引,以便在数字资源中方便地查找和检索。所谓元数据,英文名Metadata,即Data about data,目前图书馆界对元数据还没有一个权威的定义,但人们通常认为元数据是“关于数据的数据”或“关于数据的结构化数据”,也就是说元数据是描述数据的数据[2]。它从两个方面来强调元数据的定义,一方面是元数据是提供关于信息资源或数据的结构化数据,是对信息资源的结构化描述;另一方面是突出其功能,即描述信息资源或数据本身的特征和属性,从而有利于数据之间的交流和共享。如MARC和都柏林核心元数据就属于描述性元数据,它旨在帮助用户搜索发现信息并确定其存放位置,然后确定是不是自己所需要的信息。目前国内外重要的元数据有:都柏林核心元数据(DC),其主要作用推动网络信息资源的发现;艺术作品描述类目(CDWA),这是描述艺术作品的结构化工具;编码文档描述(EAD)等十多种重要的元数据。

3.1.3 数据对标准化的依赖

数字信息的标准化是数字资源高效利用和长期保存的必要条件,随着网络技术的不断创新,数据格式的开发推陈出新,因此数据保存的连贯性需要有一个标准才能长久地保存下来,以利于读者检索并加以利用,而有利于文献保存的标准多种多样,如数据格式标准、资源著录标准、资源标记标准、数据归档标准、文献管理标准,这些标准有利于图书馆之间的数据交换,促进馆际互借,数据共享,网络技术是不断创新的,而网络用户获取信息资源的能力千差万别,对于习惯了百度和谷歌的网络用户来说,统一的界面,一站式的搜索,跨库检索,成为数字图书馆发展的目标,因此图书馆数字资源的标准化是一个非常重要的条件。若数据没有标准化,则会出现如图2所示的情况。

3.2 数据的脆弱性问题

3.2.1 数据的易修改性

存在于网络上的数字资源,人们可以通过增减、复制来改变数据原来的形式,修改后的数字资源又容易在网上传播,真假难辨,这样人们对于网络上的数据资源的真实性存在许多疑惑,因此建立一个全国性的数字信息归档系统十分必要,一个能被广泛接受、大众认可、唯一有效与可行的策略是数字图书馆存在的基础。

3.2.2 数据资源的易破坏性

由于数据资源是存储在一定的设备(磁、光、电)介质上,随着时间的变化,一方面存储介质可能由于保存的方式不当而失效,另一方面因网络环境的变化造成数据信息读不出来的情况时有发生,这种破坏性又分两种情况,一种是永久的损坏,另一种是可以通过技术的修复重新获取,无论哪一种情况,对于信息资源的保存和获取都是不利的。

3.2.3 网络风险

网络系统是一个开放的系统,存在于网络上的数字资源,易受网络黑客攻击、病毒侵扰,信息在传输和存储的过程中,由于硬件故障、系统故障、人为因素等各种状况对信息资源造成危害的情况时有发生。

3.3 数据的多样性和复杂性

3.3.1 数字资源的多样性

数字资源的多样性主要表现在两方面,一方面,语种的多样性,世界上有5 000多种不同的语言,其中使用最广泛的是英语,使用人数最多的是汉语,这些语言又以不同的表达方式存在。另一方面,信息资源结构形式多样,有结构化数据和非结构化数据,如数字和符号等结构性数据能用数据和统一的结构加以表示,而非结构性数据如图像、声音、视频等则不能。

3.3.2 数字资源的复杂性

21世纪是信息资源大爆炸的时代,谁拥有了数据,谁就占据科技发展的最前沿,因此世界各国纷纷斥巨资进行数字资源的开发与建设。数字资源的复杂性表现在:其一,数字资源的内容规范、数据结构、检索策略不同;其二,不同开发商有不同的数据平台和数据库。各数字资源在同一个数据库中时很好用,当出现跨库检索时就会遇到许多难题,所以需要统一标准。

4 数字资源的长期保存及安全管理策略

数字资源的保存包括三个方面:安全存储、保存元数据和永久获取,这就需要解决数字信息存储的介质和技术形态问题,保证数据能够安全存取,无论现在和将来,都能够通过技术措施还原存储信息、实现永久获取。

4.1 数字资源的安全存储及使用

制订基于馆际互借的国际统一协作标准实现数字资源的长期保存,是为了更好地利用资源,让数字资源持续地保存并长久地得到利用。目前国际上对数字资源的利用制订了许多标准,为数字资源的利用提供了很大便利。

(1)国际标准化组织(ISO)制订并完成了OAIS开放的档案信息系统参考模型及MPEG-7(多媒体内容描述界面)等重要的国际标准。(2)远程信息检索协议(Z39.50)支持计算机使用一种标准、相互可理解的方式进行传输和通信,支持不同结构、不同格式和内容的数据在网络平台上进行数据传输,实现了异构平台、异构系统之间的互联与查询,目前大部分自动化系统集成了Z39.50的协议功能,用户只要采用基于Z39.50检索软件就可以同时对世界上多种异构平台数据库进行检索,实现信息资源共享。(3)通用的标准置标语言(SGML/XML),这是一种特殊的标记语言,一个包含文字、图像、影像、声音、符号等各种类型的数据集合,它在文件的保护和安全交换等方面具有强大的优势,SGML/XML提供了一种标引结构化的数据框架,当用户查询某一特定内容时,通过借助SGML/XML的查询引擎,可实现跨库跨平台高效检索。(4)元数据互操作协议(OAI),是建立在HTTP协议基础上的应用协议,能够实现不同系统平台之间的元数据的交换与共享,简化电子资源的传递,提高系统之间的互操作能力。(5)馆际互借协议Z39.83,通过此协议可实现三个方面的功能:借还书功能、可控的电子资源访问功能以及这些功能的相互协调和管理。(6)资源的链接技术与标准(SFX与OpenURL),OpenURL是一个开放的统一资源定位器,它可以通过SFX解析服务器实现不同供应商或不同平台上内容关联的数据链接。这些标准的制订都为数字资源共享提供了极大的便利和可能(如图3所示)。

图3 不同供应商或不同平台的数据连接

4.2 数字资源的长期保存[3]

目前数字资源技术处理策略有仿真、更新、转换、迁移和再生性保护技术,随着数字信息的爆炸式增长,这些技术也处于不断发展与完善之中,还会出现新的技术形态的保存方式,数字资源除了物理形态的安全保存外,还需要信息长期保存方面的管理策略:一是建立数字信息的恢复中心,许多数字信息虽然做了备份和保存,但不能保证它们长久地存在并在多年之后还能被人理解和应用,随着数字技术的不断发展,现有技术应用和平台在若干年后也许将被淘汰,这样就必须有一个数字恢复中心来承担数字资源长期保存的技术问题,用以解决由于软、硬件故障或其他灾难性事件带来的数据损失问题。二是建立数字信息归档系统,一个能够被广泛接受并唯一有效的数字归档中心,这样有利于实现对数字资源系统全面的管理,使之对国家经济、社会方面的重要发展及科技领域的重要进步等承担数字信息管理和保存的责任。三是数据库要使用通用的程序语言,遵循统一的格式,向标准化发展;建立高层信息搜索管理中间件系统。这种中间件系统作为用户界面和数字图书馆底层信息服务的中间层,将用户查询语言翻译为通用查询语言,根据不同的条件选择并调用合适的信息服务设施,然后通过底层返回的信息汇总,提交给用户。在这两方面,图书馆实际上已经做了大量的工作,如HTML,XML以及TCP/IP等的应用使人们能进入互联网上的任意一个Web服务器,而Z39.50以及ISO2709的应用,更使人们能在同一界面检索不同的书目数据库,实现了书目数据库之间的跨库检索,如国内清华同方的TPI系统能使人们在同一界面检索不同的异构数据库。图4所示为清华同方TPI系统的业务流程图。

图4 清华同方TPI系统的业务流程图

4.3 确定保存的主要实施者

数字资源的长期保存,除了技术上的要求外,还需要巨大的管理费用,需要各方共同完成,经济因素是不可忽略的重要方面,因为目前还没有任何一个图书馆或部门能够解决数字资源建设和保存的问题,为了实现数字全球共享这一最高目标,需要国家与国家之间、各机构之间多方面合作,这种合作不仅仅是指图书馆与出版商、技术公司之间的合作,更主要的是直接进行长期保存机构之间的合作,2003年联合国教科文组织发布了《保存数字化遗产宪章》,其中第8条提出:为了保护数字化遗产,各会员国须有必要的法律框架,建议会员国制订的国家遗产保存政策应该保证图书馆等公共文献保存机构可以在缴送法制或其他法律强制力的作用下获得数字化遗产。因此传统图书馆成为信息资源长期保存的实施者。

据此有些国家修改了相应的法律,将网络文献作为法定缴送对象。1996年澳大利亚国家图书馆制订了《澳大利亚电子出版物的国家策略》,其重点放在光盘文献上,联合7家州立图书馆,建立了分布式的保存网络—国家模型,目前已建成用户可以直接通过PANDORA站点访问的国家联机出版物知识库。美国国会图书馆通过了国家数字信息基础设施和保存方面的规划,设计和实现了国家的数字资源长期保存的基础结构。其他发达国家,如英国、荷兰、法国等国家也不同程度地开展了数字资源长期保存方面的活动。同时高校图书馆也是其重要的组成部分,其中的学术性资源是最具保存价值的部分,如加州大学建成了世界著名数字图书馆(简称CDL),成为全校的数字保存中心,其分布式系统结构满足了公共保存的需要。而出版商和一些非盈利信息机构成为重要的补充力量。

4.4 解决数字资源的版权问题

数字资源版权属于谁?开发商,原作者,还是保存者?这是需要解决的问题,目前出版商一般给予订购者使用权,或是提供若干年前的回溯数据。

数字资源要想得到长久保存,并延续下去,就要遵循共同的国际标准,解决数字资源的版权问题,在各国政府的大力支持下,以图书馆为主体,依靠先进的计算机技术和管理策略,让数字资源健康地发展并长久地得到利用。

猜你喜欢

数字信息检索图书馆
浅析公共数字信息资源的建设开发与利用策略
基于BIM的企业数字信息归档与利用模式研究
北京尚水数字信息产品介绍
瑞典专利数据库的检索技巧
一种基于Python的音乐检索方法的研究
数字有形状吗?数字信息精确性和品牌标识形状的匹配效应*
图书馆
浅议专利检索质量的提升
去图书馆