关于我国数字信息资源长期保存问题研究
2014-04-10张于军郝春梅
张于军 郝春梅
( 山东社会科学院文献信息中心,山东 济南 250014 )
图书档案工作
关于我国数字信息资源长期保存问题研究
张于军 郝春梅
( 山东社会科学院文献信息中心,山东 济南 250014 )
数字信息资源长期保存是近几年国内外关注的热点问题。本文结合国内外研究现状与进展,客观地分析了我国数字信息资源长期保存所存在的问题,提出了我国数字信息资源长期保存需要采取政策推进、完善管理体系、构建技术支撑体系等发展策略,对我国数字信息资源长期保存的实践具有重要的现实指导意义。
数字信息资源;长期保存;对策
计算机技术和网络技术的迅速发展,改变了纸质文献信息资源的单一性,带来了数字信息资源的海量涌入,人们把数据数字信息资源定义为“未来的新石油”。在这一背景下,如何正确有效的保存和开发数字信息资源已引起各国的关注。本文拟通过在对数字信息资源长期保存的前期研究成果进行梳理的基础上,结合国际上数字信息资源长期保存的研究现状,了解数字信息资源长期保存的理论知识、技术支撑以及实践经验,对其关键问题进行思考,发现我国数字信息资源长期保存存在的不足,找到其长期保存的正确路径,为保留更多有用的文化遗产做出贡献。
一、国内外对数字信息资源长期保存的研究现状及措施
(一)目前国外学者对数字信息资源长期保存的研究现状
数字信息资源长期保存是随着数字信息资源积累到一定程度而发展起来的。早在20世纪80年代已被提出,但是90年代才引起人们的普遍关注。数字信息资源长期保存研究经历了从认识不足到重视、从基础理论研究到和实践相结合的发展过程,研讨内容不断深入和拓展,吸引了国际上越来越多的机构与专家参与。
国外数字信息资源长期保存问题研究起步较早。早在1996年5月,RLG(Research Library Group,研究图书馆小组)和CLIR (Council on Library and Information Resources ,图书馆与信息资源委员会)等机构就发布了“保存数字信息:最终报告建议”。该建议全面阐述了数字时代数字信息资源保存所存在的问题与挑战,并从多角度提出了对数字信息资源保存[1]的建设性建议。随后专门讨论数字信息资源保存问题的《国际数字保存杂志》(The International Journal of Digital Curation)的发行和有关国际讨论会召开,数字信息资源长期保存研究受到各机构和学者的参与和关注。一些研究机构对数字信息资源长期保存标准、可信任数字信息资源存储库的属性规范、数字保存元数据、机构存储的理念等,进行了广泛探讨并通过制定数字信息资源长期保存政策、指南与规范,有力地推动世界范围内数字信息资源保存活动的开展。
在技术方面获得长足进步。OAIS 参考模型、数字保存软件与工具,比如,DSpace、Fedora(the Flexible Extensible Digital Object and Repository Architecture,灵活可扩展的数字对象与存储架构)、Greenstone 数字图书馆软件、Digital Library Software、BEP(The Berkeley Electronic Press, 伯克莱电子出版)、DAITSS(The Dark Archive in the Sunshine State,秘密档案的公开)等,都为各个数字信息资源保存机构结合自身的保存需要与保存对象的特点开展数字信息资源长期保存[2]提供了充足的技术支持。
世界各国对数字信息资源长期保存和开发问题高度重视。一方面积极举办国际会议解决数字信息资源长期保存过程中出现的问题。如自2003年由中国科学院和国际图书馆电子信息联盟倡议并推动“数字资源保存国际会议”(The International Preservation,IPRES)成为一年一度的国际性系列会议。并在不同国家像中国、德国、北美、英国、美国、奥地利、新加坡、加拿大等国家举办。现已举办10届。另一方面,通过国家立项进行研究,美国、英国、德国、澳大利亚等国就数字信息资源长期保存问题给予立项研究。以国家范围的保存网络也逐渐兴起,同时,少数国家范围、组织间的保存网络也向跨国保存网络不断发展。[3]
(二)我国对数字信息资源长期保存的研究及采取的措施
我国对数字信息资源长期保存的研究稍晚于国外,始于上世纪末,虽然与国外相比, 我国对数字信息资源长期保存问题的研究仍处于起步阶段,但是,随着数字信息资源的使用日益普遍和在长期使用过程中所产生的矛盾日益突出,数字信息资源长期保存的重要性和必要性在我国也逐渐得到重视,在数字信息资源长期保存的研究中也取得了一定的成绩, 现阶段主要以跟踪、吸收、消化国外研究成果为主,自主创新还有待提高。
从理论研究层面,国内学者主要从理论概念、影响因素、技术策略和管理策略这四个方面对数字信息资源长期保存的问题集中开展了理论研究。并对数字信息资源长期保存的定义从不同角度进行了界定, 如:有学者从数字信息资源保存技术、方法和设备等方面来探讨概念范畴;还有学者从资源规划、资源配置和技术使用等方面来界定其内涵。目前对其较为认同的是:数字信息资源长期保存主要涉及两个方面,一是防止数字信息资源被非法变更与破坏,另一个是维护数字信息资源长期的真实性。即数字信息资源长期保存是指为保证数字信息资源可长期维护以及内容可长期获取的必要管理活动。许多同仁还从政策、媒体、技术、法律、管理和经济因素等方面着重对数字信息资源长期保存进行了研究,技术策略和管理策略两方面是数字信息资源长期保存的主要策略。除此之外,许多专家还从风险管理、成本管理、知识产权、法律标准等方面进行了探讨。像臧国全《数字资源迁移风险管理》、曾怡《数字资源长期保存的成本与管理因素分析》、旻苏等人《数字资源长期保存的标准与法律问题综述》、宛玲、张晓林《数字资源长期保存过程中的知识产权问题分析》等,为我国数字信息资源长期有效保护起到积极作用。
从技术层面,在实践上我国相继启动了国家图书馆的WICP 项目和北京大学主持的中国Web信息博物馆项目。在1995年国家档案局档案科学技术研究所,发布的《CAD 电子文件光盘存储、归档与档案管理要求》和《电子文件归档与管理规范》两个国家标准基础上,我国采取自主创新和广泛交流合作两种途径,对数字信息资源长期保存技术进行了探索。我国相继启动和开展的研究项目有:
国家图书馆的 WICP 网络信息资源采集与保存试验项目,即网络信息资源采集与保存试验项目 ( WICP) 和网络数据库导航项目 ODBN( Online Database Navigation)。[4]北京大学主持开发的 Web 信息博物馆项目研究,建立了中国网页历史信息存储与展示系统,包括历史网页存储系统和回放系统两个部分。
中科院国家科学图书馆进行的数字资源持久保存国际合作试验项目(CSDL 项目)、数字化科技信息资源长期保存体系与政策机制(NSDL 项目)、网络信息资源保存的理论与方法研究。[5]还有清华大学图书馆的数字信息资源长期保存系统、CALIS 的学位论文的持久保存实践等。
在与国际学者与机构交流与合作项目上主要有:2007年国家图书馆加入了IIPC全球互联网典藏联盟,获得支持开展研发和交流活动;中国科学院科学图书馆参与的数字信息资源持久保存国际合作试验项目 LOCKSS 研究;中德数字信息资源长期保存实践研究项目。再有组织间的跨国保存网络也在不断发展, 如Planets、 Inter PARES及筹建中的 DARIAH等。[6]
二、我国在数字信息资源长期保存中存的问题
(一)对数字信息资源长期保存的认识不足
数字信息资源是近20多年来由于计算机的普及和互联网的迅速发展而产生的新兴事物,由于其发展速度之快,信息资源数量之巨大,使人们应对这突如其来的强大势头在思想上还没有做好充足的准备。
我国对数字信息资源长期保存的研究起步相对较晚,规模较小。虽然世界各国学者早在20世纪90年代就已经涉足对数字信息资源长期保存的研究,而我国21世纪以来才受到理论界的广泛关注,其关注机构也仅限定在图书馆、情报信息中心等文献信息服务单位,出版界、软硬件商乃至数据库生产商等与其相关的机构则介入甚少, 同时,也没有完全得到政府的充分重视与支持,这反映了在我国数字信息资源长期保存问题并没有引起全社会的广泛关注与重视,在一定意义上,甚至一些隶属信息管理专业部门也缺乏对数字资源长期保存的意识。
数字信息资源长期保存是一项艰难而又十分必要的系统工程,它涉及政策、经济、法律、技术等多个方面。与纸质文献信息资源的特性不同,数字信息资源具有对设备的依赖性、本身的复杂性、载体的非直读性、安全性、稳定性、数量大、增长快、更新频繁等特性,数字信息资源长期保存冲击着传统的文献信息资源保存,对保存思路和保存理论都提出了新的挑战,对保存对象、保存主体、保存方法等都需要进行新的全方位的审视和思考。
(二)数字信息资源长期保存研究重理论,轻实践
我国数字信息资源长期保存研究虽然经历了10多年的历程,在广大学者的不断努力下取得了长足的发展,但是纵观这些研究成果,不难看出理论研究较多,技术实践研究较少,即纸上谈兵多,实际行动少。
据统计1999年至2012年,我国学者在学术期刊上发表的关于数字信息资源长期保存的论文共计219篇,从百度上可以搜到与“数字信息资源长期保存”相关结果约高达300万个。这些论文大都停留在对数字信息资源长期保存的理论研究上,虽然论文涉及的内容丰富、范围广泛,囊括了经济、政策、法律、标准、安全、知识产权等各个方面的基本理论,但是真正对数字信息资源长期保存中涉及的技术问题、实践活动等相关问题可谓凤毛麟角。这不难看出我国学者在对数字信息资源长期保存研究过程中只注重纸上谈兵,并没有结合对数字信息资源长期保存的研究理论有效的和相关技术部门合作,把理论研究转换为实践应用活动。
(三)数字信息资源长期保存启动项目数量少、范围小
我国现阶段尚缺乏对数字信息资源长期保存的战略规划,数字信息资源长期保存的公共责任和公共投入机制尚未建立,启动项目只注重在某个特定范围内的保存,涉及范围小,保存数量有限。开展项目的机构,也仅限于国家图书馆、北京大学、清华大学、中国科学院等知名机构,各省、市、自治区到目前为止还没有启动任何与数字信息资源长期保存有关的项目,与民间的合作项目也就无从谈起。
虽然,我国相继开展了国家图书馆的WICP项目、清华大学图书馆参与的数字资源长期保存系统、CALIS 的学位论文的持久保存实践、“大学数字博物馆建设工程”、中国科学院科学图书馆学术期刊资源长期保存示范系统等有效的实践项目。但是这些项目和浩如烟海的数字信息资源相比只能说是沧海一粟,这远远解决不了大量的数字信息资源的长期保存。大数据时代对数字信息资源的需求更加迫切,数字信息资源需要连续性、持久性,需要长期保存的支持,全面启动和开展数字信息资源长期保存项目是大数据时代必须和紧迫的任务。
(四)缺乏关于数字信息资源长期保存的相应政策
经过10多年的努力,我国在数字信息资源长期保存研究中虽然在理论上和实践上都有着显著的成绩,但这只是图书界和相关专业人士在做努力,真正纳入国家研究体系的更是寥寥无几。
数字信息资源长期保存需要政治、经济、法律、管理、安全、技术、标准等相应的政策支持,这些政策需要国家和政府制定与其相应的规范,特别是在当今的大数据时代,国家和政府更需要尽快建立和完善数字信息资源长期保存体系,制定相应的保存政策,为数字信息资源长期保存项目的启动提供保障,以保证数字信息资源长期保存研究和项目启动。但至今,我国还没有关于加强数字信息资源长期保存的相应政策,建立数字信息资源长期保存体系也就无从谈起,因此也大大的制约了数字信息资源长期保存的研究和项目启动。
三、我国数字信息资源长期保存的对策建议
在不断的试验、探索、研究和创建过程中,人们认识到, 孤立、封闭的研究和创建方式很难满足对数字信息资源的长期保存,也不利于开发利用的大量需求,必须对数字信息资源长期保存的发展政策,管理标准,技术保障和安全维护等方面来做深入的探讨,为此我们建议:
(一)制定完善的数字信息资源长期保存的政策
在数字信息资源长期保存工作中政府不仅是监督者,更应该是参与者与支持者。数字信息资源长期保存需要国家的政策支持,有关机构应协助政府尽快创建数字信息资源长期保存的责任机制, 制定数字信息资源长期保存的相关政策,为数字信息资源长期保存提供重要依据,并且要加强对数字信息资源长期保存的宣传力度,提高国人对数字信息资源长期保存的意识, 使人们从思想上认识数字信息资源长期保存的重要性,最主要的还是要在经济上提供必要的经费支持,来保证数字信息资源长期保存项目的顺利进行。同时还要调动各机构团体的积极性,让整个社会加入到数字文化遗产的保护中来。
完善知识产权保护体系。知识产权保护法为文献信息资源提供了版权保护制度,有效地保护了文献信息资源。但对于新兴的各种数字信息资源来说, 版权保护也是重中之重。数字信息资源还属于新兴事物,其版权法尚未建立,只是参照纸质文献版权法执行。而在现实生活中,数字信息资源的版权权属状况十分复杂,由于数字信息资源的发布、存贮、传播、利用的载体与传统纸质文献信息资源截然不同,一部作品可能涉及多个版权人,有些甚至是匿名的,有的由于版权已经转让,由此知识产权的无形性难以考证,这就给版权处理带来了更大的难度。版权问题是数字信息资源长期保存过程中面临的最大法律障碍。因此,应加快步伐创建科学的数字信息资源版权保护机制,制定完善的数字信息资源长期保存的法律法规,使数字信息资源在长期保存和有效利用过程中有法可依。
逐步建立数字信息资源长期保存的规范,制定统一标准政策。数字信息资源长期保存过程中,要确定一个基本的存档系统功能,必须对其概念、术语和参考框架等制定统一的标准,实现数字信息资源长期保存的统一化、规范化、标准化。确立数字信息资源长期保存的国家标准,制定科学的数字信息资源长期保存规范,才能使数字信息资源在保存过程中对保存内容、保存格式、保存载体等方面做到完整统一。
(二)创建完整的数字信息资源长期保存管理体系
数字信息资源的长期保存要从整体上进行规划、组织和控制,制定有针对性的网络采集政策,形成一套完整的管理体系,是数字信息资源长期保存的基础与保障。
首先,界定“保存什么”的范畴。建立数字信息资源长期保存管理体系的依据是“保存什么”,最好的保存方案就是制定统一的选择标准。许多专家认为数字信息资源长期保存的基本选择标准是首先保存那些容易丢失的、与未来生产活动有关联的、有重要参考价值的、有重要科学数据的数字信息资源,特别是“原始数据”。因此, 容易丢失的、有重要价值的、科学的“原始数据”是重点选择目标。数字信息资源的长期保存的内容选择还要从各方面、多角度进行考虑 如:类型、寿命、价值、标准等。还要考虑中国特色,对反映我国政治、经济、文化等诸方面的重大事件进行长期保存,使中华民族的文化遗产得到应有的妥善保存和保护。
其次确立保护主体。“怎么保存”、“谁来保存”是数字信息资源长期保存的基础,数字信息资源长期保存必须起始于数字信息资源生命周期的初始阶段,[7]根据不同的需求采用不同的保存策略,各级图书馆要对数字信息资源提供长期获取的服务, 国家图书馆则必须承担保存本国数字文化遗产的责任,肩负建立国家数字信息资源存档库的重任。[7]图书馆、档案馆、博物馆等文献信息机构虽然担负着数字信息资源长期保存的责任, 另外,信息内容的制造者、数据生产商、出版商等一些有关的机构甚至一些有特殊作用的个体也应该担负起保存数字信息资源的责任,进而逐步建立起全国系统的、全方位的数字信息资源长期保存的网络体系。
再次加强相互联系与合作。建立数字信息资源长期保存管理体系相互合作是重要的组成部分。数字信息资源长期保存不仅是文献信息机构的职责,出版商、数字信息内容的制造者等相关机构与个体也应承担相应的责任。实施有效的数字信息资源的长期保存体系,不仅要有文献信息机构之间的相互合作,还要有数字信息资源的生产者、提供者、传播者等之间的相互合作,更要有国与国之间的相互合作。只有通过相互合作才能完成数字信息资源长期保存过程中的选择、甄别、审核、提交、加工、保存等多个环节。因此,建立不同层次的合作机制, 控制、协调和开发数字信息资源,严格按照合作协议完成各自的工作任务。施行统一管理,提高使用效率,确保数字信息资源长期保存和有效利用。
(三)建立数字信息资源长期保存的先进技术支持体系
数字信息资源长期保存最重要的是建立一套完整的数字信息资源长期保存的关键技术。因此,注重与相关学科、交叉学科相结合,以图书馆学、情报学、信息科学为理论依据,利用计算机、网络技术平台,开发和研制各种先进的数字信息资源长期保存技术,为加强数字信息资源长期保存提供必要的技术保障。
建立通用的数据库平台,利用数字信息资源转换技术,在通用数据库平台上,应用通用转换软件对不同时期数字信息资源进行转换,将不同格式、不同类型的各种文件转换成通用的兼容性强的纯文本格式文件, 实现纯文本格式转换,从而达到数字信息资源的通用性和长期保存,以确保数字信息资源的完整、保密和长期保存。
充分运用先进技术,建立云存储平台体系。云存储平台比较通俗的可以理解为云计算服务商有N多服务器和存储设备,用信息技术将其整合为一种提供存储服务的平台。近几年云存储技术正在兴起,它是云计算技术的一个延伸,传统的存储设备 已经不能满足大数据时代对数据保存的高性能、高容量、易扩展的需求。而云存储的服务模式凭借其低成本,大容量、高带宽的优势与传统的存储设备相比,具有更容易扩容、更易于管理、成本更加低廉、数据更加安全、服务不会中断的优势。同时还可以不受时间和空间的限制,在任何时间、任何地方,通过任何可连网的设备连接到云存储平台上方便地存取数据。云存储不仅仅是一个硬件,而是一个网络设备、存储设备、服务器、应用软件、公用访问接口、接入网、和客户端程序等多个部分组成的复杂系统。[8]更重要的是云存储采用的是目前最新技术,能够满足大数据时代要求的千金良方,是未来存储技术的必然趋势。
(四)完善数字信息资源长期保存的安全维护
数字信息资源由于传播载体是互联网, 互联网又是一个全面开放的大众系统,无法确保信息环境绝对安全,又由于数字信息资源具有共享和易于扩散等特点,因此在处理、存储、传输和使用过程中很容易被干扰、滥用或出现遗漏和丢失,甚至被窃取、篡改、冒用和破坏,加之受计算机病毒感染之虞无时不在,随时威胁着网络环境,这给数字信息资源安全造成很大隐患,完善数字信息资源长期保存的安全维护势在必行。
首先,数字信息资源在网络上进行传输, 其安全性很难得以保证,必须制定与数字信息资源和网络安全有关的法律法规,采用法律、法规手段,建立安全管理标准和规则。为数字信息资源长期保存的安全提供法律保障。
其次,制定访问控制策略,主要包括网络访问控制,操作系统访问控制,应用系统和信息访问控制。避免信息系统的非授权访问,数字信息资源安全技术措施中的第一道大门就是用户认证,其目的是通过认证让用户了解其职责和义务,提供访问控制和不可抵赖的作用。加强管理监视系统访问和使用,要定期检测未授权的活动,确保数字信息资源的安全。
再次,信息安全保密措施,利用技术手段建立数字信息资源安全管理体系,对各类网络数字信息资源进行加密保护。加密是信息安全应用中开展最早的有效手段之一,数字信息资源在通过存取和传送的过程中使用加密保护可以保证信息内容不被非法查看、篡改和窃取。大数据时代人们在享用现代信息技术带来的快捷、方便的同时,如何充分防范数字信息资源的损坏和泄露,通过加密手段加强信息保密措施,最终目的就是保护数字信息资源的保密性,真实性和完整性。
总之,在“三分技术,七分数据,得数据者得天下”大数据时代的今天,数字信息资源长期保存直接影响着我国的政治、文化、科技和经济等各方面。所以完善数字信息资源长期保存与长效利用策略,促进数字信息资源长期保存工作的有效开展,为人类的长远利益,保留更多的数字文化遗产,对经济社会快速持续发展具有重要的现实价值。
注释:
[1][2]阎军,黄国彬.2007年国外数字资源长期保存研究综述[J].图书馆建设,2008,(11).
[3][6]吴振新,刘建华, 张玫.数字资源长期保存: 当前进展和最佳实践- 2007年数字资源长期保存国际会议 ( iPRES2007)综述[J].现代图书情报技术,2007,(11).
[4]黄旭,毕强.国内外数字资源长期保存研究现状与进展[J].图书馆学研究,2009,(1).
[5]李丽云.论数字资源长期保存研究机制[J].北京档案,2010,(9).
[7]王清飞,刘琳.《数字资源长期保存的策略探讨》 《江西图书馆学刊》2008,(3).
[8]张毅.《数字资源长期保存研究进展及发展策略》《内蒙古科技与经济》 2012,(9)
[1]谢永宪.数字资源长期保存研究[M].上海:世界图书出版公司,2011.
[2]黄旭,毕强.国内外数字资源长期保存研究现状与进展[J].图书馆学研究, 2009,(1).
[3]闫军,黄国彬.2007年国外数字资源长期保存研究述评[J].图书馆建设,2008,(11).
[4]王莹莉.国内数字资源长期保存研究综述[J].现代情报,2011,(11).
[5]高建秀.数字资源协作保存网络研究[J].图书馆学研究,2010,(23).
[6]吴振新,刘建华,张玫.数字资源长期保存: 当前进展和最佳实践- 2007年数字资源长期保存国际会议 ( iPRES2007)综述[J].现代图书情报技术,2007,(11).
[7]王清飞,刘琳.数字资源长期保存的策略探讨[J].江西图书馆学刊,2008,(3).
[8]李丽云.数字资源长期保存研究机制[J].北京档案,2010,(9).
[9]张毅.数字资源长期保存究研进展及发展策略[J].内蒙古科技与经济,2012,(9).
(责任编辑:孙建华)
Research on Long-Term Preservation of Digital Information Resources in China
ZHANG Yu-jun HAO
( Literature Information Center, Shandong Academy of Social Sciences, Jinan, Shandong 250014, China )
Long-term preservation of digital information resources is regarded as a hot topic in recent years both in China and abroad. This article analyzes the existing problems in long-term preservation of digital information resources in China combining with domestic and foreign researches' results of the present situations and progresses. Moreover, the article states the strategies of long-term preservation of digital information resources in advancing the regulations, developing management systems, establishing technical supporting systems. These strategies are the guidance for the practice of long-term preservation of digital information resources in China.
digital information resources; long-term preservation; solutions
2014-06-10
山东社会科学院2013年自选课题
张于军(1954- ),女,山东荣成人,副研究馆员。
G253.5
A
1671-4385(2014)05-0113-06