APP下载

高校图书馆数字资源建设与长期保存研究探析

2022-09-30梁学明

河南图书馆学刊 2022年9期
关键词:数据库数字图书馆

高 健,梁学明,秦 奋

(大连理工大学图书馆,辽宁 大连 116024)

1 绪论

图书馆作为高校的文献保障中心,主要职责是负责馆藏资源的建设与管理,其中数字资源的长期保存是一项长期而艰巨的任务,是全球学术界普遍关注的热点课题。数字资源的特点是规模庞大、格式各异、增长迅速,获取和利用条件各不相同,异构数据库互操作繁琐,缺乏统一规范的维护与管理标准。相对于传统媒介资源,数字资源在使用、保管等环节也面临很高风险,容易被清除、篡改,同时,技术手段的迭代、新材质的应用、新媒体的兴起也极易导致数字资源存储媒介被淘汰、获取方式面临更新等问题,因此,长期保存及可持续性应用成为数字资源揭示与管理工作中面临的一个巨大挑战。

1.1 数字资源与数字资源长期保存

所谓数字资源是指以电子化、数字化的形式存储、传播与使用的信息资源的总称,存储介质多为缩微胶片、磁带、光盘、硬盘、闪存等磁光电物理设备,通过网络及计算机终端存取、传播和显示,在不同场合也可冠以电子出版物、电子资源等名称。

数字资源长期保存可被描述为:为保证数字资源不受各种环境因素影响,内容信息完整准确,且能长期安全存储和有效传递,被现在或将来用户顺利理解而进行的持续维护更新的目标导向活动。美国学者Priscilla Kaplan提出的数字保存金字塔模型清晰描绘出数字资源长期保存流程整个生命周期中各节点的具体实现目标。

1.2 国内外研究进展

国外对数字资源长期保存与利用的研究开展于20世纪90年代,以项目经验为依据,制定和修订制度、标准、规范,指导现实中的资源长期保存工作。

1994年,欧洲保存与获取委员会(ECPA)宣告成立,委员会的宗旨是联合组织成员共同研究人类文献资源的保存和使用问题。迄今为止,ECPA已成为全球最大的数字资源长期保存的协会组织。2003年,OAIS参考模型(Open Archival Information System)作为ISO标准颁发,该模型推广一个参考模型和基本概念框架,旨在规范数字资源长期保存的标准化流程,如今已被众多数字资源的生产与传播系统和组织所采用,为数字资源长期保存的实践应用奠定了基础。

国外数字资源长期保存项目包括澳大利亚的PANDARA项目(保护和存取澳大利亚网络信息资源项目)、美国斯坦福大学的LOCKSS项目(多备份资源保存系统)以及美国的NDIIPP项目(国家数字信息基础设施和保存计划)等。

理论研究主要包括以下四个方面:一是基础性研究,包括长期保存相关标准、规则、框架的制定与完善,体系建设研究等。二是元数据技术及相关应用,包括大量文献研究元数据类型,元数据技术在数字资源长期保存中的应用等。三是生命周期及技术流程,主要研究长期保存生命周期的特征,以及实操中的相关技术流程。四是其他方面的研究,包括长期保存成本分析研究、知识产权及法律问题研究等。

我国对数字资源长期保存课题的研究开展于21世纪初,相关合作性实践项目的开展也处于起步阶段。近年来,相关研究内容已扩展到数字资源长期保存的策略及体系建设、风险管理、成本分析、法律问题等领域。同时,图书馆也开始参与国际合作项目,包括WICP项目(中国国家图书馆主持实施的数字资源长期保存项目)、Web Info Mall项目(中国Web信息博物馆项目)以及中国记忆项目(国家图书馆主持开展)等。

2 数字资源长期保存的实施过程

2.1 采集方式

选择性采集也就是倾向性专门领域采集,主要面向特定领域内具有丰富历史价值、文化价值、科研价值、社会价值的珍贵信息,针对采集对象的选择通常事先制定有相关的遴选标准或规范。选择性采集是一种小而精的采集模式。

全面采集是利用网络爬虫技术在脚本中设置爬取周期和频率,定向获取指定网络路径下所有可获得的数字资源,采集到的原始资源再通过后台脚本进行自动分类和标引,分门别类地保存在存储设备中,面向的对象可以是一个领域也可以是多个相关领域。全面采集是一种大而全的采集模式。

联合采集方式是全面采集和选择性采集的综合利用,在采集方式上通常采用全面采集的模式,用网络爬虫收集原始资源,在数字对象选择方面则采用选择性采集模式中的标准与规范,在保证全面性的基础上优先处理高价值资源。

呈缴制度是实施部门与数字资源生产者或所有者(出版商或个人)签订协议,数字资源以固定格式的呈缴本形式定期或不定期提交到相关机构,所涉版权问题应在协议中提及并保证履行。

国外典型的长期保存项目多数应用选择性采集方式,其优势是收集的数字资源质量有保障,体量较小,但也存在遴选标准的问题,容易出现遗漏珍贵资源的现象,因此,笔者建议我国项目选择联合式采集方式为宜。

2.2 采集对象

采集对象通常包括电子期刊、电子图书、会议文集、数字化多媒体资源、源代码、网页、商业记录、政府出版物、地理空间数据等,一些国家还特别关注本国本地区特色资源的采集。除常规类型采集对象外,一些专业项目往往采集特定方向和领域的数字资源对象,如:Pandora项目主要面向政府出版物、科研出版物、专题数据库等,资源类型包括书籍、图表、音视频、地图等数字资源。

2.3 保存内容

数字资源保存内容包括资源载体的保存与维护、资源内容的长期保存、元数据的保存与维护。

2.3.1 资源载体的保护和维护。数字资源的载体和内容是可分离的,载体媒介随着技术的发展可能面临淘汰或升级,同时,电子设备本身寿命较短,定期或不定期的数据迁移工作非常必要。数据迁移的原则是出现可替代的新技术媒介产品,同时可获得相应的功能扩展,或原有媒介寿命到期、可靠性降低。

2.3.2 资源内容的长期保存。内容是数字资源的核心,是以特定数据格式存储的电子文件,电子技术的迭代会经常性地产生更优设计、更高规格的新媒体格式,在必要的情况下应考虑数字内容的格式升级,在保证原始内容完整无损的前提下将数字资源无损升级到新格式是数字资源内容保存的一个重要手段。

2.3.3 元数据信息的保存与维护。元数据是关于数据的数据,是用来描述数字内容的重要信息资源,元数据可以引导使用者更好地检索、甄别和阅读数字内容,也有助于维护人员管理和分析相关资源。元数据的质量保证了数字内容的真实性、可靠性和可获得性,是数字资源内容信息的重要补充,也可单独作为原始数字资源应用于各类数据库检索、统计分析研究。因此,元数据信息是数字资源长期保存与利用的重要内容之一。

2.4 标准、工具与技术

数字资源长期保存的相关规范与标准随着时代的发展和技术进步始终处于不断的演进与更新状态,当前需要重点关注的有以下标准与规范:一是PREMIS(保存元数据:实现策略标准)和METS(数字对象进行封装的描述性、管理型和结构性元数据标准),一个用于定义元数据框架,一个用于进行数字对象封装,二者的结合可以实现对元数据框架方案的架构。二是长期保存领域最重要的标准是OAIS,目前已发布了第三版更新草案,新版本将包含多项变更,如引入“保存目标”概念;保存描述信息PDI组件的指向有所变更;功能模型、透视图截取等功能得到更新;提高存储库的可审核性等。三是在信息包规范与存储标准方面。E-ARK的信息包通用规范CSIP与版本保存文件组织规范OCFL,CSIP定义符合OAIS标准信息包的逻辑结构和内容,OCFL描述了以易于保存的方式将数字对象布局映射到物理文件系统,以及如何识别管理此类对象所需的基本操作。OCFL可保证独立于专门系统之外的原始数字文件的持久性,可用于数据灾难恢复,重新构建数据存储。

3 数字资源长期保存联盟建设模式选型

联盟建设是指通过分工协作的方式共建数字资源长期保存项目的模式,目前国内外已有的大型长期保存项目在资源采集、存储方面通常存在两种模式可供选择,即集中式或分布式。常规的选择是集中式采集或分布采集元数据收割、分布式存储的模式,联盟建设的组织及管理机制其实也面临模式选择的问题,在架构设计、运营模式等方面有多重选择,大致可分为以下几种:集中式建设模式、分布式建设模式,以及融二者特点于一体的混合式建设模式。

3.1 集中式建设模式

集中式建设模式是指长期保存联盟建立的联合体选择金字塔式管理模式,联盟中的核心成员机构负责建设和运营数据平台及维护后台仓储,其他成员馆遵循统一制定的元数据标准及数据开放获取协议,使用平台配套工具包分别采集分包之内的数字资源,并将数据上传至中心数据库,或者由中心数据库定时收割原始数据及元数据。

3.2 分布式建设模式

分布式建设模式是指本身拥有或拟建长期保存平台的机构间组成联盟,遵循相同的数据交互标准及开放获取协议,以资源共享为目的,鼓励各成员馆在各自平台中分享联盟中所有数字资源,或者在各自平台之外再设计统一的联盟检索平台,实现一站式检索,方便各成员馆用户访问。

3.3 混合式建设模式

顾名思义,混合式联盟建设模式是集中式联盟和分布式联盟的结合体,试图兼顾二者的优点,并使各自存在的问题得到相对完善的解决。混合式联盟的构想是由一个或几个技术力量雄厚、资金充足的大型机构组成核心成员,负责相关标准、规范、协议的制定和选择,负责数据采集、收割流程的规划,负责中心平台设计与建设,负责中心元数据仓储的建设,对之前没有长期保存平台和仓储的成员机构按集中式联盟管理的方法,按分发的任务和方向用统一的配套工具进行数字资源的采集和上传工作;对之前已有平台不想放弃自身特色的成员机构,则采用分布式联盟的模式,通过专门的协议提供收割接口,允许中心元数据仓储定期收割数据,数字资源的采集则依旧按自有平台模式进行,对联盟中心平台具有完全的访问权。混合式建设模式见下页图1。

图1 混合式建设模式

混合式联盟的管理组织架构可以设计得更加灵活,对需要联盟更多技术指导、资金资助的成员机构,核心机构有义务提供更多服务,而对更注重自身特色的成员机构则允许其保留更大的自由度。事实上,对中心平台来说,最重要的是各成员机构提交的元数据资源,在此前提下凡是有利于元数据顺利收割的做法都是被允许的,凡是能导致元数据提交、收割困难的问题都需要成员机构间共同合作、鼎力帮助。

4 高校图书馆数据资源建设与长期保存

4.1 高校图书馆数据资源的主要来源

依据高校图书馆数字资源的不同引进途径,馆藏数字资源可以分为两大部分:商业数据库资源及自建数字资源。商业数据库资源是当前高校图书馆的主要数字收藏,也是购置经费的主要投入方向,订购数据库的多少以及对学校主要专业的覆盖情况是高校文献资源保障评估的一个重要指标,也是学校师生特别是科研教师与研究生对学校资源的一个主要需求。商业数据库资源由高校图书馆通过与数据商或代理商接洽商谈、签约购买。在购买方式方面,数据商通常提供数字资源使用权和购买数字资源所有权两种购买方式,二者的购买价格相差很大,附加条款也不尽相同,大多数高校图书馆购买的是数据库的使用权,在合同期内校内用户可以获得数据库资源的正常浏览、下载权限,这就意味着一旦合同因故终止(如数据库续订价格涨幅过高、高校文献购置费出现缺口),高校的用户将完全失去对数据库资源的访问权限,前期若干年投入的资金无法获得稳定的回报,这种现象成为我国高校图书馆资源建设过程中的极大隐患。

高校图书馆自建数字资源主要通过各种数字化转换技术实现,涉及的主要技术包括扫描识别技术(OCR)、图像无损压缩存储技术、网络安全传输技术、数据库存储技术等。资源的类型主要包括以下三个方面:①本校学位论文资源。我国高校的毕业论文管理大多实行呈缴本制度,这也是教育部相关学位条例实施办法的硬性要求。呈缴本制度的普及极大地方便了高校数字化学位论文资源长期保存系统的建立健全,也是各高校普遍实现的,完成度、延续度很高的资源长期保存项目。有条件的高校还会组织人力物力对这部分资源进行回溯建设,将早期以纸本形式保藏的历史学位论文进行数字化转换,再提交到管理系统中,从而形成了本校完整的数字化学位论文长期保存和检索平台。②数字科研信息资源。高校的科研信息资源主要指学校的科研产出成果,以及科研成果完成过程中形成的各种中间信息或阶段性记录。目前,多数高校积极开发或引进的机构知识库系统就属于数字科研信息长期保存系统的一种,机构知识库系统通过Web爬取或呈缴本制度,收集本校研究者主要文献类型的科研成果,如著作、期刊论文、会议论文、专利、国家省市各类课题等,采集的数据按预定的规范进行元素提取、转换,生成元数据,原始数据保存至数据库存储中,后台系统针对元数据提供各种检索、统计、分析服务,有条件的高校也会对本校的科研信息资源进行回溯建设,基本方法与数字化学位论文的回溯相同。这是我国高校目前主流的针对科研信息资源数字化长期保存的方案,该方案还有很大的提升空间,除元数据挖掘及系统配套功能升级外,在文献类型、资源内容上也有巨大的挖掘潜力,如对科研中间产出,包括实验数据、阶段总结报告、错误分析、仿真结果、模型数据,乃至项目来源信息、课题组概况信息、经费使用信息等,都可以作为数字资源的有机组成部分。③特色资源自建数据库。特色文献是很重要的收藏类型,我国地域广大、历史悠久,散布在全国各地的高校图书馆通常都会有自己的特藏资源,如善本古籍、珍稀地方史料、少数民族史料、艺术品、冷门技术资料、名人手稿、历史影像图片、珍稀图谱/曲谱/胶片/地图等,这些资源往往被当作所在图书馆的“镇馆之宝”,极富历史价值、文化价值、艺术价值和研究价值。因此,针对这部分资源的长期保存项目的建设就非常有必要。

4.2 高校数字资源长期保存体系选择的思考

我国高校图书馆的馆藏电子资源主要以外购的商业数据库资源为主,在购买方式上多数是购买数据库的使用权,由于知识产权方面的制约,仅有使用权的商业资源是无法作为机构本地长期保存对象的,而可以作为长期保存对象的资源包括:买断的电子书、订购数据库绑定的电子期刊,以及商业数据库中的OA刊源(不稳定)。如果考虑建立长期存储并揭示以上数字资源的机制,高校在解决方案的选型上应优先参考斯坦福大学的LOCKSS项目(多备份资源保存系统)。LOCKSS由美国国家自然基金组织赞助,斯坦福大学图书馆组织实施,是基于JAVA平台的分布式开源系统,系统设计遵循OAIS规范,在通用功能外也提供可扩展功能及互操作访问。LOCKSS与众多出版社签约,可直接收割多个出版社的数字资源,并面向用户提供开放服务。LOCKSS联盟是一个非营利的组织,在申请加入LOCKS联盟后,图书馆可以很便捷地在LOCKS平台上构建本馆的数字资源板块,在获取相应权限和许可后通过网络管理工具配置本馆的LOCKSS存档箱,将买断电子书、绑定电子刊及OA刊等资源配置到存档箱中,经过平台的一些常规验证,就可以完成这部分资源在LOCKSS平台上的存储和发布。

自建资源大致可以分为两个部分:一是本机构的核心科研产出及教学成果,包括科技论文、专著、学位论文、专利、会议论文、课题报告、教学课件、电子讲义,以及科研与教学过程产生的中间附带成果,如实验数据、阶段性报告、CAD模型、源代码资源等。二是特色资源,即收藏馆特有的、独有的珍贵资源。目前情况下,自建资源的数字化长期保存策略优先选择利用各高校已有的知识机构库平台,同时也是为了规避相似项目重复建设的问题。我国高校数字资源长期保存项目建设的最优解、最理想的方案是未来建设高校联盟模式的长期保存联合体,而当前各高校知识机构库的建设可以看作联盟形成之前的基础性建设,从知识机构库到高校联盟最重要的工作是在各自机构知识库下本机构数字资源的完整采集以及元数据质量的稳定控制。

4.3 高校数字资源长期保存联盟模式选择设想

当前形势下,高校图书馆以联盟模式开展数字资源长期保存项目建设无疑是最佳选择,联盟模式下的项目建设可以统一标准规范,综合技术优势,规范管理流程,减少成本支出,同时也是高校资源共享建设的核心需要。改革开放以来,在科技兴国的方针指引下,我国高等教育事业进入了突飞猛进的发展阶段,高校图书馆的文献购置费也在不断增多,商业文献数据库资源迅速成为高校科研教师的主要参考资源,但必须关注的是,高校的发展并没有形成合力,资源的重复订购、项目的重复建设、科技攻关的各自为政,都造成了极大的资源浪费现象,图书馆领域也是这样。因此,数字资源长期保存项目的协同开展给我国高校图书馆提供了一个合作发展的契机,有利于科研资源的有效整合,有利于先进技术方案的普及应用,有利于科研资源的合理分配。

在联盟模式选择方面,联盟式高校数字资源长期保存项目在选型方面应首选混合模式,主要原因是高校发展水平并不均衡,“双一流”高校、京津地区高校、东南沿海发达地区高校占有更多的教育资源,而普通高校、内陆偏远地区高校即使有相当的技术实力和丰富的特色资源,在独立开展资源保存项目时很难获得持续的经费支持或基金赞助。混合式联盟开展模式可以有效解决这个问题,发达地区高校更多地承担平台运营支出,内陆地区高校专注提供资源,这符合国家的基本发展战略,也符合我国高等教育的发展规律。

在资源平台建设方面,各高校应充分考虑类似项目的已有基础,避免资源浪费。近年来,各校普遍建设的机构知识库系统是一个不错的基础,尽管现有机构知识库平台可能存在诸如元数据格式不标准、存储方式落后、采集方式简陋、平台技术含量低、功能欠缺、开放性差等问题,但数字资源本身及元数据才是最重要的,各高校累积处理和存储的海量数据资源将成为高校联盟项目最宝贵的基础性资源。

在组织管理架构方面,与资源平台建设方面的考量一样,从成本分析、实现难易等角度出发,全新创建一个联盟不如以原有类似联盟为基础,修订联盟宗旨、扩充服务功能、拓展覆盖范围,综合来看DRAA联盟就是最佳的选择。DRAA联盟是以高校图书馆为核心成员的数字资源集团采购组织,以DRAA联盟为基础建设我国高校科研数据长期保存合作性组织具有较高的可行性和可持续性。

5 结语与思考

以DRAA采购联盟为基础构建的数字保存联盟采用混合模式的联盟策略,具有兼顾集中统筹与自愿协议式管理的优势,管理与组织形式相对灵活。规模不一、能力各异的成员可以根据自身禀赋自由选择适合自身的建设模式,可以更贴切地满足其内部数字资源管理与利用需求,也能在更大范围内与外部联盟成员间实现资源共享及技术分享,在充分尊重各成员自主性的基础上,通力协作,共享技术,分担成本,实现数据的分工协作、分布保存,为各高校数字资源长期保存打下坚定的基础。

随着大数据时代的来临,信息技术的进步和新兴理念的出现,为数字资源长期保存课题提供了更多的思路、选择和技术手段。近年来,国内外的学术理论研究和实践探索也逐渐走向成熟和稳定,出现了众多的理论分支、解决方案、平台工具和实践项目,但也必须看到,数字资源长期保存策略的具体实施及保存体系的建立健全受多方面因素的制约和影响,如技术因素、经济因素、法律因素等。资源长期保存课题面临的发展前景是复杂的,面临的挑战也是巨大的,我国文献收藏机构,特别是高校图书馆应肩负起自己的责任,从现状研究和需求分析入手,全面洞悉长期保存课题的发展脉络,遵循我国科研与社会发展的实际情况,利用已有的有效平台基础,采用成熟的理念、全新的技术,建立健全长期保存制度,建设完善的长期保存机制,为广大科研人员构建高水平的学术交流与分享平台,为国家科技兴国方略夯实数据基础。

猜你喜欢

数据库数字图书馆
图书馆
答数字
数据库
数字看G20
数据库
数据库
数据库
去图书馆
成双成对
数字变变变