数字人文视域下缩微资料的保护与新生
——以Digital Cicognara Library为例
2022-05-23姜育彦刘雪立
姜育彦 刘雪立
(1. 新乡医学院河南省期刊研究中心,新乡 453003;2. 新乡医学院期刊社,新乡 453003)
长期以来,图书馆、档案馆等相关机构在进行文献收藏和保护工作中一直使用缩微胶片作为珍贵资料的长期存储介质[1]。但是,基于这一介质构建的存储模式不仅使得机构在提供检索服务时存在困难,而且还会使研究人员在对资源进行深度利用和开发时遭遇阻碍。因此,近年来逐步将存储在缩微载体上的信息资源进行数字化转换,使其变得更易使用。但在当今越来越开放化、众包化的学术生态中,单纯地对资源进行数字化转换不足以应对现有的研究需求,如何增强数字化缩微资源的可使用性,将数字与人文有机且深度地结合,重新绽放缩微资源的生命力[2]才是当下的重点。
国内数字人文学科发展方兴未艾,为了进一步促进数字人文项目的开展,部分学者对国外数字人文项目进行系列研究,以期为国内同类型实践提供借鉴。如杨友清等[3]、徐彤阳等[4-6]、赵雪芹等[7]分别对加拿大、新加坡、日本、德国、美国等国家相关机构开展的数字人文项目进行调研分析,指出国内机构应注重团队建设、发挥资源优势、增强项目的可持续性。单蓉蓉等[8]通过分析获奖项目,提出数字人文的工具开发应以代码开源和用户需求为导向,项目实践应以关联数据、国际图像互操作框架(IIIF)、RDF和AI为主要技术框架。这一系列研究开阔了国内学者的视野,但并没有直观地体现国内外同类型项目在各层面的差距所在。
因此,本文将对Digital Cicognara Library项目进行介绍,并选择“徽州文书”主题相关项目作对比分析,探讨Digital Cicognara Library项目的优势所在,总结其成功经验,以期为我国相关组织机构开展高质量的数字人文实践提供参考。
1 Digital Cicognara Library项目概况
Digital Cicognara Library项目本质上是对Fondo Cicognara相关资源的数字化及深度开发。Fondo Cicognara的最初缔造者为Leopoldo Cicognara,他出版了三卷本的雕塑史著作Storia della scultura dal suo risorgimento in Italia al secolo di Napoleone,并出版了自己收藏图书的目录《Cicognara伯爵所拥有的艺术和古物书籍全目录》(Catalogo ragionato dei libri d’arte e d’ antichità posseduti dal Conte Cicognara,以下简称《书目》)。在今天,《书目》成为他所有著作中最常被参考的一本书,被认为是“第一个通用的艺术书目”,深刻地影响了相关领域学者的研究工作。
由于没有一个现代图书馆可以完整地复制并展现Fondo Cicognara,Kress基金会在19世纪80年代赞助了一个项目,其目的在于以缩微胶片的形式传播Fondo Cicognara的全文,从而扩大早期艺术文学的可及性。在艺术史学家Philipp Fehl的带领下[9],伊利诺伊大学厄巴纳-香槟分校(University of Illinois at Urbana-Champaign)与梵蒂冈图书馆(Vatican Library)密切合作,为《书目》中的每个标题所涉及的收藏制作了一个缩微胶片版本。在过去30年中,缩微胶片套装已被出售或捐赠给全球数十家图书馆,每项收藏的元数据均可在WorldCat中找到。
尽管该项目对于当时而言是卓有成效的,但从现在的视角来看,虽然保持了Fondo Cicognara的生命力,但是未能提升其整体的可使用性。2014年,依然是在Kress基金会的鼓励下,一个国际图书馆小组开始探索如何让Fondo Cicognara的整个语料库在线免费提供,其成果便是Digital Cicognara Library。Digital Cicognara Library将所有缩微胶片数字化,并汇集了与《书目》中的标题相匹配的数字摹本(包括梵蒂冈图书馆所收藏的原始卷的黑白图像和来自合作伙伴图书馆的高分辨率的彩色图像),并由梵蒂冈图书馆在Digital Cicognara Library官网以开放方式提供,从而使Fondo Cicognara变得更容易访问。这一举措不仅拉近了用户与机构之间的距离,降低了获取资源的成本,更使原本无法利用的人群获得接触相关资源的机会。
该项目在建设过程中得到了梵蒂冈图书馆、弗里克艺术参考图书馆(Frick Art Reference Library)、盖蒂研究所(Getty Research Institute)、哈佛大学图书馆(Harvard University Library)、海德堡大学图书馆(Heidelberg University Library)、国家艺术画廊图书馆(National Gallery of Art Library)、普林斯顿大学图书馆(Princeton University Library)、罗马美国学院(American Academy in Rome)、哥伦比亚大学图书馆(Columbia University Library)、纽约大都会艺术博物馆(Metropolitan Museum of Art,New York)、伦敦国家美术馆(National Gallery,London)、伊利诺伊大学厄巴纳-香槟分校图书馆等机构的大力支持[10]。
2 Digital Cicognara Library的架构组成
Digital Cicognara Library的主体架构主要由三部分组成:资源提供层、用户服务层和技术支撑层(见图1)。三层有机地融合在一起,且各层次所囊括的组成元素在一定程度上同时承担了其他层级的任务。
图1 Digital Cicognara Library的运作架构
(1)资源提供层。该层任务是为Digital Cicognara Library项目提供必要的元数据和数据信息,是整个项目运作的重要基础。这一层主要包括:纪念基金会(Fondazione Memofonte)提供的Digital Cicognara Library中《书目》全文资源[11];国家艺术画廊图书馆提供并负责更新的缩微胶片和数字化缩微胶片的元数据信息;一系列贡献机构提供的与《书目》中标题相匹配的高分辨率数字彩色摹本和IIIF清单元数据;一部分研究者通过Getty研究门户(Getty Research Portal)做出的贡献。
(2)用户服务层。该层任务是基于Digital Cicognara Library项目内的资源提供层所提供的元数据和数据信息为研究人员提供各种所需功能,是整个项目对外的重要窗口。这一层主要包括:Digital Cicognara Library官方网站,提供目录、检索和浏览功能;Getty研究门户,提供检索、浏览功能;Digital Cicognara Library管理团队,提供远程支持服务。
(3)技术支撑层。该层任务是为Digital Cicognara Library项目的信息组织、信息检索等功能提供技术基础,是确保整个项目功能可靠性的骨架。这一层主要包括:IIIF,提供图片查看、修正、比较、注释、转录、协作等功能;Getty研究门户,提供了个人用户上传贡献的功能;各个贡献机构,承担本地资源存储和数据传输任务[10]。
3 Digital Cicognara Library与“徽州文书”主题项目的对比分析
相比于传统的数字化项目,Digital Cicognara Library项目毫无疑问是更卓越的。而面对国内同类型的数字人文项目,其是否仍存在明显优势?基于这一疑问,本文对Digital Cicognara Library项目和“徽州文书”主题项目从建设模式、资源利用、数据标准3个方面进行对比分析。在对比中,基于调查全面性和发表时间两个关键要素,“徽州文书”主题项目的相关状况将以韩宇等[12]的调查结果作为基准。
3.1 建设模式对比分析
(1)资金支持层面。在7个“徽州文书”主题项目中有5个项目的资金支持来源可查明。其中,《徽州文书书目数据库》是“十二五”国家重点图书出版规划项目的成果;《徽州善本家谱印刷数据数据库》是中国国家图书馆和法国远东学院的合作项目;《图录:清史图录(安徽)》是2005年国家清史纂修工程项目的成果;《徽州文书特色文献数据库》是安徽省教育厅人文社会科学基金项目“徽州文书整理及管理软件研究”的成果;《徽州文书数据库》是国家社会科学基金一般项目“徽州民间文书抢救性保护与数据库建设研究”和国家社会科学基金青年项目“徽州文书分类法与元数据标准设计研究——以中山大学图书馆藏徽州文书为例”的成果。
而Digital Cicognara Library项目资金的来源则较为多样化。其一方面依靠Kress基金会的赞助,另一方面依靠各机构本来正常运作计划中的馆藏建设与维护经费。其中梵蒂冈图书馆、弗里克艺术参考图书馆、盖蒂研究所、哈佛大学图书馆、海德堡大学图书馆、国家艺术画廊图书馆、普林斯顿大学图书馆自2015年以来还提供了必要的行政和项目管理援助[10]。相比之下,“徽州文书”主题项目所能获取的资金支持主要是来自各级社会科学相关科研项目,资金来源不够多样化,且项目一般需要在科研项目规定研究周期内完成。
(2)项目组织层面。由图1可知,Digital Cicognara Library项目的开发是由多个独立机构甚至是开源社区共同协作完成的,分别承担资源提供、用户服务、技术支撑中一项或多项任务。而在7个“徽州文书”主题项目中,跨机构合作的项目只有2个,机构内部跨单位合作的有1个,多数项目还是停留在内部挖掘、内部使用的阶段,其并无学术分享的意图,某种程度上造成学术信息的壁垒,也断绝了学术合作的可能性。
(3)项目可持续性层面。所有的“徽州文书”主题项目基本依靠主体机构完成工作,亦无开放众包建设的渠道。而在Digital Cicognara Library项目中,一部分研究者也可以通过Getty研究门户做出自己的贡献,有效地提升了项目的生命力。
3.2 资源利用对比分析
在资源利用上可通过用户可访问范围、可利用程度和可利用效度3个角度来综合分析。
(1)用户可访问范围。不同项目资源的用户可访问范围可以分为以下3个层次:局限在一个或数个机构内部,任何一个机构都只能在机构内使用本机构所有的资源;局限在一个或数个机构内部,任何一个拥有部分资源的机构都有权限使用所有资源;不局限在任何一个机构内部,任何人都可以进入拥有资源的机构使用该资源。Digital Cicognara Library项目所涉及的资源可以在其项目官网、Getty研究门户和梵蒂冈图书馆网站上免费使用,拥有部分资源且应用IIIF框架的贡献机构也提供本机构资源的公开使用。而“徽州文书”主题相关的7个项目中有2个对机构对外提供服务,只有1个项目提供开放服务,但需要用户进行注册。相比之下,Digital Cicognara Library项目的可利用范围(第三层次)远超“徽州文书”主题项目(大部分处于第一层次)。
(2)可利用程度。不同项目资源的可利用程度可分为以下3个层次:只能在拥有该资源的机构内部使用资源;可以借助替代性的载体(如缩微胶片)使用资源;借助网络,在资源拥有允许的权限下,不受其他任何限制地使用该资源。Digital Cicognara Library项目所涉及的资源既可以在所属机构使用,亦有缩微胶片出版物可以使用,也可以借助互联网使用公开资源。虽然“徽州文书”相关资源在前两个阶段同样达到了很高的水平,但是在远程使用上还远远不足。只有中国国家图书馆开展的《徽州善本家谱印刷数据数据库》项目与Digital Cicognara Library项目同处第三层次。
(3)可利用效度。在这一层面上,由于“徽州文书”相关主题项目大多数使用受限,本文只能选择可以公开使用的《徽州善本家谱印刷数据数据库》进行对比。
在Digital Cicognara Library项目中,Getty研究门户为Digital Cicognara Library中的藏品提供了强大的检索功能、丰富的信息展示功能和多样的阅览模式。其提供检索功能主要包括3个方面。①多维度的筛选功能:基于数字化藏品创建者和贡献者、藏品主题、藏品语种、藏品归属机构、归属虚拟合集和时间序列进行筛选。②高级搜索功能:基于数字化标题、创造者、日期、语言、主题、来源、关键词、标识符、出版者、藏品格式、藏品类型、藏品描述、藏品权限等信息进行搜索。③多种排序规则:基于检索词相关度、入藏时间、名称字顺、藏品创建时间等规则进行排序。其展示的信息包括9个部分:标题信息,给用户提供藏品的名称、作者、年代信息;操作信息,给用户提供收藏、分享、标记功能;使用数据信息,给用户展示该藏品的被浏览数和被收藏数;可获取资源,给用户提供不同格式载体的数据及元数据下载;资源来源信息,给用户展示该藏品的物理收藏机构和数字资源提供者;原始资源信息,给用户提供藏品的出版日期、主题、出版人、收集方、数字化赞助商、项目贡献者、语言等信息;原始资源补充说明,将藏品本身存在的特殊问题对用户进行说明;数字资源信息,给用户提供数字化资源的添加时间、作品关联等信息;评论与互动信息,向用户提供评论与交流的平台。其提供的阅览模式包括缩略模式、滚动模式、阅读模式、聆听模式(对图像中的文本进行朗读)、检索模式(可以对图像中的文本内容进行检索),还提供了图像缩放、图像移动、效果修正等功能。
而在《徽州善本家谱印刷数据数据库》中用户只能通过标题、撰修者、出版物、出版年来进行检索,功能较为单一。数据库页面亦只提供了标题信息、原始资源及补充说明信息,以及图像缩放、图像移动这两个基本功能,且不存在额外的阅览模式。这其中存在的差距,一方面受到两个项目建设模式差异的影响,另一方面还在于《徽州善本家谱印刷数据数据库》项目本身的设计对用户可利用效度设定的不足。
3.3 数据标准对比分析
在Digital Cicognara Library项目中,组织者要求贡献者使用MARC、MODS、Dublin Core(DC)、Getty CSV format作为元数据标准。Getty研究门户则推荐使用CDWA作为描述元数据结构标准;CCO作为数据内容标准;AAT、ULAN、TGN、CONA作为数据值标准;LIDO作为数据交换标准[13]。这些元数据标准应用广泛且同类标准之间的映射较为方便(如CDWA与DC)。这一特性有利于开展跨组织合作,并且各组织过往项目中的投入不会被浪费。
而在“徽州文书”相关主题项目中,黄山学院的张晓峰等[14]为徽州文书制定5类元数据项(共15个元素),包括标识项(参照DC)、内容可选项(参照DC)、外观可选项(参照CDWA)、文档结构项(无参照)、实例说明项(参照CDWA)。中山大学的王蕾等[15]为所藏契约文书制定了由必要项目和选择项目组成的共12个著录项目且并未说明参照体系。上海交通大学张洁等[16]为契约文书设计了3类(内容特征、物理特征、身份识别特征)元数据数据集,共18种元素,其中14种基于DC,其余4种为自行设定。由此可见,“徽州文书”相关主题项目的元数据方案大多基于CDWA和DC进行了改造,适应了本地资源类型的特点。但当研究人员想要综合利用来自多个数据来源的信息时就会在互操作性和资源关联等方面遇到困难[17]。
4 对国内机构开展数字人文项目的启示
4.1 构建科学合理的建设模式
科学合理的建设模式有助于建设高水平的数字人文项目。Digital Cicognara Library项目采取的建设模式在获取资金支持、项目组织和项目可持续性三方面体现了突出的优势,也给国内机构提供了参考。
在获取资金支持上,笔者认为国内机构既可以学习Digital Cicognara Library项目借助第三方资金与技术支持的做法(如北京大学建立“北京大学-字节跳动数字人文开放实验室”),也可以在保障开放项目基础功能的前提下,开展有限度的订阅服务,以获取项目可利用的资金与资源(如哈佛大学CBDB数据库开启商业开发和学术使用并行的运作模式)。
在项目组织上,Digital Cicognara Library项目通过联合复数机构分工合作的组织建设模式值得国内机构学习,且不同类型机构合作的可行性也在Digital Cicognara Library和“徽州文书”相关主题项目中得到了验证。通过联合复数机构分工合作,不仅有利于保障相关主题项目资源覆盖的全面性,而且有助于项目建设效率的提升。更进一步来看,若将资源来源限定在机构群体所在的省市辖区内部,中小型机构也完全可以如Digital Cicognara Library中的贡献机构一般基于统一的开放环境和建设标准分工协作,将特定主题项目实行拆解,从而独自开展一系列“小而美”的数字人文实践活动,大大降低了开展数字人文项目的技术与资源门槛。
在项目可持续性上,Getty研究门户的用户上传功能为保证Digital Cicognara Library项目的可持续性做出了卓有成效的贡献。在此基础上,国内数字人文项目还可以开发更多类型的众包渠道[18]以增强项目的可持续性。此外,在运作过程中,项目的管理者应当营造积极的众包氛围、建立有效的众包质量保障机制[19],并同时为贡献者提供有意义的实践过程,从而达到“双赢”。
4.2 推进数字人文项目的开放共享
Lindsay Thomas认为“数字人文就应该是开放的、社会性的和高质量的”[20]。对此,福岛幸宏等[21]指出开放的数字人文项目可以作为国家文化的一种展示,让不同民族、国家的人群感受本民族、本地区的文化。黄霄羽等[22]认为开放的数字人文项目能够帮助公众加深对国家历史的了解,增强公众的民族自豪感和自信心。笔者还认为,数字人文项目的开放能够对原始资源进行更好的保护:一方面,数字人文项目的开放减少了对原本特藏资源的使用,从而延长了其保存寿命[23];另一方面,数字人文项目的开放保障了特定资源在全球范围内的可用性。
但可惜的是,目前国内开展的很多数字人文项目还并无对外提供使用的窗口。优秀的文化资源如果不进行开放,那么其生命力就会逐渐消亡。如果在项目建设中规划了便于用户使用和分享的窗口,将有助于相关领域学者进一步解决新的研究问题,促进本领域跨学科的合作,帮助重要的历史资料通过新技术得到更广泛的访问,为相关领域提供了一个潜在的变革机会[24]。做好国内数字人文项目的开放化,注重数字人文资源的开放共享,为文化强国建设添砖加瓦是新时代图书馆学界和业界应尽的义务。
4.3 建立健全数字资源标准体系
在实践过程中,不同机构开展的数字人文项目不论是所涵盖的资源类型、所涉及的用户需求等都各有侧重。这往往导致在开发过程中,各项目所采取的数字资源标准千差万别,从而使得相关领域的研究人员难以对同一主题的资源开展的多项“各自为政”的数字人文项目进行联合利用[25],给研究人员深度利用和开法资源造成障碍。因此笔者认为,国内已经开展成熟数字人文项目的机构应当积极采用领域内成熟的开放标准,分享开放标准在中国落地实践的经验。且对于国内特有的主题资源,相关机构应建立合适的特藏标准与国际标准相接轨[26]。一方面有效地提升数字人文项目的推广力度,另一方面极大增强研究成果的影响力。而对于尚未开展或将要开展数字人文实践的机构来说,采取适当的标准体系,不仅可以借鉴其他机构在开发中的相关经验,而且有利于团结多个机构进行分工合作。