数字人文赋能档案资源体系建设:机制与路径*
2022-01-19加小双姚静
加小双 姚静
(1.中国人民大学信息资源管理学院 北京 100872;2.中国人民大学数字人文研究中心 北京 100872;3.人文北京(奥运)研究基地 北京 100872)
1 引言
数字人文是数字技术与人文学科交流碰撞而成的新兴领域,是一种全球性的、超越历史并跨越媒介的创建知识及意义的路径,现已渗透到许多学科并对其产生重大影响。对于档案领域而言,数字人文的理念、方法、技术和工具丰富了档案研究的议题,创新了档案工作的思维方式[1]。其中,如何运用数字人文的理论和方法建设档案资源体系也成为档案领域理论研究的关注热点和实践领域的探索焦点。目前来看,既有研究主要集中在三个层面:宏观层面,数字人文与档案学和档案工作的交互影响研究。如,牛力探讨了数字人文视角下档案研究的路径与方法[1];李子林分析了档案在数字人文研究中的特殊性、项目识别及应用[2]。中观层面,数字人文背景下的档案资源开发与整合研究。如,张卫东[3]、霍艳芳[4]郑勇[5]、杨茜茜[6]等人对数字人文视域下的档案资源开发与整合的路径、问题与对策进行了不同程度的探索。微观层面,对档案领域数字人文项目的案例分析。如,纳维卡·波肯(Narvika Bovcon)剖析了文学史数据库可视化和新媒体艺术展览的案例[7];尼尔斯·布鲁格尔(Niels Brügger)基于对整个丹麦网域的案例研究[8],探讨了数字人文背景下的网络存档问题。综上可知,虽然已有部分研究涉及数字人文视域下的档案资源体系建设研究,但它们主要侧重于技术和方法分析,缺少对内在机制的探究,且主要集中在理论分析层面,缺少对应用实践的关注。本文以“数字人文如何赋能档案资源体系建设”为研究问题,结合网络调查法和内容分析法,在对国内外档案领域数字人文项目进行广泛调查的基础上,选取13个典型项目进行时间、空间、信息等维度的编码分析,基于编码分析结果,探究数字人文赋能档案资源体系建设的作用机制和发展路径,以期正确理解与精准把握数字人文对档案工作产生的深刻变革。
2 研究设计与过程
首先,项目调查与选择。本文聚焦于档案领域的数字人文项目对于档案资源体系建设的作用力问题研究,考虑到数字人文项目的建设主体在很大程度上反映和影响着数字人文项目的学科性质和领域归属,故本研究在开展广泛的网络调查时,先将数字人文项目的检索和筛选条件精确为以档案机构为主要开展者(主体要素),再进一步判断其内容是否涉及档案领域的专业议题(客体要素)。循此步骤,在广泛调查的基础上筛选出“高迁古村数字记忆”等13个符合条件的代表性项目作为分析对象。在分析案例的信度和效度检验上,本研究主要通过媒体报道、项目网站访问(项目功能体验)、项目自我陈述等多种数据来源,对各种数据进行交叉印证,同时,在数据获取和分析的时候注意数据之间的逻辑关系以形成逻辑链。
其次,模型提出与构建。根据档案资源自身的发展规律以及信息特征,提出基于时间、空间和信息维度的三维分析模型(详见图1)。其中,时间指向纵轴,意指档案资源在时间维度上的建设,反映档案资源的历史性特征;空间指向横轴,意指档案资源在空间维度上的建设,反映档案资源的多样性特征;信息指向竖轴,意指档案资源在信息维度上的建设,反映档案资源体系建设的颗粒度特征。本文将通过该模型对档案领域数字人文项目中的档案资源建设内容和方式进行描述,进而描述数字人文对档案资源体系的赋能机制。
再次,项目编码与分析。在对13个档案领域的数字人文项目开展网络调查的基础上,采集和整理描述信息,并根据该三维分析模型进行内容编码(详见表1),进而对该项目中的档案资源在时间维度的历史性、空间维度的多样性、信息维度的颗粒度进行描述分析。
最后,结果归纳与总结。基于13个项目所涉及的档案资源在时间、空间、信息3个维度上的特征分析及其结果形式,在各维度下归纳不同数字人文项目之间的共性特征,进而推演出当前数字人文对于档案资源体系建设产生的规律性影响,明晰数字人文赋能档案资源体系建设的作用机制。
3 研究结论与分析
3.1 解读赋能作用机制
数字人文赋能档案资源体系建设的作用机制体现为:在纵向的时间维度,赋能历史档案资源的数字化建设;在横向的空间维度,赋能档案资源的多样性专题建设;在竖向的信息维度,赋能档案资源的数据化建设。
3.1.1 时间维度:赋能历史档案资源的数字化建设
在纵向的时间维度,档案领域的数字人文项目共性体现对历史档案资源的偏爱,将历史档案资源作为重要素材进行建设,通过数字化加工和处理使多项尘封已久的历史档案资源再现于世和实现多维开发。从13个项目的调研情况来看,其所涉及的档案资源时间跨度从9世纪直到21世纪,时间跨度在500年以内的有10个,500-1000年的有2个,1000年以上的有1个,最早可以追溯到唐代光化年间(898年左右)和欧洲的中世纪时期,最近的主题事件发生在2013年。除去本身就是原生数字档案的情况之外,有7个项目都将纸质档案、实物档案等模拟态的历史档案资源进行数字化处理,避免其因为年久老化、利用不便等原因导致历史价值无法得到有效发挥。例如,“威尼斯时光机”项目将威尼斯国家档案馆现存的书籍、私人手稿、卷轴、城区规划图、地籍册等不耐保存的脆弱纸质档案进行数字化,通过扫描将其变为可长期储存易随时读取的图像信息;Willa Cather档案馆自1997年以来,已经陆续将数十万字书籍、信件、演讲稿等历史档案资源进行数字扫描、数字转录和拷贝,从而使威拉·凯瑟(Willa Cather)过去的文学成就得以再度被后世利用;“普林斯顿韵律档案馆”项目对1570-1923年间出版的数千本英语书籍(包括字典、语言学集合、文学集合、音乐集合、原始参考书目、独特排版作品集、单词列表等)全部进行了数字化扫描,建设成为可供全文搜索的数据库;Rosetti档案馆运用数字人文方法修复和再现了Dante Gabriel Rossetti作品中的高质量数字图像,涉及其所有手稿、校样和原始版本,以及各种绘画、设计、摄影和工艺作品。可见,由于数字人文本质是一种数字文化,对于信息资源的数字化和数据化有着天生的高度需求,加之本身蕴含的丰富技术体系,为历史档案资源开发带来了新的理念和更加多样化的技术手段,极大赋能并加速了历史性档案资源的数字化建设,不仅将静态甚至已逝去的历史档案资源跨时空、跨地域地重新展示在世人面前,还将近乎丢失或废弃的历史档案藏品进行了“活化”处理,实现了数字化保护。同时,它还特别强调历史档案资源的内容描述,在维护档案来源联系的前提下将档案内容进一步转化为可分析、可计算的文本,通过更加细颗粒度的数据化建设搭建不同类型数据之间的空间联系,创新了历史档案资源的保护方式和开发模式。
3.1.2 空间维度:赋能档案资源的专题化建设
在横向的空间维度,数字人文因其关注领域和辐射主题内容的广泛性,拓展了档案资源的组织整理方式,为更广泛的档案资源内容建设与各种专题档案建设提供了可能。从13个项目的编码情况来看,采用数字人文方法和技术构建而成的档案资源体系具有丰富多样的主题内容,包括但不限于文化遗产、城市记忆、历史名人、弱势群体、专业知识、重大活动和突发事件等。例如,Willa Cather档案馆和Walt Whitman档案馆关注名人档案资源的开发和利用,前者向公众提供Willa Cather的书籍数字转录,包括她在1912年前的所有短篇小说、采访、演讲、公开信件、照片和传记等;后者则致力于为美国最有影响力的诗人、全球知名作家Walt Whitman建立档案资源集合。此外,“我们的马拉松:波士顿爆炸数字档案馆”则是针对2013年4月15日美国波士顿马拉松爆炸事件建立的数字人文项目,记录和重现了对犯罪嫌疑人搜索、捕获和审判,以及该市愈合的全过程[9]。可见,数字人文是以人文问题作为立身之本,其对人文领域内多元问题的关照映射着其对多样档案资源的诉求,这种多样化诉求要求其围绕特定的问题或专题对档案资源展开纵向的深度数据处理,推动丰富多彩的专题档案资源库建设,进而促使档案资源体系覆盖面更广泛、内容更丰富、主题更多样。当然,需要说明的是,这种以专题为导向的档案资源库建设往往采用的是“大档案观”,即在立足档案工作原则核心价值的基础上,寻求与其他非档案材料的有机融合,档案资源的范畴也被随之扩展到诸如图书、图片、3D模型、口述史等非档案材料。
3.1.3 信息维度:赋能档案资源数据化建设
在竖向的信息维度,数字人文强调数据叙事,它将知识生产的逻辑从文本层面转移到数据库、代码和底层计算的层面进行,这为传统的档案资源体系建设带来了新要求,即要求更加细粒度的档案资源处理,将档案原有承载的各种类型的文字、图片、声音等转化为更细颗粒度的0和1二进制代码,这是一种深层数据组织结构的直观呈现,能为档案资源实现数据叙事上的知识生产和媒介重构上的可视化呈现创造条件。档案资源的数据化处理在档案领域的数字人文项目中应用得最为普遍,这种深层次的数据叙事直接表现为数据库的设计与建设,调研的13个项目中有12个项目都开展了数据化工作以及相应的数据库建设。例如,“奴隶制文化遗产”项目在数字化的基础上,将单独的数据表集成于自行开发的数据工具MDSlavery.exe中,依次进行数据聚合、数据清理、数据存储等工作;Walt Whitman档案馆则在HTML网站原型的基础上开展更为复杂和要求更高的工作,对整个档案馆藏的文本内容进行XML编码,以结构化数据的形式向档案馆添加新内容;Rossetti档案馆对Dante Gabriel Rossetti的所有数字化档案资源都进行了编码,用于结构化搜索和分析。在档案资源充分数据化的基础上,档案数据有了更丰富的叙事和呈现可能。具体来说,在数据叙事层次,数字人文项目推动实现档案资源的数据化、语义化和知识化。一方面,语义化以语义网技术为基础,在资源中建立HTML、XML等形式的针对性语义标签以反映特定资源的语义特征,将信息内容转化成计算机可识别的形式,实现计算机对特定资源特征与内容的理解和掌控[10]。需要说明的是,语义网并不是网页之间的简单链接,这也使进行了语义化处理的项目与“记忆天津”“上海记忆”等通过网页跳转实现简单关联的项目存在本质区别。例如,“高迁古村数字记忆”项目就实现了面向内容的语义组织,开发出古村落实体库、本体网络;另一方面,知识化是以实现知识积累、共享和创新为目的,在信息化的基础上运用知识技术工具,实现知识获取、知识组织、知识转化、知识创新和知识服务的螺旋循环过程[11]。例如,“18世纪诗歌档案馆”项目以Gale’s 18th Century Collections Online(ECCO)创建的数字文本为基础,使用牛津文本档案馆(OTA)提供的TEI/XML P5版本文本作为起点创建数字代理,并运用语义分析工具进行语义分析和知识建模[12]。在媒介重构层次,数字人文项目推动实现档案资源的可视化呈现。媒介重构是对底层数据的重新组织与加工,实现知识形态从传统媒介向新媒介的跃迁,进而提高其可读性和更易传播性,实现知识体系和文化记忆的重构。
调研的13个项目多采用数据可视化技术,以底层的数据逻辑结构为基础实现档案资源新的媒介重构,实现更加多维复杂的可视化呈现。例如,威尼斯时光机项目基于威尼斯国家档案馆保存的历史资料所形成的信息网络,运用3D建模、AR/VR技术等模拟出城市建筑群落在一千年间的不同形态,实现了历史建筑可视化与历史社会网络关系可视化;“高迁古村数字记忆”项目开发古村落实体库、本体网络和可视化应用,采用响应级部署,支持移动端浏览;“奴隶制文化遗产”项目使用可视化工具进行分析,能够快速检索数据并提取关联关系,Tableau的自动分析统计功能可以将分析结果以各类图表的可视化形式呈现[13]。
3.2 探求未来发展路径
3.2.1 借助数字人文方法,做好存量开发利用
从纵向的时间维度来看,档案资源体系建设离不开历史档案资源作为基础支撑,需要借助数字人文的技术方法做好存量开发利用,在充分尊重档案历史主义逻辑价值的基础上充分发挥档案的现实价值。
一方面,运用数字人文创新思路,优化历史档案资源开发逻辑。历史档案资源是数字人文基础设施的重要组成部分[14],馆藏量上的累积已经不足以保证人类文化遗产的延续。对此,档案数字人文项目应当强调历史档案资源的“活化”,在维持档案来源联系和尊重其历史逻辑的前提下,将档案内容进一步转化为可分析、可计算的文本,在档案数据化的框架中建立起大量的应用场景。也即是说,可以借助数字人文方法,创新历史档案资源的开发利用方式以及保护方式,在尊重历史主义原则的基础上实现主题资源的逻辑主义开发[15]。“我们的马拉松:波士顿爆炸数字档案馆”项目以2013年4月15日发生在美国波士顿马拉松活动现场的爆炸案为主题线索,广泛收集与该事件有关的图片、视频、故事和社交媒体素材,按照爆炸案发生的时间顺序和逻辑思路,从多个视角整理和再现了爆炸案发生的过程,涉及波士顿居民、城市游客和波士顿“侨民”的体验感受,对犯罪嫌疑人的抓捕、捕获和审判,以及波士顿这座城市的愈合过程。这也启示档案机构可以基于丰富海量的历史档案资源,通过元数据著录、标注和关联,以及日历、地理位置、记录关系等插件的应用,在尊重历史主义的基础上实现历史档案资源的逻辑主义开发。
另一方面,运用数字人文新兴技术,提高历史档案资源开发质量。在调研的13个项目中,大多数项目采用的数字人文技术集中在数字化和数据化方面,如OCR文字识别、数据清洗和数据标注、XML编码和HTML网站建设等,缺乏在数字态和数据态历史档案资源基础上的进一步加工处理。对此,建议档案机构秉持包容开放、勇于创新的态度,结合历史档案资源的具体特色,在数据分析和呈现层次上有选择性地运用最能体现自身优势和亮点的数字人文新兴技术。例如,借助GIS方法实现历史档案资源的多源数据整合、空间分析、可视化展示;运用历史流和空间流展示技术,使用户在享受现代环境的同时,又能够穿梭到远古记忆中感受古老文化[16];运用自动分类、深度学习、超级计算,以及图像、音频、视频识别和分析等机器学习技术,实现研究问题的发现、内容比较和主体协作功能。
3.2.2 挖掘人文研究需求,开展专题档案建设
从横向的空间维度来看,档案资源体系建设需要挖掘人文研究需求,以专题形式整合与重构档案资源。专题档案是“以一定的重大事件为专题,围绕该事件的相关档案,收集加工形成的档案集合体”[17],相较于尊重来源联系的全宗整理,专题档案建设更加强调事由联系,即事件主题的同一性,例如“我们的马拉松:波士顿爆炸数字档案馆”即为典型的专题档案。
一方面,专题档案建设主题应兼顾宏观与微观。档案作为在社会活动中直接形成的产物,具有与生俱来的社会性特征,加之从英雄史观到群众史观的档案工作史观变迁[18],今后的档案数字人文项目不应仅关注国家和政府层面的宏大叙事,还应当从小处着手、深耕细作,兼顾社会和百姓层面的微观叙事。具体而言,档案领域的数字人文项目可以借鉴“威尼斯时光机”项目的做法,重建成千上万普通人的生活,通过全面、完整、丰富的历史叙事,使档案资源中的真实社交网络变得活灵活现[19]。
另一方面,专题档案建设顺应时代热点,贴合社会发展和人文研究需求。传统的专题档案通常建立在已有馆藏基础上,建设目标侧重于档案馆内部资源的整理挖掘与输出。然而,数字人文作为连接数字技术与人文研究的工具与桥梁,能够并且应当赋予专题档案建设以人文色彩和时代特征,让档案机构发挥主观能动性、结合社会发展和人文研究需求建设专题档案。例如,2019年暴发并持续至今的新冠肺炎疫情,在带给人类重大创伤的同时,也提醒档案机构有必要建立突发社会公共安全事件专题档案,以辅助应对和预防各类突发社会公共安全事件;再如,我国近年来载人航天技术迅猛发展,“载人航天工程档案”项目建设也具有重要意义[20]。
3.2.3 发挥数据赋能优势,实现档案数字叙事
从竖向的信息维度来看,数字人文项目功能和效用的最大化需要充分发挥数据优势,实现数据叙事上的知识生产和媒介重构上的可视化,这需要档案领域从以下三个层面努力:
其一,加快数字人文项目数据化进程。数据级是面向数字人文的档案资源整合的基础层级[21]。我国档案领域的数字人文项目多以专题网站和专题数据库的方式呈现,其本质仍然停留于档案数字化阶段,主要目的在于将传统的人文学者从低效率劳动的故纸堆中解放出来,无法发挥数字技术统计和分析海量数据的优势,尚未进入数据化阶段[22]。对此,档案领域的数字人文项目需要在数字态档案的基础上,通过文本编码、语义描述、本体建模、数据库建设、数据库设计、多媒体搜索、数据管护等数据管理技术[23],将档案数字资源从文件级转变为数据级,将信息单元转变为知识节点,将档案库变成信息语料库。
其二,以档案数字叙事为基础推动档案资源的语义化和知识化。档案数字人文项目的最主要目的不在于档案数据的保存,而是实现档案数字资源的最大化利用,故档案机构应当关注档案数字资源内部各个要素的自我呈现与相互关联,在档案数字叙事的基础上实现面向数字人文的档案知识发现和知识服务。一方面,在数据态档案的基础上抽取实例及其语义关系,并借助本体模型对其进行规范组织,实现“静态关联”,建成档案知识图谱和知识问答系统等[24]。另一方面,针对某一人文研究问题求解的需要,进行知识片集合的逻辑推理和复杂问题求解,面向知识服务提供有针对性、高质量的知识[25]。
其三,以媒介重构为基础提高档案资源的可视化水平。从调研情况来看,档案领域的数字人文项目虽然有触及可视化技术,但还停留于网页动画设计、档案资源的简单关系呈现等方面,未能完全发挥档案资源具备的丰富价值。对此,档案机构可以考虑将VR全息投影技术、GIS地理信息系统技术、三维建模技术等引入档案数字人文项目的建设之中。例如,以VR全息投影等数据可视化与情景仿真技术为依托,以图谱叙事(Graphical Storytelling)结合视觉叙事(Visual Storytelling)为基础,形成多维度、沉浸式的档案数据故事环境[26];运用历史地理信息系统(HGIS)对档案资源进行空间分析、地图制作,生成具有生命力的文化产品。
4 结语
本文从纵向的时间维度、横向的空间维度、竖向的信息维度提出档案资源的三维分析模型,基于对国内外档案领域13个代表性数字人文项目的编码和分析,倒推分析数字人文对于档案资源体系建设的赋能机制,并提出了针对性的发展路径建议。当然,需要说明的是,虽然本研究在项目调查时已经尽可能的穷尽,但是限于检索能力以及信息的可获得性,仍然会有相当一部分档案数字人文项目没有纳入到分析框架中。但是本文作者相信,所选定的13个项目依然具有较为普遍的代表性,能够有效支撑本研究相关的分析与结论。总的来看,数字人文带来了档案资源体系建设内容和方式的深刻变革,这对于档案领域而言,充满着机遇,也充满着挑战。面对档案资源体系建设的基础性任务,传统的原则可能会被突破,这需要我们建立关于档案想象、质量精确的新概念和新模型,同时也需要不断进行批判性反思,才能在守正的基础上推动创新。