论档案学理论对数字管护研究的支柱性贡献
2023-06-06龙家庆
摘要:数字管护关注资源维护和价值增值,离不开档案知识及其工作流程的支撑,是具有全生命周期特征的保管策略。为厘清数字管护与档案工作的关联,论文从知识结构、教育交融、实践协同三个维度予以论证,发现档案管理和数字管护理论根植同源。在辨析数字管护学术史和核心内涵的基础上,以来源原则、文件生命周期、档案鉴定理论为例,探究三大基础理论在数字管护研究中的具体应用,进而论证档案学理论对数字管护研究的支柱性贡献。
关键词:数字管护 档案学理论 档案价值 数字管护 生命周期
Abstract: Digital curation focuses on resource maintenance and value appreciation, which is insepa? rable from the support of archival knowledge and workflow, and its a custody strategy with the charac? teristics of full life cycle. In order to clarify the rela? tionship between digital curation and archival work, the article demonstrates from three dimensions of knowledge structure, educational integration, and practical collaboration, then finds that archival man? agement and digital curation theories are rooted in the same source.On the basis of distinguishing and analyzing the academic history and core connotation of digital curation,taking the Principle of Provenance, Theory of RecordsLife Cycle, and Theory of Archi? val Appraisal as examples, this paper analyzes the specific application of the three basic theories in digi? tal curation research, and then demonstrates the pil? lar contribution of archival theory to digital curation.
Keywords: Digital curation; Theory of archival sci? ence; Archival value; Life cycle of digital curation
数据作为新型生产要素,对传统生产方式变革具有重大影响。[1]在全球数字转型和e-Science运动推动下,数据密集型科学成为科学研究第四范式,它依赖于从归档数据中发现知识。关注数字资源维护和价值增值的数字管护(Digital Curation)孕育而生。相较于数字保存,它侧重特定知识和制度背景下的数据共享、访问和重用。美国数据管理学者海多恩(Heidorn)提出:“数字管护更像是一个菜园,而不是一个时间胶囊或埃及坟墓:因为数据必须得到培育,而不是在未来被埋葬。”[2]具有全生命周期特征的数字管护,也在不断汲取其他学科知识。档案馆作为数字管护场所之一,电子文件和數字档案是其核心管护对象,许多档案管理原则被运用到数字管护流程之中。面对档案保管对象变迁和存储技术迭代升级,数字管护正从理论建构和实践场景中弥合与档案领域的协同鸿沟,但档案理论应用还有待探索。不过,数字管护学者吉利安·沃利斯(Jillian Wallis)提出要善于借鉴档案学基础理论,将档案实践推向工作上游,增加数据真实性和可靠性。[3]这为数字管护的来源、背景和结构提供了理论基础。基于此,本文在辨析数字管护概念后,试从档案学三大基础理论角度探析其对数字管护研究的支柱性贡献。
一、数字管护及其研究进展
数字管护是国际数字资源长期保存领域的通用术语,它伴随着数字保存和数字存档的演进。其学术史可追溯至本世纪初电子科学数据的兴起。[4]
(一)数字管护的概念演进
数字保存联盟(DPC)与英国国家空间中心(BNSC)于2001年联合举办的“数字管护:数字档案馆、图书馆与电子科学”(Digital Curation: Digital Archives, Librar? ies, and e-Science)国际会议上,首次围绕数字管护开展学术辩论。早在研讨会前,时任研究理事会总干事的约翰·泰勒(John Taylor)就在拟议的电子科学信息基础设施中指出,在获取和管理大量有价值的原始数据时需采取管护行为。这为术语提出奠定了话语背景的支持。[5]其次,按照词源语法考察,它兼具名词和动词之义。常用于数字资源收集、长期保存、策展利用等活动中,不仅囊括文化遗产资源的收藏过程,还应用于社交媒体交互,如编译数字地图、网络链接和媒体文件。再次,审视法律术语规范,“管护”最早于1966年写入美国《国家历史保护法》中,在36CFR第79节中表述为“联邦政府拥有和管理考古收藏品的管护过程”,继而从法理视角渗透至历史文化遗产和信息管理学科之中。作为一个通用概念,“Digital Curation”在国内翻译已有30余种。为此,王海宁等对此进行辨析,认为档案学区别于其他领域对数字管护研究在于侧重电子文件的鉴定、整理、标引和保存。[6]为避免概念模糊和研究对象的混淆,本文统一将“Digital Curation”译为“数字管护”,“Digital Archiving”译为“数字存档”,“Digital Preservation”译为“数字保存”。
(二)数字管护的内涵解读
数字管护的内涵解读,需要关注背后深刻的技术变革和管理挑战。以数字对象创建到重用的全流程视角出发,具体内涵包括:第一,数字管护关注资源维护和价值增值。在传统数字保存方法基础上,它尝试增强数字资产的完整性和未来用户的可重用性,从而增加馆藏资源的附加价值。[7]第二,数字管护可视为系统工程,具有全生命周期管理特征。数字管护涵盖数字资源创建、收集、鉴定、存储、利用和销毁等完整环节,体现在数字管护生命周期模型。[8]第三,数字管护依赖具体的数字实践环境。数字管护实施场景通常是档案馆、图书馆、数字存储库等保管场所,众多数字管护项目需依托DSpace、DataArchive、CONTENTdm、Omeka、Joomla等数字仓储为基础架构。[9]值得一提的是,档案工作者和档案学者在数字管护社群中占有一席之地。因为他们提出的来源原则、鉴定和挑选、真实性、元数据、风险管理和信任等档案原则(Ar? chival principle)在数字管护中发挥着关键作用。[10]其内涵演变必然伴随着数字存档和电子文件的发展,特别是档案保管思想演变和数据要素集成,正如钱毅[11]、肖秋会[12]、伊丽莎白[13]等基于文件档案保管体系构建、档案内容拓展、档案专业贡献等方面提出的真知灼见。
(三)国内外研究进展
本研究选取“Web of Science”“Emerald”“Pro? Quest”“Springlink”数据集为外文来源,采用逻辑检索式“SU=(‘archiv*OR‘recordOR‘repository)AND(‘digital curat*OR‘datacurat*OR‘electroniccu? rat*)”检索;在中国知网、万方、中国人民大学学位论文库中以“档案/文件”和“数字管护/数字监护/数字策展”进行组配检索。检索时间均截至2022年8月10日,共命中43篇有效文献,由此分析档案理论和方法对数字管护的影响。
经整理,研究聚焦于以下几个方面。一是数字管护框架与档案知识的关联研究。数字管护作为新兴数字环境中的跨学科问题,离不开档案工作场所和知识结构的支撑。美国阿琼·萨巴瓦尔(Arjun Sabharwal)曾提出数字管护理论框架[14],指出档案馆特藏是管护对象之一,档案馆也是产生数据知识的管护场所。二是数字管护学科与档案学教育的交叉研究。尽管对数字管护是否是一门学科仍有争议,但其作为学科发展方向的趋势不容小觑。毛天宇论证了档案学是数字管护研究的创始性学科[15],刘越男等立足科学数据和科研档案协同,倡导数字(据)管护方向人才培养[16]。iSchool联盟还将其列为数据学科方向之一,并配备课程委员会讨论专业发展。[17]三是数字管护实践与档案管理的融合研究。面对数字资源长期保存的风险挑战,双方选择融合和协同合作,并在可信数字仓储[18]、管护对象鉴定[19]、科技档案科普开发[20]、科研档案创新管理[21]等场景中有所拓展。
综上所述,数字管护离不开档案知识及其工作的支撑,两者也在相辅相成中走向融合,档案保存和数字管护理论根植同源。无论是数字管护政策标准和组织架构,还是管护平台维护和学术争鸣均有建树。自数字管护视野延伸至档案领域的20余年间,数字管护中心和实践项目也在如火如荼地建设。但档案学理论如何应用在数字管护中略显抽象,也尚未脱离传统数字保存框架,缺少具体理论剖析。下述章节是对三个具体理论的应用分析。
二、来源原则作为数字管护的指导根基
档案学对数字管护的首要贡献是来源原则的指导。来源原则为數字管护实践提供批判视角,它对档案文件的真实性和可靠性进行验证,还对出于史学研究目的的手稿收藏物进行背景和语境分析。[22]来源属性能为管护者提供证据,将档案置于历史、社会、文化、政治和组织环境中,能为数字管护对象的来源考据和背景关系带来参考。为此,里根·摩尔(Reagan Moore)指出,来源原则理论对管护者开展文件保存和维护管护环境是必要的。[23]以来源原则基本内容为思考逻辑,归纳出其对数字管护实践的理论支撑。
(一)尊重数字管护对象的来源(Provenance)
来源原则要求保持档案与形成者之间的来源联系,揭示出各类档案数据的内容、时间和形式联系,全面而深刻地反映形成者的活动原貌。里根教授进一步论证了来源对于维护数字管护对象(包括数字文件和永久档案)真实性和完整性的作用,并在数据密集型网络环境中心(DICE)应用该档案思想。[24]同时,“来源原则的重新发现”反映了数字技术发展和档案保管对象变迁,关注焦点不再局限于实体来源,更多地关注变化、更迭的动态职能和集合概念,如电子文件“元数据”从创建到利用的全程记录。这与数字管护进行全程数据记录的思想一脉相承。德国首个研究数据归档bwDataArchive项目在进行数字管护时,严格记录各部门和用户提供的来源信息,捕获数据移动和访问连接的节点信息,从而确保真实性和可靠性,其中身份校验功能即尊重来源的体现。[25]
(二)强调数字管护对象的全宗完整性(Integrity)
来源原则要求全宗是一个有机整体,整理档案必须维护全宗完整性。亚历克斯·普尔(Alex Poole)在回顾北美和英国地区档案领域开展数字管护实践时指出,要发挥档案机构在数字管护活动中的作用,需要应用来源原则和档案信任,其中全宗完整性是对来源原则具体内容的写照,以期实现档案概念在数据密集型环境中的应用。[26]同时,在数字管护实践中,要求收集、组织和保存大量数字化或原生数字化信息,确保同一来源数据不分散。而且实现增值的关键在于,以全宗整体完整性来确保管护对象成为数字资产。毛天宇以科研数据档案为例,对其全宗完整性进行论证,提出“相关联的科学数据应当有机地整合在一起,不相关的科学数据不能混杂”[27],这有助于为后续存取和再利用提供质量保障。
(三)关注数字管护对象的来源背景(Context)
来源背景即对档案上下文内容的考察,它是数字管护资源共享、开放获取和重用的关键。换句话说,在数字资源连同元数据被“封装打包”前,其潜在用户是被排除在外的,因为缺失相关描述信息会导致内容和创建环境相分离,降低日后用户对档案本身内容的理解和重用能力。此外,对数据管护资源的真实性验证还在于来源背景信息的一致性。特别是在数据密集型研究中,通过上下文内容比照,来解决数据文档稀疏或错误或不理解、传统工具不可用的难题,辨别伪造信息,鉴别真假档案。这与加拿大档案学者露西安娜·杜兰蒂(Luciana Duran? ti)等在西方“古文书学”(Diplomatics)的探索有异曲同工之处,他们均关注数字文件的可信任度,并认为文件档案工作者能胜任可信任的第三方角色。早在2010年,澳大利亚国家数据中心的安德鲁·威尔逊(Andrew Wil? son)就提出“档案学理论和方法在管护实践中运用越来越突出”[28],尤其是在文化记忆机构(档案馆、图书馆和博物馆等)的融合管护中必然要运用来源原则,来源背景的考察也不断涵养着数字管护理论。
三、文件生命周期理论为数字管护周期提供参考
数字管护中对“文件”的界定是广义的,泛指机构和组织开展活动中直接产生和使用的一切信息记录,涵盖各类数字资源。数字管护生命周期模型(见图1)在提出和修正期受到文件生命周期的影响。按照文件生命周期揭示各阶段价值形态、服务对象、管理形式的对应關系,总结其与数字管护生命周期的内在联系。
(一)文件生命周期揭示文件运动的内在联系,为数字管护全程管理提供整体性思维
以各类研究数据归档为焦点的数字管护实践,关注数据归档全流程和周期循环,被称为周期式数据培育。该数字管护生命周期模型由核心数据、全生命行为、连续行为和偶发行为等四个重要圈层组成,它反映着文件和数据的整体性运动规律。从内部圈层的核心数据出发,确认来自档案馆和图书馆的数字管护对象,包括各类数字化文件和原生数字文件构成的数据集(库);第二圈层则围绕全生命周期展开描述着录、内容再现、保存规划,同时纳入专业社群的观察和参与(强调档案工作者的归档责任);第三圈层是连续业务行为,包括“概念化(设计)—创建—保管—利用”等流程,这与电子文件生命周期的许多环节一致;第四圈层则是偶发补充行为,出于长期保存考虑而开展的重新鉴定、处置、迁移,这也是数字管护应用档案管理方法较多的地方。数字管护很好地融入文件生命周期理论,从数字对象创建前的设计准备,到运行阶段的数据收集、元数据捕获,再到移交档案部门永久保存或是销毁,均贯穿于数字管护的整体行为中。
(二)文件生命周期理论揭示文件运动的阶段变化,为数字管护的阶段式管理提供实践逻辑
这在模型的连续业务行为中表现突出,它由概念化(Conceptualize)、创建或接收(Create or Receive)、鉴定和挑选(Appraise & Select)、摄取(Ingest)、保存行为(Preservation Action)、存储(Store)、存取和再利用(Ac? cess、Use & Reuse)和转换(Transform)等8大业务环节构成。数字资源的功能效用和价值转换,同样对应着“现行期—半现行期—非现行期”阶段。其中,管护模型认为“摄取/移交”标志着数字资源从文件创建部门转移到了档案部门,通过签署《文件档案移交接收表》等协议来确认资源访问和利用权限,亦从法理上规范知识产权转让和隐私保护转移等。这是数字管护对象价值形态发生变化的关键节点。
(三)文件生命周期理论揭示文件运动过程的前后衔接和相互影响,为数字管护全程管理和前端控制提供依据
从文件到档案的管理是一个系统过程,需采取统一的程序和方法来实现全方位控制。一方面,为保障数字管护对象的高质量利用,数字管护实践首先进行“概念化”设计,包括电子文件系统或可信数字仓储的设计、开发和安装等。此阶段需将利益相关者需求考虑在内,如研究者的利用需求、档案工作者的管理需要、数字社群的互动需求。另一方面,注重数字管护周期基础上实现科学研究数据的全程管理和前端控制。亚历克斯建议,档案工作者应该更早地参与数字管护生命周期,因为在生命周期的每个阶段做出的决策的影响是不断累积的。[29]吉利安·沃利斯指出要将档案鉴定、管护、追踪来源等归档工作推动至文件生命周期的早期阶段,从而增加捕获可靠性、有效性和数据的可解释性。[30]由此可见,数字管护实践在借鉴文件生命周期步骤的同时,要将“人、技术、内容”全面嵌入管护之中,并将档案管理思想和方法推向业务工作流的上游。[31]
四、档案鉴定理论保障数字管护实践运作
档案鉴定是鉴别和判定档案的价值,对数字管护对象进行价值鉴定是关乎其能否转化为档案的关键。应用档案鉴定理论,有助于保障归档管护数据的真实性、完整性、机密性和安全性。
(一)档案鉴定思想对数字管护流程产生影响
档案鉴定思想是数字管护实践的“最外层(显性区域)”[32],关乎整个管护流程能否正常运转。按照匹兹堡学派对档案鉴定理论的阐释,鉴定环节能帮助档案工作者识别文件档案的证据和情报价值,这是数字管护者对馆藏资源价值的有效鉴别。而数字资源管护原本缺乏理论支撑,需要从档案学领域汲取养料,特别是对数字资源内在价值的识别。数字环境下具有内在价值的信息与特定物理载体之间是易分离性的,在复制和迁移过程中容易丢失关键信息;而档案鉴定会考虑旧文件结构,兼顾馆藏当前的业务、制度、法律、财政等状况,为数字管护者提供取证和溯源链条。数字管护生命周期的连续行为和偶发行为以“鉴定、再鉴定和销毁”为交汇点,直接验证鉴定工作对于数字管护的重要性。
(二)档案鉴定方法为数字管护提供直接方案
数字对象和各类数据库与日俱增,但并不是所有数据都需要保存和复用。从档案鉴定角度说,需要挑选具有完整内容、结构和背景的数据进行保存,对其数字身份和存储技术进行鉴定。数字管护实践中的鉴定操作通常采用档案鉴定的两种方法。一种是内容鉴定法,即对管护数据的集中度高低、记录内容独特性、涉及主题的保密性和时效性等进行判断,如欧洲文化遗产数字管护项目多采用内容鉴定。另一种是职能鉴定法,即根据组织的政治、经济、文化、社会、军事、市场等职能进行把握,如科研数据中心的数字管护项目多采用职能鉴定。需要说明的是,实际运行的数字管护项目更为复杂,不仅要根据“是否进馆/库”问题做出鉴定,还需要对机构内部的业务数据归档做出判定。
(三)档案鉴定效益为数字管护的成本计算提供参考
当前数字管护鉴定的核心在于对数据价值的有效判断,包括管护过程成本计算和数字资源利用效益。数字管护对数字对象鉴定和挑选时注重科学数据的价值,需要考虑数据对未来再利用的潜在价值。正如档案鉴定工作要求一样,必须从国家和社会整体利益出发,采用科学效益的观点指导鉴定业务。具有档案知识背景的数字管护人员,主要担任鉴定工作,他们对列入保存范围的数字资源进行经济效益和社会效益评估,判定何种数字对象进入后续环节、哪些对象会走向销毁处置。对具体的数字管护机构而言,它们首先关注数字资源对本机构的有用性,在协调利益相关者需求后,权衡内外部利益诉求,借助檔案鉴定效益分析来计算鉴定成本并划定保管期限表。
五、结语
数字管护逐渐融入科学共同体之中,有效维护着各类数据的可持续性。在数字管护框架中[33],档案是管护对象、档案馆是管护场所、档案知识是管护理论的重要来源,档案学理论及档案工作影响着数字管护实践效率和质量。其中,档案学理论为数字管护实践提供了理论基础和知识指导。除本文提到的三个理论贡献外,国外学者还提出文件连续体理论[34]、档案范式理论[35]对数字管护的作用,如提倡将档案学知识灌输到数字管护环境中,论证档案工作者要与数字资源创建者展开合作,以确保数据的可靠性和真实性,实现管护数据的再利用价值。
全球数字管护项目正在如火如荼地开展,档案机构是否参与不再是选择问题,如何实现档案资源增值才是重点,档案知识和档案工作嵌入数字管护存在诸多可能。譬如,2022年6月召开的第17届国际数字管护大会(IDCC22)以“可重用性(Reusability)”为议题,探讨数字资源归档后端的价值增值。当然,面对“数据狂热”“技术恐慌”的冲击,档案领域还需审时度势,清醒地识别档案工作融合的切入点。在保持档案专业独特性的同时,为整个数字管护实践提供专业支撑。
*本研究得到中国国家公派出国留学基金项目(基金文号:留金选〔2022〕87号)的资助。
注释及参考文献:
[1]习近平.不断做强做优做大我国数字经济[J].求是,2022(2):4-8.
[2]HEIDORN P B. The emerging role of libraries in data curation and e-science[J]. Journal of Library Adminis? tration, 2011,51(7-8):662-672.
[3] [30] [31]WALLIS J C, BORGMAN C L, MAY? ERNIK M S, et al. Moving archival practices upstream: An exploration of the life cycle of ecological sensing data in collaborative field research[J]. International Journal of Digi? tal Curation, 2008,3(1):114-126.
[4]BEAGRIE N. Digital curation for science, digital li? braries, and individuals[J]. International Journal of Digital Curation, 2006,1(1):3-16.
[5]TAYLORJ.TheUKE-ScienceProgramme[EB/OL].[2022-04-23]. http :// www. rcuk. ac. uk/cmsweb/down? loads/rcuk/research/esci/jtaylor.pdf.
[6]王海宁,丁家友,聂云霞.Digital/Data Curation的概念与翻译研究[J].图书馆杂志, 2018,37(1):8-18.
[7][13]YAKEL E. Digital curation[J]. OCLC Systems& Services: International Digital Library Perspectives, 2007,23(4):335–340.
[8]HIGGINS S.The DCC curation lifecycle model[J]. InternationalJournalofDigitalCuration, 2008,3(1):134-140.
[9] [14] [22] [32]SABHARWAL A.Digital curation in the digital humanities—Preserving and promoting archi? val and special collections[J].Waltham:Chandos Publishing, 2015:1-9,69-70.
[10][26][29] POOLE A H. How has your science data grown? Digital curation and the human factor: a critical lit? erature review[J]. Archival Science, 2015,15(2):101-139.
[11]錢毅.从保护到管护:对象变迁视角下的档案保管思想演变[J].档案学通讯, 2022(2):82-88.
[12]肖秋会,许晓彤,向京慧.数字转型视角下欧美档案与文件管理领域的研究主题演进:以《Archival Science》2001—2018年刊文为例[J].档案学研究, 2019(6):72-76.
[15][27]毛天宇.数字监护研究中档案学理论的应用及启示探析[J].档案学通讯,2016(1):34-38.
[16]刘越男,何思源.科学数据与科研档案的管理协同:调查与思考[J].图书情报工作, 2022,66(1):96-105.
[17]ORTIZ-REPISO J V, GREENBERG J, CAL? ZADA- PRADO F J. Dialoging about data with the iS? chools: exploring curricula trends[J]. Journal of Information science, 2017(3):1-19.
[18]SMITH M K, MOORE R. Digital archive poli? cies and trusted digital repositories[J]. International Journal of Digital Curation, 2007,2(1):92-101.
[19]NIU J.Appraisal and selection for digital curation[J]. International Journal of Digital Curation, 2014,9(2):65-82.
[20]龙家庆,邵亚伟.数字管护视角下科技档案科普化开发策略研究[J].档案管理,2023(1):38-41.
[21]李甜.数字管护(Digital Curation)视域下科研档案管理创新研究[J].档案学研究, 2021(3):113-120.
[23][24]Moore R.Towards a theory of digital preserva? tion[J].International Journal of Digital Curation, 2008,3(1): 63-75.
[25]BACH F, SCHEMBERA B, VAN WEZEL J. Design and Implementation of the first Generic Archive Storage Service for Research Data in Germany[J].Interna? tional Journal of Digital Curation, 2020,15(1):1-15.
[28]WILSON A. How much is enough: Metadata for preserving digital data[J]. Journal of Library Metadata, 2010, 10(2-3):205-217.
[33]萨巴瓦尔,龙家庆.数字人文与新兴数字管护框架:概念、内容与实践[J].数字人文研究,2022(2):57-69.
[34]CHOUDHURY S, HUANG C, PALMER C L. Updating the DCC Curation Lifecycle Model[J]. Interna? tional Journal of Digital Curation, 2020,15(1):1-12.
[35]GILLILAND A. Enduring Paradigm, New Oppor? tunities: The Value of the Archival Perspective in the Digi? tal Environment[R]. Washington, D.C: Council on Library and Information Resources, 2000:6-29.
作者单位:1.中国人民大学信息资源管理学院2.中国人民大学数字人文研究中心